Adatbányászat a megújuló energetikában
Sokszor felmerül a kérdés, főleg az egyetemi hallgatóságban, hogy egy jó adatbányász mennyire rendelkezik az üzleti kontextustól független tudással, vagy a lényeg az adott felhasználási területre jellemző domainspecifikus tudásban rejlik.
Egy adatbányász általában erre azt a választ adja, hogy van a kompetenciáknak egy rétege (modellezési algoritmusok ismerete, visszamérési trükkök stb.), ami független a felhasználás területétől, de a végén mindig abban van, hogy az üzleti terület megértésével tudunk-e plusztudást adni a modelljeinknek.
A fenti gondolatmenetre egy jó példa az az adatbányászati verseny, amelyben szélerőművek teljesítményét kellett előrejelezni. A versenyen elért remek eredményről korábban már adtunk hírt, következzék most egy rövid szakmai összefoglaló.
Hányadik lettél a versenyen?
10. a leaderboardon, de mivel egy páran az előrébb végzettek közül csaltak, valamint nem prezentáltak a konferencián, így végső eredményben az én megoldásom lett a 3. legjobb.
Hányan indultak a versenyen?
104-en a világ minden tájáról.
Mi volt a probléma, amit meg kellett oldani?
Regressziós feladat volt, ami arra irányult, hogy prediktáljuk szél előrejelzési adatok alapján, mekkora teljesítményt fog leadni 7 szélfarm.
Miért döntöttél úgy, hogy nevezel?
Éppen Mazatlan-ban süttettem a hasamat Mexikóban, amikor a versenykiírás megjelent a Kaggle oldalán. Szinte azonnal beadtam egy baseline megoldást, amivel 1. helyre ugrottam rögtön. Utána sokáig vezettem a Leaderboardot és ez drive-olta az érdeklődést végig. Sajnos kicsit túl is tanultam emiatt. A téma amúgy kapcsolódik a PhD témámhoz is.
Milyen adatelőkészítési műveleteket csináltál?
Nem sokat. Az idősoros adatok fura formában voltak, azokat kellett értelmesen joinolni.
Milyen modelleket használtál?
Két lépcsős modellt használtam: lineáris regresszió és Gradient Boosting + bagging. Volt egy kis k-legközelebbi szomszéd is outlier keresésre, ami javított volna a modellen, de végül nem használtam.
Mi volt a legérdekesebb/legfontosabb/legmeglepőbb felismerés az adatokban?
A szélerőművek karakterisztikája elvben logisztikus jellegű, de a szélelőrejelzések sok zajt raktak az adatokra és sok outlier is volt, amit nagyon fontos lett volna kiszűrni. Rendkívül egyszerű lineáris modellekkel is lehet nagyon jó eredményt elérni, ha a változókat jól válogatja össze az ember.
Milyen eszközöket használtál?
Python és pandas, mint általában 🙂
Tanulságok a verseny kapcsán?
Outliereket ki kell jobban szűrni egy ilyen problémánál.