Adatbányászat a megújuló energetikában

Nagy-Rácz István

2014.02.08. • olvasási idő:

Sokszor felmerül a kérdés, főleg az egyetemi hallgatóságban, hogy egy jó adatbányász mennyire rendelkezik az üzleti kontextustól független tudással, vagy a lényeg az adott felhasználási területre jellemző domainspecifikus tudásban rejlik.

Egy adatbányász általában erre azt a választ adja, hogy van a kompetenciáknak egy rétege (modellezési algoritmusok ismerete, visszamérési trükkök stb.), ami független a felhasználás területétől, de a végén mindig abban van, hogy az üzleti terület megértésével tudunk-e plusztudást adni a modelljeinknek.

A fenti gondolatmenetre egy jó példa az az adatbányászati verseny, amelyben szélerőművek teljesítményét kellett előrejelezni. A versenyen elért remek eredményről korábban már adtunk hírt, következzék most egy rövid szakmai összefoglaló.

Hányadik lettél a versenyen?

10. a leaderboardon, de mivel egy páran az előrébb végzettek közül csaltak, valamint nem prezentáltak a konferencián, így végső eredményben az én megoldásom lett a 3. legjobb.

Hányan indultak a versenyen?

104-en a világ minden tájáról.

Mi volt a probléma, amit meg kellett oldani?

Regressziós feladat volt, ami arra irányult, hogy prediktáljuk szél előrejelzési adatok alapján, mekkora teljesítményt fog leadni 7 szélfarm.

Miért döntöttél úgy, hogy nevezel?

Éppen Mazatlan-ban süttettem a hasamat Mexikóban, amikor a versenykiírás megjelent a Kaggle oldalán. Szinte azonnal beadtam egy baseline megoldást, amivel 1. helyre ugrottam rögtön. Utána sokáig vezettem a Leaderboardot és ez drive-olta az érdeklődést végig. Sajnos kicsit túl is tanultam emiatt. A téma amúgy kapcsolódik a PhD témámhoz is.

Milyen adatelőkészítési műveleteket csináltál?

Nem sokat. Az idősoros adatok fura formában voltak, azokat kellett értelmesen joinolni.

Milyen modelleket használtál?

Két lépcsős modellt használtam: lineáris regresszió és Gradient Boosting + bagging. Volt egy kis k-legközelebbi szomszéd is outlier keresésre, ami javított volna a modellen, de végül nem használtam.

Mi volt a legérdekesebb/legfontosabb/legmeglepőbb felismerés az adatokban?

A szélerőművek karakterisztikája elvben logisztikus jellegű, de a szélelőrejelzések sok zajt raktak az adatokra és sok outlier is volt, amit nagyon fontos lett volna kiszűrni. Rendkívül egyszerű lineáris modellekkel is lehet nagyon jó eredményt elérni, ha a változókat jól válogatja össze az ember.

Milyen eszközöket használtál?

Python és pandas, mint általában 🙂

Tanulságok a verseny kapcsán?

Outliereket ki kell jobban szűrni egy ilyen problémánál.