Hívási szokások előrejelzése a mobil felhasználók körében
Folyamatosan keressük csapaton belül azokat a platformokat, ahol más adatelemzőkkel összefogva, vagy velük szemben mérhetjük meg analitikai kompetenciáinkat. Fontos ez nekünk, hiszen a napi rutin mellett, ezekben a versenyekből táplálkozunk, ezek mentén tudunk tovább és tovább fejlődni.
Az adatbányászati versenyek etalon platformja a Kaggle lett az elmúlt években, de számos egyéb kezdeményezést is ismerünk, amely hasonló célokat tűzött ki maga elé, mint a Kaggle. Ezek közül az egyik a CrowdAnalytix, amely a versenyzés mellett azt tűzte fel zászlajára, hogy publikus adatokból nyer ki üzletileg is hasznos információkat az adatelemző közösség segítségével, kimondottan crowdsourcing módon.

A versenyen mobil felhasználók adatait felhasználva kellett előrejelezni, hogy melyik felhasználó melyik mobilcellába fog a jövőben telefonálni. Csapatunk két tehetséges elemzője, Barta Gergő és Simon Gábor elhozta az 5. helyezést a versenyről.
Hányadik lettél a versenyen?
5
Hányan indultak a versenyen?
195 csapat nevezett, ebből 27 adott le végül megoldást. Ennek oka, hogy a versenyhez adott adatok elég speciálisak voltak, ami sokakat elrettentett a valós megoldástól.
Mi volt a probléma, amit meg kellett oldani?
Multiclass osztályozás felhasználásával jelezzük előre, hogy a felhasználó melyik mesterséges körzetbe telefonál a jövőben. Emellett legalább 10 darab, üzletileg is értelmezhető magyarázó változót kellett képezni, az eredetiek felhasználásával.
Miért döntöttél úgy, hogy nevezel?
Tetszett a feature engineering vonal, illetve hogy csak random forestet lehetett alkalmazni. Ez utóbbi megkötés leegyszerűsítette a modell finomhangolásának folyamatát.
Milyen adatelőkészítési műveleteket csináltál?
Adathibák javítása, hívásadatokból user-szintű változók képzése, folytonos változók binelése, ritka kategóriák összerántása.
Milyen modelleket használtál?
A verseny különlegessége, hogy csak a random forest modell használata volt engedélyezett. A weka-s implementációra épült a megoldásunk.
Mi volt a legérdekesebb/legfontosabb/legmeglepőbb felismerés az adatokban?
Relatíve kevés változó és azokhoz minimális szótár állt rendelkezésre, ezért főként csak a statisztikailag szignifikáns magyarázó változók transzformálásával tudtunk operálni.
Milyen eszközöket használtál?
Adatelőkészítésre python és pandas, modellezésre weka java környezetben.
Tanulságok a verseny kapcsán?
Ha az ember a verseny elején felkerül a dobogóra az jó motivációt jelent végig. Kell azonban taktika arra az esetre is, ha többiek a hajrában leszorítanak.