Hívási szokások előrejelzése a mobil felhasználók körében - Dmlab

Hívási szokások előrejelzése a mobil felhasználók körében

Nagy-Rácz István

2014.02.12. • olvasási idő:

Folyamatosan keressük csapaton belül azokat a platformokat, ahol más adatelemzőkkel összefogva, vagy velük szemben mérhetjük meg analitikai kompetenciáinkat. Fontos ez nekünk, hiszen a napi rutin mellett, ezekben a versenyekből táplálkozunk, ezek mentén tudunk tovább és tovább fejlődni.

Az adatbányászati versenyek etalon platformja a Kaggle lett az elmúlt években, de számos egyéb kezdeményezést is ismerünk, amely hasonló célokat tűzött ki maga elé, mint a Kaggle. Ezek közül az egyik a CrowdAnalytix, amely a versenyzés mellett azt tűzte fel zászlajára, hogy publikus adatokból nyer ki üzletileg is hasznos információkat az adatelemző közösség segítségével, kimondottan crowdsourcing módon.

Az alábbiakban egy olyan versenyeredményünkről számolunk be, amelyek ezen a platformon lettek kiírva.

A versenyen mobil felhasználók adatait felhasználva kellett előrejelezni, hogy melyik felhasználó melyik mobilcellába fog a jövőben telefonálni. Csapatunk két tehetséges elemzője, Barta Gergő és Simon Gábor elhozta az 5. helyezést a versenyről.

Hányadik lettél a versenyen?

5

Hányan indultak a versenyen?

195 csapat nevezett, ebből 27 adott le végül megoldást. Ennek oka, hogy a versenyhez adott adatok elég speciálisak voltak, ami sokakat elrettentett a valós megoldástól.

Mi volt a probléma, amit meg kellett oldani?

Multiclass osztályozás felhasználásával jelezzük előre, hogy a felhasználó melyik mesterséges körzetbe telefonál a jövőben. Emellett legalább 10 darab, üzletileg is értelmezhető magyarázó változót kellett képezni, az eredetiek felhasználásával.

Miért döntöttél úgy, hogy nevezel?

Tetszett a feature engineering vonal, illetve hogy csak random forestet lehetett alkalmazni. Ez utóbbi megkötés leegyszerűsítette a modell finomhangolásának folyamatát.

Milyen adatelőkészítési műveleteket csináltál?

Adathibák javítása, hívásadatokból user-szintű változók képzése, folytonos változók binelése, ritka kategóriák összerántása.

Milyen modelleket használtál?

A verseny különlegessége, hogy csak a random forest modell használata volt engedélyezett. A weka-s implementációra épült a megoldásunk.

Mi volt a legérdekesebb/legfontosabb/legmeglepőbb felismerés az adatokban?

Relatíve kevés változó és azokhoz minimális szótár állt rendelkezésre, ezért főként csak a statisztikailag szignifikáns magyarázó változók transzformálásával tudtunk operálni.

Milyen eszközöket használtál?

Adatelőkészítésre python és pandas, modellezésre weka java környezetben.

Tanulságok a verseny kapcsán?

Ha az ember a verseny elején felkerül a dobogóra az jó motivációt jelent végig. Kell azonban taktika arra az esetre is, ha többiek a hajrában leszorítanak.