Adatbányászat, mint sport | Dmlab

Adatbányászat, mint sport

Gáspár Csaba

2011.11.06. • olvasási idő:

Sokat törtem korábban a fejem azon, hogy milyen üzleti modell alakulhat ki az adatbányászati versenyek körül, tavaly még előadást is tartottam az IQSymposiumon az ide vágó gondolataimról. Az első jelei már akkor láthatóak voltak annak, hogy ebben a világban komoly üzleti lehetőség van, de talán ezt akkor még csak kevesen vették komolyan.

Már akkor lehetett látni, hogy a www.kaggle.com weboldal ebben az újonnan alakuló üzleti környezetben központi szerepet fog játszani. Ez az oldal egyszerű lehetőséget adott arra, hogy versenyeket írjanak ki cégek néhány ezer dolláros díjakért, és megfelelő felületet adott a csapatok kezeléséhez, az eredmények nyomkövetéséhez és publikálásához. Ha megnézi valaki a weboldalt, láthatja, hogy mi is írtunk ki már rajta versenyt: az Adatbányászati technológiákkal foglalkozó választható tárgyunk házifeladatai hagyományosan egy-egy hallgatói versenyként szoktak megvalósulni, idén a Kaggle adja hozzá a keretet.

Honnan jönnek a versenyzők - Magyarország a sok angliai adatbányász versenyző miatt nem látható (Forrás: Kaggle.com)

Örültem annak, hogy valaki platformot ad alánk, de én sem gondoltam bele igazán, hogy milyen értékes adatok gyűlnek össze magánál a versenyt lebonyolító oldalnál. Ezért is döbbentett meg elsőre, mikor a Kaggle csütörtöki közleményében azt olvastam, hogy 11 millió dolláros kockázati tőke befektetést kaptak. Miért adna bárki is 11 millió dollárt egy oldalnak, aki versenyeket szervez? A válasz abban az általam zseniálisnak tartott üzleti modellben van, aminek körvonalait a bejelentés kommentárjából lehet megsejteni. A modell lényege, hogy a jövőben kétfajta versenyt kívánnak szervezni:

  1. Nyilvános verseny – A hagyományosnak mondható versenyeket továbbra is folytatják. Ekkor a feladatot meghirdető cég néhány száz vagy ezer dollárt ajánl fel a verseny legjobbjainak, amit a legjobb megoldásokat készítők kapnak meg. Ekkor az adathalmaz nyilvánosan elérhető, tipikusan publikálni szokták a legjobb megoldás gondolatát, illetve bárki jelentkezhet a versenyre, akinek kedve van megmérettetni magát egy ilyen környezetben. Ha a sporttal szeretnénk párhuzamot vonni, akkor lényegében ezt nevezhetjük amatőr sportolóknak szóló nyilvános versenynek.
  2. Privát verseny – A versenyben használt adathalmaz nem publikus, és nem is indulhat el rajta bárki, csak az akit a Kaggle meghív, mint résztvevőt. Cserébe már magáért a részvételért pénz jár, bár gondolom itt is külön díjazzák majd a legjobb eredményeket. Ez már a profi sport világa: a már bizonyítottan ütőképes sportolók akár már meg is élhetnek az így szerzett jövedelemből, ide bárkit nem szerződtetnek le.

A két módszer kombinációjával tehát egy nagyon ütőképes szolgáltatást tud adni a Kaggle, nem hiába tudta meggyőzni a befektetőket (akik között a Google és a PayPal neves szakemberei is ott vannak), hogy érdemes ebbe fektetni a pénzük. Tudják kik az adott feladatra jó szakemberek (már most sok-sok adat áll rendelkezésükre az elmúlt évek általuk bonyolított versenyeiből, közel 19 ezer regisztrált játékosuk van), könnyen meg tudják őket keresni, hogy néhány hónapig akár az eredeti állásuk (vagy hallgatói jogviszonyuk) mellett dolgozzanak otthonról egy-egy remek feladaton. Az egész mögött az első Netflix verseny alapgondolata húzódik meg: dolgozzunk a legjobbakkal úgy, hogy nem kell őket felkutatni, magunkhoz csábítani, egy irodában leültetni.

A kezdeményezés kapcsán egy ígéretes lehetőség fog nyílni arra, hogy a kompetenciánkat könnyen tudjuk az országhatáron kívül, sőt egyenesen a tengerentúlon kamatoztatni. Alig várom, hogy kiderüljenek a részletek, jó lenne ha a DMLab csapata bekerülne a profi ligába. Mindenesetre most hirtelenjében az amatőr versenyek szerepe felértékelődik: ott lehet bizonyítani a rátermettségünket.