A 7. sikerkritérium
Egy népszerű ökölszabály alapján egy jó adatbányászati projektnek hat sikerkritériuma van.
Legyen (1. pont) sok sorból álló és (2) attribútumokban gazdag adathalmazunk, melyben legyenek az adatok egyrészt (3) tiszták, másrészt (4) jól reprezentálják a prediktív modellekben körüljárt eseményt. Ezen túlmenően fontos, hogy a projektre (5) jól mérhető legyen a ROI, illetve a vállalati környezet olyan legyen, hogy a kapott eredmények alapján a menedzsment ténylegesen változtathasson a korábbi folyamatokon, azaz (6) akcióképes legyen a vizsgált tématerület.
Mint minden ökölszabályhoz, ehhez is lehet tökéletes példákat hozni: egy nagy mobil szolgáltató lemorzsolódás projektje tökéletes a fenti hat szempontból. Sok felhasználója van ezeknek a cégeknek (1), a felhasználókról különféle információk (2) állnak rendelkezésre (sokat tudunk például a telefonálási szokásairól, de a számlafizetési szokásai, kapcsolatai hálózata, készüléktípusa is igen gazdag adatkört eredményez). Az adatok a legtöbb viselkedési adat esetében tiszták (3), azokat tipikusan a távközlési vagy a számlázási rendszerből emeljük át automatikusan. Persze vannak azért itt is kivételek, például egy kártyás előfizetésnél a felhasználó kora mindig nagy talány. Torzítatlanság is valójában közel kipipálható (4), jól lehet tudni, ki az ügyfelünk, és ki az aki elment, vagy már nem használja a telefonját (cégek egyre gyakrabban vizsgálják a rotational churn jelenségét, mikor valaki látszólag elmegy egy szolgáltatótól, de egyből mint új ügyfél meg is jelenik). A megtartási kampányok pénzbeli hatékonysága (5) viszonylag jól mérhető (például egy kisebb kontrollcsoporttal), illetve a felhasználókat is elég sok csatornán meg lehet szólítani (6), ha be szeretnénk avatkozni az elvándorlás elkerülése érdekében.
Persze a legtöbb projektnél valamelyik ponton kilóg a lóláb, valami nem stimmel, de ezért van szükség a mélyebb adatbányászati, üzleti és technológiai szakértők tudására, hogy ne csak az ideális eseteket lehessen megoldani. Ugyanakkor egy-egy projekt nehézségének előzetes felmérésére a fenti modell kiválóan alkalmas. Ehhez az összeállításhoz szeretnék figyelmetekbe ajánlani egy hetedik sikerkritériumot, mely szerintem kerekebbé teszi ezt a világot.
A hetedik sikerkritériumnak a rövid válaszidőt javaslom, ami mögött azt értem, hogy egy adatbányászati, prediktív analitikai eredményre alapozott döntés helyességéről minél rövidebb idő alatt kapjunk visszajelzést magából a folyamatból. Ez nagy mértékeben maghatározza azt is, hogy milyen fajta modellt, módszertant alkalmazhatunk: mikor egy webáruháznál kiépítenek egy ajánlórendszert, a legtöbb esetben napok, vagy akár órák alatt lehet látni, hogy az adott megoldás előrelépés-e a korábbi gyakorlathoz képest vagy sem. Ebben az esetben az is elfogadható, ha a modellek feketedobozként működnek, és az azokat felhasználó üzleti oldalnak fogalma sincs, hogy milyen attribútumok alapján és hogyan hoz döntést a rendszer.
Ezzel szemben mondjuk egy banki, biztosítási környezetben, ahol egy rosszabb modell alapján felvett ügyfél bedőlése évekkel később jön csak elő, valójában mindenki csak jól átlátható, érthető, hihető magyarázatot adó modellek mentén mer elindulni. Ez utóbbi esetben tipikusan a projektet követő távoli években derülhetne ki, hogy egy adott elemzés segített-e, vagy a korábbi gyakorlatot kellett volna követni, feketedoboz megoldásokkal előjönni ilyenkor túlságosan rizikós.
Sokat segít tehát, ha egy modellről mihamarabb valós visszajelzést tudunk kapni, sokkal magabiztosabban lehet ilyenkor kísérletezni, és a legjobb megoldást megtalálni. Hogy hogyan lehet a válaszidőt rövidíteni? Ez egy másik, egy később poszttá formálódó történet…