Csavarjunk egyet az innovatív adatelemzési irányok keresésén - Dmlab

Csavarjunk egyet az innovatív adatelemzési irányok keresésén

Gáspár Csaba

2016.11.03. • olvasási idő:

A Nagy Könyvben az áll, hogy egy valamirevaló adatbányászati / adatelemzési projektet a CRISP-DM (Cross Industry Standard Process for Data Mining) metodika szerint érdemes menedzselni.

Eszerint egy projektnek hat fő fázisa van, (1) első lépésben megértjük az üzleti problémát, majd (2) a hozzá kapcsolódó adatokat, (3) adatátalakításokat végzünk, (4) gépi tanulási vagy statisztikai modelleket futtatunk, (5) kiértékeljük a kapott eredményeket üzleti szempontból, és persze ha minden klappol, akkor (6) hadrendbe állítjuk a megoldást. Nyilván ennél bonyolultabb a helyzet (a részletes leírást a metodikáról itt olvashatunk), szinte mindig van szükség iterációkra, mikor egy vagy több fázist is vissza kell ugranunk az aktuális lépés során tapasztaltak miatt. Érdekes látni, hogy ez iteratív fejlesztés mennyire jól illeszthető a ma egyre jobban terjedő agilis szemlélethez.

Mi is írtunk a CRISP-DM módszertanról, ide kattintva éred el blogposztunkat.

De nem is a CRISP-DM metodikát akarom most kivesézni, felülbírálni – minden hibája ellenére igazán szeretem, gyakran mentett meg minket kényes helyzetekben. Inkább egy újfajta jelenségre szeretném felhívni a figyelmet: egyre többször van lehetőségünk olyan módon elkezdeni egy-egy projektet, hogy nem a legelső fázisnál, az üzleti feladat megértésénél indulunk – hanem a másodiknál, az adatok megismerésénél.

Arról van szó, hogy vannak vállalatok, akik nagyon vágynak arra, hogy valami igazán izgalmas, jelentős üzleti hatást felmutatni képes adatos projektet indítsanak, és a lehetséges partnereket állandóan szondázzák, mondjanak valami igazán ütős use-case-t. Gyakran egy-egy jó pozícióban levő tanácsadó cég is megkeres hasonló feladattal: “bent ülök az X cég big data board-jában, most dolgozzuk ki a stratégiát, ha van valami remek alkalmazási ötletetek, mondjátok el, ha elég jó, lehetne belőle jó üzletet csinálni”.

Nagyon nehéz ilyenkor valami jó javaslattal előállni, faramuci helyzet, hogy nem a megrendelő hozza az üzleti problémát, hanem mi. Ezért ezekben a helyzetekben gyakran azt javasoljuk, forduljunk az adatokhoz: néhány ilyen megkeresést át tudtunk alakítani egy adatvezéreltebb gondolkodás mentén működő projektté:

  • Elsőként hozzáférést kaptunk az adatok egy részhez, és egyszerűen megértettük milyen típusú, mennyiségű és minőségű adattal élnek együtt ezek a cégek. Tipikusan néhány érdekes adatkört adtak oda, ami szerintük is tartogat meglepetéseket.
  • Ezt követően egyfajta data discovery fázisban kicsit megpiszkáltuk az adatokat, mit is rejtenek. Ezek az elemzések egyfajta ad-hoc riportoknak foghatók fel, segítenek abban, hogy ötleteket tudjunk adni arról, mire is használhatók ezek az adatok. Lényeg, hogy itt az adatok is súgnak nekünk.
  • Az adatok ismeretében készítettünk jó sok javaslatot, hogyan lehetne üzletileg kiaknázni az adatokat. Itt a friss, más nézőpontból érkező szemünk adata lehetőségek (és korlátok) mentén leírtunk 10-20 use-case-t, esetenként néhány slide-nyi anyagot szedtünk össze. Egy-egy ilyen javaslatot gyakran néhány, a cégre vonatkozó adattal is megtámogatunk.
  • Ezeket vizsgálta meg a megrendelő üzleti csapata, a use-case-ek jelentős része nem érte el az ingerküszöbüket, de mindig akadt egy-kettő, ami érdekelte őket. Mivel láttak hozzá néhány releváns adatot, gyakran könnyebben meggyőzhetőek ilyenkor, mintha külsősként azt mondom, ez biztos megoldás után kiáltó gond nálatok.
  • Ezt követően általában egy proof-of-concept fázis jön, mikor az adott use-case-re kidolgozzuk az elemzést a múltbeli adatokon, itt bizonyítjuk be, hogy érdemes ez az elemzést, adatbányászati modellezést folytatni.
  • Végül, ha ez utóbbi lépésben is meggyőzők voltunk, akkor foglalkozunk a megoldás integrációjával, ekkor kerülnek fel az eredményeink a dashboard-okra, beépítjük a kalkulációkat a rendszerekbe, és itt dolgozzuk ki hosszú távon hogyan érdemes frissíteni az eredményeket.

Látható, hogy az iteratív, egyre komplexebb megoldásokat kihozó szemlélet itt is megmaradt, de az első pont az adatokról szól, és nem az üzletről. A döntések meghozatalánál persze az is sokat nyomott a latba, hogy így a költségek is fokozatosan jelennek meg. Az adatfeltárás + use-case készítés jóval kisebb feladat (8-21 nap), mint mondjuk a historikus adatokon már futó poof-of-concept megoldás kialakítása, de az igazán komoly befektetést igénylő integráció előtt van egy érvényes döntési pont, ahol múltbeli adatokra támaszkodva jól meg lehet becsülni az üzletre gyakorolt hatását az adott megoldásnak.

Én igazán szeretek így dolgozni, nagyon kreatív és sokkal üzletszagúbb megoldások tudnak így létrejönni. És attól a pillanattól fogva, hogy a partner saját adatain futó elemzésekkel támasztjuk alá a mondandónkat, sokkal érdekesebbek lesznek az elsőre akár túl egyszerű vagy sci-fi jellegű ötletek is.