Data science projektek fajtái
Ebben a blogposztban a data science projektek fajtáit és a végrehajtásukhoz szükséges gondolkodásmódot ismerheted meg.
Ahhoz, hogy a data science projektek fajtáiról beszéljünk, fontos feltenni néhány kérdést a data science projektek alapjául szolgáló adatvezérelt gondolkodásról:
- Hogyan működik az adatvezérelt gondolkodás?
- Hogyan tudunk adatvezéreltté válni mindennapjaink és a munkánk során?
Az adatvezérelt gondolkodás
Az adatvezérelt gondolkodás három egymás utáni lépésből, és ezen lépések folyamatos ismétléséből áll. Ezek pedig nem mások, mint a mérés, az elemzés és a cselekvés.
Mérés
Első lépésként el kell kezdenünk mérni, hiszen ahogy az “adatvezérelt” kifejezés is súgja, adatok nélkül nem fogunk tudni adatvezérelten gondolkodni. Ez a folyamat legidőigényesebb szakasza, hiszen hónapokig, olykor évekig is gyűjtenünk kell az adatokat ahhoz, hogy értelmezhető elemzéseket tudjunk készíteni adathalmazunkon.
Elmesélek erről egy saját történetet. Gimnázium után gondoltam tudatosabban kéne kezelni a pénzügyeimet, így elkezdtem logolni a kiadásaimat és a bevételeimet. Két hónap után tudtam először összehasonlító elemzést végezni a pénzügyeimen, de ami az igazán nagy változást hozta, az két év után következett be, hiszen ezután már két teljes év adatait tudtam összevetni egymással évszakról évszakra, hónapról hónapra. Az elemzés ezután gyerekjáték volt, nagyjából fél óra leforgása alatt levontam a legfontosabb tanulságokat. Természetesen ez egy leegyszerűsített példa, de azt elég jól szemlélteti, hogy olykor mekkora különbségek lehetnek az egyes szakaszok hosszai között, és hogy a mérésnek milyen fontos szerepe van a folyamatban.
Elemzés
Amit már az előző történetben is említettem, az az elemzés. Nyilván nekem egészen könnyen ment ez a rész, hiszen egy egyszerű adathalmazon dolgoztam, kis mennyiségű adattal. Sokkal nagyobb munka lett volna, ha mondjuk a magyar lakosság elmúlt két évének pénzügyeit kellett volna elemeznem. Ezt már nem is tudtam volna elvégezni egy egyszerű excel táblában, hanem egy sokkal fejlettebb, nagy adathalmazok elemzésére alkalmas szoftvert hívtam volna segítségül. Ilyen esetekben jól jöhet egy adatvizualizációs szoftver is a könnyebb értelmezés érdekében. Az általunk használt adatvizualizációs szoftverekkel kapcsolatos tapasztalatainkról nemrég írtunk egy blogposztot.
Cselekvés
A harmadik lépés pedig nem más, mint a cselekvés. A létrehozott adathalmazon végzett elemzés eredménye alapján megfogalmazunk egy vagy több akciót. Visszatérve a példámhoz, ha az elemzésemből az derül ki, hogy idén jóval többet költöttem, mint az előző évben, és ennek fel is tártam az okait, akkor meg kell fogalmaznom, hogyan fogom elkerülni az ilyesfajta túlköltekezést a jövőben. Ha meg vagyok elégedve a számokkal, akkor természetesen az is lehet egy akció, hogy nem csinálok semmit, hanem haladok tovább az eddigi úton, mindössze tudomásul veszem az elemzés eredményét és ennek tudatában cselekedek.
Miután megvagyunk a harmadik lépéssel is, akkor újra és újra végigmegyünk a fenti folyamaton, hogy a jövőben is hasonlóan megfontolt, adatvezérelt akciókat tudjunk megfogalmazni a kívánt területen, hogy jövőre is hasznos konklúziót tudjunk levonni és előremutató akciókat tudjunk megfogalmazni, esetemben a pénzügyeimmel kapcsolatban.
A data science projektek fajtái
A data science projektek alapvetően nem egyszer elvégzendő cselekménysorozatok, hanem újra és újra megismételt, egymást követő lépések sorozatai. Adatverelt gondolkodás szükséges hozzájuk; folyamatosan mérnünk, elemeznünk és cselekednünk kell, hogy sikeres projekteket valósíthassunk meg.
A data science projekteket üzleti céljuk alapján az alábbi kategóriákba soroljuk.
Leíró (descriptive) data science projektek
A descriptive, azaz a leiró data science projektek célja, hogy segítsenek megmondani, mi történt a múltban, azaz leíró jelleggel bemutatják a múlt eseményeit. Akkor érdemes leíró data science projektben gondolkodni, amikor a múltban megtörtént események információt szeretnénk megismerni. Jó példa erre, ha mondjuk egy social media kampány teljesítményét szeretnénk visszamérni a kampány végén, megállapítva milyen számokat sikerült produkálnia. Nemrég készítettünk egy erre alkalmas információs dashboardot az egyik vezető magyarországi médiaügynökség számára, amiről itt olvashatsz bővebben.
Diagnosztikus (diagnostic) data science projektek
Diagnosztikusnak nevezzük azokat a data science projekteket, amik az okokat keresik a múltban megtörtént események hátterében abból a célból, hogy magyarázatot találjanak a miértekre. Visszakanyarodva az előző social media kampányos példára, egy diagnosztikus data science projekt ehhez hasonló kérdések megfogalmazását és megválaszolását tűzi ki céljául:
- “Miért maradtak el a kívánt elérési számok az elmúlt két hétben?”
- “Mi lehet az oka, hogy ugyanabból az összegből kétszer annyi elérést generált a tavaszi kampányunk, mint az őszi?”
Másik példa egy iskolai lemorzsolódást vizsgáló projekt, aminek célja, hogy beazonosítsa azokat az összefüggéseket, amelyek hatással vannak a diákok lemorzsolódására. A projekt egyik célja az volt, hogy megértsük, hogy az adatok alapján látszólag hasonló oktatási intézményekben mi eredményezi a különböző mértékű lemorzsolódást.
A példa egészen közel áll hozzánk hiszen a Microsofttal és a Digitális Pedagógiai Módszertani Központtal (DPMK) közös projektünk egyik célja volt ez. A közös munkáról és eredményeiről korábban írtunk a blogon.
Prediktív (predictive) data science projektek
A prediktív data science projekt még tovább megy, mint a leíró és a diagnosztikus. Célja, hogy a múltbéli adatok elemzését követően előrejelezze, hogy mi várható a jövőben, és ezáltal befolyásolni tudja azt.
A CET Hungary számára készített portfólió menedzsment szoftverünk is ezt a célt szolgálja: segítségével könnyebbé válik a portfóliótervezés, a termelési és fogyasztási előrejelzések. Projektünkről esettanulmányunkban olvashatsz.
Prescriptive data science projektek
Erre a típusra nem igazán létezik épkézláb magyar fordítás, jelentését tekintve ez a fajta data science projekt is “szintet lép”, eggyel magasabb szintű feladat megvalósítása a cél az előzőekhez képest. Ez a cél pedig nem más, mint hogy a jövő prediktálásán túl olyan irányba tudjuk azt alakítani, optimalizálni, hogy az számunkra a legjobb legyen, megfogalmazva konkrét akciókat ennek érdekében.
Jó példa lehet erre korábbi projektünk, ahol az olajfinomítás végén bekövetkező kokszrobbanásokat vizsgáltuk. Itt nem csak arra volt kíváncsi az ügyfelünk, hogy mi az összefüggés a kokszrobbanás és a folyamatban mért gyártási paraméterek között, és nem csak az jelentett üzleti értéket, hogy előre tudjuk-e jelezni, hogy mikor fog bekövetkezni a robbanás, hanem végső soron az érdekelte az ügyfelet, hogy hogyan tudja úgy átalakítani az olajfinomítási folyamatát, hogy a kokszrobbanások száma minimalizálható legyen. Ezért ez egy optimalizációs projekt aminek az egyik bemenete, hogy a robbanás mikor fog bekövetkezni, de a végcél az, hogy a robbanások számosságát csökkenteni tudjuk.
A fentiekben megismerkedhettél a data science projektek fajtáival, valamint az ezen projektek elvégzéséhez szükség mindset legfontosabb elemeivel. Amennyiben bármilyen kérdésed adódna a témával kapcsolatban, tedd fel bátran a kommentek között!
A Dmlab csapatának egyik fő tevékenysége a data science projektek megtervezése és végrehajtása. Ha te is szeretnéd kihozni a legtöbbet az adataidból, akkor vedd fel velünk a kapcsolatot ezen az oldalon, megkeresésedre egy napon belül válaszolunk. Érdekel, hogyan dolgozunk? Látogass el a szolgáltatásainkat bemutató fülre, és győződj meg róla, hogy mire is van szükséged.