A Zseni, a Tanító és a Rabszolga
Egyik adatbányászati projektünk kapcsán ötlött fel bennem a felügyelt tanulási feladatok egy újfajta felosztása. Ez alapján alapvetően kettő, majd három csoportba osztottam az osztályozási feladatokat:
- Zseni – Ebben az esetben ismert számunkra egy minta, ahol már tudjuk, hogy az adott entitás melyik osztályba tartozik, de nincs igazi magyarázatunk a pontos miértekre. Azt várjuk az algoritmustól, hogy az adatokban rejlő összefüggések alapján készítsen egy modellt, ami jól becsli a hasonló entitások címkéit (ez komoly elemzői feladat, valójában a modell zsenialitásához az adatbányászat hozzáértése is kell). Ebben az esetben lényegében úgy tekintünk a modellre, mint egy zsenire, mint egy olyan munkatársa, aki – magunk sem tudjuk hogyan – mindenkinél jobb előrejelzést tud adni arra, hogy mi a célváltozó. Zseni esetére jó példa például a lemorzsolódás előrejelzése, nem hiszem, hogy lenne ember, aki egy ügyfél adatait figyelve jobb eredményt tudna adni a feladatra, mint egy jól betanított adatbányászati modell.
- Tanító – Kicsit árnyalja a képet, ha egy tanítóként tekintünk az a adatbányászati modellre. Ebben az esetben is bízunk a modell összefüggés feltáró képességében, de az osztályozást nem akarjuk rábízni, túl sok múlik rajta, hogy a kontrollt kiadjuk a kezünkből. Ekkor inkább azt kérjük, hogy a modell árulja el nekünk az összefüggéseket, tanítson meg minket a tudására, amit majd mi fel fogunk tudni használni. Tipikus eset a hitelbírálat, a scorecard-ok világa: annyira későn derül ki, hogy ténylegesen ki a jó és ki a rossz adós, hogy egy üzleti kontrollra is szükség van ahhoz, hogy bizonyos szabályok alapján döntsünk egy-egy kérelemről.
- Rabszolga – Ezzel szemben vannak esetek, mikor mi magunk is meg tudnánk oldani egy entitás osztályozását, nem is érezzük a kérdést túl bonyolultnak, de nem igazán érünk rá kézzel felcímkézni az adatbázist. Ilyenkor egy rabszolgára van szükségünk, akinek adunk mintákat, hogy abból tanulja meg azt, amit már mi is tudunk. Tipikusan jó példa erre a véleménybányászat, hiszen bárki meg tudja mondani, hogy egy-egy tweet, fórumbejegyzés, hozzászólás pozitív, semleges vagy negatív módon nyilatkozik valamiről. De kinek van kedve annyi információt feldolgozni.
A rabszolga típusú modellekre leginkább a félstruktúrált vagy struktúrálatlan, esetleg média adatok esetén van szükség. A helyzet sajátossága, hogy ha kell még a tanításhoz adat, akkor egyszerűen van esélyünk további felcímkézett adatokhoz jutni: egyszerűen rá kell venni arra valakit, hogy a rabszolgamunkát elvégezze, és kézzel kitöltse az új tanító adatokhoz a célváltozót. Sőt, csinálhatunk olyan eljárást, ami okosan kérdez, azaz jelzi, mely címkék ismeretével tudná a modellezés minőségét növelni. De akár az is megtörténhet, hogy bizonyos esetekben az adatbányászati modell a kimeneti címke helyett azt jelzi, hogy az adott szituációban kérdezzük meg a szakértőt.
Csupa jópofa lehetőség, újszerű optimalizálandó kérdések, és a nagy kérdés: mennyibe kerül a szakértő, a rabszolgamunkát kézzel végző kétkezi adatmunkás, mennyi adatot címkéztessünk fel vele kézzel. A kérdés egyre többször jön elő nálunk az orvosi adatokat feldolgozó projektjeinknél.