Mit tehet a gépi tanulás az emberi tanulásért? - Dmlab

Mit tehet a gépi tanulás az emberi tanulásért?

Nagy-Rácz István

2021.04.29. • olvasási idő:

Többet mint elsőre gondolnád. Mindent meg fogsz tudni, mert ebben a cikkben egy projektünket mutatjuk be, amelynek keretében megismerheted, hogy milyen adatalapú megoldások segítségével csökkenthető a korai iskolai lemorzsolódás. De ennél többet is kapsz: megmutatjuk, hogy az adatvezérelt döntéshozásnak milyen szintjei vannak és az egyes szinteken milyen eszközöket tudsz alkalmazni.

De mi is az a korai iskolai lemorzsolódás? Korai iskolaelhagyónak nevezzük azt a 18-24 év közötti fiatalt, aki legfeljebb általános iskolai végzettséggel rendelkezik. A 2000-es évek elején minden ötödik európai fiatalt érintett a korai iskolaelhagyás problémája, ezért az EU 2020-ra célul tűzte ki, hogy a korai iskolai lemorzsolódást 10%-ra csökkenti.

Az alábbi ábrán jól látszik, hogy európai szinten 2002 és 2019 között több mint 7%-kal sikerült ezt az arányt csökkenteni. Az ábrán sajnos az is szembetűnő, hogy Magyarország mintha egy helyben toporogna a probléma kezelése helyett. De mit is jelent nekünk ez a kb. 12%-nyi lemorzsolódó? 80.000 fiatalt. Minden évben kb. 80.000 fiatal a felmérést megelőző négy hétben nem vett részt az oktatásban. Van aki visszatér, és van aki véglegesen kiesik az oktatásból. Anélkül, hogy középfokú végzettséget szerezne. Hogy kontextusba tudjuk helyezni a probléma nagyságát: Magyarországon évente kb. 50.000 ember szerez felsőfokú diplomát.

Forrás: Eurostat Education and Training, https://ec.europa.eu/eurostat/web/education-and-training/data/main-tables/

Miért fontos egyáltalán ez a dolog? Ennek a cikknek nem célja, hogy szakmailag értékelje, hogy miért fontos a minél magasabb iskolázottság elérése. A kérdésre mindenki adja meg a személyes válaszát. Egy ábrát azért mégis szeretnék megmutatni, amely az egyes országok boldogsági indexének és az iskolában töltött évek számának összefüggését mutatja. Nem kellenek hozzá bonyolult mesterséges intelligencia (sic!) megoldások, hogy a két érték közötti kapcsolatot felfedezzük. Az a kis piros pont jelképezi hazánkat. Van még tennivalónk a boldogságunk növelésében.

Forrás: Our World in Data, https://ourworldindata.org/

Hogyan lehet az adatokat felhasználni a probléma kezelésében?

Európában, így hazánkban is születtek programok és megoldások a probléma kezelésére. Ezek a megoldások adatok gyűjtését és adatalapú megoldások bevezetését ígérik, de sok esetben csak retrospektíven tudnak az adatokra tekinteni. A “mi történt?” típusú kérdések megválaszolására talán alkalmasak, de a miértek megértését nem segítik. Mi az oka, hogy látszólag két hasonló iskolában a korai iskolaelhagyók aránya jelentősen eltér? Mi jellemzi azokat az iskolákat, ahol tartósan alacsony a lemorzsolódók aránya? Milyen akciókkal célozhatók az egyes iskolák, osztályok, tanulók az adatok alapján? Ezekre a kérdésekre nehezen tud választ adni a múlt adatait tartalmazó riportok és dashboardok sokasága. Legyen az akár olyan összetett és interaktív, mint a lenti példa.

Valahol egy messzi-messzi galaxisban

A távlati cél egy valós idejű, akcióképes, hallgatói szintű megoldás. Valósidejű, hogy a legveszélyeztetettebb fiatalokat még a lemorzsolódás előtt azonosítani lehessen. Akcióképes, hogy ne csak a közeli lemorzsolódás valószínűségét mutassa meg a rendszer, hanem annak okát is, amelyek alapján az oktatásban a hallgatók mellett dolgozó nevelők, tanárok, szakértők egyéni akciókkal tudnak segíteni az érintett fiatalokon. Hallgatói szintű, mert a lemorzsolódás nem csak intézményi és tanári okokra vezethető vissza, hanem mindegyik ilyen esemény mögött egyéni vagy családi történetek vannak. Persze egy hallgatói szintű megoldás minden szinten (osztály, iskola, tankörzet, regionális bontások stb.) lehetővé teszi a valósidejű monitoringot is, amellyel stratégiai szinten is lehetővé válik a beavatkozás.

A fenti megoldás talán túlságosan is futurisztikusnak tűnik. Vannak azonban kezdeményezések és projektek, amik mintául szolgálhatnak. A Microsoft a Tacoma körzetben lévő állami iskolákkal karöltve egy olyan megoldást dolgozott ki, ami a korai iskolaelhagyás kockázatainak előrejelzésével, felhőben futó tanulói analitikai megoldások felhasználásával a sikeres érettségi vizsgát tevők arányát 55%-ról 83%-ra növelte.

Rendben, a távlati cél világos, vannak mintául szolgáló megoldások is. Az adatalapú megoldások esetében viszont van még egy szükséges összetevő: vannak egyáltalán adatok a magyar közoktatásban egy ilyen megoldás létrehozásához? A válasz az, hogy vannak: rengeteg digitális formátumban elérhető adat áll rendelkezésre az oktatási intézményekről (épületek, infrastrukturális ellátottság stb.), a tanárokról (végzettségek, továbbképzéseken való részvétel, munkaterhelés stb.), a diákok kompetenciáiról és azok változásáról (PISA teszt, Országos Kompetenciamérés eredményei stb.), sőt a Kréta iskolai alaprendszernek köszönhetően a diákok mindennapi iskolai viselkedése is rengeteg értékes információval gazdagíthat egy ilyen megoldást.

Az adatalapú döntéshozás szintjei – egy esettanulmányon keresztül

A Dmlab, a Microsoft és a Digitális Pedagógiai Módszertani Központ (DPMK) szakértői közös munkával egy olyan projekten dolgoztak, amelynek célja a magyar közoktatásban keletkező adatok újszerű felhasználásának bemutatása. Olyan referencia megoldások létrehozása, amelyben minden döntéshozói szinten adatokon alapuló információkkal támogathatók a döntéshozók.

A DPMK biztosította a domain tudást, a Microsoft a technológiát, a Dmlab pedig az adatelemzési szakértelmet. Ez a hármas szükséges előfeltétele egy sikeres adatelemzési projektnek. A közös munkáról így ír Horváth Ádám, a DPMK divízió vezetője:

Az oktatási adatbázisok prediktív analitikai eszközökkel történő értelmezésével Magyarországon először a Digitális Jólét Nkft. Digitális Pedagógiai Módszertani Központja kezdett el foglalkozni intézményes szinten. Ehhez olyan partnert kerestünk, aki képes elrugaszkodni a megszokott sablonmegoldásoktól, kellően kreatív és empatikus ahhoz, hogy a szakterület speciális jellemzőit átlássa. A Dmlabról első benyomásainkat egy mesterséges intelligencia kurzuson szereztük. A kedvező tapasztalatok alapján egyértelmű volt, hogy kezdeményezzük az együttműködést prediktív analitikai megoldások területén is. A Dmlab minden tekintetben beváltotta a hozzá fűzött reményeket. Olyan szakmai megállapítások születtek a közös projekt során, melyekre hagyományos adatelemzési eszközökkel esély sem lett volna, ill. olyan összefüggésekre derült fény, melyek alapján célirányos beavatkozások tervezhetők az oktatási ágazatban.

Csapatunk a projekt elejétől azt a koncepciót képviselte, hogy az adatok elemzése alapján olyan referencia megoldásokat kell létrehozni, amelyek az adatvezérelt döntéshozás különböző szintjein mutatják be az adatok hasznosításának lehetőségeit. 

De mik is ezek a különböző szintek? Egy korábbi cikkünkben már érintettük a témát, ahol már bemutattuk azt a modellt, miszerint különböző adatalapú megoldások, különböző típusú üzleti problémák megoldására képesek. 

A projektben az alábbi három szinten hoztunk létre példa megoldásokat:

  1. dashboardok használata,
  2. rejtett összefüggések feltárása,
  3. prediktív analitika.
Mi történt?

Mit nyújtanak nekünk az önkiszolgáló eszközökben létrehozott riportok és üzleti dashboardok? Egyrészt lehetőséget a több adatforrásból (intézményi, tanári és hallgatói szintű adatok) származó adatok elemezhetőségét egy eszközben. Egy ilyen eszköz segítségével pontosabb, relevánsabb és gyorsabb üzleti döntések meghozatala válik lehetővé adatok alapján. Nem utolsó sorban, egy ilyen integrált eszköz segítségével kialakulhat az ágazaton belül a single source of truth. Vagyis minden döntéshozó, minden szinten olyan mérőszámok segítségével dolgozhat, amelyek forrása, kalkulációja és így domain szerinti jelentése is azonos.

Az alábbi dashboardon például azt demonstráljuk, hogy az intézményi szinten gyűjtött adatok alapján hasonló intézményekben nagyon eltérő a korai lemorzsolódás aránya. Az adatok változatosságára visszatérve: ha minden közoktatási intézmény egy sor egy adattáblában, akkor több mint 10.000 tulajdonságot használhatunk fel a hasonló intézmények kereséséhez.

A megoldás ismertetése során a domain ismerőit meglepte az, hogy az egyes intézmények hasonlósági párjai földrajzilag nincsenek közel egymáshoz. Ilyen az, amikor egy szakértői intuíciót az adatok segítségével lehet megerősíteni, vagy cáfolni is akár.

Miért történt?

A rejtett összefüggések feltárásával nem csak a múltban gyűjtött adatok válhatnak megismerhetővé, de az adatok közötti kapcsolatok és összefüggések is a felszínre kerülhetnek. Miért fontos egy ilyen megoldás? Sok paraméter és tulajdonság esetén lehetetlen szemmel összefüggéseket találni az adatokban. A megoldás segítségével a rejtett összefüggésekre alapozott üzleti döntések hozhatók és a domain ismeretéből származó intuíciók, feltételezések megerősíthetők vagy cáfolhatók.

Az egyik kérdés, amelyre választ kerestünk: mi jellemző azokra az iskolákra a kompetenciamérés és az iskolák által szolgáltatott statisztikai adatok alapján, ahol a korai lemorzsolódás magas? Egy érdekes összefüggés, amit a módszereink találtak. A vegyes etnikai összetételű iskolák esetében, ahol az évfolyamismétlők aránya magas, döntő szerepe lehet az iskolatitkárnak. Az ilyen típusú iskolákban, ahol nincs iskolatitkár a lemorzsolódók aránya 57%, ahol van ott 36%.

Látható, hogy az ilyen típusú összefüggésekben a felhasznált tulajdonságok automatikusan kerülnek kiválasztásra. Nem a szakértőknek kell a több mint 10.000 tulajdonságot egyesével tesztelni. Mást is jelentenek ezek az összefüggések: nem a szent grált jelentik, nem egy olyan összefüggést találnak, amely igaz, így egyaránt alkalmazható az összes intézményben. Ezzel szemben olyan intézményi részcsoportokat jelölnek meg, amely részcsoportokban különböző összefüggések állnak fenn a lemorzsolódás és az intézmények tulajdonságai között, így különböző akciókat is lehet alkalmazni rájuk. Vége a fűnyíró elvnek.

Érdekes tanulsága még a fenti eredménynek. Jó példa arra, amikor az adatelemzőnek óriási felelőssége van abban, hogy a döntéshozóknak bemutassa, hogy a feltárt összefüggések nem jelentenek ok-okozati kapcsolatot. Könnyen lehetne azt mondani a fentiek alapján, hogy iskolatitkárt minden intézménybe. Az összefüggés nem jelent azonban egyértelműen kauzalitást a két dolog között. Fontos ezeket szakmailag értékelni és akár az ok-okozati hatásokat tesztelni. Ez is egy ok, hogy miért nagyon fontos az adatelemző és a domain ismerője közötti szoros munka.

Mi fog történni?

A prediktív analitikai eszközök segítségével már nem csupán a megértés a cél, hanem az akció: mit kezdünk a talált összefüggésekkel. A prediktív analitika eredményének döntéstámogató ereje abban rejlik, hogy választ ad, hogy mivel és hogyan érdemes foglalkozni.

Az Országos kompetenciamérés intézményi átlagai és szórásai előrejelezhetőek-e a kompetenciamérés és az iskolák által szolgáltatott statisztikai adatok alapján? Az adatok alapján: igen.

Előrejelezhetőek-e azon iskolák iskolaelhagyási eredményei a jövőben, ahol a kompetenciamérés alapján nem várható magas iskolaelhagyás? Na itt álljunk meg egy pillanatra, mert ez a kérdés már magában is elég összetett. Az elemzés során feltártuk, hogy van  összefüggés a kompetenciamérés eredményei és az iskolaelhagyás között. Nyilván ez a modell is, mint minden másik prediktív analitikai megoldás nem egyenletesen hatékony (nem minden intézmény esetében tudja ugyanolyan pontosan megbecsülni a lemorzsolódás arányát). A következő kérdés tehát az, hogy azoknál az intézményeknél, ahol a kompetenciamérés alapján nem várható magas iskolaelhagyás (tehát a modell nagyot hibázik), előrejelezhető-e mégis valahogy az iskolaelhagyás? És a válasz az, hogy igen, elég nagy hatékonysággal (92%-os pontosság) előrejelezhető az iskolaelhagyás mértéke további tulajdonságok alapján.

Tanulságok

Hogy lehet-e a gépi tanulás eszköztárát használni az emberi tanulás javítására? Igen, a fenti projektben több szinten is bizonyítottuk, hogy adatok és prediktív analitikai megoldások segítségével igenis lehet döntéseket és akciókat támogatni, amelyekkel a korai lemorzsolódás csökkenthető.

A projekt tanulságai:

  • mindig érdemes több szinten (dashboardok, összefüggések feltárása, predikció) is keresni az adatok hasznosítását, még abban az esetben is, ha az üzleti probléma látszólag jól körülhatárolt (iskolai lemorzsolódás csökkentése);
  • az eredmények értelmezéséhez és az összefüggéseken alapuló akciók megalkotásához szükséges a domain szakértő és az adatelemző közös munkája, ezért mi a Dmlabban valódi csapatmunkában dolgozunk: hiszünk abban, hogy használható üzleti eredményeket csak a köztünk lévő szoros együttműködés eredményezhet;
  • a feltárt összefüggéseket – akármennyire is csábító a gondolat – soha nem szabad ok-okozati összefüggésnek tekinteni.

További anyagok

A projektről a Microsoft is készített egy esettanulmányt, amelyet itt olvashatsz.

 

Borítókép: Scot Webb // Unsplash https://unsplash.com/photos/IZmPdbnb-3I