A túlélési elemzés alkalmazásai a data science területén | Dmlab

A túlélési elemzés alkalmazásai a data science területén

Balogh Nóra

2020.08.03. • olvasási idő:

A túlélési elemzés, ahogy a neve is utal rá, egy orvosi, biológiai kutatásokban kifejlesztett eszközkészlet, amivel a páciensek túlélési idejét vizsgálják, miután elkaptak egy betegséget, vírust. Hogyan kapcsolódik akkor a túlélési elemzés a data science világához? A szakma rájött, hogy a módszer olyan más, speciális adathalmazok esetén is hasznosnak bizonyul, ahol egy esemény bekövetkezéséig eltelt időt is vizsgáljuk, úgynevezett time-to-event analízist végzünk. A következőkben megismerkedünk a túlélési elemzés (survival analysis) alapfogalmaival és számos üzleti, ipari példán keresztül bemutatjuk, hol lehet kiaknázni a túlélési elemzés módszereiben rejlő lehetőségeket az adatelemzés területén.

A túlélési elemzés alapjai

Hogy szemléltessük, honnan is jön a túlélési elemzés alapötlete, kezdjük egy ügyfélkockázati példával. Ekkor azt vizsgáljuk, hogy egy terméket, szolgáltatást használó ügyfelek átpártolnak-e egy másik szolgáltatóhoz (churn analízis). Adatelemző szemmel ez a probléma egy egyszerű osztályozási példának tekinthető, hiszen az ügyfeleket két csoportba soroljuk aszerint, hogy maradtak-e vagy elhagyták-e a vizsgált szolgáltatást/terméket/céget. Ekkor azonban vannak olyan ügyfelek, akik a vizsgált időszakban nem hagyták el a szolgáltatást, de a későbbiekben igen, illetve olyanok is, akik időközben elhunytak, így nem tudjuk, hogy meddig használták volna még a vizsgált terméket. Ilyen esetekben legtöbbször az utóbbi ügyfeleket kihagyják az elemzésből, hiszen ekkor nem ismert a célváltozó, illetve azokat, akik az adatgyűjtés végéig nem hagyták el a szolgáltatást a nem elhagyók osztályába sorolják attól függetlenül, hogy ezekben az esetekben még bekövetkezhet a churn a későbbiekben. Hogyan vesszük mégis okosan figyelembe ezen ügyfeleket is? Itt jön jól az adatelemzők eszköztárából a túlélési elemzés, ami olyan statisztikai módszerek gyűjtőfogalma, amivel a minket érdeklő esemény (példánkban a churn) bekövetkezéséhez szükséges időt becsülhetjük meg.

Túlélési elemzés – kulcsfogalmak

A túlélési elemzés olyan kérdéseket céloz meg, mint “mennyi idő fog eltelni, míg egy esemény bekövetkezik?” vagy “mi a valószínűsége, hogy az esemény nem következik be egy adott ideig?”. Az esemény, a korábbi példáinkban lehet a megfertőződött páciensek halála, vagy éppen meggyógyulása, az ügyfélkockázati esetben pedig a churn bekövetkezése. Ez a célesemény vagy halál esemény (death event) az adathalmazokban bináris változóként jelenik meg (0 vagy 1), aszerint, hogy az esemény az adatgyűjtés végéig bekövetkezett-e vagy sem. A célesemény mellett fontos a születési esemény vagy kezdeti esemény is, amelytől kezdve a halál eseményig mérjük az eltelt időt. Ez az orvosi példában lehet a páciens tanulmányba való felvételének ideje, vagy az az idő, amikor elkapta a betegséget, az ügyfélkockázati példában pedig az az időpont, amikor az ügyfél elkezdte használni a terméket, szolgáltatást. A céleseményig mért időtartamok tehát relatívak, az egyes páciensek esetén a megfigyelés különböző időpillanatokban kezdődhet.

A túlélési adathalmazok kulcsfontosságú jellemzője, ami megkülönbözteti őket más adatoktól, hogy a célesemény nem feltétlenül következett be minden esetben az adatgyűjtés/vizsgálat végéig. Ezek az ún. cenzorált események, megfigyelések – példáinkban ügyfelek és páciensek. A cenzorált esetekben a halál esemény lehet, hogy bekövetkezik a megfigyelt időszakon túl. 

Nézzünk egy harmadik példát a cenzorált eseményekre a pénzügy és bankszektor területéről! A klasszikus hitelkockázati osztályozás csak a kockázatos és nem kockázatos hiteleket tudja osztályozni, de a vissza nem fizetés idejét nem veszi figyelembe. A túlélési elemzés statisztikai módszereinek segítségével megbecsülhetjük az időt, amely után bekövetkezik az ügyfél fizetésképtelensége. Ekkor a cél esemény vagy halál esemény az ügyfél fizetésképtelensége. Előfordulhatnak olyan ügyfelek, akik végtörlesztik a hitelüket, így nem következik be esetükben a célesemény, illetve olyanok is, akik csak a vizsgált időszak után válnak fizetésképtelenné, ők a cenzorált ügyfelek. Ami megkülönbözteti a túlélési elemzést a klasszikus regressziótól, hogy ekkor a fizetésképtelenségig eltelt idő becsléséhez a túlélési elemzés módszerei a cenzorált eseményeket is figyelembe tudják venni. 

 

Túlélésünk záloga

A túlélési elemzésnél számos esetben az egyes páciensek, ügyfelek csoportjainak túlélési függvényének meghatározása a célunk. A túlélési függvény megadja, hogy egy adott időpillanatban mekkora a valószínűsége, hogy a célesemény még nem következett be. A kezdeti időpillanatban ez a valószínűség 1, hiszen ekkor még minden páciens életben van, vagy minden ügyfél használja a terméket. Végtelen idő elteltével ez valószínűség nullára csökken, ekkor már minden páciens meghal.

A túlélési függvényre mutat példát az alábbi ábra churn analízis esetén. Az ábrán a kaggle.com Telco Customer Churn adathalmazát vizsgáljuk pythonban a túlélési elemzés segítségével. Három ügyfélcsoportot vizsgálunk az ügyfélkockázati példában: a havi, az éves, és a 2 éves szerződéssel rendelkezőket. A túlélés esetünkben a szolgáltatás további használatát jelenti, a célesemény a churn, az ügyfelek más szolgáltatóhoz való váltása. Jól látható, hogy a havi szerződéssel rendelkezők esetén sokan már az első hónap után váltanak szolgáltatót, itt a túlélési függvény hirtelen ugrik. Ha az ügyfelek szerződéskötésétől a 3. év végét nézzük, akkor a havi szerződéssel rendelkezők csak 0.49 valószínűséggel maradnak a szolgáltatásnál, míg a két éves szerződéssel rendelkezők esetén ez a valószínűség igen magas, 0.99. Az ügyfelek megtartása szempontjából tehát a szolgáltatónak érdemes hosszabb távú, akár kedvezményesebb szerződéseket kötni az ügyfeleivel. A túlélési elemzés segítségével a különböző ügyfélcsoportok a túlélési függvény segítségével könnyen összehasonlíthatók, a túlélési függvény menetéből pedig értékes következtetéseket vonhatunk le az ügyfelek viselkedésére vonatkozóan.

Forrás: Dmlab

Túlélési elemzés mindenütt – Ipar 4.0, Média, Bankszektor

Az előbbiekben említett példák mellett számos más területen is érdemes a túlélési elemzést szem előtt tartani. A következőkben a teljesség igénye nélkül foglaljuk össze a túlélési elemzés néhány izgalmas alkalmazási területét.

A túlélési elemzés történelmileg is első alkalmazása orvosi kutatásban, betegségek túlélésének vizsgálatában valósult meg. Ezekben a példákban a célesemény a páciens halála, míg a következőkben látni fogjuk, hogy a halál eseményt számos más esemény is jelentheti. Gyakran említett példa itt a tüdőrákos betegek vizsgálata, ahol a páciens túlélését a kezdeti eseménytől, a betegség diagnosztizálásától, a tüdőrák okozta haláláig mérik. Ekkor a cenzorált betegek azok, akiknek a halála valamilyen más betegség nyomán következik be. A túlélési elemzéssel az orvosi alkalmazásokhoz hasonlóan a gyógyszeriparban is vizsgálható az egyes gyógyszerekkel kezelt betegek várható élettartama. Ezeken túl a biztosítási szektorban is hasznos a különböző ügyfélcsoportok túlélési függvényének megfigyelése.

A túlélési elemzés a marketing analitika, média területein is hasznos adatelemzési eszköz, gondoljunk csak például egy hírlevél feliratkozóira. A korábbiakban említett ügyfélkockázati churn példához hasonlóan a születési esemény az, amikor egy ügyfél feliratkozik a hírlevélre, vagy elkezd használni egy szolgáltatást, a halál esemény vagy célesemény pedig az, amikor leiratkozik róla. Érdekesség, hogy míg a korábbi példákban az ügyfelek halála jelentette a halál eseményt, ez esetben az ügyfél halála cenzorált eseménynek számít, hiszen ekkor nem történik meg az ügyfél leiratkozása. 

Meddig fog működni a gép? – Az Ipar 4.0 nyomán egyre több műszaki alkalmazásban is fontos lesz a túlélési elemzés a tervezett karbantartások (predictive maintenance) területén. Itt az adott gép, vagy alkatrész üzembe helyezésétől a céleseményig, az eszköz meghibásodásáig eltelt időt mérjük és jelezzük előre.

A korábbi példákon túl a bankszektor is hasznát veheti a túlélési elemzés statisztikai módszereinek, ahogy példánkban is említettük, pénzügyi kockázati elemzések kapcsán. Vizsgálható többek között az az időtartam, amikor az ügyfél fizetésképtelenné válik egyes hitelek esetén, vagy az is, hogy az ügyfelek várhatóan meddig használnak bizonyos pénzügyi szolgáltatásokat. További gazdasági példákat tekintve vizsgálható egy-egy vállalkozás élettartama, vagy a szakemberek munkakeresési ideje is. Néhány szélsőségesebb alkalmazási területet is tekintsük meg; kutatók vizsgálták már politikai vezetők várható hivatali idejét, legyen szó USA elnökökről, vagy római császárokról, de láttunk példát a Trónok Harcában a szereplők túlélésének vizsgálatára is.

 

Ha felkeltette az érdeklődésed a túlélési elemzés, kövesd figyelemmel további bejegyzéseinket is! Készülőfélben van már a következő blogposztunk, melyben áttekintjük a legegyszerűbb túlélési elemzési modelleket és egy üzleti példán keresztül bemutatjuk, hogyan lehet dolgozni velük pythonban.

Ha többet hallanál tőlünk a túlélési elemzésről , vagy ilyen jellegű adatelemzési problémád van, esetleg többet szeretnél kihozni az adataidból, keress minket bátran a dmlab.hu oldal kapcsolat aloldalán.