Mi zajlik az agyban? – egy érdekes adatbányászati részfeladat
Talán az a leghálásabb az adatbányászati munkában, hogy rengeteg területre nyerhetünk bepillantást és olyan problémákon dolgozhatunk, amelyek óriási hatással lehetnek az élet különböző területein.
A kereskedelem, a telekommunikáció és a pénzügyi világ már klasszikus terepnek számít, de az elmúlt évtized rengeteg új iparágban tette lehetővé nagy mennyiségű adatok gyűjtését és azok elemzését. Az oktatás, a közlekedés, a mezőgazdaság, és sok más terület mellett az utóbbi évtized adatbányászati sikerágazata a genetika, a gyógyszerkutatás és úgy általában az orvosi alkalmazások.
Személyes érintettségem kapcsán egy orvosi világból jövő izgalmas adatbányászati feladatot szeretnék bemutatni. Október eleje óta a prágai műszaki egyetemen dolgozom egy 5 hónapos ösztöndíj keretében, ahol a rendelkezésünkre álló adathalmaz egy cseh orvos, Robert Jech műtéteiből származik. Bizonyos agyi eredetű betegségek (pl. Parkinson-kór) kezelésére a kockázatos gyógyszerek helyett egyre inkább elfogadott módszer lett az utóbbi években a mély agyi stimuláció (Deep Brain Stimulation – DBS). A módszer lényege, hogy a hibásan működő agyi területre apró elektródát ültetnek be, ami időszakos kisülésekkel inspirálja a neuronokat, így egyetlen műtéttel akár évekre visszaszorítva a tüneteket. A műtét során az orvos apró érzékelőkkel méri az agyi aktivitást, hogy megtalálja a kezelendő területet, és ezeket a méréseket szerencsére el is tárolják. A csupán több milliméteres felbontású globális pásztázó módszerekkel (pl. fMRI, MEG) ellentétben ezekből az adatokból lokális, mikrométeres felbontású információkat kaphatunk az agy működéséről.
Az érzékelő kis mérete miatt megvizsgálhatjuk az agy nagyon apró környezetét, és akár egyedi neuronok működését is figyelemmel kísérhetjük. Bizonyos esetekben akár több száz ilyen érzékelőt is mozgatnak az agyban, amivel már akár több ezer neuron működése figyelhető. Természetesen ez még mindig elenyésző az emberi agyban levő 100 milliárd neuronhoz képest, de már így is nagyban segítheti az agyi folyamatok megértését és az egyes területek szerepének megismerését. Az agy működése egyébként sem a neuronok számán, hanem azok kapcsolatain alapul, és ezt globális pásztázó módszerekkel sokkal nehezebb megfigyelni.
A fenti kép jobb felső sarkában látható egy rövid felvétel, amin a nagy alapzaj mellett néha nagyobb kilövések jelennek meg, amik egy-egy neuron aktivitásának felelnek meg. Az ilyen aktivitás-görbéket a szakirodalomban tüskének (spike) nevezik.
A tüskék érzékelése (spike detection) a nagy zaj miatt már önmagában is egy kihívásokkal teli feladat, de ha ezt sikerül megoldani, akkor felmerül a kérdés, hogy hány különböző neuron tüskéit láthatjuk. A tüskék formája nagyban függ a neuron alakjától, valamint az érzékelőtől való távolságától, így minden neuron valamelyest egyedi tüskéket produkál. A neurontevékenységek elkülönítéséhez tehát egy klaszterezési feladatot kell megoldanunk (spike sorting), amelyben mind a klaszterek száma, mind azok viszonya ismeretlen. A 80-as években emberi munkát, a 90-es évek végétől egyszerű klaszterezési módszereket használtak, az utóbbi néhány évben pedig már egyre kifinomultabb módszerekkel oldják meg a problémát.
A klaszterezési feladatot némileg árnyalja, hogy a biológia némi háttérismeretet is biztosít számunkra. Egy neuron feltöltődési ideje (refractory period) 2-3ms, azaz egy tüske után ennyi ideig nem képes újabb aktivitásra. Tehát ha az adatsorban két tüskét is találunk a feltöltődési időn belül, akkor biztosak lehetünk benne, hogy ez a két tüske két különböző neuronhoz, vagyis két külön klaszterbe tartozik. A klaszterezési feladatot így némi felügyelt információval tudjuk támogatni, és ez segítheti a klaszterszám meghatározását is.
Egy lehetséges megoldás a klaszterezéshez használt távolság tanulása, amelyben ilyen háttérismereteket is használni tudunk. Az egyik első ilyen cikk a NIPS 2002 konferencián jelent meg és azóta is sokan foglalkoznak távolság-tanulási (distance metric learning) problémákkal.
Természetesen a tüskék klaszterezése (spike sorting) csak egy apró részfeladat az agy működésének megértésében, de mindenképp hasznos részeredményeket ad, mérnöki szemmel nézve pedig egy szép adatbányászati kihívást jelent.