Egy data scientist egy éve – A 2021-es adatos történetem
Amikor eljön egy új év, érdemes visszatekinteni az előzőre, és az ebből levont tapasztalatokkal tervezni a következőt. A magánéletben ebben évek óta segít a YearCompass, aminek mintájára elkezdtem összegyűjteni a szakmai történetem is.
Mivel telik egy data scientist egy napja, egy éve? Milyen projektekben vettem részt? Mit tanultam, mik voltak a nehézségek? Amikor oktatok, a hallgatóim gyakran kérdeznek tőlem ilyen, és hasonló kérdéseket, így megosztom a nagyvilággal a 2021-es data science történetem.
Projekt szemle
A munkahelyemnek hála számos kisebb és nagyobb projektben vettem részt 2021-ben. Az év elején egy energiakereskedő cégnek készülő szoftver fejlesztésébe folytam bele. Data Scientistként a szoftverfejlesztős világban helytállni nem volt könnyű, de rengeteget tanultam a git, a docker és a fastapi használatáról, a sprintekről és egy ilyen nagy volumenű projektről általában. A feladat egy átfogó szoftver építése volt, ami segít az enegiakereskedőnek a portfóliója kezelésében. A csapatban volt, hogy egyszerre 6-7 fejlesztő dolgozott a szoftveren, így fontos szerepet kapott a helyes verziókezelés és a feladatok kiosztása. Ez volt az első olyan projektem, ahol a szoftverfejlesztős világból vett Scrum módszertant használtuk a feladatok megoldásához. A feladatokat 2 hetes blokkokba, ún. sprintekbe osztottuk, és rendszeresen meetingeltünk a haladásról. Szerintem a scrum módszertan sok pluszt hozott az életünkbe, a rendszeres státusz meetingek azóta is a mindennapjaink részei. A projektről esettanulmányt is írtunk.
Ebből kiindulva egy következő mini projektben egyedül fejlesztettem egy belsős terméket, ami a HUPX energiatőzsdén az ún. day-ahead árak előrejelzésével foglalkozik. Ennél a projektnél nemcsak az adatokról és a prediktív modellről kellett gondoskodni, ami a napi árakat, mint egy idősort előrejelzi, hanem egy egyszerű felhasználói felületre is szükség volt. Mivel frontend fejlesztésben nem vagyok jártas, keresésbe kezdtem, és rátaláltam a streamlit csomagra, amit azóta is jó szívvel ajánlok és használok. Ebben a feladatban nagyon élveztem azt, hogy az előbbiekben említett nagy projektben tanultakat kicsiben egyedül is kipróbálhattam. Tanulságos volt megtapasztalni, hogy egyedül mennyi mindent könnyű elhibázni, amit korábban magától értetődőnek vettem. Az egyetlen hiányérzetem az, hogy végül csak belsős termék maradt a megoldásom. Mivel a HUPX fizetőssé tette a projektemben felhasznált adatok elérését, és nem érkezett még olyan megrendelő, aki ezt a funkciót használni szeretné, így egyelőre gondosan elcsomagoltam a megoldást és a tanulságait.
A 2021-es év két olyan állami projektet is hozott, amin dolgoztam. Az egyik feladatban az eredeti adatokat nem is láthattuk, így külön kihívás volt úgy megépíteni a folyamatokat, hogy csak szimulált adatok álltak rendelkezésre. Ezeken kívül néhány kisebb feladatot kaptam egy ingatlanok értékbecslésével foglalkozó, és egy szövegelemzéssel kapcsolatos projekten. Ezen munkák kapcsán ismerkedtem meg a Great Expectations csomaggal, ami jó szolgálatot tesz mindenhol, ahol adatok validálására van szükség. Tanulságos volt számomra rálátni a kollégáim által a szövegelemzési területre, amelyen korábban még nem dolgoztam. A kezdők lendületével vágtam neki feladatoknak, és hamar rá kellett jönnöm, mennyire összetett témakör a szövegbányászat, és mennyi mindent kell még tanulnom ezen a területen.
Az adatelemzéssel kapcsolatos feladatokon túl a tavalyi évben egészen sokat foglalkoztam adatvizualizációval. Az egyik kedvenc projektemben a Knorr-Bremse-nek készítettem adatelemzést, ahol az eredmények bemutatásához Power BI-ban építettem dashboardot. A projekt azért is vált kedvenccé, mert nagyon könnyű volt együttműködni az ügyféllel. Sok esetben a ritka találkozók és a hiányos feladat specifikáció félreértéseket eredményez az adatos projektekben. Itt is voltak kisebb vargabetűk, viszont a rendszeres státusz meetingek és az ügyfél részéről adott figyelem és szakmai hozzáértés megkönnyítette a munkámat.
Egy másik tavaly készült dashboardomat az iskolai lemorzsolódásról meg is találod a Dmlab blogon. A dashboardok építésén túl egy egészen új műfajban is kipróbálhattam magam. Mivel szeretek előadni és szerepelni, elvállaltam angolul egy adatvizualizációs workshopot. Nagy kihívás volt, de annyira megtetszett, hogy remélem, máskor is csinálhatok ilyet!
Kalandjaim az oktatásban
A kódolós, adatelemzős, vizualizálós feladatokon túl egy Dmlabos data scientist, ha szeretne, lehetősége van oktatni is. Számomra az oktatás megszínezi a mindennapokat, és sok értékes tapasztalatot is ad. A tavalyi évben számos helyen találkozhattatok velem online és ritkábban élőben is. A BME-n meghirdetett nyitott data science képzés idén is indul, akárcsak a Dataskool, ahol a data science és a vizuális adatelemzés rejtelmeibe kalauzoljuk el a kollégáimmal a jelentkezőket. Második alkalommal tartottam python alapozást a Kürt Akadémia Data Science képzésén és a BrainingHub-on is oktattam többek között az osztályozási modellekről.
Több megrendelőnek tartottunk egyéni tematika alapján is kurzusokat data science, python és adatvizualizáció témákban. Ezek az alkalmak is nagyon izgalmasak voltak számomra, hiszen egy-egy terület szakértőivel gondolkodhattam együtt, és nagyon hálás vagyok az ötletekért és a példákért, amiket itt tanultam! Ha érdekel a Dmlab képzési koncepciója, látogass el ide, és ismerj meg minket!
Önkéntes pontok
Pontokba szedve az adatos történetem, két önkéntes pontot is felmutathatok. A Lányok Napja évek óta segít a fiataloknak a pályaválasztásban. Nagyon megtisztelő volt a tudomány különböző területeiről érkező nőkkel együtt mesélni a munkámról a Virtuális Stand Up-on.
Tavaly második éve segítettem mentorként az AIT Data Science képzésén résztvevő hallgatókat az adatos projektjeik megvalósításában. Nagyon büszke vagyok rá, hogy az egyik projektből tudományos publikáció is született, ami a tavalyi évben jelent meg. A projekt mentorálásáról életem első Towards Data Science blogon megjelenő posztjában olvashattok.
Kutatások és felfedezések
Mik azok a kérdéskörök, amikkel egy data scientist foglalkozik? Rengeteg különféle érdekes témát és problémát hallok nap mint nap a projekteken, a kollégáimtól és a hallgatóimtól. A következő pár sorban a tavalyi kedvencekből szemezgetek.
Az egyik állandó kedvenc témám az XAI, avagy Explainable AI, magyarázható mesterséges intelligencia. Ahogy a gépi tanulási módszerek meghódítják az élet legkülönfélébb területeit, egyre nagyobb igény van rá, hogy tudjuk magyarázni, értelmezni a sokszor fekete dobozként ismert modelljeinket. A témáról írt blogposztom a Láncreakció podcast készítőit is megihlette. A témában kollégáimmal tanulmányt is írtunk, ami könyvben is megjelent.
És ha már AI, tavaly kísérletezgettem a Google Vertex AI megoldásával, ami már olyan okos lett, hogy az egyik oktatásunkon kiírt Kaggle versenyen előkelő helyezést ért el a Leaderboardon. A projektek kapcsán számos nagyon hasznos megoldásra leltem. A korábbiakban említett Great Expectations csomagot adat validálásra, a FastAPI-t pedig pythonos API-k írására jó szívvel ajánlom. A sorból nem maradhat ki a Ploomber sem, amivel notebookokból álló adatos pipelineokat lehet pillanatok alatt létrehozni.
A fenti python projektek megismerésén túl az adatvizualizáció témáiban is kalandoztam. Az adatvizualizációs eszközökről írt posztomat a Dmlab blogján olvashatod. A Bokeh adatvizualizációs python csomaggal foglalkozva pedig készítettem egy dashboardot, ami egy Kaggle verseny időbeli lefutását ábrázolja. A mini projektet egy blogposztban is bemutatom a Geek Culture blogon.
Viszlát 2021, üdv 2022!
A YearCompass-ban nagyon tetszik az a rész, amikor a tapasztalatainkat leírva elengedjük az előző évet, előretekintünk és megtervezzük az újat. A fenti felsorolást végignézve hálás vagyok, hogy ilyen sokszínű, projektekben és felfedezésekben gazdag évet zártam.
Szerencsésnek érzem, hogy a nagyobb munkák mellett sok kisebb projektben kipróbálhattam magam. Ennek eredményeképpen úgy érzem, nagyon sok különféle dologban tudtam tapasztalatot szerezni, legyen ez kódolás, oktatás vagy adatvizualizáció. Természetesen ennek megvan a hátulütője is, hiszen nem egy-egy nagyobb témában mélyedtem el, amiben szakértővé tudtam volna válni. Nem is ez volt a cél. A Dmlabnál data scientist munkakörben nagyon sok különféle projektben lehet részt venni, így ha sokmindenbe könnyen beletanulsz, előnyt jelent. Ha szeretnél ilyen projekteken dolgozni, keress bátran minket!
És hogy mi lesz a következő évben? Nehéz előre tervezni. Az biztos, hogy data scientistként folytatom a kalandjaimat és igyekszem minél több mindenben elmélyedni, szakértővé válni. Ha lesz lehetőségem, az oktatásban is részt veszek, mert úgy érzem, ebből én is sokat profitálok.
Örülök, hogy a történetemet olvasva velem tartottál, és remélem, hasznos linkekkel és ötletekkel szolgáltam. Találkozzunk 2022-ben egy-egy adatos projekten vagy az oktatásokon!