Radoop - Párhuzamos elemzések nagy adatokon - Dmlab

Radoop – Párhuzamos elemzések nagy adatokon

Dmlab

2011.05.27. • olvasási idő:

A korábbi években többször belefutottunk olyan problémába, hogy a megszokott adatbányászati, adatelemzési eszközeink nem voltak képesek kezelni a rendelkezésre álló adatmennyiséget.

Erre tavaly nyáron egy közel 100 GB-os adathalmaz tette fel a koronát, aminél már az is nehézzé vált, hogy egyetlen gépen valósítsuk meg az elemzést. Ekkor elkezdtünk elosztott számítási rendszerek után keresgélni, melyeknek a legjelesebb képviselője a MapReduce paradigmára épülő Apache Hadoop, de alaposan megszenvedtünk a megoldással. Az elosztott számítási rendszerek közös jellemzője napjainkban, hogy csak programozói interfészt nyújtanak a funkciókhoz, így csak parancssoros futtatások és programozás árán tudtuk elvégezni a projektet. Rögtön felmerült bennünk az igény, hogy milyen jó lenne ezeket a funkciókat az adatbányászati szoftverek megszokott felületén elérni.

Közel 9 hónap fejlesztés után két hét múlva a RapidMiner éves konferenciáján mutatjuk be azt a kiterjesztést, amellyel a RapidMiner kényelmes felületén használhatjuk a legfontosabb Hadoop-alapú adatelőkészítő és modellező operátorokat. A fejlesztéseket főleg Makrai Gábor végezte, és a szoftver két héten belül béta státuszba ér. A hozzáférést folyamatosan nyitjuk majd meg a jelentkezők számára, hogy tudjuk kezelni a kezdeti funkció-igényeket és hibajelentéseket. Hozzáférésre a Radoop weboldalán lehet jelentkezni. További részletek a konferenciára beadott cikkben és a Radoop angol nyelvű blogjában találhatóak.