Tároljuk-e le ezt az adatot?
Egy data scientist a címben szereplő kérdésre egy automatikus igennel szokott válaszolni – ha van valami adatunk, tároljuk le, mi ezen a kérdés.
És valóban, mi akadályoz meg minket ebben? Ha belegondolunk, mennyire olcsó ma már az adattárolás, a kérdés felmerülése elsőre furcsán is hathat. Többek előadásában láttam már visszaköszönni a mellékelt ábrát, és én is gyakran használom – azt mutatja meg, hogy az elmúlt 35 évben hogyan zuhant le egyetlen GB adattárolás éves költsége. A születésem környékén több mint egy millió dollárba került volna azt eltárolni, ami ma egy promóciós ajándéknak utánam dobott 8GB-os pendrive-on elfér. Bár sokat keresgéltem, de nem láttam 2015/2016-os adatokat, de az ábrán így is látszik, hogy az elmúlt években már bőven beestünk a 10 dollárcent alatti értékekhez, ennyibe kerül 1GB háttértár kapacitás manapság.
Mit is jelent ez? Azt, hogy ha az adatmennyiség nem extrém nagy, akkor egy átlagos nagyvállalatnál az adatok tárolásáról szóló meetingen résztvevő kollégák órabére valószínűleg jelentősen meghaladja a teljes tárolás költségét.
Mégis meg kell védenem azokat a szervezeteket, ahol nem minden adatot tárolnak, amire valaha rátaláltak vagy valaha birtokoltak. Mert csak egy szempont az, hogy egy ilyen adatot el kell tárolni, de van itt néhány más szempont is:
- Ha eltároltuk, akkor kinek lesz jogosultsága ezeket az adatokat olvasni? Egy nagyvállalati környezetben ennek eldöntése már nem annyira triviális, mint lementeni azt.
- Felmerül a kérdés, hogy ha tároljuk az adatot, akkor azt mennyire biztonságosan kell tenni. Nincs-e benne valami olyan érzékeny adat, aminek védelme extra költséget igényel.
- Sokszor olyan ügyféladat is lehet az adathalmaz mélyén, amire törlési kényszer van törvényi kötelezettségek miatt. Így a felelőtlenül törölt adatok a végén akár több fejfájást is okozhatnak, mint eredetileg gondoltuk.
Jól látható tehát, hogy a “mindent tároljunk” szabály inkább kihívásokat hoz egy hagyományos óriáscég számára. Az elv bevezetését én csak olyan helyen láttam, ahol (1) az ügyfelekhez köthető személyes adatok kezelése egyszerűsítve volt, (2) ahol minden alkalmazott bátran hozzáférhet (pénzügyi adatok kivételével) minden adathoz, azaz nagyon egyszerű jogosultsági szabályok voltak adathozzáférés szempontjából, (3) és ahol tipikusan rugalmasan bővíthető adattárolási infrastruktúra (pl. AWS) állt rendelkezésre. Ha ezt a három szempontot összeadjuk, könnyű kitalálni, hogy az innovatív, startup világ felöl közelítő techcégek eshetnek bele csak ebbe a körbe.
Pedig valójában minden cégnél van létjogosultsága a “tároljunk mindent” elv feltételeit megteremteni. Ma egyre több iparágban az adatokban rejlő lehetőségek jelentik az egyik legfontosabb feltételét annak, hogy hosszú távon versenyképesek legyenek. Az adatok kiaknázásához pedig – nem meglepő módon – már eltárolt adatok is szükségesek szoktak lenni.