Technológia

A Lakehouse koncepció célja az adat-tó és az adattárház egyesítése

Az adatlakóház – ez nem egy túlzottan dolgozó adatbázis-adminisztrátorok vagy adatkutatók nyári visszavonulása, hanem egy koncepció, amely megpróbálja áthidalni a adattárház és a adat tó.

Más szóval, az adatlakóház célja, hogy feleségül vegye az adattó rugalmasságát és viszonylag alacsony költségeit, az adattárházakban található vállalati elemzési képességek könnyű hozzáférhetőségével és támogatásával.

Ebben a cikkben megnézzük a az adatlakház jellemzői és adjon néhány tanácsot a beszállítóknak, amelyek hozzáférhetővé teszik.

A tó korlátai és a raktári gondok

Tegyük át az adat-tó és az adattárház legfontosabb jellemzőit, hogy világossá tegyük, hova illeszkedik az adat-tó ötlete.

Az adat-tavakat úgy tekintik, mint a legtöbb upstream helyet vállalati adatkezelés. Ez az, ahova a szervezet összes adata áramlik, és ahol többé-kevésbé nyers formátumban élhet, kezdve ettől strukturálatlan strukturált, képfájlok és PDF-fájlok adatbázisokba, XML-en keresztül, JSON, stb. Lehet, hogy keresés típusú funkcionalitás lehet, talán metaadatokon keresztül, és ad hoc elemzést végezhetnek az adattudósok.

A feldolgozási képességek valószínűleg nem kritikusak vagy optimalizálódnak az adott munkafolyamatokhoz, és ugyanez vonatkozik a tárolásra is.

Az adattárházak viszont a dolgok ellentétes szélsőségében vannak. Itt az adatkészletek – valószínűleg az adat-tóban végzett munka feltárási fázisai után – elérhetővé válnak a rendszeresebb és rutinszerű elemzésekhez.

Az adattárház csomagoltabb és feldolgozottabb formátumba helyezi az adatokat. A gyors és rendszeres hozzáférés érdekében feltárták, értékelték, megcáfolták és bemutatták, és szinte kivétel nélkül strukturált adatok.

Eközben optimalizálják a számítást és az adattárház-architektúrában történő tárolást a szükséges hozzáférési és feldolgozási típusokhoz.

A tó túloldalán a tóházig

Az adatlakóház megpróbálja áthidalni a szakadékot az adat-tó és az adattárház között. A tó nagy, amorf tömege számtalan formátummal és a napi használat hiányával, valamint a szűk, erősen felépített és viszonylag költséges adattárház között.

Alapvetően az data lakehouse ötlet látja a támogatás bevezetését SAV (atomitás, konzisztencia, elszigeteltség és tartósság) – tranzakciós folyamatok, amelyekben több fél képes egyidejűleg adatokat olvasni és írni. Lehetségesnek kell lennie a sémák kikényszerítésének és az irányítás biztosításának az adatok integritásával kapcsolatos érvelési módszerekkel is.

De a data lakehouse ötlet részben válasz a strukturálatlan (vagy félig strukturált) adatok növekedésére is, amelyek különféle formátumokban lehetnek, beleértve azokat is, amelyeket a mesterséges intelligencia (AI) és a gépi tanulás (ML) potenciálisan elemezhet ) eszközöket, például szöveget, képeket, videót és hangot.

Ez azt is jelenti, hogy különféle munkaterheléseket támogatnak. Ahol az adattárház változatlanul az adatbázisok használatát jelenti, az adattó az adattudomány, az AI / ML, az SQL és más elemzési formák helyszíne lehet.

Fő előny, hogy a legkülönbözőbb adatokhoz szélesebb körű eszközökkel – például Piton, R és gépi tanulás – és integrálva a vállalati alkalmazásokkal.

Hol lehet felfedezni az adatlakót

A Data Lakehouse ötletgazdája a Databricks, amely 1 milliárd dolláros támogatást nyert korábban ebben az évben. A Databricks közreműködik a nyílt forráskódú Delta Lake felhőadat-lakehouse-ban. Az elemzők olyan nagy finanszírozási kört láttak, mint a befektetők bizalma egy olyan megközelítésben, amelynek célja a nagy és változatos adathalmazokhoz való vállalati hozzáférés megkönnyítése.

Eközben a Databricks elérhető az Amazon Web Services (AWS) szolgáltatáson, míg a felhőóriás a Redshift adattárház termékét is tóparti építészetként pozicionálja, képes strukturált (relációs adatbázisok) és strukturálatlan (S3, Redshift) adatforrások között lekérdezni. A lényeg itt az, hogy az alkalmazások bármilyen adatforrást lekérdezhetnek az adattárház előkészítése nélkül.

A Microsoft Azure rendelkezik az Azure Databricks szolgáltatással, amely a Delta Lake motort és a Sparkot használja az alkalmazásprogramozási felület (API) támogatásával az SQL, a Python, az R és a Scala számára, valamint optimalizált Azure számítási és gépi tanulási könyvtárakkal.

A Databricks és a Google az év elején bejelentette elérhetőségét a Google Cloud Platform-on, valamint integrációt a Google BigQuery és Google Cloud AI Platformjával.

A tóparti játék másik szállítója a Hópehely, amely azt állítja hogy kifejezője legyen a kifejezésnek, és képes arra, hogy adat- és elemzési platformot biztosítson az adattárházakban és a kevésbé strukturált forgatókönyvekben.