Technológia

A Databricks az adatlakóház részeként mutatja be az adatmegosztási protokollt

Az adatbázis feltalálója és kereskedelmi forgalmazója Apache Spark feldolgozó platform bejelentette a Delta Sharing nevű nyílt forráskódú projekt elindítását a Data + AI csúcstalálkozón.

A szállító a Delta Sharing-ot az „első nyílt protokollnak tekinti, amely valós időben biztosítja az adatok biztonságos megosztását a szervezetek között, teljesen függetlenül attól a platformtól, amelyen az adatok találhatók”.

Beletartozik a Delta Lake projektbe, amely ötvözi az data lake technológiát az adattárház attribútumokkal, és amelyet a vállalat 2019-ben nyílt konferenciáján, amelyet akkor Spark + AI Summit-nek hívtak, a saját Delta termékéből.

Kifejezésként:adat lakehouse”Van néhány pénzneme a Databricks-en kívül, vonzza az O’Reilly médiacsoport imprimaturáját, bár a beszállítóval együtt.

A Delta Sharing az ötödik nyílt forráskódú projekt, amelyet a Databricks indított el az Apache Spark, a Delta Lake, MLflow és Koalas, és a Linux Alapítványnak adományozzák.

Állítólag a Nasdaq, az ICE, az S&P, a Precise, a Factset, a Foursquare és a SafeGraph adatszolgáltatók, valamint az Amazon Web Services (AWS), a Microsoft, a Google Cloud és a Tableau adatszolgáltatók támogatják.

Matei Zaharia, a fő technológus és a Databricks társalapítója elmondta: „Az adatszolgáltatók számára ma a legnagyobb kihívás az, hogy adataikat könnyen és széles körben fogyaszthatóvá tegyék. Több tucat különféle adatátviteli megoldás kezelése az összes felhasználói platform elérése érdekében tarthatatlan. A valós idejű adatmegosztás nyílt, interoperábilis szabványa drámai módon javítja az adatszolgáltatók és az adatok felhasználói élményét.

“A Delta Sharing szabványosítja az adatok biztonságos cseréjét a vállalkozások között, függetlenül attól, hogy melyik tárolási vagy számítási platformot használják, és örömmel tölt el bennünket, hogy ezt az innovációt nyílt forráskódúvá tesszük.”

Joel Minnick, a Databricks marketing alelnöke a csúcstalálkozót megelőzően adott interjúban elmondta: „A tóparti ház új építőként jelenik meg az ügyfelek adatairól való gondolkodásában, mivel hozza adataikat és mesterséges intelligenciájukat. [artificial intelligence] kezdeményezéseket ugyanazon a platformon. ”

Azt mondta, IT-szakterületként ismertté válik, és szerepel rajta Az AWS re: Invent konferencia, amelynek középpontjában az Amazon Redshift áll.

Minnick egy friss blogot idézett Bill Inmon, gyakran a az adattárház atyja, mint a Data Lakehouse koncepció fontos érvényesítése. A blog a tavat az adatarchitektúra természetes evolúciójaként írja le. Inmon a Data + AI csúcstalálkozón beszél.

„A gépi tanulás és a mesterséges intelligencia-kezdeményezések során az adattárházak nem tehetnek értéket a strukturálatlan adatokból, a strukturált adatok mellett. És adat tavak sem. A tóparti ház [concept] tudomásul veszi, hogy adatainak túlnyomó része ma az adat-tóban landol, és az adatok nem rendelkeznek megbízhatósággal, teljesítmény-képességgel és irányítással ”- mondta Minnick.

“Az adat-tavak nagyszerű helyek az adatok elhelyezésére, de nem úgy vannak kialakítva, hogy sok egyidejű felhasználó analitikai terhelést futtasson” – tette hozzá. „Az adattárházak valóban nagy teljesítményűek, megbízhatóak és irányíthatók, de nem strukturálatlan adattípusok számára készültek, és általában saját tulajdonúak. Könnyebb egy adattavat feljebb vinni és irányítást hozni hozzá, mint egy adattárházat lehozni a kevésbé strukturált adattípusok kezeléséhez. “

Minnick elmondta, hogy a Delta Sharing termék értéke olyan szervezeteknél fektetett le, amelyek „nagyobb kérdéseket szeretnének feltenni” a kívülről származó adatok összegyűjtésével. “A kiskereskedők például meg akarják osztani az adatokat más kiskereskedőkkel és beszállítóikkal, és ezt nem könnyű megtenni” – mondta. „A vállalatokon belül is a különböző részlegeknek saját adatplatformjuk van. És ez nem csak [data in] hagyományos táblázatok, amelyeket a vállalatok meg akarnak osztani, de strukturálatlan adatok. ”

Minnick szerint a Delta Share megoldást kínált erre az adatmegosztási problémára. „Ebben nagy támogatást kaptunk az adatszolgáltatóktól, mint például a Nasdaq, a Standard and Poor’s és az AWS, valamint az adateszközök oldalától, mint a Microsoft, a Tableau, a Looker és a Qlik, hogy egy közös formátumot kapjunk, amely a megosztáshoz igazodik. adatokat az ügyfeleikkel ”- tette hozzá.

A protokoll állítólag közös szabványt hoz létre az SQL-ben használható összes adattípus, a vizuális elemző eszközök és a programozási nyelvek, például a Python és az R. megosztására. A Delta Sharing lehetővé teszi a szervezetek számára a meglévő nagyszabású adatkészletek megosztását a Apache parketta és a Delta Lake formátumok valós időben, másolás nélkül, és egyszerűen megvalósíthatók a Parkettet támogató meglévő szoftvereken belül.