Technológia

A számítástechnikai tárolás felé vezető út

Az informatikai ipar mindig törekszik a szűk keresztmetszetek leküzdésére, és az egyik legnagyobb az input / output (I / O). Legyen szó memória sávszélességről, hálózati sávszélességről vagy arról, hogy milyen gyorsan frissülhet egy nagy felbontású képernyő, az a sebesség, amellyel az adatokat a CPU (központi processzor vagy mikroprocesszor) külső eszközre másolhatja, korlátozza az általános teljesítményt.

A dinamikus RAM (generált hozzáférésű memória) új generációi javítják az I / O-t a CPU és a számítógép fő memóriája között. A GPU-k (grafikus processzorok) átveszik a grafikus feldolgozást, csökkentve a grafikák megjelenítéséhez szükséges I / O-t, miközben jelentősen növelik a teljesítményt is, különösen a számítógépes játékokban.

De a GPU hatalmas ereje új alkalmazási területekhez is vezetett, ahol erősen párhuzamos számításokra van szükség. A GPU felgyorsítja a gépi tanulást és a következtetési motorokat a mesterséges intelligencia (AI) által vezérelt döntéshozatalhoz.

Van-e eset a raktárban lévő adatfeldolgozásra?

A szoftver adatokon fut, és az adatokat gyakran „új olajnak” tekintik. Tehát van értelme az adatokat a lehető legközelebb állítani a feldolgozás helyéhez, hogy csökkentse a teljesítményre éhes feldolgozási feladatok késleltetését. Egyes architektúrák nagy darab memória-szerű tárhelyet igényelnek, amelyek a számítási funkció közelében helyezkednek el, míg ellenkezőleg, egyes esetekben értelmesebb a számítást a tömeges tárolóhoz közelebb helyezni.

Az adatok növekedése miatt az iparban néhányan azt kérdezték, hogy a tárolóeszközök a GPU-val analóg módon használhatók-e az adatfeldolgozási feladatok felgyorsítására. Ez a számítógépes tárolás területe, egy kifejezés, amelyet szoftverek és hardverek kombinációjának leírására használnak a meglévő számítási, memória- és tárolási korlátok kiküszöbölésére és enyhítésére az alkalmazás teljesítményének és / vagy az infrastruktúra hatékonyságának javítása érdekében.

Ez év elején Antonio Barbalace, az Edinburgh-i Egyetem Számítástechnikai Rendszerek Építészeti Intézetének vezető oktatója, cikket jelentetett meg, a Microsoft Research céggel közösen írva, Számítási tárolás: hol vagyunk ma ?, a számítási tárolás jelenlegi állapotát vizsgálva.

– Tehetünk valamit a tárolással? – mondja, rámutatva, hogy a szervezetek nagy mennyiségű adatot fektetnek be, amelyeket aztán feldolgozni kell. “Például az adatbázisok rendkívül nagyok” – teszi hozzá. „Adatokat másolnak a tárolóeszközökről a RAM-ban történő feldolgozásra. Nagyon sok időbe telik az adatbázis memóriába mozgatása. ”

Ezért van egy érvényes eset az adatbázis-lekérdezés futtatására a tárolóeszközön, hogy elkerüljük az I / O szűk keresztmetszetet, amikor az adatokat oda-vissza másoljuk a tárolóeszközről a számítógép RAM-jára.

Néhány feladat már fut a fizikai eszközök, például a lemeztömbök kezelésére használt tárolóvezérlőkön – mondja Matt Armstrong-Barnes, a HPE műszaki igazgatója. “A deduplikációt, a tömörítést és a dekompressziót már a tároló tömbök kezelik” – mondja. Az ilyen felhasználások nincsenek besorolva számítástechnikai tárolóként, de szemléltetik, hogy a tárolóvezérlők egyre intelligensebbek.

Hardveres gyorsítás

De a Barbalace számára a számítástechnikai tárolásnak magasabb törekvései vannak. Szerinte egy számítógépes tárolóeszköz egyszerű műveleteket hajthat végre az adatokon, hogy csökkentse a CPU-nak elküldendő adatok mennyiségét. A szélén végzett adatfeldolgozás, például a tárgyak internete (IoT) eszközön, az egyik lehetséges alkalmazási terület, ahol az érzékelő adatait közvetlenül a tárolóeszközre továbbítják. Ezután a szélső eszköz CPU-ját riasztják, amikor rendellenesség van, vagy rendszeres időközönként feltölti az érzékelő adatait a felhőbe.

Egyes gyártók intelligens SSD-eszközöket fejlesztettek ki alkalmazásspecifikus integrált áramkörökön (ASIC) alapulva, hogy felgyorsítsák a rögzített funkciókat, például a videoátkódoló algoritmusokat, amelyek közvetlenül az eszközökön futnak.

Egy másik lehetőség a terepi programozható kaputömbök (FPGA) használata a rögzített funkciók felgyorsítására. A Xilinx kifejlesztett egy FPGA alapú platformot, amelyet a Samsung SmartSSD számítástechnikai tárolóeszköze használ.

A cég 2021 negyedik negyedévében 20% -kal növelte adatközpont-üzletágát, és a tárolás az egyik növekedési terület volt. A Xilinx 2021-es negyedik negyedévi bejelentései azt mutatják, hogy az éves bevétel növekedését a hiperskála szerinti ügyfelek általi elfogadás ösztönzi a számítási, hálózati és tárolási munkaterhelések között.

“A Xilinx szoros kapcsolatot tart fenn a hiperkalkulátorokkal, hogy megoldásokat nyújtson az AI számításhoz, a video gyorsításhoz, az összeállítható hálózatépítéshez és a számítástechnikai tároláshoz” – mondta a vállalat 2021 negyedik negyedéves pénzügyi kimutatásában.

Egyik partnere, a Lewis Rhodes Labs kínálja, amit kibernetikus kriminalisztikai kutatásnak tekint a tárolóeszközökben. Ez egy reguláris kifejezésű keresőmotor, amelyet a vállalat szerint optimalizáltak anomáliák felderítésére. A Lewis Rhodes Labs szerint az 24 SmartSSD-vel felszerelt FPGA-gyorsított készülék 96 TB-os tárhelyre képes keresni 60 Gbps sebességgel, kevesebb mint 25 perc alatt eredményezhet eredményt.

Az NGD Systems egy másik vállalat, amelyet gyakran emlegetnek a számítástechnikai tárolással kapcsolatos beszélgetésekben. Az ARM processzoron alapuló intelligens SSD-t kínál, ami azt jelenti, hogy termékei használhatják a Linux operációs rendszert, amelyen általánosabb célú algoritmusok futtathatók.

2020 februárjában az NGD Systems 20 millió dolláros C sorozatú finanszírozási kört hirdetett meg, amely támogatja és felgyorsítja annak állítását, amely állítása szerint a világ első NVMe (nem felejtő memória expressz) számítógépes tároló meghajtója. Az alkalmazások területei közé tartozik az AI futtatásának és a gépi tanulásnak az eszközben, ahol az adatok találhatók.

A Booking.com ezt a technológiát a saját adatközpontjaiban használja. A teljesítmény és az írás késleltetése az adatközpontok legfontosabb mutatói az utazási weboldal adatközpontjaiban.

Peter Buschman, a Booking.com terméktulajdonosa, tárolója a következőket mondja: „Megállapítottuk, hogy az NGD Systems meghajtók a legjobbak a kategóriában a jellemzők ezen kombinációja szempontjából. Különösen a késleltetési idő állandóan alacsony volt egy ilyen kicsi áramfelvételű eszköznél. Mivel a hatalom, nem pedig a tér, a legnagyobb korlát és a környezeti hatások egyre növekvő aggodalomra adnak okot, ez a technológia nagy ígéreteket támaszt a következő generációs adatközpontok környezetében való felhasználásra.

A számítástechnikai tárolás nem csak arra korlátozódik, hogy intelligens funkcionalitást adjon közvetlenül az SSD-hez. Ahogy GPU-val felszerelt grafikus kártyákat használnak a párhuzamos számítástechnikára optimalizált alkalmazások felgyorsítására, egy számítógépes alaplap bővítő kártyáját is be lehet dugni a PC alaplapjába bizonyos adatfeldolgozási funkciók felgyorsítása érdekében.

Számítógépes tárolás programozása

A Microsoft Research társszerzőjével írt cikkében Barbalace megvizsgálta, hogyan lehet az alkalmazásokat adaptálni használja ki a számítási tárhely előnyeit. Szerinte sok algoritmus sorolható az adatfolyamok közé. Ilyen például az AWS Lamda, amelyet az adatfolyamok feldolgozására használnak. “Egy alkalmazás lebonthatja az adatokat, hogy több részre áramoljanak” – mondja. “Ezek egyike hozzárendelhető a számítógépes tároláshoz.”

Például egy mesterséges intelligencia-munkaterhelés felosztható úgy, hogy egyes részek közvetlenül a számítási tárhelyen futjanak, míg mások a CPU-t használják. A nagymértékben elosztott nagy teljesítményű számítási munkaterhelések, például az időjárás-előrejelzés, szintén képesek lehetnek a számítástechnikai tárhely előnyeinek kihasználására. “A kérdés az, hogy az adatokat hatékonyabban lehet-e feldolgozni egy számítástechnikai tárolóeszközön” – mondja Barbalace.

Ez vonatkozik mind a helyszíni, mind a felhőben tárolt adatokra. Az Amazon Web Services (AWS) nemrégiben bemutatott példája bemutatja, hogyan lehet az adatfeldolgozást a hatékonyság növelése érdekében közelebb vinni a tárolás helyéhez. Bár nem szigorúan számítási tárolás, a 2020 márciusában közzétett blog, David A Green és az AWS építészei, David Green és Mustafa Rahimi megvitatták, hogyan lehetne az S3 felhőtároló S3 Select nevű szolgáltatását felhasználni SQL-lekérdezések közvetlen végrehajtására az Amazon felhőben tárolt adatokon.

Azt írták: „Az ügyfelek adatokat tölthettek fel közvetlenül az S3-ba az AWS SFTP segítségével [secure shell file transfer protocol] majd lekérdezi az adatokat az S3 Select használatával. Ezt a munkát automatikusan kiválthatja egy AWS Lambda végrehajtás egy új CSV után [comma separated value] objektum feltöltése az S3-ba S3 eseményértesítésekkel történik. Az adatok keresése az S3 Select segítségével potenciálisan időt és pénzt takaríthat meg az adatok más módon történő fésülésére. “

A Barbalace és a Microsoft két másik lehetőséget is felölel a számítási tárolás programozására. A megosztott memória egy olyan technika, amelyet gyakran használnak a többprocesszoros hardverekben, hogy a különböző CPU-k ugyanazon az adatkészleten működjenek. Ez a technika a számítástechnikai tárolásra is alkalmazható, ha a rendszerszoftvert ennek megfelelően módosítják.

A kliens / szerver számítástechnika a számítógépes tárolás harmadik kategóriája, amelyet Barbalace a kutatásában azonosít. Az NGD Systems és a Kaliforniai Egyetem és a Teheráni Egyetem kutatóinak tanulmánya, amelyet a Journal of Big Data 2019-ben, megvitatták, hogyan épülhet a számítási tárolás az adatok tárolására és feldolgozására vonatkozó, nagyon elosztott megközelítésre, amelyet a Hadoop MapReduce az adat tárolására és feldolgozására használt DataNode-jaival használ.

“A Hadoop-kompatibilis számítástechnikai tárolóeszközök egyszerre játszhatják el a hagyományos Hadoop DataNodes gyors tároló egységeinek és a raktárban lévő feldolgozásra képes DataNodes mindkét szerepét, ami a feldolgozási lóerő növekedését eredményezi” – írták a jelentés szerzői.

Kihívások és jövőbeli irány

Még mindig a számítógépes tárolás kezdeti napja. A CCS Insight vezető elemzője, Bola Rotibi úgy véli, hogy az egyik kihívás az, hogy a tárolók menedzserei hogyan fejlődnek programozókká. “A tároló emberek nem nagyon programoznak” – mondja.

A HPE Armstrong-Barnes nincs meggyőződve arról, hogy az intelligens SSD-k és a számítási háttértár ugyanolyan sikert ér el, mint a GPU a mainstream számítástechnikában. “Az olaj nem nagyon keveredik össze, és ez a kihívás, amikor a különböző helyekről származó adattudományi terheléseket összeadjuk” – mondja.

A Barbalace számára az egyik terület, amely továbbra is megoldatlan, a többlakásos bérlet, mivel és amikor a nyilvános felhőszolgáltatók igény szerint biztosítják a számítógépes tárolást. Mivel az adatokat a nyilvános felhőben több tárolókészleten tárolják, előfordulhat, hogy a számítási tárolásnak egy adott adathalmazon kell futnia, amely felosztható különböző fizikai szerverek között.

E kihívások ellenére az emberek a számítógépes tároláson gondolkodnak az adatmennyiségek exponenciális növekedése miatt. “Ma az adatokat bizonyos módon tárolják pusztán a CPU-architektúrák fejlődésének köszönhetően” – mondja Adrian Fern, a Prizsm Technologies alapítója és CTO-ja. “De ez nem alkalmas a célra, amikor hozzáférünk a most rendelkezésre álló adatmennyiségekhez és az exponenciális növekedéshez, amelyet a kvantumkor közeledtével tapasztalunk.”

Tehát bár a számítógépes tárolásnak még korai napja van, a kvantumszámítás fő iránya szintén a fejlődés korai szakaszában van. Mivel azonban a számítástechnika e két területe fejlődik, szükség lehet a számítástechnikai tárolásra, hogy lépést tarthassunk a egy kvantum számítógép étvágyának feldolgozása.