Sztuczna inteligencjaInfrastrukturaPREZENTACJA PARTNERA
IBM Storage – wydajne, elastyczne i bezpieczne przechowywanie danych wykorzystywanych w modelach AI
Advertorial
Dynamiczny rozwój sztucznej inteligencji, który od dwóch lat skutecznie rozgrzewa rynek, spowodował silny wzrost fali projektów wykorzystujących tę technologię. Wiele organizacji inwestuje w procesory graficzne, koncentrując się na mocy obliczeniowej niezbędnej do sprawnego przetwarzania danych. Wszystko po to, aby zyskać przewagę w szkoleniu, wnioskowaniu oraz rozwijaniu mniejszych lub większym modeli AI. Bywa jednak, że firmy nie dostrzegają przy tym szerszego obrazu swoich potrzeb, dotyczących rozwiązań do przechowywania danych. Nawet najbardziej wydajny serwer niewiele zdziała, jeśli nie będzie stał za nim odpowiednio dostępny, elastyczny oraz bezpieczny storage.
Organizacje, które chcą pozostać konkurencyjne wybierają sztuczną inteligencję jako technologię, która przede wszystkim ma zapewnić im większą efektywność operacyjną, ale także kształtować ich biznes w przyszłości. Jak wynika z „Monitora Transformacji Cyfrowej Biznesu 2024”, opracowanego przez KPMG we współpracy z Microsoft, w tym roku 28% polskich firm wdrożyło narzędzia wykorzystujące AI, a kolejne 30% planuje ich implementację w najbliższych miesiącach. Przedsiębiorstwa, które zaczynają wdrażać i wykorzystywać sztuczną inteligencję, zdają sobie sprawę, że będą potrzebować dostępu do ogromnej mocy obliczeniowej i sprawnych sieci, ale niekoniecznie są świadome wymagań dotyczących pamięci masowych.
„Zainwestowanie w serwer Nvidii czy nawet w kartę GPU to niestety jeszcze nie wszystko. Jeśli storage będzie tym wąskim gardłem, w żaden sposób nie przyśpieszymy trenowania modeli. Nie wykorzystamy bowiem pełnego potencjału kart graficznych, a tym samym nie zwrócimy dokonanej inwestycji” – podkreśla Maryia Shulhach, Client Technical Specialist IBM.
Wyzwania i obietnice
Storage znajduje się często dopiero na drugim planie potrzeb, choć tworzone przez firmy narzędzia i zaawansowane aplikacje trzeba zasilić ogromną ilością danych. Skuteczne wykorzystanie AI wymaga skorelowania danych ustrukturyzowanych, znajdujących się w systemach biznesowych, z całymi zbiorami danych nieuporządkowanych (np. tekstów, wideo, nagrań audio itd.). Poza tym, w miarę jak modele AI się skalują, ilość generowanych i konsumowanych przez nie informacji przyrasta wykładniczo. Wzrost ten stwarza spore wyzwania dotyczące pojemności pamięci masowej. Sytuacja ta występuje szczególnie w przypadku współistnienia wspomnianych danych ustrukturyzowanych i nieustrukturyzowanych.
Obecnie coraz mniej mówi się już o tym, aby inwestować środki finansowe oraz czas na porządkowanie zbiorów danych nieustrukturyzowanych. Dziś potrzebne są rozwiązania pozwalające zebrać dane wszelkich typów na jednej platformie, a także zapewnić szybki i sprawny dostęp do nich – właśnie na potrzeby AI. Organizacje świadome tych potrzeb coraz częściej szukają więc rozwiązań, mających zagwarantować im nie tylko niezawodność, ale także wydajność i skalowalność potrzebną do przetwarzania ogromnych ilości danych.
Niezbędne jest także zachowanie odpowiednio wysokiej efektywności pamięci masowych. Wspomniana konsolidacja danych oznacza bowiem mniejszą złożoność środowiska IT i utrzymania, co przekłada się bezpośrednio na niższe koszty. Nie tylko te operacyjne, ale również związane bezpośrednio z AI. Na to nakłada się dodatkowo łatwość integracji takich rozwiązań storage’owych z chmurą obliczeniową – bardzo często bowiem firmowa sztuczna inteligencja napędzana jest właśnie zasobami występującymi w chmurze publicznej, a potencjalnie potrzebuje sięgać do danych zbieranych lokalnie. Ostatnią kwestią, również bardzo ważną – zwłaszcza w czasach narastających cyberzagrożeń – jest oczywiście bezpieczeństwo danych oraz odporność całego środowiska.
Naprzeciw tym wszystkim wyzwaniom, a także obietnicom wychodzi oferta firmy IBM. W portfolio spółki znajdują się bowiem dwa innowacyjne i skuteczne rozwiązania: IBM Storage Scale i IBM Storage Ceph.
Wydajna platforma IBM Storage Scale
IBM Storage Scale System to wysokowydajna platforma sprzętowo-aplikacyjna, dedykowana przede wszystkim dla tych organizacji, którym zależy na zbudowaniu globalnej platformy danych dla najbardziej wymagających obciążeń sztucznej inteligencji. Należy jednak dodać, że komponenty aplikacyjne IBM Storage Scale można stosować również z myślą o zastosowaniach analitycznych, przetwarzaniu HPC, środowiskach Big Data i Data Lake, a także jako aktywne archiwum. Elementem tej platformy jest bowiem oprogramowanie przeznaczone dla nieustrukturyzowanych danych zgromadzonych w dużych zbiorach, w wielu lokalizacjach, w tym środowiskach pamięci masowej innych niż IBM.
Rozwiązanie to wspiera protokoły plikowe, blokowe i obiektowe oraz te dedykowane do współpracy z kartami graficznymi (GDS – GPU Direct Storage). Może być wdrażane na wielu platformach sprzętowych. Przykładowo, serwerach IBM Power, mainframe IBM zSystem, bądź urządzeniach innych dostawców – w tym na serwerach x86. Może też działać na kliencie POSIX opartym na architekturze ARM, ale także w maszynach wirtualnych czy na platformie Kubernetes. Zapewnia również wyjątkową wydajność infrastruktury GPU – w tym obsługę technologii Nvidia GPUDirect Storage.
„IBM Storage Scale jest rozwijany od 1998 roku i można powiedzieć, że kreuje standard rynkowy. Potwierdza to zresztą firma Nvidia, publikując dostępne dla wszystkich rankingi rozwiązań storage rekomendowanych pod AI. Na ten moment IBM jest w nich liderem” – mówi Marcin Sołtysiak, Senior Brand Technical Specialist w IBM.
Dwie wersje IBM Storage Scale System
Firma IBM oferuje Storage Scale System w dwóch wersjach – IBM Storage Scale System 6000 oraz IBM Storage Scale System 3500. Tę pierwszą zaprojektowano w taki sposób, aby zapewniała wysoką skalowalność, nawet do poziomu tysięcy węzłów i petabajtów pojemności. Oferuje ona przepustowość do 310 gigabajtów na sekundę (GB/S) przy niskim opóźnieniu, do 13 milionów IOPS z poziomem wydajności Hyper-Store NVMeoF, a także do 3,4 PBe efektywnej pojemności w standardowej przestrzeni rackowej 4U. Jest więc przeznaczona dla najbardziej wymagających organizacji. Wersja IBM Storage Scale System 3500 ma zbliżoną gamę możliwości, tyle tylko, że zapewnia mniejszą pojemność.
„Mamy tu dwie iteracje. Wersję ISS 3500 można wyposażyć w 12 lub 24 dyski. W przypadku modelu ISS 6000 mamy natomiast trochę większe możliwości – 24 lub 48 dysków. Jeśli mówimy natomiast o pojemnościach, to pod ruch GPU czyli sztucznej inteligencji, może mieć w tej mniejszej wersji ok. 1 PB, a w tej większej odpowiednio 2 PB” – tłumaczy Maryia Shulhach.
Rozwiązania te w pełni wspiera automatyczny tiering danych – obiektowych, blokowych i innych – na różne, tańsze nośniki, w tym taśmy. Jest to istotna funkcjonalność, biorąc pod uwagę wymogi UE określone w AI Act, a dotyczące długoterminowego przechowywania danych na potrzeby trenowania modeli AI.
Poza automatycznym tieringiem większość konkurencji IBM nie może się też pochwalić mechanizmem Erasure Coding, który odpowiada za zapewnienie wysokiego poziomu bezpieczeństwa. Ponadto rozwiązania IBM Storage Scale wykorzystują m.in. niezmienialne migawki danych w trybie WORM (Safeguarded Copy) czy natywne szyfrowanie. Mogą również zostać wyposażone w samoszyfrujące dyski – w standardzie AES-256 oraz używające algorytm Quantum Safe Cryptography. Zapewniają także wsparcie dla MFA, separacje obowiązków oraz integrację z rozwiązaniami SIEM i SOAR.
IBM FlashCore Module 4 – mocne wsparcie bezpieczeństwa
W I półroczu 2024 roku do platformy IBM Storage Scale wprowadzono nowe moduły IBM FlashCore Module 4 (FCM4), które – wykorzystując AI – jeszcze bardziej poszerzają zakres bezpieczeństwa w tym rozwiązaniu. FCM4 wspiera skuteczne zarządzanie ryzykiem poprzez zaawansowane funkcje szyfrowania, kompresji i analizy danych. Moduł ten umożliwia monitorowanie i analizę operacji wejścia/wyjścia w czasie rzeczywistym. Pozwala to szybko wykrywać i reagować na potencjalne zagrożenia.
„Moduły FCM posiadające zaszytą w sobie sztuczną inteligencję, stosowane są przez IBM już od 6 lat. Kolejna, czwarta ich generacja pomaga zwalczać ataki ransomware. Dzięki zaawansowanym algorytmom, system natychmiast je wykrywa i reaguje na nie, minimalizując ryzyko utraty danych oraz przerw w działaniu. Co istotne, funkcjonalność ta realizuje wymagania dyrektywy NIS2 dotyczące szybkiego wykrywania i raportowania ataków cybernetycznych” – wskazuje Marcin Sołtysiak.
Z kolei bezpieczne kopie odizolowane (SafeGuardCopy) umożliwiają szybkie przywrócenie systemu do stanu sprzed ataku, zapewniając ciągłość działania. One także realizują wymagania NIS2 dotyczące przechowywania zapasowych kopii danych, co jest kluczową sprawą dla spełnienia standardów cyberbezpieczeństwa.
Moduły FCM4 i wykrywanie zagrożeń ransomware
- FCM4 oblicza entropię (oszacowanie losowości) i zmianę kompresji przy każdym IO i dla każdego IO.
- FCM4 przechowuje statystyki dotyczące każdego IO, takie jak rozmiar bloku, LBA i operacje odczytu/zapisu.
- FCM 4 przy pomocy dwóch dedykowanych rdzeni RISC przetwarza wymienione wyżej informacje.
- Wspomniane informacje są statystycznie podsumowane w stosunkowo małej paczce informacji dla każdego wolumenu (LUN).
- Podsumowania te przesyłane są co dwie (2) sekundy do mechanizmu wnioskowania w rozwiązaniu Storage Virtualize.
Uniwersalna pamięć obiektowa IBM Storage Ceph
IBM Storage Ceph to narzędzie rozwijane poprzednio przez firmę Red Hat, a przejęte przez IBM i wspierane przezeń w wersjach open source oraz enterprise. Podobnie jak IBM Storage Scale, jest to platforma pamięci masowej, konsolidująca blokową, plikową i obiektową pamięć masową.
„IBM Storage Ceph nie jest natomiast rozwiązaniem typu appliance. To uniwersalne rozwiązanie aplikacyjne, wspierające zastosowania związane z przechowywaniem danych obiektowych, budową systemów analitycznych czy platform Data Lake dla nowej generacji obciążeń AI” – wskazuje Andrzej Gładysz, wiceprezes Averbit, partnera IBM, specjalizującego się we wdrażaniu rozwiązań storage.
„Jest to rozwiązanie dedykowane raczej do mniejszych modeli AI. Tych o mniejszych wymaganiach związanych z wydajnością” – dodaje Maryia Shulhach.
IBM Storage Ceph działa na standardowym sprzęcie x86. Jest masowo skalowalnym rozwiązaniem zdolnym do obsługi petabajtów danych oraz dziesiątek miliardów obiektów. Platforma ta ma zadanie pomóc wyeliminować silosy danych i zapewnić doświadczenie podobne do chmury, zachowując jednak poziom kosztów oraz suwerenność danych taką, jak w lokalnej infrastrukturze IT.
Platforma IBM Storage Ceph nadaje się zwłaszcza do przechowywania danych aplikacyjnych. Dostęp do nich można uzyskać za pomocą protokołów blokowych (w przypadku danych strukturalnych) i za pomocą interfejsów API REST zgodnych z AWS S3 (w przypadku danych niestrukturalnych). Dzięki temu Storage Ceph jest optymalny zarówno do przechowywania aplikacji, jak i jako magazyn zaplecza dla data lakehouse. Rozwiązanie IBM Storage Ceph obsługuje również NVMe/TCP, co czyni go konkurencyjną alternatywą w wielu zwirtualizowanych środowiskach.
Warto też podkreślić kwestie bezpieczeństwa tego rozwiązania. IBM Storage Ceph posiada funkcjonalność object lock, szyfrowanie FIPS 140-2 Cryptography, a także wspiera szyfrowanie na poziomie serwera.
Platformę IBM Storage Ceph zaprojektowano w sposób, który zaspokaja potrzeby zarówno małych, jak i dużych przedsiębiorstw, które poszukują skalowalnych oraz bezpiecznych systemów. Będzie to właściwe rozwiązanie zwłaszcza dla tych firm, które potrzebują dostosować swoje zasoby do dynamicznie zmieniających się potrzeb biznesowych. Możliwość korzystania z IBM Storage Ceph jako zaplecza dla rozwiązań chmurowych i ułatwiona integracja z różnymi usługami pretenduje to rozwiązanie do wykorzystania chociażby w rozwijających się e-sklepach.