Sztuczna inteligencjaInfrastrukturaPREZENTACJA PARTNERA
Rozwiązania IBM Storage pomagają budować środowiska danych na potrzeby AI
Executive ViewPoint
Z Andrzejem Gładyszem, wiceprezesem zarządu firmy Averbit rozmawiamy o: aktualnych trendach na rynku storage; specyfice rozwiązań pamięci masowych IBM dedykowanych dla projektów AI – w tym IBM Storage Scale, IBM Storage Ceph oraz IBM Fusion – a także o kwestiach, na które warto zwrócić uwagę na etapie planowania środowiska danych na potrzeby wykorzystania AI.
Jakie są dziś główne trendy kształtujące rynek rozwiązań klasy storage? Jakie zmiany przyniosła tu popularyzacja usług publicznej chmury obliczeniowej?
Kilka lat temu mieliśmy na rynku wielki boom na chmurę, w efekcie którego wieszczono już powolny koniec klasycznej infrastruktury IT – wszyscy mieli bowiem stopniowo migrować do chmury. Tymczasem dane sprzedażowe dotyczące rynku storage wskazują na około dwucyfrowy wzrost rok do roku. Rzekome pogłoski o śmierci infrastruktury okazały się być więc mocno przesadzone i nieprawdziwe.
Dodatkowo, rozwój sztucznej inteligencji i związanych z nią projektów oznacza, że organizacje będą potrzebowały bardzo konkretnych, elastycznych i wydajnych rozwiązań do przechowywania danych – klasyczne macierze blokowe nie obsłużą przecież takich obciążeń. Ponadto, rozwiązania te będą również musiały spełniać wszelkie normy wymagane przez UE – jak choćby ogłoszony kilka miesięcy temu AI Act. Sztuczna inteligencja jest więc „gamechangerem”, który na pewno będzie sprzyjał firmom dostarczającym infrastrukturę IT.
Rozwój sztucznej inteligencji i związanych z nią projektów oznacza, że organizacje będą potrzebowały bardzo konkretnych, elastycznych i wydajnych rozwiązań do przechowywania danych.
Która z technologii składowania danych jest postrzegana jako najlepiej przystająca do typowych potrzeb biznesowych?
Mniej więcej od 3 lat dominującym trendem – a choćby z racji cen – w zasadzie już nawet standardem, który mówiąc kolokwialnie, trafił już pod strzechy, są pamięci typu flash. Nie przypominam sobie rozwiązania macierzowego, wdrożonego przez Averbit w ciągu ostatnich dwóch latach, które nie byłoby oparte na technologii all-flash.
Od ok 4 lat IBM oferuje rozwiązanie FlashCore Module czyli napędy flash, które korzystają z protokołu NVMe, oraz szybkiej pamięci NAND do zapewnienia wysokiej przepustowości. Rozwiązania te mają po pierwsze, bardzo wydajne mechanizmy kompresji (w optymalnych warunkach nawet 3:1), a po drugie, są atrakcyjne cenowo.
Dyski obrotowe można wykorzystywać jeszcze pod backup – a więc do danych zimnych, z których nie ma potrzeby często korzystać – albo do naprawdę bardzo małych i tanich rozwiązań. Wszystkie pozostałe potrzeby adresują już zazwyczaj nośniki typu all-flash. Będą się one rozwijały w stronę coraz bardziej pojemnych modułów dysków flashowych oraz bardziej wydajnych mechanizmów kompresji i deduplikacji danych. Taką ścieżkę wymusza rynek. Z jednej strony mamy bowiem coraz więcej danych, a z drugiej, następuje stopniowe upowszechnienie sztucznej inteligencji. Tymczasem, aby projekty AI dobrze funkcjonowały, muszą powstawać gigantyczne słowniki, zbiory danych, które będą te rozwiązania zasilały.
Duże korporacje, po 3-4 latach obsługi ich danych w chmurze, zaczynają ponownie migrować swoje zasoby danych na rozwiązania on-premise. Okazało się bowiem, że rozwiązania chmurowe w dłuższym, kilkuletnim okresie zaczęły być bardzo kosztowne.
Pod kątem obciążeń związanych z AI niezbędne stanie się też dostosowanie, przykładowo, całej architektury pamięci masowych w centrach danych. Jakie trendy można tu zaobserwować?
Jeśli chodzi o zabezpieczenie obsługi projektów AI na poziomie infrastruktury centrów danych, to ten temat w Polsce dopiero jest przed nami – podobnie, jak projekty AI naprawdę dużej skali.
Obserwujemy natomiast inny ciekawy trend – otóż duże korporacje, po 3-4 latach obsługi ich danych w chmurze, zaczynają ponownie migrować swoje zasoby danych na rozwiązania on-premise. Okazało się bowiem, że rozwiązania chmurowe w dłuższym, kilkuletnim okresie zaczęły być bardzo kosztowne.
Firmy coraz częściej rozpoczynają więc budowę własnych centrów danych lub decydują się na kolokację, aby lokalnie przechowywać swoje dane i tam tworzyć własne rozwiązania chmur prywatnych lub hybrydowych. Owszem, organizacje te będą nadal korzystać z mechanizmów chmurowych oferowanych przez znanych dostawców rozwiązań chmurowych, ale zbudują na nich prywatną chmurę, która fizycznie będzie usadowiona na ich własnym sprzęcie.
IBM ma w swej ofercie modele, które mogą być wdrożone jako usługa chmurowa, ale również na sprzęcie posiadanym przez klienta lub jako appliance. Są to rozwiązania ISS 3500 i ISS 6000 przeznaczone właśnie dla wysoko wymagających środowisk AI lub HPC. Trzy główne aspekty, które przemawiają za tymi rozwiązaniami to: wydajność, elastyczność i bezpieczeństwo.
A co ze szkoleniem modeli AI? Skoro nie wszystkie organizacje chcą lub mogą korzystać z chmury obliczeniowej w tym zakresie, to czy typowe rozwiązania pamięci masowych zaspokajają te potrzeby zarówno, jeśli chodzi o wydajność i pojemność? W jaki sposób na tym tle wyróżniają się rozwiązania pamięci masowych IBM, które na polskim rynku oferuje Averbit?
IBM ma w swej ofercie modele, które mogą być wdrożone jako usługa chmurowa, ale również na sprzęcie posiadanym przez klienta lub jako appliance. Są to rozwiązania ISS 3500 i ISS 6000 przeznaczone właśnie dla wysoko wymagających środowisk AI lub HPC. Trzy główne aspekty, które przemawiają za tymi rozwiązaniami to: wydajność, elastyczność i bezpieczeństwo.
Jeśli chodzi o wydajność, to rozwiązania te wywodzą się z IBM System Scale, rozwijanego od 1998 roku systemu, który budowany był na potrzeby centrów danych dla równoległego przetwarzania plików. Został on zaimplementowany na wspomnianych rozwiązaniach IBM i zapewnia ich wysoką wydajność. Warto również dodać, że w modelach tych zastosowano też rozwiązania ze środowiska IBM Mainframe, które nadal są najbardziej wydajną platformą jaką kiedykolwiek stworzono.
Jeśli chodzi o elastyczność, to IBM System Scale, a także rozwiązania ISS 3500 lub ISS 6000, w pełni wspierają tiering danych – zarówno obiektowych, blokowych, jak i jakichkolwiek innych – na różne nośniki, łącznie z taśmami. Przykładowo, jeśli organizacja będzie potrzebowała przechowywać dane długoterminowe, choćby na potrzeby trenowania modeli AI – co będzie wkrótce wymogiem UE określonym w AI Act, podobnie jak np. przechowywanie danych finansowych – to rozwiązania IBM wspomniane potrzeby już w pełni adresują.
A co z bezpieczeństwem gromadzonych danych?
Jeżeli chodzi o bezpieczeństwo, to oba modele – ISS oraz IBM Storage Scale – wykorzystują m.in. niezmienialne migawki danych w trybie WORM (Safeguarded Copy), natywne szyfrowanie oraz Secure Erase. Ponadto rozwiązania ISS mogą zostać wyposażone w samoszyfrujące dyski – w standardzie AES-256 oraz używające algorytm Quantum Safe Cryptography. Zapewniają również wsparcie dla MFA, separacje obowiązków oraz integrację z rozwiązaniami SIEM i SOAR.
Wspomniane kwestie elastyczności i bezpieczeństwa powodują zatem, że firmy wykorzystujące rozwiązania IBM Storage Scale są w pewnym stopniu przygotowane na nowe europejskie normy prawne, które trzeba będzie spełnić, jeśli dana organizacja będzie planowała budowę własnych rozwiązań AI.
Czym oferta IBM Storage Scale wyróżnia się na rynku? Jakie są najważniejsze funkcjonalności tej linii pamięci masowych?
IBM Storage Scale wyróżnia się przede wszystkim tym, że jest to równoległy system plików (GPFS) w stylu POSIX, a nie zwykłe rozwiązanie typu NAS. Dzięki temu posiada nieporównywalną skalowalność względem pojemności – obsługuje ponad Jottabajt (YB; 1YB = 1000x1000x1000 PB) danych – oraz wspomnianą już wydajność.
Ponadto rozwiązanie to zawiera zaawansowane funkcjonalności, którymi nie może się pochwalić większość konkurencji. Mam tu na myśli automatyczny tiering danych, mechanizm Erasure Coding, wysoką dostępność, replikację synchroniczną, integrację z bibliotekami taśmowymi czy automatyczne zarządzanie cyklem życia danych. Warto też dodać, że IBM Storage Scale wspiera protokoły plikowe, blokowe i obiektowe oraz te dedykowane do współpracy z kartami graficznymi (GDS).
Dla jakich firm przeznaczone są te rozwiązania?
Z rozwiązania tego może korzystać dowolna firma, która posiada wymagania zgodne z funkcjonalnościami Storage Scale. IBM ma już za sobą takie wdrożenia tej linii rozwiązań m.in. w dużych instytucjach finansowych, przedsiębiorstwach telekomunikacyjnych i firmach energetycznych, a więc organizacjach posiadających ogromne ilości danych. Poza tym z pamięci masowych IBM Storage Scale korzystają też uniwersytety, archiwa czy biblioteki, w których istnieje potrzeba ustrukturyzowania dużych zbiorów danych.
Co ważne, IBM Storage Scale można stosować nie tylko w środowiskach przeznaczonych do trenowania modeli AI, ale również z myślą o zastosowaniach analitycznych, przetwarzaniu HPC, środowiskach Big Data i Data Lake, a także jako aktywne archiwum.
Są to stosunkowo nowe rozwiązania i w Polsce, póki co, nie było jeszcze takiego wdrożenia, ale startu tego typu projektów – związanych z budową infrastruktury na potrzeby AI – spodziewamy się pod koniec 2024 roku, kiedy odblokowane zostaną budżety, przede wszystkim w dużych firmach.
Na czym polega istota platformy IBM Storage Ceph? Czym ona różni się od IBM Storage Scale, jakie są jej możliwości – i w jakich środowiskach może zostać wykorzystana?
IBM Storage Ceph to – podobnie jak IBM Storage Scale – wysoce skalowalna platforma pamięci masowej, która konsoliduje blokową, plikową i obiektową pamięć masową. Ma ona za zadanie pomóc dużym i bardzo dużym organizacjom wyeliminować silosy danych i zapewnić doświadczenie podobne do chmury, zachowując jednak poziom kosztów oraz suwerenność danych taką, jak w lokalnej infrastrukturze IT.
W porównaniu do IBM Storage Scale, platforma IBM Storage Ceph jest jednak implementowana na serwerach z wbudowanymi dyskami lub na węzłach przygotowanych do Ceph, oferowanych przez IBM. Z definicji Ceph nie jest więc rozwiązaniem typu appliance – jest to uniwersalne rozwiązanie aplikacyjne, które wspiera zastosowania związane z przechowywaniem danych obiektowych, budową systemów analitycznych czy platform Data Lake dla nowej generacji obciążeń AI.
Platforma IBM Storage Ceph idealnie nadaje się zwłaszcza do przechowywania danych aplikacyjnych. Rozwiązanie to można wykorzystywać również jako pamięć masową typu back-end dla hurtowni danych. Ceph obsługuje również standard NVMe/TCP, co czyni go konkurencyjną alternatywą w wielu zwirtualizowanych środowiskach.
Warto też podkreślić kwestie bezpieczeństwa tego rozwiązania – IBM Storage Ceph posiada funkcjonalność object lock, szyfrowanie FIPS 140-2 Cryptography, a także wspiera szyfrowanie na poziomie serwera.
O jakich innych rozwiązaniach IBM dedykowanych do przechowywania i udostępniania zróżnicowanych zbiorów danych warto wspomnieć w kontekście obciążeń wykorzystujących AI?
Warto wspomnieć jeszcze o IBM Fusion – to zaawansowana platforma hostingowa zaprojektowana specjalnie do obsługi aplikacji o wysokich wymaganiach, jak np. watsonx.ai, a także optymalizacji dla środowisk OpenShift.
Jest to rozwiązanie przeznaczone dla firm, które chciałby np. stosować duże modele językowe (LLM). Pozwala przechowywać i przetwarzać dane w serwerowni u klienta, bez konieczności wychodzenia na zewnątrz, co niweluje wszelkie problemy prawne. System ten oferuje szybkie dyski NVMe i charakteryzuje się wysoką skalowalnością, wydajnością oraz niezawodnością.
Specyficzne potrzeby obciążeń AI względem pamięci masowych dotyczą przede wszystkim wydajności. Jak wygląd ta kwestia w rozwiązaniach IBM, w porównaniu do konkurencji?
Według niezależnych testów rozwiązania IBM są o 20% szybsze. Przykładowo, sekwencyjna przepustowość zapisu odczytu ISS 3500 osiąga 60/126 GB/s. Rozwiązanie to obsługuje zatem 100Gbit Ethernet lub InfiniBand działający z prędkością 100Gbps (EDR) lub 200Gbps (HDR).
Na jakie kwestie warto zwrócić szczególną uwagę na etapie projektowania środowiska danych na potrzeby wykorzystania AI?
Przede wszystkim warto spojrzeć na to, czy posiadana przez firmę baza danych zostanie w odpowiedni sposób obsłużona wybranym rozwiązaniem storage – powracamy więc do tematu wydajności i elastyczności, które są tu kluczowymi elementami. W przypadku, kiedy dane mają być używane wewnętrznie, wydajność jest oczywiście trochę mniej istotna – bo, przykładowo, na jakiś raport możemy w organizacji poczekać troszkę dłużej, ale jeśli chodzi o rozwiązania komercyjne, to ten czas odpowiedzi będzie decydujący.
Warto zaznaczyć, że IBM zapewnia możliwość wyjścia od rozwiązania mniejszego, jak ISS 3500 – nawet nie w pełni obsadzonego – aby z czasem, w miarę rosnących potrzeb biznesowych, w sposób elastyczny rozbudowywać to środowisko i finalnie zmigrować do ISS 6000.
Czy takie rozwiązanie jak ISS 3500 mogą zastosować firmy z sektora MŚP?
Trzeba raczej zadać pytanie o to, czy rozwiązania wykorzystujące AI są przeznaczone dla małych i średnich firm. W mojej ocenie może w USA tak, ale raczej nie w Polsce. Oczywiście, można ten temat przedyskutować, jednak uważam, że jeśli organizacje z sektora MŚP będą w wchodzić w rozwiązania AI, to skorzystają raczej z usług chmurowych. Inaczej niż, przykładowo, duże banki czy telekomy, które chociażby ze względów bezpieczeństwa nie będą chciały udostępniać swoich danych na zewnątrz. Jak już wspominałem, oferta IBM daje tę przewagę, że pozwala całe potrzebne środowisko zbudować w podejściu on-premise.
W jakich rozwiązaniach i usługach związanych z gromadzeniem danych specjalizuje się Averbit?
Specjalizujemy się przede wszystkim w rozwiązaniach storage firmy IBM, ale póki co w ich klasycznej odsłonie. Jednocześnie, biorąc pod uwagę naturalny rozwój tych rozwiązań, na pewno będziemy realizować projekty IBM Storage Scale. Osobnym obszarem naszej specjalizacji są wdrożenia serwerów IBM Power. Poza tym jesteśmy jedną z firm w Polsce posiadająca najlepsze doświadczenie jeśli chodzi o realizację projektów cyberbezpieczeństwa.
Więcej informacji znajdziesz na stronie www.averbit.pl