centra danych / data centerInfrastrukturaPREZENTACJA PARTNERA

Sztuczna inteligencja wymusi modernizację centrów danych

Advertorial

Rosnąca skala wykorzystania sztucznej inteligencji oraz uczenia maszynowego w zastosowaniach biznesowych, a także nieustanny wzrost potrzeb wobec możliwości przechowywania i przetwarzania coraz większych wolumenów danych oznaczają konkretne, nowe wymagania względem infrastruktury data center.

Sztuczna inteligencja wymusi modernizację centrów danych

Rozwiązania oparte na algorytmach AI na naszych oczach zmieniają funkcjonowanie kolejnych sektorów gospodarki, otwierają nowe możliwości rozwoju oraz sposoby na interakcje z klientami. Równie dynamicznie zmienia się sytuacja na rynku pracy. Zapleczem wszystkich rozwiązań wykorzystujących sztuczną inteligencję – od rozwiązań automatyzujących powtarzalne operacje biznesowe, usprawniających podejmowanie decyzji opartych na danych, przez systemy wykrywania nadużyć finansowych lub kontroli jakości produkcji, aż po kolejne implementacje generatywnej AI, w tym ChatGPT – są centra danych.

36% rocznie może wynieść do 2028 roku skumulowany wskaźnik wzrostu (CAGR) dla obciążeń związanych ze sztuczną inteligencją – wskazują prognozy Schneider Electric.

Jak dużo mocy potrzebują algorytmy AI?

Wykorzystanie algorytmów AI to jedno. Odrębną klasę wyzwań stanowi zapotrzebowanie na moc, typowe dla trenowania (learning) i wnioskowania (inferencing) modeli AI. Potrzebne są bowiem ogromne ilości danych źródłowych, a także dostępność znaczącej mocy obliczeniowej. Przykładowo, udostępniony przez OpenAI w czerwcu 2020 roku model GPT-3 został wytrenowany na zbiorze danych tekstowych o objętości rzędu 45 TB. Koszty opracowania modelu GPT-3 są szacowane na ponad 4 mln USD. Znaczącą część tej kwoty stanowią koszty mocy obliczeniowej, a więc m.in. energii niezbędnej do zasilania wysoce wydajnych serwerów oraz pamięci masowych.

Z kolei Nvidia, aby wytrenować ostateczną wersję MegatronLM, modelu językowego podobnego do GPT-3, ale mniejszego od niego, uruchomiła 512 procesorów graficznych V100 przez dziewięć dni. Szacuje się, że wymagało to zużycia 27 648 kWh, co – bazując na danych amerykańskiej Energy Information Administration, wynosi 3 razy więcej niż roczne zapotrzebowanie na energię przeciętnego gospodarstwa domowego w USA. Natomiast Google twierdzi, że obecnie algorytmy AI odpowiadają za 10–15% zużycia energii w centrach danych tej firmy, czyli 2,3 TWh rocznie!

Biorąc pod uwagę, że kolejne instytucje stawiają na wykorzystanie własnych – lub indywidualnie sparametryzowanych – modeli AI, takie potrzeby będą mieć również coraz większe znaczenie. Co jednak ważne, zmiany zachodzące w obliczu coraz większej popularności AI nie omijają centrów danych. Rosnące w radykalnym tempie zapotrzebowanie na moc obliczeniową odgrywa kluczową rolę w podejściu do projektowania i obsługi centrów danych, a także rozwoju ich infrastruktury.

Nowe moce w centrach danych pilnie potrzebne

Prognozy ekspertów Schneider Electric wskazują, że do 2028 roku skumulowany wskaźnik wzrostu (CAGR) dla obciążeń związanych ze sztuczną inteligencją wyniesie nawet 36% rocznie! Przełoży się to wprost na zwiększone zapotrzebowanie na moc obliczeniową i powierzchnię centrów danych, a także energię elektryczną. Według tych samych prognoz, w skali świata obciążenia związane z AI pochłaniają dziś ok. 4,3 GW mocy elektrycznej, a do końca 2028 roku globalne zapotrzebowanie energetyczne, towarzyszące takim obciążeniom, ma sięgnąć już nawet 20 GW.

Priorytetem staje się dziś zatem dostosowanie infrastruktury centrów danych do konieczności zapewnienia ogromnych ilości mocy obliczeniowej oraz obsługi dużych zbiorów danych, tak aby były one w stanie w najbardziej efektywny sposób odpowiadać potrzebom towarzyszącym popularyzacji AI. W ślad za wymaganiami w zakresie mocy obliczeniowej i przestrzeni pamięci masowych kluczowego znaczenia nabierają potrzeby związane z koniecznością zagwarantowania wysokiej niezawodności centrów danych, a także ich efektywności energetycznej oraz funkcjonowania w zgodzie z zasadami zrównoważonego rozwoju.

„Aplikacje AI, zwłaszcza trenowanie modeli, wymagają dużej mocy obliczeniowej zapewnianej przez procesory graficzne lub wyspecjalizowane akceleratory AI. Powoduje to znaczne obciążenie infrastruktury zasilania i chłodzenia centrów danych. Wraz ze wzrostem kosztów energii i rosnącymi obawami o klimat, centra danych muszą skupić się na energooszczędnym sprzęcie, takim jak wysokowydajne systemy zasilania i klimatyzacji precyzyjnej oraz odnawialne źródła energii, aby pomóc obniżyć koszty operacyjne i ślad węglowy” – podkreśla Pankaj Sharma, wiceprezes Schneider Electric odpowiedzialny za piony Secure Power i Data Center Business. Potrzeba sprostania nowym wymaganiom co do rozwoju infrastruktury centrów danych – w tym systemów zasilania, chłodzenia, projektowania szaf i przestrzeni serwerowych oraz zarządzania nimi – wymaga uwzględnienia specyfiki obciążeń AI i związanych z tym trendów.

Wyzwania względem centrów danych w świecie rosnącej powszechności AI, ale także dobre praktyki i zalecenia w zakresie projektowania oraz modernizacji infrastruktury data center podsumowuje najnowszy raport Schneider Electric pt. „The AI Disruption: Challenges and Guidance for Data Center Design”. Zawiera on m.in. wytyczne dla organizacji poszukujących sposobu na wykorzystanie potencjału AI w centrach danych. Ma to być przewodnik po wyzwaniach dotyczących projektowania infrastruktury data center, odpowiadającej potrzebom związanym z obsługą obciążeń opartych na sztucznej inteligencji, w tym serwerów o ekstremalnej gęstości mocy.

Sztuczna inteligencja wymaga przetworzenia ogromnych ilości danych, co sprawia, że za ich obsługę odpowiadają głównie wyspecjalizowane serwery wyposażone w dostosowane układy obliczeniowe, pełniące funkcję akceleratorów. Dobrym przykładem są tu procesory graficzne GPU, zapewniające wysoką wydajność w wykonywaniu zadań przetwarzania równoległego.

Serwery pod pełną mocą

Sztuczna inteligencja wymaga przetworzenia ogromnych ilości danych, co sprawia, że za ich obsługę odpowiadają głównie wyspecjalizowane serwery wyposażone w dostosowane układy obliczeniowe, które pełnią funkcję akceleratorów. Dobrym przykładem są tu procesory graficzne GPU, zapewniające wysoką wydajność w wykonywaniu zadań przetwarzania równoległego. Znajdują one zastosowanie np. podczas trenowania dużych modeli językowych LLM (Large Language Models). Potrzebne są również odpowiednio wydajne i pojemne pamięci masowe oraz warstwa sieci zapewniająca wysoką przepustowość. Z takich właśnie elementów, często umieszczonych w jednej szafie rack, składa się typowy klaster AI.

Co ważne, właściwy dobór komponentów klastra AI pozwala na zagwarantowanie niemal 100% wykorzystania wszystkich zasobów, i to w skali całego procesu trenowania modelu sztucznej inteligencji, który może trwać nawet miesiącami. Wysoki stopień użycia zasobów serwerowych oznacza z jednej strony optymalne zastosowanie ich możliwości, a z drugiej – wysokie zapotrzebowanie energetyczne. Średni pobór mocy optymalnego klastra AI podczas trenowania modeli AI jest zbliżony do szczytowego poboru mocy, co przekłada się na dodatkowe wymagania co do infrastruktury zasilania centrów danych.

Przykładowo, jak wynika z analiz Schneider Electric, pojedynczy klaster AI, zbudowany na bazie niemal 700 szaf serwerowych i wykorzystujący 22 tys. procesorów NVIDIA H100 Tensor Core, potrzebuje niemal stałej mocy zasilania na poziomie 31 MW, czyli ok. 44 kW na jedną szafę rack. Układy GPU odpowiadają średnio za 50% zużycia energetycznego klastrów AI. Jednocześnie, brak zmienności obciążeń zwiększa ryzyko zadziałania wyłącznika nadprądowego. Niezbędne staje się więc wyposażenie centrum danych w odpowiednio dostosowany system zasilania.

Potrzeba skutecznej ochrony przed przegrzaniem

Wspomniane wartości nie obejmują zapotrzebowania energetycznego infrastruktury samego centrum danych, w tym systemów chłodzenia, które także muszą efektywnie odprowadzać ciepło generowane przez maszyny działające z niemal pełnym obciążeniem.

Doświadczenia specjalistów Schneider Electric pokazują, że systemy chłodzenia powietrzem stają się niewystarczające dla klastrów AI o mocy zasilania przekraczającej 20 kW na jedną szafę serwerową. Biorąc pod uwagę, że statystycznie pojedynczy serwer stanowiący element takiego klastra zużywa 12 kW, a takich serwerów w jednej szafie może być kilka, nie jest to specjalnie wygórowana wartość. Dodatkowym wyzwaniem jest fakt, że serwery w dużych klastrach AI nie mogą być rozproszone w większej liczbie szaf serwerowych ze względu na potencjalne opóźnienia w transmisji danych.

Warte rozważenia jest zatem zastosowanie systemu chłodzenia cieczą. Co jednak nieoczywiste, chłodzenie cieczą pozwala na poprawę wydajności serwerów i zmniejszenie zapotrzebowania energetycznego klastrów AI. Przykładowo, z danych zamieszczonych w raporcie pt. „The AI Disruption: Challenges and Guidance for Data Center Design” wynika, że serwer HPE Cray XD670 z akceleracją GPU zużywa 10 kW przy chłodzeniu powietrzem w porównaniu do 7,5 kW w wypadku chłodzenia cieczą – kluczowe znaczenie ma tu mniejsze zapotrzebowanie na moc samego systemu chłodzącego w serwerze (tj. wentylatorów) oraz niższe prądy upływu w krzemie.

Zdaniem ekspertów Schneider Electric, walory te mogą zrównoważyć koszty wdrożenia rozwiązań chłodzenia cieczą. „System klimatyzacji jest najbardziej energochłonnym elementem infrastruktury technicznej całej serwerowni. Technologia Liquid Cooling nie tylko umożliwia odprowadzenie ciepła z aplikacji o wysokiej gęstości mocy, lecz także pozwala na pracę układu chłodzenia w znacznie wyższych temperaturach wody chłodzącej. Temperatury wody dla standardowych aplikacji wynoszą obecnie zazwyczaj 20/30°C. Dla technologii LC projektuje się systemy na wodzie o temperaturze nawet 40/45°C. Oznacza to, że tryb pełnego freecoolingu, czyli praca układu bez wykorzystania sprężarek będzie możliwa w temperaturze zewnętrznej wyższej o 20°C, a sprężarki włączą się tylko podczas ekstremalnych temperatur. Analizując warunki klimatyczne w Polsce, może to skutkować obniżeniem kosztów energii elektrycznej wykorzystywanej na potrzeby klimatyzacji o 50%” – ocenia Igor Brauliński, lider aplikacji produktowych obejmujących systemy chłodzenia precyzyjnego, Schneider Electric.

Co istotne, eksperci Schneider Electric zalecają projektowanie systemu chłodzenia centrów danych w sposób umożliwiający równoczesne chłodzenie powietrzem i cieczą, a także zapewnienie łatwej skalowalności w miarę potrzeb. Wszystko po to, aby zagwarantować możliwość obsługi kolejnych generacji sprzętu serwerowego, w tym układów GPU. Na przykład wysokotemperaturowe agregaty chłodnicze wykorzystywane do chłodzenia powietrzem można łatwo przełączyć na chłodzenie cieczą, gdy zachodzi potrzeba odprowadzenia większych ilości ciepła.

Doświadczenia specjalistów Schneider Electric pokazują, że systemy chłodzenia powietrzem stają się niewystarczające dla klastrów AI o mocy zasilania przekraczającej 20 kW na jedną szafę serwerową. Biorąc pod uwagę, że statystycznie serwer stanowiący element takiego klastra zużywa 12 kW, nie jest to specjalnie wygórowana wartość.

Standardowe rozwiązania przestają wystarczać

Rosnący udział obciążeń związanych z zastosowaniem sztucznej inteligencji w ogólnej charakterystyce procesów przetwarzania realizowanych w centrach danych ma również mniej oczywiste skutki. Przykładowo, potrzebne może być przeorganizowanie powierzchni centrów danych tak, aby możliwe było obsłużenie serwerów o wysokiej gęstości mocy. W miarę jak rosną wymiary serwerów wykorzystywanych do obsługi AI, problematyczne może okazać się zmieszczenie niezbędnej dystrybucji zasilania i chłodzenia wysokiej wydajności z tyłu szaf rack o standardowej szerokości 600 mm.

Eksperci Schneider Electric zalecają w takiej sytuacji zastosowanie szaf stelażowych szerokości co najmniej 750 mm, aby pomieścić moduły dystrybucji zasilania i kolektory chłodzenia cieczą. Rekomendowane jest także stosowanie szaf o wyższej wysokości, tak aby możliwe było umieszczenie jak największej liczby serwerów w jednym stelażu. Warto też upewnić się, że konstrukcja centrum danych, a w szczególności system podłóg podniesionych utrzyma ciężar typowego klastra AI wraz z niezbędnym wyposażeniem.

Środowisko typowe dla AI nie wymaga gwarancji tak wysokiej dostępności, jak ma to miejsce w przypadku serwerów klasy Enterprise. Wszelkie problemy w warstwie dystrybucji zasilania bądź odprowadzania ciepła mogą generować ryzyko przestojów, utraty części wyników przetwarzania lub mieć negatywny wpływ na działanie sąsiednich serwerów.

Mniejszy margines błędu na poziomie operacji

Zapewnienie wysokiej dostępności oraz efektywności działania klastrów obliczeniowych o dużej gęstości mocy stwarza nowe wymagania również w kontekście bieżącego utrzymania infrastruktury data center. Sprzęt pracujący niemal nieustannie pod pełnym obciążeniem wymaga sprawnego systemu chłodzenia i zasilania, które – dodajmy – działają obok bardziej typowych systemów. Potrzebne staje się więc bieżące monitorowanie sprawności takiej infrastruktury, a także wczesne wykrywanie potencjalnych problemów i zapobieganie im. Mimo że środowisko typowe dla AI być może nie wymaga gwarancji wysokiej dostępności, jak ma to miejsce w przypadku serwerów enterprise, to wszelkie problemy w warstwie dystrybucji zasilania bądź odprowadzania ciepła mogą generować ryzyko przestojów, utraty części wyników przetwarzania lub mieć negatywny wpływ na działanie sąsiednich serwerów – potencjalnie tych o znaczeniu krytycznym.

Warto dysponować zatem narzędziami zapewniającymi bieżący wgląd w efektywność systemów zasilania i chłodzenia, m.in. na poziomie dystrybucji mocy i rozkładu temperatur w przestrzeni roboczej centrów danych. Stosowną funkcjonalność gwarantują np. systemy zarządzania zasilaniem klasy EPMS (Electrical Power Management System) oraz rozwiązania wspierające zarządzanie infrastrukturą centrów danych – DCIM (Data Center Infrastructure Management). „System umożliwiający zarządzanie zasobami, modelowanie i planowanie jest dzisiaj bardzo istotny w obiektach o dużej gęstości mocy, nawet jeśli ich skala jest stosunkowo niewielka. Pierwszym, ale niezbędnym zadaniem jest pełna widoczność systemów krytycznych, ponieważ bazą do zarządzania i analizy zawsze są dane mierzone. Nasze rozwiązania Ecostruxure IT oraz Ecostruxure Power  zapewniają narzędzia zarówno w warstwie monitorowania, jak i analizowania oraz efektywnego zarządzania zasobami” – wskazuje Przemysław Szczęśniak, inżynier ds. aplikacji DCIM oraz systemów zasilania gwarantowanego w Schneider Electric.

Idąc dalej, w usprawnieniu planowania wykorzystania przestrzeni centrów danych pomocne okazują się również rozwiązania bazujące na koncepcji cyfrowych bliźniaków (digital twin). Pozwalają one na precyzyjne modelowanie zachowania całej infrastruktury – włącznie ze sprzętem serwerowym, a nawet działaniem maszyn wirtualnych uruchomionych na poszczególnych klastrach – w obliczu zmian czy to na poziomie fizycznej infrastruktury, czy też przenoszenia obciążeń roboczych pomiędzy konkretnymi maszynami. Tym samym, realna staje się łatwa ocena, czy w danym obszarze istnieje wystarczająca moc zasilania, chłodzenie i nośność podłogi do obsługi planowanych obciążeń. W analogiczny sposób można również zweryfikować efektywność przyszłych wdrożeń, jeszcze przed wprowadzeniem jakichkolwiek fizycznych modyfikacji, co oznacza radykalne zmniejszenie ryzyka błędu w coraz bardziej dynamicznych środowiskach centrów danych.

Raport Schneider Electric pt. „The AI Disruption: Challenges and Guidance for Data Center Design” można pobrać ze strony bit.ly/47A2yv1.

 

Artykuł ukazał się na łamach: Magazyn ITwiz 7-8/2023. Zamów poniżej:

Tagi

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *