InfrastrukturaAnalitykaPREZENTACJA PARTNERA
HPE: dane mogą być dla firm złotem, albo błotem zapychającym ich storage
Executive ViewPoint
Z Krzysztofem Chibowskim, Advisory and Professional Services w Hewlett Packard Enterprise w Polsce, rozmawiamy o: poziomie zaawansowania rozwiązań analitycznych; inwestycjach firm w analitykę danych; głównych wyzwaniach związanych z pozyskiwaniem, gromadzeniem i przetwarzaniem danych; funkcjonalnościach i specyfice zarządzania danymi przy pomocy platformy HPE Ezmeral; wyzwaniach związanych z wdrożeniem tej platformy; podejściu Digital Next Advisory; nowej ofercie HPE GreenLake for LLM oraz aspektach wpływających na dobrą jakość danych biznesowych.
Według najnowszego Barometru Retail, aż 75% firm z sektora handlowego nie wykorzystuje potencjału danych. Jak z Pana doświadczenia wygląda poziom zaawansowania rozwiązań analitycznych na polskim rynku, oczywiście nie tylko w branży retail? Czy polskie firmy są już Data Driven?
Wiele firm na polskim rynku chciałoby być Data Driven i rzeczywiście wykonują sporo prac w tym kierunku. Natomiast problemem jest to, że bardzo ciężko jest zdobyć kompetencje, jeżeli chodzi o tego typu rozwiązania. Organizacje nie są też do końca gotowe, aby dobrze zrozumieć sytuację w jakiej się znajdują. Mam tu na myśli poziom dojrzałości wewnątrz firmy.
Aby ułatwić klientom podejście do budowania koncepcji Data Driven, w HPE stosujemy 5-stopniową skalę oceny dojrzałości. Poziom pierwszy świadczy o tym, że dane są rozproszone w różnych lokalizacjach i firma wykorzystuje je do raportowania w sposób przypadkowy. Piąty, najwyższy poziom, będzie zaś oznaczał firmę, która zbudowała odpowiednie rozwiązania, a zbierane dane wpływają już na jej biznes i są monetyzowane.
Na jakim średnio poziomie plasują się polskie firmy?
Średni poziom dojrzałości firm w Polsce wynosi 2,7. Co jest niestety wciąż zbyt niskim wynikiem. W przypadku analityki danych, organizacje zaczynają czerpać korzyści od poziomu 3 w górę. Przed krajowymi przedsiębiorstwami stoi więc jeszcze sporo wyzwań. Na szczęście mają już one świadomość, że posiadanie dobrych danych umożliwi im budowanie przewag konkurencyjnych. Inwestują więc w tego typu narzędzia. Nie do końca zaś firmy są świadome tego, jaką pracę trzeba wykonać, aby osiągnąć wysoki poziom dojrzałości.
Aby ułatwić klientom podejście do budowania koncepcji Data Driven, w HPE stosujemy 5-stopniową skalę oceny dojrzałości. Na poziomie pierwszym dane są rozproszone w różnych lokalizacjach i firma wykorzystuje je w sposób przypadkowy. Piąty poziom będzie zaś oznaczał firmę, w której zbierane dane wpływają na jej biznes i są monetyzowane.
Jakie firmy inwestują w rozwiązania do analityki danych?
Są to firmy średnie i duże, zatrudniające powyżej 250 osób. Budowanie organizacji, która chciałaby być zorientowana na dane, wymaga bowiem konkretnych nakładów finansowych. Małe firmy nie do końca zatem będą mogły pozwolić sobie na zakup najnowocześniejszych rozwiązań. Niektóre z nich sięgają więc po rozwiązania chmury publicznej.
Tu pojawia się modne hasło, które często tłumaczę klientom. Chodzi o zjawisko grawitacji danych. Otóż kiedy klienci budują rozwiązanie do zbierania danych, punkty, w których pojawia się znaczna ilość danych, zaczynają „przyciągać” podzbiory informacji z innych projektów. Wielu klientów w pandemii i po jej zakończeniu zaczęło korzystać z rozwiązań dostępnych w chmurze publicznej i w związku z tym wspomniana grawitacja danych, nawet nieświadomie, przeniosła się na jej brzeg.
Przez kilka lat dane gromadzone były po stronie chmury publicznej, rosnąc w niektórych przypadkach nawet do petabajtów. To spowodowało, że po pierwsze, dostęp do tych danych jest ograniczony, a po drugie, ich przechowywanie nie jest zgodne z różnymi regulacjami. Obecnie większość z tych klientów zastanawia się w jaki sposób zabrać dane z powrotem do własnych centów danych. A przeniesienie ich nie jest łatwe, bo wiąże się z dodatkowymi kosztami.
Część klientów boi się, że jeżeli zaczną budować rozwiązania po stronie chmury publicznej, to dojdzie do zjawiska grawitacji danych i zaczną one przyciągać inne dane z wewnętrznego data center, co rodzi niepotrzebne ryzyka.
Jakie są zatem główne wyzwania związane z pozyskiwaniem, gromadzeniem i przetwarzaniem danych?
Po pierwsze, jest nim zrozumienie, gdzie się znajdujemy, w nawiązaniu do strategii firmy. Każda organizacja musi zdać sobie sprawę, że dane są dla niej krytyczne. Chodzi zatem o uzmysłowienie sobie, że na danych można budować przewagę konkurencyjną. I każda firma bez wyjątku musi mieć jedną koncepcję do przechowywania zunifikowanych danych.
Po drugie, istotny jest aspekt związany z kompetencjami. Otóż Data Scientist czy Data Engineer są nie tylko trudno dostępni na rynku, ale mają też bardzo wysokie oczekiwania finansowe. Zatem rotacja takich osób i łatwość ich utraty na rzecz innej firmy jest wysoka. Jeżeli nawet mamy strategię i zbudujemy rozwiązanie, które chcielibyśmy rozwijać wewnątrz firmy, to musimy też stworzyć zespół kompetencyjny, który będzie w stanie nim zarządzać.
Trzecie wyzwanie to dobór odpowiednich narzędzi do tego, aby można było takie rozwiązania łatwo rozbudowywać, aby współdzielić dane w ramach organizacji.
W ostatnich latach przejęliśmy firmę MapR, na bazie jej rozwiązania stworzyliśmy platformę HPE Ezmeral. Składa się ona z trzech modułów, z których tym głównym, odpowiedzialnym właśnie za przechowywanie danych, jest Ezmeral Data Fabric.
Jak zmieniają się same rozwiązania pamięci masowych?
Systemy do zbierania danych mocno ewoluowały. Historycznie wyszliśmy od podejścia Data Warehouse czyli bardzo dużych baz danych, głównie ustrukturyzowanych. Następnie pojawiły się inne typy danych, a wraz z nimi Data Lake, które w głównej mierze były budowane w oparciu o narzędzia takie, jak Apache Hadoop.
Kolejna ewolucja przyniosła platformy danych. A więc zaawansowane rozwiązania zawierające w sobie nie tylko miejsce do przechowywania danych, ale również takie elementy jak Data Governance, czyli zarządzanie danymi z pełną informacją o tym kto ma do nich dostęp, jaka jest wrażliwość tych danych itd.
W tego typu systemach jesteśmy też w stanie wykonać Data Asset Management. Jest to szczególnie istotne, bo punktem krytycznym, który sporo firm wciąż pomija, jest dobre rozpoznanie danych, które organizacja już posiada. Najlepszym sposobem jest wykonanie Data Asset Managementu, czyli zebrania wszystkich źródeł danych wewnątrz organizacji, aby mieć świadomość tego, jakiego typu dane posiadamy, by móc dalej nimi skuteczne zarządzać. A nie jest to łatwe dlatego, że dodatkowo dostajemy do dyspozycji wspomniane rozwiązania chmury publicznej, umiejscowione na brzegu sieci.
Obecna sytuacja wymaga więc bardziej zaawansowanego podejścia i platformy danych, która będzie w stanie zarządzić nimi niezależnie od ich miejsca przechowywania.
Czy taką platformą jest HPE Ezmeral?
Tak. HPE Ezmeral nie jest narzędziem, które pojawiło się znikąd. W ostatnich latach przejęliśmy firmę Blue Data, która dostarcza rozwiązania Kubernetes, a także firmę MapR. Na bazie rozwiązania tej ostatniej firmy HPE stworzyło platformę HPE Ezmeral. Składa się ona z trzech modułów, z których tym głównym, odpowiedzialnym właśnie za przechowywanie danych, jest Ezmeral Data Fabric. Powyżej mamy moduł, który jest odpowiedzialny za powoływanie środowisk kontenerowych – HPE Ezmeral Runtime.
Na samej górze znajduje się HPE Ezmeral Unified Analytics, czyli element pozwalający na operacje uczenia maszynowego z wykorzystaniem najlepszych tego typu narzędzi na rynku. Moim zdaniem ten ostatni komponent tzn. HPE Ezmeral Unified Analytics zmieni zasady gry na rynku, wyprzedzając konkurencję o lata świetlne i to z pełnym wsparciem on-prem.
Wykorzystując Digital Next Advisory pomagamy klientom – analizując ich strategie biznesowe i tworząc dla nich cyfrowe mapy podróży DJM – osiągać kolejne etapy transformacji. Łączymy technologię z biznesem tak, aby w efektywny sposób adresować jego potrzeby.
Jak przy pomocy Ezmeral Data Fabric firmy mogą zarządzać danymi nieustrukturyzowanymi i rozproszonymi w różnych lokalizacjach?
Ten moduł platformy HPE Ezmeral pozwala przechowywać w jednym miejscu różne typy plików i danych – zarówno ustrukturyzowanych, jak i nieustrukturyzowanych. Umożliwia tym samym łatwy do nich dostęp i zapewnia dodatkowe API. Od razu po przeniesieniu części danych na Data Fabric, jesteśmy w stanie automatycznie udostępniać dane poprzez zestaw API, nie zapominając jednocześnie o ich kontroli i bezpieczeństwie.
Dodatkowo, moduł ten pozwala na rozciągnięcie struktury przechowywanych danych przez klientów na różne lokalizacje, traktując to rozwiązanie wciąż jako jeden zbiór danych. Co więcej, jeżeli w jednej z lokalizacji stworzymy pewną przestrzeń danych, to automatycznie w innych lokalizacjach ta przestrzeń jest widoczna dla wszystkich użytkowników, oczywiście jeśli dysponują odpowiednimi uprawnieniami.
Rozwiązanie to pozwala też na elastyczne budowanie warstw przechowywania danych, tzw. Data Tiering. Możemy stworzyć trzy poziomy przechowania. Pierwszy, przeznaczony jest na tzw. dane gorące typu „HOT”. Będą to rozwiązania wykorzystujące szybkie nośniki typu NVMe. Następnie system można wyposażyć w dyski SSD w momencie, kiedy wspomniane dane nie są już krytyczne, tworząc tym samym warstwę „WARM”. A po dłuższym czasie, gdy dane osiągają status archiwalnych, przesuwamy je na poziom trzeci, tzw. „COLD” gdzie wykorzystujemy najtańsze nośniki, np. dyski talerzowe.
Kolejnym argumentem, który przemawia za Ezmeral Data Fabric, jest wykorzystanie protokołu S3. Oprócz dysków lokalnych jesteśmy w stanie dołączyć zasoby z chmury publicznej poprzez protokół S3. Umożliwia to przetrzymywanie części danych w chmurze publicznej. Warto zaznaczyć, że to połączenie z chmurą jest szyfrowane kluczem, którym zarządza klient i same dane w Ezmeral Data Fabric również są zaszyfrowane. Mamy więc zapewnione pełne bezpieczeństwo.
Data Fabric jest rozwiązaniem typu Software Defined Storage, a więc jesteśmy w stanie bardzo łatwo je rozbudowywać. Dzięki Data Fabric z kilku dostępnych serwerów możemy stworzyć klaster, który stanowić będzie podstawę do dalszego rozwoju rozwiązań analityki.
Jak wspomniane przez Pana funkcjonalności wyróżniają HPE Ezmeral wśród innych rozwiązań tego typu?
Obecnie najciekawsze rozwiązania dostępne są głównie w chmurze publicznej, a te dostępne on-premise są trudno skalowalne. Natomiast nasze rozwiązanie wykorzystuje zarówno mikroserwisy zbudowane na rozwiązaniu Kubernetes, jak również bardzo łatwo skaluje się, również w kierunku chmury publicznej.
Data Fabric jest rozwiązaniem typu Software Defined Storage, a więc jesteśmy w stanie bardzo łatwo je rozbudowywać. Jeżeli mamy w organizacji klika serwerów HPE lub innego dostawcy, dzięki Data Fabric możemy je wykorzystać i zrobić z nich klaster, który stanowić będzie podstawę do dalszego rozwoju rozwiązań analityki i gromadzenia danych.
Nie możemy zapomnieć również o tym, że HPE Ezmeral Data Fabric ma w sobie część struktury Hadoop więc dla wszystkich firm, które być może wciąż używają rozwiązania Apache Hadoop migracja do nowej platformy jest tak naprawdę formalnością.
Czy wdrożenie takiego rozwiązania, jak Ezmeral Data Fabric wymaga specjalnych kompetencji?
Choć sam proces wdrożenia jest dość złożony, to zamawiając takie rozwiązanie w HPE, klient już po miesiącu może mieć gotowe środowisko, którego pełnej obsługi nauczą go nasi konsultanci wraz z pakietem szkoleniowym dostępnym w HPE Education. Mamy jednak w HPE dział Advisory and Professional Services, którego specjaliści są w stanie przejść z klientem całą „ścieżkę” przygotowanie do takiego projektu oraz poszukać razem z klientem zależności pomiędzy technologią z potrzebami biznesowymi. Trzeba też pamiętać, że wiele firm na rynku dopiero buduje tego typu podejście. Mają świadomość, że modne obecnie hasła – jak sztuczna inteligencja i chatboty – muszą mieć dostęp do danych.
Ezmeral Data Fabric zaprojektowano w taki sposób, aby móc zaadresować różne potrzeby klientów. Obecnie mamy na rynku trzy grupy firm korzystające z narzędzi analityki danych. Pierwsza ma rozwiązania open source, pozbawione wsparcia i bazujące na wspominanych systemach opartych o Apache Hadoop, w których znajduje się ogrom danych.
Druga grupa firm eksperymentuje z rozwiązaniami open source wykorzystując do tego rozwiązania kontenerowe. Stąd obecność modułu HPE Ezmeral Runtime, który wykorzystuje Kubernetes. Natomiast trzecią grupę stanowią klienci korzystający z rozwiązań chmurowych, udostępniających gotowe zaawansowane rozwiązania analityczne. Oni nie potrzebują kopiować wszystkich danych w jedno miejsce, ale chcą przenosić je w różne miejsca i tam je analizować, nie zaburzając struktury danych, którą budowali przez lata.
Niestety w takim modelu trzeba pobierać dane ze źródeł on-premise i częściowo przenosić je do chmury co dla części klientów jest problematyczne. Ale tu wkracza HPE Ezmeral Unified Analytics które działa właśnie w ten sposób tzn. pozwala na pobieranie częściowych danych z różnych źródeł i wykonywanie na nich analizy, różnica jest taka, że rozwiązanie HPE działa również w konfiguracji on-premise.
Jak już wspominałem, jesteśmy w stanie w ciągu kilku tygodni dostarczyć gotowe środowisko analityczne, które będzie pracowało w centrum danych klienta albo w kolokacji. Firma dostaje więc gotowe rozwiązanie w modelu usługowym z dowolną pojemnością, a za utrzymanie środowiska odpowiedzialne może być HPE.
Jest to przełom na rynku. Część klientów boi się, że jeżeli zaczną budować rozwiązania po stronie chmury publicznej, to dojdzie do wspomnianego zjawiska grawitacji danych i zaczną one przyciągać inne dane z wewnętrznego data center, co rodzi niepotrzebne ryzyka. Z różnych względów część klientów nie jest w stanie przesunąć tych danych na brzeg sieci czy do rozwiązań chmurowych. Szukają więc rozwiązań, które pozwolą im osiągnąć to samo, ale we własnej serwerowni i na własnych zasadach. I tego typu rozwiązaniem jest HPE Ezmeral.
HPE Ezmeral Unified Analytics pozwala na pobieranie częściowych danych z różnych źródeł i wykonywanie na nich analizy. Różnica jest taka, że rozwiązanie to działa również w konfiguracji on-premise.
Dla jakich organizacji dedykowana jest platforma HPE Ezmeral?
Nie chciałbym, aby zabrzmiało to trywialnie, ale absolutnie dla wszystkich. Jako dostawca mamy obowiązek, aby wspierać każdego klienta – zarówno tego, który jest bardzo dojrzały i ma wysoko rozwinięty system analityczny, jak i tego, którzy dopiero chce wejść w tego typu rozwiązania. HPE Ezmeral jest w stanie spełnić potrzeby obu tych grup.
Na czym polega promowane przez HPE podejście Digital Next Advisory? Jak przekłada się ono na cyfrową transformację w organizacjach?
Wykorzystując Digital Next Advisory pomagamy klientom – analizując ich strategie biznesowe i tworząc dla nich cyfrowe mapy podróży DJM – Digital Journey Map – osiągać kolejne etapy transformacji. Znając model biznesowy, który zawsze narzuca pewne wymagania, jesteśmy w stanie odpowiedzieć na inicjatywy klienta poprzez wskazanie mu odpowiedniej technologii. W Digital Next Advisory łączymy technologię z biznesem tak, aby w efektywny sposób adresować jego potrzeby.
Praktycznie wygląda to tak, że odbywamy z klientami kilkugodzinne sesje, podczas których dowiadujemy się jaka jest strategia organizacji i czego działy biznesowe oczekują od IT. Na pierwszych spotkaniach najczęściej w ogóle nie rozmawiamy o technologii. Niestety, bywa i tak, że klienci nie wiedzą jaka jest strategia ich firmy i czego tak naprawdę biznes oczekuje od IT. To jest w Polsce blokerem, jeśli chodzi o transformację cyfrową. Zwłaszcza, że nieprzystąpienie do procesu transformacji cyfrowej powoduje powstanie długów technologicznych, niezrozumienia biznesu, przez co IT jest w efekcie postrzegane przede wszystkim jako źródło kosztów, a nie innowacji. A tego chcielibyśmy uniknąć.
Jakie problemy z danymi rozwiązuje nowa oferta HPE GreenLake for Large Language Models?
Rozwiązaniami, które biją dziś na rynku rekordy popularności są właśnie różnego rodzaju czaty, oparte na dużych modelach językowych Large Language Models.
Korzystanie z takich czatów, stworzonych przez firmy zewnętrzne, powoduje, że dostajemy zestaw informacji, który został już wcześniej przygotowany. Firmy uznały, że dzięki takim rozwiązaniom zyskują pewną wartość, ale chciałyby mieć własne narzędzia tego typu i nie musieć dzielić się swoimi danymi z innymi. Musimy mieć świadomość, że wszystko, co w takim publicznie dostępnym czacie wpiszemy, zostaje tam i może stać się dostępne dla innych użytkowników.
Organizacje chciałyby mieć takie narzędzia, ale zbudowane na własnych zasadach, zasilone własnymi danymi, dostępne tylko u siebie w organizacji, bez dostępu do Internetu. HPE oferuje więc usługę, w której na swoich danych można zbudować chatbota przy wykorzystaniu technologii LLM.
Tak naprawdę jest to wejście w rozwiązania z obszaru chmury publicznej, dostępne dla każdego. Za jej pośrednictwem udostępniamy moc superkomputerów HPE Cray, zbudowanych specjalnie pod kątem trenowania modeli językowych. Klient otrzymuje więc niezwykle wydajne rozwiązanie, bez konieczności kosztownej inwestycji w infrastrukturę.
Jak to wygląda od strony praktycznej? Czy taki chatbot jest podobny do ChatGPT?
Jeśli docelowo model zostanie wytrenowany na szerokim zbiorze danych klienta, to może działać tak, jak ChatGPT. Rozwiązanie takie będzie miało oczywiście mniejszą sprawczość niż podobne narzędzia komercyjne, ale dla klientów, którzy się na nie zdecydują, będzie wystarczające. A do tego dane firmowe będą bezpieczne, bo nie będą wychodziły poza organizację.
Podsumowując, co wpływa na dobrą jakość danych biznesowych? Co w tej kwestii jest najważniejsze?
Jest takie powiedzenie „garbage in, garbage out”. Oznacza to, że nawet jeżeli w organizacji zbieramy dane, ale nie dbamy o to, jakiej są one jakości i ile ich jest, to potem musimy wykonać ogromną pracę, aby zacząć czerpać z nich korzyści.
Mówi się też, że dane to nowe złoto, co niestety nie do końca jest prawdą. Jeśli bowiem tylko je zbieramy i odkładamy „na później”, bez żadnego nadzoru, to popełniamy duży błąd. Z punktu widzenia IT samo gromadzenie danych, bez ich „dotykania” sprawia, że nie są one złotem, a błotem, które zatyka systemy pamięci masowych, hurtownie i Data Lake i przestrzenie przygotowane na ich przechowywanie.
Mało kto wie, że tak często używane porównanie danych do ropy pierwszy raz zostało użyte przez Clive’a Humby’ego, angielskiego analityka danych, w 2006 i tak naprawdę oznacza, że ropa sama w sobie w stadium początkowym jest brudna i zanieczyszczona dopiero jej obróbka daje efekty w postaci produktów takich jak paliwa, oleje, chemikalia czy plastiki.
Sztuka polega na tym, aby w sposób efektywny jak najszybciej zajrzeć do tych danych i wyciągnąć z nich to, co jest ważne. Dlatego elementem krytycznym przy budowaniu tego typu rozwiązań jest stworzenie tzw. Bazy features. Ona pozwoli pokazać, która część danych będzie miała znaczenie w dalszych etapach wykorzystywania analityki.
Pierwszym krokiem powinno być przygotowanie Data Asset Management, np. w oparciu o wspomnianą platformę HPE Ezmeral. Gdy już to zrobimy trzeba określić, które elementy w każdym podzbiorze danych są krytyczne z punktu widzenia analityki. Dopiero wówczas uzyskamy wartościowe dane.