Infrastruktura Analityka Polecane tematy

Pomagamy wykorzystywać i lepiej chronić nieuporządkowane zasoby danych

Executive ViewPoint

Piotr Waszczuk 17 czerwca 2020

0 5 126 7 minut(y) czytania

Z Tomaszem Jangasem, Solutions Consultant w Hitachi Vantara, rozmawiamy o wyzwaniach technicznych towarzyszących rosnącej roli danych w biznesie, specyfice przetwarzania informacji nieustrukturyzowanych, o tym, dlaczego firmy korzystają jedynie z niewielkiej części posiadanych danych, a także dostępnych w rozwiązaniach Hitachi Vantara funkcjach ułatwiających transformację środowisk danych biznesowych oraz o unikalnych możliwościach macierzy blokowej Hitachi VSP E990.

Pomagamy wykorzystywać i lepiej chronić nieuporządkowane zasoby danych

Niezależnie od tego, w jakim obszarze chcielibyśmy lepiej wykorzystywać posiadane dane, niezbędne staje się ich odpowiednie przygotowanie oraz opisanie. Dopiero wówczas posiadane zbiory danych będzie można w sensowny sposób zastosować w procesach analitycznych i zmonetyzować. Swoją przewagę pokazują tu m.in. macierze obiektowe, które dysponują mechanizmami przechowywania metadanych, czyli informacji, które opisują właściwe dane. Mając świadomość tego, jakimi danymi dysponujemy, jesteśmy w stanie wyciągać z nich wnioski, szukać sposobów na rozwój biznesu czy obniżenie kosztów funkcjonowania działalności.

W ostatnich miesiącach – szczególnie w obliczu zmian gospodarczych związanych z pandemią COVID-19 – na rynku częściej niż wcześniej mówi się o problematyce gromadzenia i składowania danych. Dlaczego?

Dla wielu organizacji dane już jakiś czas temu stały się zasobem równie ważnym co kapitał. Odpowiednio przechowywane, chronione i przetwarzane mogą zostać wykorzystane np. do generowania nowych strumieni przychodów czy ograniczenia ryzyka biznesowego. Tymczasem dzisiaj w wielu przedsiębiorstwach przechowywane są terabajty, czy nawet petabajty danych, które nie dostarczają żadnej dodatkowej wiedzy. Nie są po prostu stosowane w procesach analitycznych. Dotyczy to zwłaszcza tzw. danych nieustrukturyzowanych. Z szacunków wiodących firm analitycznych wynika, że jedynie 1% takich danych jest poddawany analizom biznesowym. To ogromny koszt utraconych korzyści dla wielu organizacji.

Niezależnie jednak od tego, w jakim obszarze chcielibyśmy lepiej wykorzystywać posiadane dane, niezbędne staje się ich odpowiednie przygotowanie oraz opisanie. Dopiero wówczas te zbiory danych będzie można w sensowny sposób wykorzystać w procesach analitycznych i zmonetyzować. Swoją przewagę pokazują tu m.in. macierze obiektowe, które dysponują mechanizmami przechowywania metadanych, czyli informacji, które opisują właściwe dane. Mając świadomość tego, jakimi danymi dysponujemy, jesteśmy w stanie wyciągać z nich wnioski, szukać sposobów na rozwój biznesu czy obniżenie kosztów funkcjonowania działalności.

Co sprawia, że firmy wykorzystują tak niewielki odsetek posiadanych danych?

Po pierwsze, wiele istniejących środowisk analitycznych skupia się tylko na analizowaniu danych ustrukturyzowanych, które płyną ze świata aplikacji typu ERP i CRM oraz są składowane w tradycyjnych, relacyjnych bazach danych. Do tak zastanych środowisk trudno jest jednak dodawać zupełnie inny rodzaj danych, jakim są dane nieustrukturyzowane. Jest to często albo technicznie niemożliwe, albo bardzo kosztowne. Dlatego wdrożenie nowoczesnych narzędzi ETL, np. rozwiązań takich jak Pentaho Data Integration, które rozumieją obydwa te światy, powinno być pierwszym krokiem w kierunku modernizacji firmowego środowiska danych.

Po drugie, dane – szczególnie nieustrukturyzowane – przechowywane w macierzach NAS, serwerach plików, czy nawet w laptopach pracowników, nie są często w ogóle opisane, a więc tak naprawdę nie wiadomo jakiego rodzaju informacje mogą zawierać. Trudno jest w związku z tym wyobrazić sobie jakąkolwiek analizę tych zbiorów danych, nie tylko pod kątem szukania nowej, wartościowej wiedzy dla organizacji, lecz także w kontekście zapewnienia zgodności z różnymi regulacjami prawnymi (np. RODO).

Wiele istniejących środowisk analitycznych skupia się tylko na analizowaniu danych ustrukturyzowanych, które płyną ze świata aplikacji typu ERP i CRM oraz są składowane w tradycyjnych, relacyjnych bazach danych. Do tak zastanych środowisk trudno jest jednak dodawać zupełnie inny rodzaj danych, jakim są dane nieustrukturyzowane. Jest to często albo technicznie niemożliwe, albo bardzo kosztowne. Dlatego wdrożenie nowoczesnych narzędzi ETL, np. rozwiązań takich jak Pentaho Data Integration, które rozumieją obydwa te światy, powinno być pierwszym krokiem w kierunku modernizacji firmowego środowiska danych.

Jakie są dziś główne wyzwania dotyczące przetwarzania oraz przechowywania danych w ramach firmowej infrastruktury IT?

Z pewnością dużym wyzwaniem jest tempo przyrostu danych biznesowych, przy czym dynamika danych nieuporządkowanych jest nieporównywalnie większa niż w przypadku danych ustrukturyzowanych. Problemem jest też integracja zbiorów nieuporządkowanych i nowych źródeł danych z systemami analitycznymi. W efekcie potrzebne są hurtownie i procesy, które poradzą sobie z przechowywaniem i przetwarzaniem różnego rodzaju danych nieustrukturyzowanych z wielu zróżnicowanych źródeł. Na potrzeby takich danych budowane są tzw. Data Lake, w których dane przechowujemy i przetwarzamy, korzystając z różnych technologii, takich jak bazy NoSQL, klastry Hadoop, czy macierze obiektowe S3, m.in. Hitachi Content Platform. Wyzwaniem dla organizacji jest tutaj często znalezienie i utrzymanie w firmie pracowników, którzy rozumieją i biegle poruszają się w tym ekosystemie, który jest nie tylko ogromny, ale też bardzo dynamiczny.

Poza analityką, kolejnym wyzwaniem jest konieczność sprostania regulacjom prawnym. W świecie danych ustrukturyzowanych oraz baz relacyjnych i aplikacji, które z nich korzystają, wyszukiwanie i klasyfikowanie danych wrażliwych jest stosunkowo proste. Natomiast w przypadku zbiorów nieustrukturyzowanych procesy te wymagają dodatkowych środków, narzędzi i właściwego sposobu przechowywania danych. Wyobraźmy sobie konieczność przeszukania treści wewnątrz plików zapisanych na dyskach sieciowych w macierzy NAS, w poszukiwaniu danych osobowych lub innych wrażliwych informacji, albo – idąc jeszcze dalej – spróbujmy wykonać to samo zadanie na dyskach komputerów przenośnych naszych pracowników.

Dlaczego tak ważne jest uporządkowanie nieustrukturyzowanych zbiorów danych?

Badania i analizy pokazują, że aż 28% danych korporacyjnych jest przechowywanych na dyskach laptopów, smartfonów i tabletów. Jednocześnie, statystycznie, mniej niż 50% komputerów stacjonarnych i mniej niż 40% komputerów przenośnych jest w jakikolwiek sposób chronione. Z dużym prawdopodobieństwem możemy założyć, że na dyskach tych urządzeń przechowywane są dane wrażliwe nie tylko z punktu widzenia samej organizacji, ale często również jej klientów. Wyzwania w takiej sytuacji nasuwają się same.

Po pierwsze – wszelkiego rodzaju kwestie związane z regulacjami prawnymi oraz wewnętrznymi i zewnętrznymi politykami, które firma powinna przestrzegać, oraz bardzo ograniczone możliwości wyszukania i sklasyfikowania danych, które są przechowywane na urządzeniach pracowników, w macierzach plikowych i na dyskach sieciowych. Po drugie, w takich realiach istnieje duże ryzyko utraty danych. Z pomocą przyjść tu może strategia modernizacji usług plikowych w organizacji z wykorzystaniem macierzy obiektowych, takich jak Hitachi Content Platform, oraz aplikacji działających w połączeniu z tymi macierzami, np. Hitachi Content Platform Anywhere.

Jakie zalety mają obiektowe macierze danych?

Macierz obiektowa Hitachi Content Platform umożliwia przechowywanie i zabezpieczenie danych z wykorzystaniem takich mechanizmów jak WORM i retencja. Ponadto przekłada się to na obniżenie kosztów backupu. Skoro dane nie mogą zostać zmienione i usunięte, to przede wszystkim musimy się zabezpieczyć przed awarią całego ośrodka, albo pojedynczego urządzenia. Odpowiedzią jest replikacja do drugiego ośrodka oraz polityka Disaster Recovery. Z kolei rozwiązanie Hitachi Content Platform Anywhere odpowiada za usługi współdzielenia i synchronizacji plików. Dzięki niej wskazane zbiory danych mogą być automatycznie synchronizowane i zabezpieczane w macierzy HCP. Poza tym wspierane jest wersjonowanie plików. Możliwe jest również łatwe współdzielenie takich danych.

Taka usługa udostępniona pracownikom przez IT cieszy się popularnością szczególnie w obecnej sytuacji konieczności pracy zdalnej. Do współpracowników wysyłamy linki do plików, zamiast samych plików. Odciążamy serwery poczty, a zwłaszcza w obecnej sytuacji pracy w domu – również serwery VPN. Pliki zaś przechowywane są w macierzy obiektowej i zabezpieczone m.in. przed atakami typu ransomware. Dane wrażliwe mogą zostać łatwiej wyszukane i sklasyfikowane, bo znajdują się w macierzy obiektowej, a utrata laptopa przez pracownika nie oznacza utraty danych.

Dużym wyzwaniem jest tempo przyrostu danych biznesowych, przy czym dynamika danych nieuporządkowanych jest nieporównywalnie większa niż w przypadku danych ustrukturyzowanych. Problemem jest też integracja zbiorów nieuporządkowanych i nowych źródeł danych z systemami analitycznymi. W efekcie potrzebne są hurtownie i procesy, które poradzą sobie z przechowywaniem i przetwarzaniem różnego rodzaju danych nieustrukturyzowanych z wielu zróżnicowanych źródeł. Na potrzeby takich danych budowane są tzw. Data Lake, w których dane przechowujemy i przetwarzamy, korzystając z różnych technologii, takich jak bazy NoSQL, klastry Hadoop, czy macierze obiektowe S3, m.in. Hitachi Content Platform.

Co ważne, na fali panującej pandemii COVID-19, w wielu organizacjach uruchomiono środowiska wirtualnych desktopów. Zbudowanie przestrzeni dla plików użytkownika w środowisku VDI – na bazie takich narzędzi jak HCP i HCPAW – zamiast tradycyjnej przestrzeni w macierzach plikowych, pozwala też chronić pliki użytkowników przed potencjalnymi atakami ransomware, a ponadto umożliwia obniżenie kosztów związanych z koniecznością ich backupu. Takie podejście do budowania nowoczesnych usług plikowych w organizacji jest jednym z wielu scenariuszy wykorzystania macierzy obiektowych. Warto tu dodać, że ich popularność rośnie wraz z postępującą transformacją i modernizacją aplikacji.

Już na etapie planowania rozwoju infrastruktury danych należy uwzględnić również ryzyko związane z atakami na dane i infrastrukturę IT. Jeżeli macierz blokowa ma możliwość zabezpieczenia wolumenu przed zmianami WORM, można np. z określoną częstością wykonywać snapshoty całej bazy danych, które dzięki funkcji WORM będą chronione przed zaszyfrowaniem z powodu ataku ransomware. Takie możliwości zapewnia np. oprogramowanie Hitachi Ops Center Protector, dostarczane wraz z macierzami blokowymi Hitachi, takimi jak Virtual Storage Platform VSP E990.

Co wyróżnia macierz blokową Hitachi VSP E990 na rynku rozwiązań pamięci masowych?

Macierz ta jest aktualnie najmłodszym „dzieckiem” w ofercie Hitachi i jest pozycjonowana w grupie urządzeń klasy high-end midrange. Jest to pierwszy z modeli w serii urządzeń, które są oferowane wyłącznie z dyskami NVMe i SCM. Dla potencjalnych użytkowników takiego urządzenia najważniejsze są jego parametry użytkowe: pojemność, wydajność i dostępne funkcjonalności.

I tak, w macierzy Hitachi VSP E990 możemy zainstalować maksymalnie 96 dysków NVMe o różnych pojemnościach i dostarczyć maksymalnie ok. 15 PB przestrzeni efektywnej, uwzględniającej wbudowane w naszą macierz mechanizmy kompresji i deduplikacji. W kontekście wydajności, dla modelu VSP E990 punkt odniesienia określono w wynikach przeprowadzonych testów na poziomie maksymalnie 5,75 mln IOPS oraz minimalnym czasie odpowiedzi równym 64 mikrosekundy, otrzymanym dla obciążenia 600 tys. IOPS. Na tle konkurencji są to wyniki co najmniej bardzo dobre.

Jeśli chodzi o funkcjonalności, to Hitachi VSP E990 zapewnia, obok mechanizmów replikacji, bezprzerwowej migracji, kompresji i deduplikacji danych wsparcie wirtualizacji, także macierzy firm trzecich; tworzenia wewnętrznych wirtualnych macierzy dyskowych, z których każda może być wykorzystana np. przez inny departament, aplikację czy klienta zewnętrznego. Nie należy też zapominać o nowym pakiecie oprogramowania do zarządzania, monitorowania i automatyzacji zadań – Hitachi Ops Center.

Czym wspomniane mechanizmy redukcji danych różnią się od rozwiązań oferowanych przez konkurencyjne macierze blokowe?

Myślę, że gros różnic wynika z faktu, że nasze rozwiązania wykorzystują mechanizmy sztucznej inteligencji m.in. na potrzeby monitorowania rodzaju obciążenia macierzy i wyboru optymalnego trybu działania. W przypadku kompresji mechanizm ten zawsze działa w trybie inline. Natomiast dla deduplikacji macierz automatycznie bada obciążenie procesorów i na tej podstawie automatycznie wybiera tryb pracy – inline vs post process. Dzięki temu możemy zagwarantować wysoką jakość obsługi aplikacji szczególnie w zakresie wymaganych czasów odpowiedzi. Poza tym wspomniane mechanizmy AI reagują też na rodzaj obciążenia, które płynie do macierzy z serwerów, tak aby zapewnić jak najlepszy czas obsługi zapytań aplikacyjnych.

Nasze rozwiązania pozwalają również wykorzystywać mechanizmy redukcji danych w najbardziej efektywny sposób. Możliwe do osiągnięcia współczynniki redukcji danych są pochodną rodzaju danych, które mają być kompresowane i deduplikowane. Bazy danych z reguły lepiej się kompresują, podczas gdy dla środowisk wirtualnych serwerów i desktopów lepsze rezultaty osiągnie najpewniej deduplikacja. Z kolei pliki audio, wideo czy skompresowane zdjęcia nie pozwolą na osiągnięcie dużych oszczędności przestrzeni.

Nasze rozwiązania wykorzystują mechanizmy sztucznej inteligencji m.in. na potrzeby monitorowania rodzaju obciążenia macierzy i wyboru optymalnego trybu działania. W przypadku kompresji mechanizm ten zawsze działa w trybie inline. Natomiast dla deduplikacji macierz automatycznie bada obciążenie procesorów i na tej podstawie automatycznie wybiera tryb pracy – inline vs post process. Dzięki temu możemy zagwarantować wysoką jakość obsługi aplikacji szczególnie w zakresie wymaganych czasów odpowiedzi. Ponadto wspomniane mechanizmy AI reagują też na rodzaj obciążenia.

Pamiętajmy, że deduplikacja i kompresja, oprócz korzyści pod postacią zaoszczędzonej przestrzeni dyskowej, niesie zazwyczaj określone koszty związane z wykorzystaniem zasobów macierzy. Jeżeli jakaś baza danych została już skompresowana wcześniej, to nie ma sensu ponownie włączać kompresję macierzową dla wolumenu, w którym ona się znajduje. Dlatego w macierzach Hitachi administrator może włączyć mechanizm kompresji i deduplikacji dla każdego wolumenu oddzielnie i niezależnie. W ramach jednej i tej samej puli dyskowej mogą zaś funkcjonować zarówno wolumeny bez kompresji i deduplikacji, wolumeny z włączoną tylko kompresją, jak i wolumeny z kompresją i deduplikacją.

Co sprawia, że dzięki wykorzystaniu macierzy Hitachi VSP E990 możliwe jest usprawnienie procesów zarządzania i poszukiwania problemów?

Kwestia monitoringu i zarządzania to ważny, choć nie zawsze zauważany, aspekt związany z funkcjonowaniem nowoczesnych pamięci masowych. Na etapie wyboru macierzy wymagania im stawiane są często ograniczane do określonej pojemności, wydajności i zestawu funkcji. Tymczasem, obecnie niemal każda macierz ma własne mechanizmy do zarządzania i monitorowania. Jednocześnie, w obliczu rosnących wymagań biznesu i postępującej modernizacji aplikacji, narzędzia wspierające monitorowanie działania infrastruktury i automatyzacja jej obsługi stają się ważnym elementem każdego rozwiązania, także macierzy dyskowych. Tak właśnie jest w przypadku macierzy Hitachi. Każda z naszych macierzy, w tym macierz VSP E990, dostarczana jest z tym samym pakietem oprogramowania Hitachi Ops Center. Jest to zupełnie nowa odsłona naszej platformy do zarządzania, monitorowania wydajności, zabezpieczania danych oraz automatyzacji. Poza dużą szybkością działania oraz wsparciem interfejsu REST API, który umożliwia integrację z dowolnym zewnętrznym narzędziem firmy trzeciej. Nasze rozwiązania pozwalają sprostać wymaganiom m.in. w zakresie usprawniania procesów obsługi danych, ich automatyzacji oraz wyszukiwania i rozwiązywania potencjalnych problemów. Jest to szczególnie ważne w dynamicznych i rozległych środowiskach IT.

Jakie obszary działania macierzy można monitorować, a jakie automatyzować?

W ramach poszczególnych aplikacji składających się na Hitachi Ops Center jesteśmy w stanie m.in. kompleksowo monitorować wydajność operacji I/O, począwszy od wirtualnej maszyny, przez serwer, sieć SAN, na dysku macierzy kończąc. Co więcej, możemy określić i sklasyfikować konsumentów całej tej infrastruktury – np. aplikacje – ustawić dla nich wymagane parametry SLA i je regularnie monitorować, z wykorzystaniem definiowanych statycznie lub dynamicznie limitów. Takie podejście do monitorowania pozwala na bardziej proaktywne działania administratorów i wyprzedzanie potencjalnych problemów. Z kolei w razie wystąpienia problemów, pozwala szczegółowo analizować ich przyczyny.

Zautomatyzować można praktycznie wszystkie operacje związane z procesem zapewnienia zasobów dyskowych dla użytkowników i aplikacji. Na potrzeby automatyzacji można skorzystać z przygotowanych procesów workflow lub zdefiniować własne. Co więcej, za sprawą API REST proces zbudowany w Automatorze może być częścią większego zadania, które jest wyzwalane w dowolnym systemie ticketowym ITSM lub aplikacji, którą chce wykorzystać na potrzeby automatyzacji środowiska – jak ServiceNow, Ansible, Puppet, Chef i wiele innych. Ponadto wszystkie aplikacje z pakietu Hitachi Ops Center są ze sobą ściśle zintegrowane, co oznacza, że mogą blisko współpracować, wieloetapowo automatyzując m.in. obsługę zleceń dostarczenia zasobów dla aplikacji.

Tagi