BEST100 edycja 2021AplikacjeInfrastrukturaCIOPREZENTACJA PARTNERA
Pomagamy zrozumieć specyfikę środowiska IT i przełożyć ją na jakość usług dla klientów
Executive ViewPoint
Z Jackiem Kujawą, dyrektorem generalnym Omnilogy – RFO Dynatrace, rozmawiamy o inżynierii niezawodności Site Reliability Engineering (SRE); potrzebie wykorzystania nowych, bardziej biznesowych miar sprawności środowiska IT i zmiany perspektywy oceny dostępności rozwiązań IT; nowoczesnym monitoringu IT; a także możliwościach platformy Dynatrace, oferowanych rozwiązaniach komplementarnych i planach rozwoju działalności Omnilogy.
Jeszcze do niedawna powszechne było założenie, że główną miarą sprawności systemów i infrastruktury jest czas ich bezawaryjnego działania. W oczywisty sposób jest to perspektywa wewnętrzna, mierzona wskaźnikami typu SLA. Nie zawsze jest to jednak podejście adekwatne do dzisiejszych potrzeb. Tradycyjne SLA stało się bowiem miarą zgubną. Dzisiejsze, powszechne dążenie do zapewnienia jak najlepszych doświadczeń użytkowników usług i aplikacji wymaga zmiany spojrzenia na takie, które najlepiej zobrazuje dostępność systemów z perspektywy indywidualnego użytkownika. Niezbędne staje się zastosowanie wskaźników określających poziom dostępności finalnej usługi oraz ich przełożenie na miary efektywności poszczególnych komponentów środowiska IT.
Dlaczego monitoring IT coraz bardziej zyskuje na znaczeniu?
Dzieje się tak, bo środowiska IT stają się coraz bardziej złożone, a ich elementy współzależne. Ponadto, stale wzrasta przecież znaczenie IT w biznesie. Powszechnym faktem stało się też wdrożenie koncepcji DevOps. Jednocześnie, w ostatnich 2 latach wiele organizacji rozpoczęło eksperymenty z modelem chmury obliczeniowej oraz konteneryzacją, co dodatkowo skomplikowało działania mające na celu zapewnienie efektywności funkcjonowania środowisk IT. Poza tym, w dużych organizacjach, szczególnie w bankowości i administracji publicznej, widoczne jest zainteresowanie migracją z platform mainframe do systemów otwartych. Popularność procesów replatformingowych wzrosła. To pokazuje, że kolejne generacje aplikacji biznesowych będą tworzone w nowych środowiskach.
Otwartość nowych architektur może jednak oznaczać nowe podatności na błędy i ataki, co znów oznacza konieczność precyzyjnego monitorowania zdarzeń. Jest to ważne, ponieważ z jednej strony poszerza się grono osób, które rozwijają systemy i mają dostęp zdalny do firmowej infrastruktury, a z drugiej – mocno nasila się aktywność cyberprzestępców. Potrzeba zapewnienia bieżącego wglądu w funkcjonowanie środowisk IT wynika też ze zmiany w zachowaniu klientów. Przykładowo, w bankowości kanał mobilny odpowiada już za ponad 50% transakcji. Jest to ogromna zmiana, która wpływa na środowisko IT.
Coraz częściej w kontekście monitoringu działania środowisk IT mówi się jednak o obserwowalności. Co różni te dwa terminy?
W przypadku monitoringu mamy różne, odrębne podejścia do różnych elementów środowiska IT – infrastruktury, sieci, aplikacji oraz chmury. Natomiast koncepcja obserwowalności infrastruktury wprowadza jednolite miary i metryki, logi i ślady cyfrowe dla wszystkich tych warstw środowiska IT w sposób zgodny z koncepcją inżynierii niezawodności. Obserwowalność stanowi rozszerzenie pojęcia monitoringu infrastruktury IT na wszystkie komponenty środowiska aplikacyjnego – od sprzętu, aż po warstwę użytkownika. Znaczącym aspektem, który wprost wynika z obserwowalności całego środowiska, jest zmiana perspektywy oceny efektywności działania systemów.
Zauważamy nowy, coraz silniejszy trend, wynikający z rosnącej potrzeby i popularności rozwiązań monitoringu IT. Tego typu narzędzia stają się dziś podstawą dla rozwiązań wspierających automatyzację zarządzania środowiskiem IT. Dynatrace stosowną funkcjonalność oferuje w ramach modułu Autonomus Cloud Management. Automatyzacja procesów obsługi i utrzymania środowisk IT jest kolejnym, naturalnym elementem ewolucji dla monitoringu IT. SRE w naszym wykonaniu oznacza również Service Reliability Engineering – Inżynierię Niezawodności Usług.
Dzięki temu dysponujemy uporządkowaną, spójną wiedzą o zjawiskach zachodzących w całym środowisku. Możemy więc łatwo zdiagnozować, gdzie pojawił się problem, jak jest złożony, jakie elementy wpłynęły na jego zaistnienie oraz jakie są jego skutki dla całej organizacji. Jest to zasadnicza zmiana względem klasycznego, silosowego podejścia do odpowiedzialności za środowisko IT, gdzie każdy zespół dziedzinowy patrzył wyłącznie na swój odcinek. Co niemniej istot-ne, wiedza ta jest dostępna w sposób zrozumiały także dla decydentów biznesowych. Obserwowalność oznacza lepsze zrozumienie specyfiki środowiska IT, zachodzących w nim zdarzeń oraz przełożenie ich na jakość usług dla klientów. Korzystając ze sztucznej inteligencji zaszytej w platformie Dynatrace, potrafimy łączyć setki i tysiące powiązanych ze sobą incydentów w grupy problemów, aby zapewnić jednolity i czytelny obraz działania środowiska IT. Z całości zdarzeń, które odbiegają od normy, jesteśmy w stanie wytypować faktyczne źródło ich występowania, określić ich ważność, a także rozkład w czasie, aby pomóc w określeniu niezbędnych usprawnień oraz ich priorytetyzacji. W konsekwencji dochodzimy do pojęcia inżynierii niezawodności – Site Reliability Engineering.
Jakie miary dostępności lub niezawodności systemów IT odnoszą się do dzisiejszych potrzeb biznesowych?
Jeszcze do niedawna powszechne było założenie, że główną miarą sprawności systemów i infrastruktury jest czas ich bezawaryjnego działania. W oczywisty sposób jest to perspektywa wewnętrzna, mierzona wskaźnikami typu SLA. Nie zawsze jest to jednak podejście adekwatne do dzisiejszych potrzeb. Tradycyjne SLA stało się bowiem miarą zgubną. Jeśli spojrzeć np. na portal w sektorze publicznym w tym roku, to każdy problem w dostępności usług w określonych, często pierwszych dniach po ich uruchomieniu z perspektywy użytkownika często dyskwalifikuje ten system – nawet jeśli we wszystkich pozostałych dniach roku system działa prawidłowo i średnie SLA jest zgodne z przyjętymi założeniami.
Dzisiejsze, powszechne dążenie do zapewnienia jak najlepszych doświadczeń użytkowników usług i aplikacji wymaga zmiany spojrzenia na takie, które najlepiej zobrazuje dostępność systemów z perspektywy indywidualnego użytkownika. Niezbędne staje się zastosowanie wskaźników określających poziom dostępności finalnej usługi oraz ich przełożenie na miary efektywności poszczególnych komponentów środowiska IT
Jakimi wskaźnikami warto zatem zastąpić dotychczasowe miary niezawodności?
W myśl koncepcji SRE głównymi miarami niezawodności są wskaźniki Service Level Objective (SLO) oraz Service Level Indicator (SLI), które definiują oczekiwany i faktyczny wskaźnik poziomu usług oraz wprost przekładają się na parametry wewnętrzne, takie jak dostępność usługi, opóźnienie transmisji czy liczba błędów aplikacji. Faktycznie jednak wskaźniki SLO i SLI są istotne z punktu widzenia percepcji klienta i odzwierciedlają zewnętrzną perspektywę niezawodności systemów. Wdrożenie takiej koncepcji wymaga najczęściej zmiany kultury organizacyjnej firmy, tak aby utrzymaniu założonego poziomu SLO podporządkować wszystkie operacje na styku biznesu i IT. Znaczącą zmianą jest tu choćby wprowadzenie koncepcji budżetu błędów, który określa, ile błędów w działaniu aplikacji jest dopuszczalnych w danym okresie. Jeśli kolejne iteracje systemu wdrażane np. w cyklu tygodniowym wyczerpują założony budżet błędów, to dział IT ma zakaz wdrażania nowych wersji, aby nie wyczerpać limitu zdenerwowania klientów. Tego typu zmiana wspiera – efektywne z punktu widzenia klienta i optymalne z punktu widzenia kosztów – podejście do jakości usług IT.
W jaki sposób potrzebom związanym z implementacją koncepcji SRE odpowiada oferta Dynatrace?
Na etapie definiowania wskaźników SLO warto zaczynać od tych aspektów, które są istotne dla użytkowników, a nie od tych, które można łatwo zmierzyć. Jest to kolejna znacząca zmiana względem mierzenia niezawodności środowiska IT jedynie poprzez SLA. Oczywiście do efektywnego monitorowania poszczególnych, często niskopoziomowych wskaźników wpływających na działanie – i postrzeganie – usług IT przez ich użytkowników niezbędne są precyzyjne narzędzia. Platforma Dynatrace takie narzędzia zapewnia. Za sprawą tej platformy jesteśmy w stanie dostosować narzędzia tak, aby zapewnić pełny monitoring wszystkich wskaźników znaczących dla określonego SLO. Przykładowo, prostą miarę dostępności usług w czasie możemy zmienić na ocenę opartą na proporcji wszystkich żądań poprawnie obsłużonych w ramach danej usługi do liczby wszystkich transakcji.
Istotą Dynatrace jest koncentracja na dostępności poszczególnych elementów środowiska, ich sprawności i wydajności, monitoring i kontrola ewentualnych opóźnień oraz anomalii, a także wsparcie procesów zarządzania zmianą i reagowania na awarie techniczne w sposób adekwatny do priorytetów. Wynikiem wdrożenia platformy Dynatrace jest zapewnienie pełnej obserwowalności środowiska aplikacyjnego oraz maksymalna automatyzacja operacji, która pozwala na uniezależnienie pewnych procesów od działań ludzkich, a w efekcie umożliwia podejmowanie szybszych i bardziej trafnych decyzji.
W sposób naturalny przesuwamy środek ciężkości dostępności systemów w kierunku biznesu. Co więcej, decyzja o wdrożeniu kompleksowych rozwiązań, pozwalających monitorować niezawodność IT na każdym poziomie, powinna być decyzją biznesową. Dzięki pełnej obserwowalności możemy efektywnie automatyzować działanie organizacji na poziomie IT, zarządzać ryzykiem w obszarze rozwiązań informatycznych i podnieść istotnie dostępność usług biznesowych dla klienta. Pomagamy też zarządzać środowiskiem IT w sposób, który odpowiada potrzebom użytkowników, a nie możliwościom zespołu IT. Z drugiej strony pokazujemy, w jakich sytuacjach zespół IT może pozwolić sobie na większą swobodę, tak aby nie przekroczyć założonych parametrów niezawodności.
Im więcej projektów cyfrowej transformacji realizuje dana organizacja, tym ważniejsze staje się spojrzenie na środowisko IT z perspektywy klienta – niezależnie od tego, czy jest on wewnętrznym użytkownikiem usług IT, czy też klientem dokonującym zakupów poprzez np. firmowy sklep internetowy.
Dzisiejsze środowiska IT w coraz większym stopniu opierają się na zasobach używanych w modelu chmury obliczeniowej. Co model cloud computing zmienia, jeśli chodzi o potrzebę zapewnienia całościowego monitoringu IT?
Przede wszystkim, nie jest kwestią oczywistą zapewnienie integracji oraz jednolitego, scentralizowanego monitoringu usług chmurowych. Nie wszyscy zdają sobie sprawę, że decyzja o migracji do chmury oznacza najczęściej zgodę na utratę kontroli nad częścią środowiska IT. Inaczej jest w przypadku wykorzystania platformy Dynatrace, ponieważ wspiera ona w sposób natywny integrację z zasobami chmurowymi i zapewnia porównywalność wskaźników sprzed migracji i po jej zakończeniu. Dzięki temu możliwa staje się ocena efektywności projektów cloud computing, także w relacji do kosztów.
W kontekście biznesowego spojrzenia na doświadczenia klientów jako uzupełnienie dla platformy Dynatrace proponujemy rozwiązania Omniscopy, które umożliwiają odniesienie się do funkcjonowania usług IT z perspektywy klienta i analityki biznesowej. Nie jest to proste nagrywanie sesji użytkownika, a kompleksowe spojrzenie na ergonomię działania aplikacji, ich użyteczność i dostępność. Dzięki rozwiązaniom Omniscopy jesteśmy w stanie precyzyjnie określić, w jaki sposób użytkownicy korzystają z aplikacji końcowych, ale także dlaczego rezygnują z nich na określonym etapie procesu biznesowego.
Platforma, którą oferujemy, obsługuje wszystkie istotne platformy publicznej chmury obliczeniowej, a za sprawą bezpośrednich partnerstw Dynatrace z globalnymi dostawcami usług cloud jest błyskawicznie aktualizowana, tak aby wspierać wszystkie zmiany w infrastrukturze wspieranych środowisk cloud computing. Co ważne, Dynatrace dobrze radzi sobie nie tylko z obsługą mikroserwisów, ale nawet najbardziej granularnych usług chmurowych, jak choćby funkcji dostępnych w ramach platformy Amazon Web Services.
Czy obserwowalność środowisk IT dotyka kwestii bezpieczeństwa danych?
Oczywiście, szczególnie w przypadku rozwiązań Dynatrace. Co więcej, nie dotyczy to wyłącznie kontroli anomalii zachodzących w warstwie sieci. Najnowsza funkcjonalność tej platformy pozwala na zautomatyzowane sprawdzenie poziomu bezpieczeństwa aplikacji jeszcze przed jej uruchomieniem. Rozwiązanie to zapewnia test podatności, który może funkcjonować w ramach cyklu automatyzacji BizDevSecOps i w sposób automatyczny zablokować wydanie nowej wersji aplikacji, jeśli wykryte zostaną błędy podatności. Z drugiej strony, bez dodatkowych nakładów, możemy być pewni, że aplikacja przetestowana przez Dynatrace na etapie prac rozwojowych jest bezpieczna i może zostać użyta produkcyjnie.
Omnilogy, jako jeden z czołowych partnerów Dynatrace, oferuje też wiele rozwiązań komplementarnych…
To prawda. Platforma Dynatrace zapewnia pełną obserwowalność środowisk IT i integralność wskaźników w oparciu o gromadzone w sposób natywny dane, ale także poprzez integrację z dodatkowymi rozwiązaniami, odpowiadającymi za gromadzenie danych o wybranych warstwach środowiska IT. Dotyczy to np. monitoringu sieci, który wymaga usprzętowienia, czyli wykorzystania dodatkowych urządzeń zbierających informacje na temat zjawisk zachodzących w warstwie sieciowej. W tym obszarze świetnie sprawdzają się rozwiązania firmy VIAVI. Z powodzeniem wdrożyliśmy te rozwiązania na potrzeby monitorowania całego ruchu sieciowego u jednego z największych polskich operatorów telekomunikacyjnych. Obecnie podobny projekt realizujemy u innego operatora z czołówki polskiego rynku, co pokazuje, że zapotrzebowanie na efektywny, bieżący monitoring sieci oraz możliwość analizowania i wnioskowania na bazie gromadzonych danych jest ogromne. Świadczy to także o rosnącej dojrzałości rynku w obszarze świadomego zarządzania infrastrukturą i siecią.
W kontekście biznesowego spojrzenia na doświadczenia klientów jako uzupełnienie dla platformy Dynatrace proponujemy rozwiązania Omniscopy, które umożliwiają odniesienie się do sposobu funkcjonowania usług IT z perspektywy klienta i analityki biznesowej. Nie jest to proste nagrywanie sesji użytkownika, a kompleksowe spojrzenie na ergonomię działania aplikacji, ich użyteczność i dostępność. Dzięki rozwiązaniom Omniscopy jesteśmy w stanie precyzyjnie określić, w jaki sposób użytkownicy korzystają z aplikacji końcowych, ale także dlaczego rezygnują z nich na określonym etapie procesu biznesowego. Co więcej, już pierwszego dnia po wdrożeniu zapewniamy narzędzia pomagające w zrozumieniu przyczyn określonych zjawisk dotykających warstwy UX. Technicznie aplikacja może bowiem być w pełni sprawna, ale może okazać się nieprzyjazna w użyciu lub nieergonomiczna.
Pokazujemy percepcję użytkowników i w razie problemów podpowiadamy, czy zawodzi sama aplikacja lub napędzająca ją infrastruktura IT, czy też nietrafiony okazał się np. design interfejsu obsługi.
Możliwości platformy Dynatrace uzupełniają także rozwiązania Aternity…
Można powiedzieć, że technologie Aternity bardziej odpowiadają za możliwość zapewnienia obserwowalności drugiego krańca środowisk IT niż rozwiązania VIAVI. Oferta Aternity dopełnia możliwości Dynatrace, jeśli chodzi o monitorowanie stacji roboczych. Oczywiście uzyskane dane możemy wykorzystać w ramach Dynatrace i takie działanie ma duży sens zwłaszcza obecnie, w czasach powszechnej pracy zdalnej. Mamy bowiem klientów, którzy zwrócili się do nas z potrzebą zapewnienia monitoringu środowisk pracy zdalnej. Nie chodzi tu o kontrolowanie pracowników, ale o możliwość oceny działania firmowej infrastruktury na styku z urządzeniami końcowymi. Z drugiej strony, rozwiązania Aternity mogą zostać wykorzystane także przez działy HR do oceny efektywności pracy w modelu zdalnym lub określenia usprawnień w obszarze IT niezbędnych do poprawy wskaźników biznesowych.
Jakie są Państwa plany w zakresie rozwoju działalności oraz oferty?
Działalność Omnilogy od początku koncentruje się wokół potrzeb, które wywodzą się z monitoringu środowisk IT. Staramy się też systematycznie rozszerzać ofertę tak, aby dostarczać klientom całościowe rozwiązania odpowiadające na zmieniające się potrzeby. Wraz z rozwojem monitoringu IT, popularyzacją nowych metodyk zarządzania IT i nowych architektur aplikacyjnych stawiamy na najlepsze w swojej klasie narzędzia. Tam, gdzie naszym zdaniem brakuje określonych funkcjonalności, tworzymy – i będziemy tworzyć – własne rozwiązania. Przykładem są tu, wspomniane wcześniej, rozwiązanie Omniscopy oraz narzędzia Z-Rays, które pozwalają m.in. na zwiększenie dostępności i przystępności danych na temat wydajności środowisk mainframe.
Możemy z dumą powiedzieć, że dziś zapewniamy klientom pełną obserwowalność i możliwość implementacji podejścia SRE. Obecnie zauważamy nowy, coraz silniejszy trend, wynikający z rosnącej potrzeby i popularności rozwiązań monitoringu IT. Tego typu narzędzia stają się dziś podstawą dla rozwiązań wspierających automatyzację zarządzania środowiskiem IT. Dynatrace stosowną funkcjonalność oferuje w ramach modułu Autonomus Cloud Management. Automatyzacja procesów obsługi i utrzymania środowisk IT jest kolejnym, naturalnym elementem ewolucji dla monitoringu IT. Będziemy zatem rozwijać naszą ofertę właśnie pod kątem tego typu zastosowań. Stawiamy m.in. na autorskie funkcje oparte na algorytmach uczenia maszynowego. Chcemy tym samym zredefiniować pojęcie inżynierii niezawodności tak, aby jak najlepiej odpowiadało potrzebom zapewnienia niezawodności usług biznesowych i aby SRE w naszym wykonaniu oznaczało również Service Reliability Engineering – Inżynierię Niezawodności Usług!