Infrastruktura CIO Polecane tematy

Jak zabezpieczyć ciągłość działania organizacji

Adam Jadczak 24 sierpnia 2020

0 3 066 3 minut(y) czytania

Za koncepcją Disaster Recovery kryją się procesy, polityki i procedury związane z wznowieniem lub utrzymywaniem krytycznej infrastruktury IT. Zwykle plany ciągłości działania opracowywano w kontekście awarii spowodowanych np. klęskami żywiołowymi, ale także problemami z zasilaniem (blackout). Dziś do listy potencjalnych „katastrof” należy dodać także pandemię.

Niemalże wszyscy nasi rozmówcy, z którymi przeprowadziliśmy wywiady w ramach cyklu #IT4business – może poza przedstawicielami placówek służby zdrowia – stwierdzili, że ich plany ciągłości działania nie przewidywały lockdown całego kraju ogłoszonego w wyniku pandemii. „Dotychczasowe plany ciągłości działania niewątpliwie wymagały dokonania ich „kalibracji”. Dotyczy to zresztą praktycznie wszystkich firm. Plany te nie uwzględniały bowiem tak dużego wpływu na dostępność pracowników zarówno w naszej spółce, jak i w całej Grupie Kapitałowej. Business Continuity Plans koncentrowały się bowiem bardziej na potencjalnych awariach oraz konieczności – w ich wyniku – zapewnienia nieprzerwanego funkcjonowania systemów IT” – mówił np. w rozmowie z nami Ireneusz Jazownik, dyrektor naczelny Centralnego Ośrodka Przetwarzania Informacji w KGHM Polska Miedź.

Od czego więc zacząć opracowanie planu Disaster Recovery?

Pierwszym krokiem jest przeprowadzenie analizy ryzyka (Risk Assessment) i zbadanie wpływu awarii na działanie firmy – Business Impact Analysis. Analizy te pozwolą zidentyfikować systemy IT, które wspierają kluczowe dla działalności naszej firmy procesy. Następnie trzeba ustalić czas, w jakim należy przywrócić procesy po wystąpieniu awarii RTO (Recovery Time Objective) oraz akceptowalny poziom utraty danych wyrażony w czasie RPO (Recovery Point Objective). Opracowując plan ciągłości działania, warto wziąć pod uwagę kilka czynników. Oto one:

Ludzie

Aspekt ten dotyczy dostępności odpowiednich pracowników lub kontraktorów; konieczność ich przeszkolenia; zapewnienia zastępstwa dla pracowników mających wiedzę w zakresie najważniejszych technologii (co najmniej jedna osoba w „zapasie”); przygotowanie dokumentacji, z której skorzystać mogą pracownicy poszukujący informacji pomocnych przy przywracaniu systemów IT; opracowanie procedur przekazywania sobie tej informacji wśród pracowników i kontraktorów. Większość tych problemów może rozwiązać umowa z dostawcą usług centrumdanych, który zapewni odpowiednie wsparcie. W KGHM Polska Miedź przeanalizowano m.in. jak wielu pracowników znajduje się w grupie ryzyka, a więc jest powyżej 60 lat. W przypadku kluczowej kadry menedżerów tego koncernu wyznaczono zaś zastępców aż do 4. poziomu, z wprowadzeniem izolacji pomiędzy nich.

Miejsce pracy

W przypadku awarii należy zapewnić pracownikom alternatywne miejsce do pracy, czy to w innym biurze w tej samej lokalizacji, we własnym domu, czy też w firmie zewnętrznej, np. takiej, która zarządza zapasowym centrum danych przygotowanym na przejęcie funkcjonowania systemów IT w razie awarii. Jeśli chodzi o zapasową lokalizację, trzeba było opracować wiele procedur, np. dostępu do systemów IT. „W związku z pandemią zdecydowaliśmy, że wszyscy przejdziemy na home office. Dotyczyło to nawet sztabu kryzysowego. Obecnie w warszawskiej centrali z 1500 osób zostało ok. 30. W Łodzi, gdzie pracuje ok. 2500 osób, proporcje są podobne” – mówił z kolei Krzysztof Dąbrowski, wiceprezes zarządu ds. operacji i informatyki w mBanku.

Wymogi technologiczne

W przypadku zapasowej lokalizacji konieczne jest przygotowanie takiego miejsca, które jest dostosowane do wymogów infrastruktury IT, ma odpowiednie systemy chłodzenia, wentylacji, zasilania, dostępu do łączy o wysokiej przepustowości itp. Oczywiście wymagane są także systemy do archiwizacji i tworzenia kopii zapasowych oraz rozwiązania wspierające proces powrotu systemów IT do normalnej pracy po awarii. Dzięki temu przyspieszymy proces Disaster Recovery. Większość z naszych rozmówców miała albo własne lub wynajmowane centra zapasowe, albo korzystała z usług cloud computing. „W zakresie data center polegamy całkowicie na zewnętrznych firmach. Otrzymaliśmy jednak od nich komunikat o zredukowaniu – w związku z pandemią – prac w data center jedynie do niezbędnych, aby ich pracownicy nie musieli poruszać się po serwerowni i ograniczyli się jedynie do monitoringu online” – opowiadał nam Marcin Mazurek, Engineering Director w Allegro.

Przechowywanie informacji

Aspekt ten dotyczy zasad przechowywania kluczowych dla przedsiębiorstwa danych, ich archiwizacji oraz tworzenia kopii zapasowych. Dotyczy to również zastosowania odpowiednich technologii, w zależności od tego, jak często wykorzystywane są dane (pamięci Flash, dyski twarde oraz napędy taśmowe i optyczne dla danych rzadziej używanych). Za tym kryją się wymogi związane z zapewnieniem łączy o odpowiedniej przepustowości. Ważne są również możliwości dotyczące ochrony danych w zapasowym centrum danych oraz dostępności w nim wsparcia technicznego.

Umowy z kluczowymi dostawcami

W ramach planów Disaster Recovery konieczne jest określenie zasad współpracy z dostawcami wszystkich, krytycznych systemów IT. Obejmuje to też dostępność odpowiednich specjalistów po stronie partnera. Główne obszary, w których konieczne są umowy określające zasady współpracy przy odtwarzaniu systemów po awarii, dotyczą dostawców sprzętu (np. serwery, pamięci masowe), systemów zasilania, usług sieciowych (telefonia i transmisja danych), firm zajmujących się usługami wsparcia technicznego, a nawet firm transportowych i logistycznych.

Polityki i procedury

Po opracowaniu polityk Disaster Recovery konieczne jest zatwierdzenie ich przez kierownictwo wyższego szczebla. Należy być przygotowanym to tego, aby móc wykazać przed wyższym kierownictwem, że strategie Disaster Recovery mają pozytywny wpływ na realizację celów biznesowych organizacji. Następnie określa się – krok po kroku – procedury związane z odtwarzaniem poszczególnych zasobów IT. W ten sposób przekłada się strategię Disaster Recovery na konkretne plany działania. Przykładowo, LUX MED zaraz po rozpoczęciu pandemii w Polsce zaczął od szybkiej transformacji swojego modelu działania. „Zmieniliśmy rozwiązania organizacyjne, ścieżki komunikacyjne, materiały edukacyjne, którymi firma posługuje się w komunikacji z pracownikami, pacjentami i klientami” – wspominał Tomasz Garbowski, członek zarządu LUX MED odpowiedzialny za Pion Informatyki i Projektów. Pomogły w tym opracowane wcześniej plany ciągłości działania.

KOMENTARZ EKSPERTA

Jak zabezpieczyć ciągłość działania organizacji Fundamentem sukcesu macierzy Pure Storage na świecie jest fakt, że zostały zaprojektowane i wykonane wyłącznie dla układów flash, dzięki czemu wyciskają z niego przysłowiowe ostatnie bity zarówno w kontekście wydajności, jak i pojemności. Nie dźwigają też obciążenia mechanizmami typowymi dla adaptowanych systemów operacyjnych pamięci masowych, które nie mają adekwatnych mechanizmów obsługi flash.

Pure Storage to bezlicencyjny zestaw wszystkich istotnych funkcjonalności dla nowoczesnego systemu storage, dostępność na poziomie 5*9 – 9*9 przy wykorzystaniu ActiveCluster i najlepsze na rynku upakowanie danych redukujące rozmiar inwestycji do niezbędnego minimum. Dodając do tego prostotę obsługi – Purity OS sam się dostraja do obciążenia i typu danych oraz ma algorytmy samoleczenia następstw wszelakich awarii – powstaje produkt nie bez powodu umieszczany regularnie w kwadrancie liderów pamięci masowych Gartnera.

Bogusz Błaszkiewicz, Principal Systems Engineer Eastern Europe w Pure Storage