CyberbezpieczeństwoCIOPREZENTACJA PARTNERA
Jakie kroki podjąć, by uniknąć awarii podobnych do incydentu CrowdStrike
Advertorial
Incydent z CrowdStrike uwidocznił kruchość globalnych systemów IT i znaczenie solidnych procedur aktualizacji oprogramowania. „Aby minimalizować skutki ewentualnych nieprzewidzianych błędów administrator powinien mieć pełną kontrolę nad całym procesem aktualizacji” – wskazuje ekspert Stormshield. Podpowiada również rozwiązanie, które warto stosować na tym etapie.
“Niebieski Ekran Śmierci” (BSOD), czyli pokłosie błędu w oprogramowaniu CrowdStrike pojawił się – wedle szacunków – na ekranach ok. 8,5 mln urządzeń na całym świecie. Lotnictwo, bankowość czy ochrona zdrowia – problemy dotknęły blisko 60 proc. firm z listy Fortune 500 prowadzących działalność w wielu kluczowych branżach.
Incydent, który wymknął się spod kontroli
Tak duża skala awarii związana była z popularnością tych rozwiązań, w szczególności w USA oraz jednoczesną, automatyczną aktualizacją CrowdStrike i systemu MS Windows. Według szacunków straty będące konsekwencją zamieszania liczone są w miliardach USD. “Incydent z CrowdStrike dostarczył nam cennych lekcji na przyszłość, wskazując na potrzebę ciągłego doskonalenia procedur bezpieczeństwa i gotowości na potencjalne zagrożenia, których źródłem niekoniecznie muszą być wrogie działania” – mówi Aleksander Kostuch, inżynier Stormshield, producenta rozwiązań z obszaru bezpieczeństwa IT.
Nim CrowdStrike dostarczył rozwiązanie problemu, pojawiły się pierwsze metody jego obejścia. Dla korporacji – na masową skalę korzystających z rozwiązań, w których wystąpił błąd – największym wyzwaniem był jednak bezpośredni dostęp do uszkodzonych maszyn.
“Naprawa wymagała ręcznej interwencji, w tym uruchamiania komputerów w trybie awaryjnym i usuwania określonych plików systemowych. Helpdesk nie był w stanie zareagować na problem zdalnie, ponieważ do zawieszonego komputera trzeba było podejść, a w większości międzynarodowych korporacji obsługa IT funkcjonuje w formie outsourcingu prowadzonego często z innego kraju. Na osobistą wizytę serwisanta trzeba poczekać, dlatego efektem awarii był długotrwały brak dostępu do usług i gigantyczne straty” – wyjaśnia Aleksander Kostuch. “Cały proces był po prostu czasochłonny, co dodatkowo komplikowało sytuację w firmach korzystających z szyfrowania dysków BitLocker” – dodaje ekspert Stormshield.
Aktualizacje są kluczowe, ale testuj je w środowisku testowym
Fundamentalną zasadą jaką firmy i pracujący w nich administratorzy IT powinni się kierować – z myślą o ograniczaniu skutków podobnych incydentów – jest pełna kontrola sieci nad każdą, kluczową aktualizacją. Powinna ona obejmować indywidualną decyzję o wgraniu aktualizacji oprogramowania typu EDR lub oprogramowania układowego firmware na urządzeniach.
Oczywiście z myślą o zachowaniu maksymalnego bezpieczeństwa, prawidłowa polityka w obszarze aktualizacji ma zasadnicze znaczenie. Opisywany przykład pokazuje jednak, że diabeł może tkwić w szczegółach. “Dbajmy o aktualizacje, ale jednocześnie przestrzegajmy zasady, że nowe wersje oprogramowania nie powinny być automatycznie wdrażane na wszystkich urządzeniach. Administrator powinien je najpierw przetestować w grupie pilotażowej” – wyjaśnia Aleksander Kostuch.
Ustanowienie grupy testowej to jedna z najlepszych praktyk jaką możemy zastosować z myślą o ograniczania skutków ewentualnych błędów. Wdrażamy aktualizację w zamkniętym środowisku i jeśli po zdefiniowanym zgodnie z praktykami czasie pojawi się niebieski ekran lub inny problem systemowy, można wstrzymać masową aktualizację, a błąd nie sparaliżuje pracy całej organizacji
– mówi Aleksander Kostuch, inżynier firmy Stormshield
Ekspert radzi jak zorganizować środowisko testowe aktualizacji oprogramowania
Środowisko testowe jest odizolowane od środowiska produkcyjnego, aby ewentualne problemy nie wpływały na resztę infrastruktury. Oto 8 zasad, którymi powinni się kierować administratorzy środowisk IT.
- Ustal grupę urządzeń, które będą pierwszymi odbiorcami aktualizacji, wybierając urządzenia reprezentatywne dla różnych typów sprzętu i konfiguracji, aby jak najlepiej odwzorować środowisko produkcyjne. Zasadnym jest, aby w grupie pilotażowej znalazły się zarówno starsze, jak i nowsze urządzenia, co pozwala zidentyfikować potencjalne problemy w szerszym zakresie.
- W środowisku testowym warto symulować rzeczywiste obciążenia i typowe scenariusze użytkowania, aby sprawdzić, jak aktualizacja wpływa na wydajność i stabilność systemu. Symulacje mogą obejmować różne formy aktywności, jak praca z dużymi plikami, intensywna komunikacja sieciowa, a także testy funkcjonalności specyficzne dla danej organizacji.
- Zbieraj szczegółowe logi, które pozwolą na szybką identyfikację i diagnozę problemów, automatyczne raportowanie incydentów czy inne błędy krytyczne. Pomoże to w szybkim reagowaniu.
- Definiuj procedury i narzędzia pozwalające na szybkie wycofanie problematycznych aktualizacji w środowisku testowym, zanim zostaną wdrożone na większą skalę. To może obejmować tworzenie punktów przywracania systemu, backupów, korzystania z zapasowych partycji lub snapshotów maszyn wirtualnych przed wdrożeniem aktualizacji.
- Oprócz standardowych testów, warto przetestować scenariusze awaryjne, takie jak przywracanie systemu po awarii, restart systemu po BSOD czy odtwarzanie danych z backupu. Umożliwia to przygotowanie się na najgorsze scenariusze.
- Zalecane jest dokładnie udokumentowanie potencjalnego ryzyka i metody postępowania w przypadku problemów.
- Przed każdą aktualizacją dobrze jest dokonać ocenę ryzyka, analizując aspekty krytyczności aktualizacji i jej wpływ na organizację, a także potencjalne zagrożenia i korzyści związane z wdrożeniem.
- W przypadku aktualizacji o wysokim ryzyku, warto z wyprzedzeniem poinformować użytkowników i właścicieli usług oraz zadbać o wsparcie techniczne w okresie przejściowym.
“Opisany model należy traktować jako idealny. Najbliższe funkcjonowania zgodnie z nim są banki i instytucje finansowe. Warto zwrócić uwagę, że oprogramowanie umożliwia wybór pomiędzy ręczną i kontrolowaną aktualizacją, a w pełni automatyczną. Tak jest w przypadku większości programów EDR, podobnych do CrowdStrike Falcon czy Stormshield Endpoint Security, które oferują możliwość aktualizacji ręcznych. Choć korzystanie z tej opcji wymaga większego zaangażowania, to może przynieść wiele korzyści” – podsumowuje Aleksander Kostuch.
Zaplanuj jak będziesz działać w trakcie awarii
Eksperci Stormshield zwracają uwagę na znaczenie procesów i dokumentów dotyczących planów ciągłości działania BCP (Business Continuity Plan) oraz procedur odzyskiwania dostępu do danych i systemów IT po awarii DR (Disaster Recovery). Och przyczyną, oprócz incydentów w obszarze cyfrowym mogą być klęski żywiołowe, pożary czy akty wandalizmu.
“Wcześniejsze przygotowanie planów ciągłości działania ma dla organizacji krytyczne znaczenie. Plany określają, w jaki sposób firma będzie działać w sytuacji kryzysowej, nawet jeśli będzie musiała przenieść się do innej lokalizacji. Oczywiście, samo przygotowanie planów nie wystarczy, należy je cyklicznie testować i dostosowywać do aktualnych warunków funkcjonowania organizacji” – zwraca uwagę Paweł Śmigielski, country manager Stormshield w Polsce.