Incydent z CrowdStrike uwidocznił kruchość globalnych systemów IT i znaczenie solidnych procedur aktualizacji oprogramowania. „Aby minimalizować skutki ewentualnych nieprzewidzianych błędów administrator powinien mieć pełną kontrolę nad całym procesem aktualizacji” - wskazuje ekspert Stormshield. Podpowiada również rozwiązanie, które warto stosować na tym etapie. "Niebieski Ekran Śmierci" (BSOD), czyli pokłosie błędu w oprogramowaniu CrowdStrike pojawił się - wedle szacunków - na ekranach ok. 8,5 mln urządzeń na całym świecie. Lotnictwo, bankowość czy ochrona zdrowia – problemy dotknęły blisko 60 proc. firm z listy Fortune 500 prowadzących działalność w wielu kluczowych branżach. Incydent, który wymknął się spod kontroli Tak duża skala awarii związana była z popularnością tych rozwiązań, w szczególności w USA oraz jednoczesną, automatyczną aktualizacją CrowdStrike i systemu MS Windows. Według szacunków straty będące konsekwencją zamieszania liczone są w miliardach USD. "Incydent z CrowdStrike dostarczył nam cennych lekcji na przyszłość, wskazując na potrzebę ciągłego doskonalenia procedur bezpieczeństwa i gotowości na potencjalne zagrożenia, których źródłem niekoniecznie muszą być wrogie działania" – mówi Aleksander Kostuch, inżynier Stormshield, producenta rozwiązań z obszaru bezpieczeństwa IT. Nim CrowdStrike dostarczył rozwiązanie problemu, pojawiły się pierwsze metody jego obejścia. Dla korporacji - na masową skalę korzystających z rozwiązań, w których wystąpił błąd - największym wyzwaniem był jednak bezpośredni dostęp do uszkodzonych maszyn. "Naprawa wymagała ręcznej interwencji, w tym uruchamiania komputerów w trybie awaryjnym i usuwania określonych plików systemowych. Helpdesk nie był w stanie zareagować na problem zdalnie, ponieważ do zawieszonego komputera trzeba było podejść, a w większości międzynarodowych korporacji obsługa IT funkcjonuje w formie outsourcingu prowadzonego często z innego kraju. Na osobistą wizytę serwisanta trzeba poczekać, dlatego efektem awarii był długotrwały brak dostępu do usług i gigantyczne straty" – wyjaśnia Aleksander Kostuch. "Cały proces był po prostu czasochłonny, co dodatkowo komplikowało sytuację w firmach korzystających z szyfrowania dysków BitLocker" – dodaje ekspert Stormshield. Aktualizacje są kluczowe, ale testuj je w środowisku testowym Fundamentalną zasadą jaką firmy i pracujący w nich administratorzy IT powinni się kierować - z myślą o ograniczaniu skutków podobnych incydentów - jest pełna kontrola sieci nad każdą, kluczową aktualizacją. Powinna ona obejmować indywidualną decyzję o wgraniu aktualizacji oprogramowania typu EDR lub oprogramowania układowego firmware na urządzeniach. Oczywiście z myślą o zachowaniu maksymalnego bezpieczeństwa, prawidłowa polityka w obszarze aktualizacji ma zasadnicze znaczenie. Opisywany przykład pokazuje jednak, że diabeł może tkwić w szczegółach. "Dbajmy o aktualizacje, ale jednocześnie przestrzegajmy zasady, że nowe wersje oprogramowania nie powinny być automatycznie wdrażane na wszystkich urządzeniach. Administrator powinien je najpierw przetestować w grupie pilotażowej" – wyjaśnia Aleksander Kostuch. Ekspert radzi jak zorganizować środowisko testowe aktualizacji oprogramowania Środowisko testowe jest odizolowane od środowiska produkcyjnego, aby ewentualne problemy nie wpływały na resztę infrastruktury. Oto 8 zasad, którymi powinni się kierować administratorzy środowisk IT. Ustal grupę urządzeń, które będą pierwszymi odbiorcami aktualizacji, wybierając urządzenia reprezentatywne dla różnych typów sprzętu i konfiguracji, aby jak najlepiej odwzorować środowisko produkcyjne. Zasadnym jest, aby w grupie pilotażowej znalazły się zarówno starsze, jak i nowsze urządzenia, co pozwala zidentyfikować potencjalne problemy w szerszym zakresie. W środowisku testowym warto symulować rzeczywiste obciążenia i typowe scenariusze użytkowania, aby sprawdzić, jak aktualizacja wpływa na wydajność i stabilność systemu. Symulacje mogą obejmować różne formy aktywności, jak praca z dużymi plikami, intensywna komunikacja sieciowa, a także testy funkcjonalności specyficzne dla danej organizacji. Zbieraj szczegółowe logi, które pozwolą na szybką identyfikację i diagnozę problemów, automatyczne raportowanie incydentów czy inne błędy krytyczne. Pomoże to w szybkim reagowaniu. Definiuj procedury i narzędzia pozwalające na szybkie wycofanie problematycznych aktualizacji w środowisku testowym, zanim zostaną wdrożone na większą skalę. To może obejmować tworzenie punktów przywracania systemu, backupów, korzystania z zapasowych partycji lub snapshotów maszyn wirtualnych przed wdrożeniem aktualizacji. Oprócz standardowych testów, warto przetestować scenariusze awaryjne, takie jak przywracanie systemu po awarii, restart systemu po BSOD czy odtwarzanie danych z backupu. Umożliwia to przygotowanie się na najgorsze scenariusze. Zalecane jest dokładnie udokumentowanie potencjalnego ryzyka i metody postępowania w przypadku problemów. Przed każdą aktualizacją dobrze jest dokonać ocenę ryzyka, analizując aspekty krytyczności aktualizacji i jej wpływ na organizację, a także potencjalne zagrożenia i korzyści związane z wdrożeniem. W przypadku aktualizacji o wysokim ryzyku, warto z wyprzedzeniem poinformować użytkowników i właścicieli usług oraz zadbać o wsparcie techniczne w okresie przejściowym. "Opisany model należy traktować jako idealny. Najbliższe funkcjonowania zgodnie z nim są banki i instytucje finansowe. Warto zwrócić uwagę, że oprogramowanie umożliwia wybór pomiędzy ręczną i kontrolowaną aktualizacją, a w pełni automatyczną. Tak jest w przypadku większości programów EDR, podobnych do CrowdStrike Falcon czy Stormshield Endpoint Security, które oferują możliwość aktualizacji ręcznych. Choć korzystanie z tej opcji wymaga większego zaangażowania, to może przynieść wiele korzyści" – podsumowuje Aleksander Kostuch. Zaplanuj jak będziesz działać w trakcie awarii Eksperci Stormshield zwracają uwagę na znaczenie procesów i dokumentów dotyczących planów ciągłości działania BCP (Business Continuity Plan) oraz procedur odzyskiwania dostępu do danych i systemów IT po awarii DR (Disaster Recovery). Och przyczyną, oprócz incydentów w obszarze cyfrowym mogą być klęski żywiołowe, pożary czy akty wandalizmu. "Wcześniejsze przygotowanie planów ciągłości działania ma dla organizacji krytyczne znaczenie. Plany określają, w jaki sposób firma będzie działać w sytuacji kryzysowej, nawet jeśli będzie musiała przenieść się do innej lokalizacji. Oczywiście, samo przygotowanie planów nie wystarczy, należy je cyklicznie testować i dostosowywać do aktualnych warunków funkcjonowania organizacji" – zwraca uwagę Paweł Śmigielski, country manager Stormshield w Polsce.