InfrastrukturaRynekPolecane tematy
Jedna usterka w pechowym centrum danych – co sparaliżowało chmurę AWS?
Wczorajsza (20 października) globalna awaria Amazon Web Services sparaliżowała tysiące stron i aplikacji internetowych. Problemy z dostępem dotknęły użytkowników od Londynu po Tokio, zakłócając działanie serwisów płatniczych, komunikatorów i narzędzi biurowych. Amazon potwierdził, że wszystkie usługi AWS wróciły do normy po kilku godzinach, choć część – jak Redshift i Connect – wymagała dodatkowego czasu na przetworzenie zaległych wiadomości. Co dokładnie odpowiada za tę awarię?

Źródłem problemów po raz kolejny okazał się region US-EAST-1 w północnej Wirginii (USA) – największe i najstarsze centrum danych AWS, które już kilkakrotnie w ostatnich latach powodowało globalne zakłócenia. To właśnie tam zlokalizowany jest kluczowy węzeł systemu nazw domen (DNS), odpowiedzialny za kierowanie ruchu do usług takich jak DynamoDB – chmurowej bazy danych Amazona przechowującej informacje o użytkownikach i transakcjach.
Tym razem błąd nie dotyczył jednak samej bazy, lecz podsystemu monitorującego stan modułów równoważenia obciążenia sieci (load balancerów), które rozdzielają ruch pomiędzy serwery w usłudze EC2 (Elastic Compute Cloud). W efekcie aplikacje nie potrafiły odnaleźć właściwego adresu interfejsu API DynamoDB, co doprowadziło do przerwania wielu połączeń.
Jak błąd w jednym komponencie sparaliżował globalną sieć
Według ekspertów, incydent pokazuje, jak silnie współzależne są dziś globalne usługi cyfrowe. Nawet lokalna usterka w jednym centrum danych może sparaliżować kluczowe aplikacje i systemy biznesowe na całym świecie. „Ta awaria po raz kolejny uwidacznia, jak kruche są infrastruktury, od których zależy codzienne funkcjonowanie internetu” – skomentował Jake Moore, doradca ds. cyberbezpieczeństwa w firmie ESET, cytowany przez Reutersa.
Brytyjskie banki (Lloyds, Bank of Scotland), operatorzy telekomunikacyjni (Vodafone, BT) czy urząd skarbowy HMRC zgłaszały problemy z dostępem. Według danych firmy Ookla, właściciela serwisu Downdetector, ponad 4 miliony użytkowników zgłosiło trudności w korzystaniu z aplikacji.
Lekcja dla branży IT: dywersyfikacja i odporność
Eksperci przypominają, że AWS od dawna oferuje narzędzia zwiększające odporność na błędy – w tym możliwość replikowania danych w wielu regionach i korzystania z usług różnych dostawców chmurowych. Problem w tym, że wiele firm – w pogoni za optymalizacją kosztów – nie wdraża tych zabezpieczeń, co czyni ich systemy podatnymi na awarie.
„Kiedy zespoły próbują uprościć wdrożenie i pomijają ostatni krok zabezpieczający, tworzą niewidoczne słabe punkty. W takich sytuacjach każda awaria staje się kryzysem” – powiedział prof. Ken Birman z Uniwersytetu Cornella.
Kolejny sygnał ostrzegawczy dla chmury
Poniedziałkowa awaria była największym zakłóceniem w działaniu internetu od ubiegłorocznego incydentu CrowdStrike, który sparaliżował systemy w szpitalach, bankach i na lotniskach. Tym razem skutki były mniej dotkliwe, ale ponownie zwróciły uwagę na zbyt duże uzależnienie firm od pojedynczych dostawców chmurowych.
Przedstawiciele Amazon zapowiedzieli analizę przyczyn awarii i aktualizację systemów monitorowania w regionie US-EAST-1. Dla branży IT to kolejne przypomnienie, że nawet najbardziej zaawansowane infrastruktury nie są odporne na błędy – zwłaszcza gdy cała gospodarka cyfrowa opiera się na kilku globalnych punktach krytycznych.







