Branża IT Rynek

Jakie były powody awarii w centrach danych OVH

Adam Jadczak 9 listopada 2017

0 1 306 2 minut(y) czytania

Dziś (9 listopada) rano miały miejsce dwa niezależne od siebie incydenty: pierwszy miał wpływ na francuskie centrum danych w Strasburgu (SBG), drugi dotknął usługi zlokalizowane w Roubaix na północy Francji (RBX). W centrum w Strasburgu (SBG) działają 3 centra danych OVH, a 1 jest w budowie. W RBX uruchomionych jest 7 centrów danych.

Z uwagi na awarię części sieci szkieletowej OVH oraz niedostępność zasilania w centrum danych Strasbourg, część klientów OVH nie miała dostępu do usług zlokalizowanych w centrach danych w Wlk. Brytanii, Niemczech i Francji. Dostęp do usług był możliwy w centrach danych: w Warszawie, Kanadzie i w centrum danych P19 Paryż. Poniżej komentarz Octave Klaba, CEO firmy OVH na temat powodów awarii:

DC Strasburg (SBG):

Centrum danych w Strasburgu doświadczyło problemów z energią elektryczną. Zasilanie zostało wznowione, a usługi dla klientów firmy są przywracane. Dla części klientów firmy usługi i serwisy na nich hostowane są już dostępne. Czas przywrócenia pozostałych usług wyniesie od 5 minut do 3-4 godzin.

System monitoringu OVH pozwala na bieżąco sprawdzać, którzy klienci nadal odczuwają skutki awarii – firma cały czas pracuje nad ich przywróceniem. OVH obecnie sprawdza informacje o czasie przywrócenia pełnego działania centrum danych w Strasburgu dla wszystkich usług oraz klientów firmy. OVH opublikuje ponadto wszystkie szczegóły techniczne dotyczące źródła obu incydentów.

DC Roubaix (RBX):

W Roubaix wystąpił problem z siecią światłowodową, która łączy centrum danych w Roubaix z punktami pozwalającymi na połączenie z innymi sieciami, zlokalizowanymi w Paryżu, Frankfurcie, Amsterdamie, Londynie i Brukseli. Źródłem problemu był błąd oprogramowania na sprzęcie sieciowym, który spowodował utratę konfiguracji i trudności z połączeniem w RBX. Z chwilą zdiagnozowania problemu, pracownicy OVH uruchomili kopię zapasową konfiguracji oprogramowania, a centrum danych może ponownie działać. Incydent w Roubaix został już rozwiązany. Obecnie zespół OVH razem z producentem oprogramowania szuka źródła błędu, aby wyeliminować podobne zdarzenia w przyszłości.

W Roubaix wystąpił problem z naszą siecią światłowodową, która łączy centrum danych w Roubaix z punktami pozwalającymi na połączenie z innymi sieciami, zlokalizowanymi w Paryżu, Frankfurcie, Amsterdamie, Londynie i Brukseli. Źródłem problemu był błąd oprogramowania na sprzęcie sieciowym, który spowodował utratę konfiguracji i trudności z połączeniem w RBX. Z chwilą zdiagnozowania problemu, pracownicy OVH uruchomili kopię zapasową konfiguracji oprogramowania.

„Bardzo i szczerze przepraszamy wszystkich naszych Klientów oraz Użytkowników sieci, którzy zostali dotknięci przez zaistniałą sytuację. Doświadczyliśmy jednocześnie dwóch, niezależnych zdarzeń, które wpłynęły na wszystkich Klientów Roubaix (RBX) między godziną 8:15 a 10:37 oraz wszystkich Klientów centrum danych w Strasburgu między godziną 07:15 a 11:15. Prace nad przywróceniem pełnego działania data center w Strasburgu nadal trwają” – mówi Octave Klaba.

Awarie data center dotknęły w historii takich firm i instytucji, jak:

– British Airways – przepięcie elektryczne i wywołana tym awaria w centrum danych spowodowało konieczność „uziemienia” tysięcy samolotów,
– Yahoo – wiewiórka i wywołane przez nią spięcie w sieci elektrycznej unieruchomiło połowę centrum danych w Santa Clara,
– National Security Agency – przepięcie elektryczne wywołało zniszczenie sprzętu w centrum danych NSA w Utah,
– Rackspace – awarię wywołał kierowca, który wjechał swoją ciężarówką w transformator prądu,
– Joyent – błąd administratora wywołał serię restartów maszyn wirtualnych, na których pracowały rozwiązania klientów,
– Microsoft i Amazon – uderzenie pioruna unieruchomiło na weekend centra danych obu firm znajdujące się w Dublinie,
– Google – firma musiała pokryć kewlarem swój światłowód położony na dnie Pacyfiku z powodu „ataków” rekinów,
– Vodafone – awarię usług telekomunikacyjnych wywołał złodziej, który ukradł sprzęt sieciowy z centrum danych w Basingstoke,
– Huffington Post, Gawker, Gizmodo i Buzzfeed – serwisy te przestały „działać” po tym jak powódź – wywołana huraganem Sandy – zalała podziemia centrum danych firmy Datagram,
– HBOS – właściciel Halifax i Bank of Scotland – przez 6 godzin nie działała jego sieć bankomatów z powodu sztormu, który uderzył w centrum danych firmy w Yorkshire.