Facebook nie mógł naprawić Facebooka, bo Facebook trzyma wszystko na Facebooku

Daniel Maikowski
Zakończyła się jedna z największych awarii w historii Facebooka. Okazuje się, że firma miała poważny problem z naprawieniem usterki, gdyż jej wszystkie wewnętrzne systemy działają w oparciu o serwery Facebooka.

Facebook, Instagram, Messenger, WhatsApp nie działały przez ok. 6 godzin. Powodem wielkiej awarii okazała się przypadkowa aktualizacja protokołu BGP. System ten - w dużym uproszczeniu - "steruje" ruchem w sieci i decyduje o tym, jaką trasę mają obrać poszczególne pakiety danych, aby jak najszybciej dotrzeć z miejsca A do miejsca B. 

Zobacz wideo Jak nie dać sobie ukraść konta na Twitterze i Facebooku? Poradnik dla polityków PiS (i nie tylko) [TOPtech]

Dlaczego pracownikom Facebooka tak długo zajęło uporanie się z tym problemem? Okazuje się, że powody były dość prozaiczne. Jak wyjaśnił Alex Hern, dziennikarz technologiczny "Guardiana", w serii wpisów na Twitterze, winna okazała się wewnętrzna polityka firmy, której wszystkie systemy działają w oparciu o serwery Facebooka. 

Facebook przypadkowo wysłał aktualizację protokołu trasowania (deep-level routing protocol) , która w uproszczeniu mówi: 'Hej, nie mamy już żadnych serwerów' (...). Zazwyczaj, taki błąd można w łatwy sposób naprawić, wystarczyłoby wysłać kolejną aktualizację protokołu mówiącą w uproszczeniu: 'Nie martwcie się. Mamy jednak serwery. Są tutaj!'

- tłumaczy dziennikarz.

Sęk w tym, że wysłanie takiej aktualizacji okazało się niemożliwe, gdyż, jak pisze Hern, "w Facebooku WSZYSTKO działa przez Facebooka". W efekcie zdalna naprawa problemu okazała się niemożliwa, gdyż serwery Facebooka zostały niejako odcięte od świata zewnętrznego. Aby uporać się z awarią, pracownicy FB musieli fizycznie pojawić się w serwerowni firmy i dokonać restartu serwerów.

Tu pojawił się kolejny problem. Otwarcie drzwi do serwerowni okazało się niemożliwe, ponieważ karty dostępu... również działają w oparciu o serwery Facebooka. Problem mógł rozwiązać szef ochrony, który dysponował fizycznym kluczem. Jednak tu znów coś poszło nie tak, bo system alarmowy, który umożliwia szybki kontakt z szefem ochrony - tak, zgadliście - działa na serwerach Facebooka.

Facebook potwierdza: Awaria uderzyła w wewnętrzne systemy firmy

Koniec końców, jak wynika z ustaleń dziennika "The New York Times", Facebook wysłał swój zespół informatyków do jednego z centrów danych w Kalifornii, gdzie dokonali oni manualnego restartu serwerów, co pozwoliło uporać się z awarią.

Nasze zespoły inżynierów odkryły, że zmiany w konfiguracji routerów szkieletowych, które koordynują ruch sieciowy między naszymi centrami danych, spowodowały problemy, które przerwały tę komunikację. To zakłócenie ruchu sieciowego miało kaskadowy wpływ na sposób komunikacji naszych centrów danych, powodując zatrzymanie naszych usług"

- napisał w oświadczeniu wiceszef Facebooka ds. infrastruktury Santosh Janardhan.

Janardhan zaznaczył również, że awaria "wpłynęła na wiele wewnętrznych narzędzi i systemów, z których korzystamy w naszej codziennej działalności, komplikując nasze próby szybkiego zdiagnozowania i rozwiązania problemu".

Więcej o: