Некорректные манипуляции с BGP привели к 6-часовой недоступности Facebook, Instagram и WhatsApp

Facebook столкнулся с крупнейшим сбоем в своей истории, в результате которого все сервисы компании, включая facebook.com, instagram.com и WhatsApp, оказались недоступны в течение 6 часов – с в 18:39 (MSK) в понедельник до 0:28 (MSK) во вторник. Источником сбоя стало изменение в настройках BGP на магистральных маршрутизаторах, управляющих трафиком между датацентрами, которое привело к каскадному нарушению связности датацентров Facebook с остальной глобальной сетью. Со стороны произошедшее выглядело так, как будто кто-то разом отключил кабели ото всех датацентов Facebook.


Интересно, что сбой привёл к нарушению работоспособности внутренних информационных систем и систем связи, из-за чего сотрудники, большая часть которых работала удалённо, не смогли подключиться к инфраструктуре и связаться с коллегами, что существенно усложнило работы по восстановлению, так как ключевые сетевые инженеры также работали удалённо. Более того, возникли проблемы с получением физического доступа, так как идентификационные карты сотрудников и система контроля доступа в помещения были завязаны на централизованные сервисы и также перестали работать.

Сбой также отразился на системе обмена информацией между регистраторами DNS (домены Facebook обслуживаются собственным регистратором) и некоторые крупные регистраторы доменов, включая GoDaddy, включили домен facebook.com в списки доступных для продажи, что вскрыло новый пласт потенциальных проблем с возможностью совершения атак на регистраторов для захвата доменов.

Более того, до сих пор не ясно, были ли внесённые в настройки BGP изменения случайной ошибкой или они стали результатом атаки и вредоносной деятельности. В опубликованном заявлении компания Facebook ограничилась утверждением, что у неё пока нет свидетельств того, что данные пользователей были скомпрометированы. Примечательно, что по стечению обстоятельств работа была нарушена спустя несколько часов после выхода на канале CBS интервью с Фрэнсис Хауген (Frances Haugen) о злоупотреблениях Facebook.

Проведённый компанией Сloudflare разбор показал, что в момент сбоя по BGP перестали анонсироваться маршруты на подсети, в которых находились DNS-серверы Facebook, что привело к невозможности определения IP-адресов для таких доменов, как facebook.com и instagram.com. Параметр TTL, определяющий время кэширования, для данных доменов был выставлен в 5 минут, что привело к тому, что сторонние DNS-серверы достаточно быстро перестали выдавать сведения об адресах. Маршрутизация на остальные IP-адреса компании продолжала работать, но потеряла смысл без DNS и данных о привязке адресов к доменам.

Release. Ссылка here.