Byte/RE ИТ-издание

«Яндекс» официально объяснил причины падения

Как известно, в пятницу 19 августа в течение нескольких часов были недоступны сервисы «Яндекса». Согласно официальному объяснению, это произошло из-за проблем с маршрутизацией в сети «Яндекса» и не связано с работой дата-центров, DDoS-атаками, пожарами и прочими внешними факторами. Никакие пользовательские данные не потеряны.

Проблема была вызвана ошибкой ПО на маршрутизаторе в новом дата-центре компании в Амстердаме. В «Яндексе» для маршрутизации используются внутренний протокол OSPF и внешний протокол BGP. Из-за ошибки информация обо всех внешних маршрутах оказалась во внутренних таблицах маршрутизации – это примерно на три порядка больше маршрутов, чем обычно. Поскольку протокол OSPF не рассчитан на такое количество, у всех маршрутизаторов кончилась память, и они перестали работать. Нарушилась работа сети, и через несколько минут «Яндекс» стал полностью недоступен. Из-за того, что внутренняя сеть тоже не работала, специалистам потребовалось много времени для того, чтобы по цепочке добраться до источника проблемы.

После исправления ошибки на маршрутизаторе, чтобы снять лишнюю нагрузку с остальных маршрутизаторов, специалистам пришлось разделить сеть на несколько частей. Объем трафика снизился, и маршрутизаторы смогли самостоятельно восстановить связность сети.

Вам также могут понравиться