Информация о сбое, произошедшем 4 октября
ОБНОВЛЕНИЕ от 18 октября 2021 г., 13:25 по тихоокеанскому времени. Мы понимаем, как сильно сбои, произошедшие в начале месяца, повлияли на работу компаний, и приносим извинения за причиненные неудобства. Мы хотим ответить на вопросы пользователей, поэтому публикуем эту новость. В ней мы рассказываем, что произошло и что мы будем делать дальше.
Что произошло?
Сбой, произошедший 4 октября, был ненамеренно вызван действиями инженера, который выполнял плановое техническое обслуживание наших систем. Вследствие этих действий были отменены все подключения в нашей опорной сети, из-за чего дата-центры Facebook по всему миру потеряли связь с Интернетом. В блоге Facebook Engineering подробно описано, чем был вызван сбой и почему нам потребовалось столько времени на его устранение. Когда наши системы были офлайн, показ объявлений не осуществлялся, поэтому мы не выставили и не выставим рекламодателям счета за этот период. Однако мы получили сообщения о том, что после восстановления наших сервисов некоторые рекламодатели столкнулись с нестабильной работой кампаний.
Кроме этого, 8 октября отдельные пользователи на короткий период времени потеряли доступ к некоторым приложениям и продуктам Facebook. Наши специалисты быстро определили и устранили причину этого сбоя и восстановили доступ пользователей к сервисам.
Что мы делаем?
Сейчас мы оцениваем, как сильно сбои в работе повлияли на наших клиентов. Мы также разрабатываем планы по устранению выявляемых проблем, в том числе решаем вопрос компенсации для пострадавших клиентов.
Мы понимаем, что люди и компании, которые используют наши сервисы по всему миру, ожидают от нас стабильности и надежности. Именно поэтому мы будем делать всё возможное, чтобы не допустить таких сбоев в будущем. Сантош Джанардхан (Santosh Janardhan), вице-президент Facebook по инфраструктуре, заявил: “Ошибки, подобные этой, дают нам возможность учиться и совершенствоваться. Мы многое вынесем из произошедшей ситуации. После каждого сбоя — крупного или мелкого — следуют длительные проверки, которые помогают нам понять, как сделать наши системы ещё более надежными. Мы уже ступили на путь изменений… С этого момента наша задача — улучшить стратегии тестирования и алгоритмы работ в случае сбоев, а также повысить устойчивость наших систем. Это поможет нам свести вероятность подобных ситуаций к минимуму”.