Взгляд изнутри на надежность сервисов Facebook Системное администрирование

Доклад принят в программу конференции
Элина Лобанова
Facebook

Production Engineer, Facebook.

Закончила ВМК МГУ. Работала в Samsung и Лаборатории Касперского. Последние 4 года работает в Facebook в команде Web Foundation, которая занимается контролем надежности и производительности facebook.com, а также разработкой автоматизации для этих задач.

elina.lobanova@gmail.com
Тезисы

Моя команда отвечает за то, чтобы facebook.com работал. Звучит очень размыто, но это наиболее точная формулировка. Нас немного. Такого же размера команды разрабатывают обычные сервисы в Facebook. Когда Facebook горит, то мы его тушим, а горит он не часто. Большую часть времени мы пишем мониторинг и автоматизацию для того, чтобы облегчить жизнь себе и другим.

Мы называемся Production Engineers. Это похоже на то, что делают SRE в Google.

В моем докладе я расскажу:
- чем именно занимаются Production Engineers в Facebook;
- как мы следим за надежностью и производительностью всего бэкенда;
- какие инструменты мы для этого используем;
- как выглядит наш мониторинг и автоматизация;
- какие крупные сбои у нас были, и как мы, в принципе, справляемся с подобными инцидентами.

Логирование и мониторинг
,
Devops / другое

Другие доклады секции Системное администрирование