Как начать следовать практикам SRE не имея SRE за пазухой DevOps и эксплуатация

Доклад отозван
Слава Бахмутов
Dropbox

4 года SRE в группе persistent systems в Dropbox.

https://twitter.com/m0sth8
telegram: m0sth8
Тезисы

Каждая IT компания мечтает иметь свою команду SRE, которая магическим образом будет держать продакшен на плаву. В этом докладе я хочу показать, что никакой магии не существуют, но есть процессы и практики, уменьшающие вероятность катастрофического сценария.

Какие-то шаги могут показаться очевидными или добавляющими излишней бюрократии и деятельности, но почти все они появились, как ответ на серьёзные инциденты, ставившие само существование компании под угрозу.

Я хочу привести примеры подобных процессов, как они внедряются, как влияют.
Часть из примеров будут следствием какой-то истории(катастрофы) из Dropbox или других IT компаний.

Непрерывное развертывание и деплой
,
Технологии отказоустойчивости и катастрофоустойчивости, бэкапы
,
Менеджмент в эксплуатации
,
Непрерывная интеграция
,
Автоматизация разработки и тестирования
Подготовительное задание


Не обязательно для чтения, но может быть полезно для более полного понимания.
https://landing.google.com/sre/books/
https://books.google.com/books/about/Designing_Data_Intensive_Applications.html?id=p1heDgAAQBAJ&printsec=frontcover&source=kp_read_button#v=onepage&q&f=false

Другие доклады секции DevOps и эксплуатация