Эволюция работы с production-инцидентами в ЦИАН DevOps и эксплуатация
Разработчик в ЦИАН. Занимается развитием направления первичной недвижимости. Интересуется функциональным программированием, архитектурой распределенных систем.
mazaev.maxim@gmail.com
Любой highload-проект когда-нибудь сталкивается с проблемами, влияющими на работоспособность сервиса. И недостаточно просто решить проблему, нужно сделать это оперативно и не наступать на те же грабли в будущем. Я расскажу о том, как мы в ЦИАНе выстроили процесс реагирования на production-инциденты и каких результатов добились. Рассмотрим следующие вопросы:
- Логирование и мониторинг (Не все алерты одинаково полезны)
- Расследование инцидента (Что случилось? Что делать? Кто виноват?)
- Ответственность разработчиков за написанный код. Как эффективно решать проблемы на стыке разработки и админов. Как конвертировать разработчиков в SRE.
- Делаем правильные выводы по итогам инцидента. Каким должен быть полезный постмортем.