Наблюдательный пост пессимиста: технические и концептуальные решения в системе мониторинга Lamoda DevOps и эксплуатация

Доклад принят в программу конференции
Александр Афенов
Lamoda

Тимлид. Десять лет в PHP-разработке: телеком и e-commerce.

aleksandr.afenov@lamoda.ru
Тезисы

Закон Мёрфи гласит, что всё, что может пойти не так, пойдет не так, и я, как ответственный за большую, нагруженную нетривиальной бизнес-логикой систему, хотел бы знать о таких вещах заранее.

В своем докладе расскажу о том, как мы готовим prometheus/thanos/redis/icinga/tg bots/slack/grafana/sentry, как следим за Kubernetes-кластером и базами данных, как заводим новые метрики, как мониторим бизнес-показатели, как предвещаем провалы, начиная от заканчивающегося автоинкремента в базах до роста количества ошибок при подтверждении заказов. Доклад охватит и бэк, и мобильные приложения.

Логирование и мониторинг
,
Менеджмент в эксплуатации
,
Непрерывная интеграция

Другие доклады секции DevOps и эксплуатация