Мониторинг всех слоев web проекта
Системное администрирование

Доклад принят в Программу конференции
hh.ru

Директор по эксплуатации в hh.ru.

Мониторинг всех слоев web проекта / Сивко Николай (hh.ru) from Ontico

Тезисы

Когда вы узнаете, что ваш сервис не работает, вы идете в мониторинг, видите много алертов про CPU/load average/diskIO/и т.д., пускаете слезу и идете читать логи. Сначала на фронтенды, потом дальше по стеку.
У многих уже есть grafana и подобные дашборды, но почти всегда там есть только метрики про приложение и пользователей, но нет ничего про сеть, базу и другие подсистемы, от которых зависит работа сервиса.
Мониторинг должен помочь быстро понять, в каком сервисе проблема, а, может, даже показать причину проблемы.

Я расскажу и покажу на примере hh.ru, как покрыть мониторингом все слои инфраструктуры:
- client-side метрики;
- метрики с фронтендов (логи nginx);
- сеть (что можно добыть из TCP);
- приложение (логи);
- метрики базы данных (postgresql в нашем случае);
- операционная система (cpu usage тоже может пригодиться:).

Другие доклады секции
Системное администрирование

University of Cambridge, Mimecast
Одноклассники
Высшая Инженерная Школа