Профессиональная конференция разработчиков высоконагруженных систем

Мониторинг всех слоев web проекта

Системное администрирование

Доклад принят в Программу конференции

Сивко Николай

hh.ru

Директор по эксплуатации в hh.ru.

Тезисы

Когда вы узнаете, что ваш сервис не работает, вы идете в мониторинг, видите много алертов про CPU/load average/diskIO/и т.д., пускаете слезу и идете читать логи. Сначала на фронтенды, потом дальше по стеку.
У многих уже есть grafana и подобные дашборды, но почти всегда там есть только метрики про приложение и пользователей, но нет ничего про сеть, базу и другие подсистемы, от которых зависит работа сервиса.
Мониторинг должен помочь быстро понять, в каком сервисе проблема, а, может, даже показать причину проблемы.

Я расскажу и покажу на примере hh.ru, как покрыть мониторингом все слои инфраструктуры:
- client-side метрики;
- метрики с фронтендов (логи nginx);
- сеть (что можно добыть из TCP);
- приложение (логи);
- метрики базы данных (postgresql в нашем случае);
- операционная система (cpu usage тоже может пригодиться:).

Профессиональная конференция разработчиков высоконагруженных систем

Профессиональная конференция разработчиков высоконагруженных систем

Мониторинг всех слоев web проекта Системное администрирование

Тезисы

Другие доклады секции Системное администрирование

Мы используем файлы cookie

Мониторинг всех слоев web проекта
Системное администрирование

Другие доклады секции
Системное администрирование