HighLoad++ 2015 завершён! Ждём вас в 2016 году!

Профессиональная конференция разработчиков высоконагруженных систем

2 и 3 ноября 2015 Крокус-Экспо МОСКВА
Профессиональная конференция разработчиков высоконагруженных систем

Мониторинг всех слоев web проекта
Системное администрирование

Доклад принят в Программу конференции
hh.ru

Директор по эксплуатации в hh.ru.

Тезисы

Когда вы узнаете, что ваш сервис не работает, вы идете в мониторинг, видите много алертов про CPU/load average/diskIO/и т.д., пускаете слезу и идете читать логи. Сначала на фронтенды, потом дальше по стеку.
У многих уже есть grafana и подобные дашборды, но почти всегда там есть только метрики про приложение и пользователей, но нет ничего про сеть, базу и другие подсистемы, от которых зависит работа сервиса.
Мониторинг должен помочь быстро понять, в каком сервисе проблема, а, может, даже показать причину проблемы.

Я расскажу и покажу на примере hh.ru, как покрыть мониторингом все слои инфраструктуры:
- client-side метрики;
- метрики с фронтендов (логи nginx);
- сеть (что можно добыть из TCP);
- приложение (логи);
- метрики базы данных (postgresql в нашем случае);
- операционная система (cpu usage тоже может пригодиться:).

Rambler's Top100