okmeter.io

— это сервис, который даёт возможность понимать, что происходит со сложной веб-системой — автоматические детальные и осмысленные дашборды с графиками позволят разобраться в неочевидном поведении подсистем проекта.

Мониторинг производится не за счет периодических проверок сайта из разных мест, а установкой агента на сервера и сбором статистики, метрик изнутри системы.

Автоматическое определение многих популярных сервисов Nginx, MySQL, Postgresql, JVM, Redis, Memcached, RabbitMQ — с автоматической конфигурацией и автоматическими графиками и дашбордами для этих сервисов.

Глубокая и детальная статистика про многие аспекты системы:

по каждому процессу в системе: потребление cpu, памяти, disk io, треды, файловые дескрипторы;

по каждому сетевому сервису: количество соединений на этот порт с каждого входящего IP, разбивка их по статусам TCP, а так же статистика по исходящим соединениям;

по access логам Nginx — количество медленных и быстрых ответов сервера с разбивкой по url, количество ответов с заданным HTTP status'ом и прочее.

Детальная статистика по запросам в базу данных, по внутреннему состоянию базы.

Данные в формате metrics 2.0 — http://metrics20.org, над ними можно совершать операции на языке запросов — можно складывать, делить метрики друг на друга, объединять их в группы и аггрегировать внутри групп max, min, sum, avg, применять оконные функции типа «максимум за последний пять минут / час»

Уведомления по SMS, Email, Slack и другие интеграции.

Компания okmeter.io участвовала в конференциях:

HL++ 2015-2017, РИТ++ 2016-2018

Активность

Мониторинг 101. Как okmeter рекомендует мониторить системы

Раньше достаточно было замониторить железку / сервис / СУБД пингами. Потом стали мониторить сайты внешними чеками. Но это всё еще не показывает пользовательские ощущения от вашей системы. Мы в okmeter много думаем над мониторингом и кажется нащупали правильную постановку задачи мониторинга. Приходите послушать что мы про это думаем и задать ваши каверзные вопросы и поспорить =)

Логирование и мониторинг

Технологии отказоустойчивости и катастрофоустойчивости, бэкапы

Менеджмент в эксплуатации

BoF церкви метрик: Advanced monitoring — аномалии, клауд нейтив, тренды, найди то не знаю что

Если вы угораете по StatsD, Graphite, Prometheus и прочим Metrics 2.0 и "measure everything", то давайте встретимся и потолкуем — обсудим, что кто реально делает интересного. Уверен что у вас найдется что рассказать, но вот темы для затравки: - возможен ли Anomaly Detection или это хайп и маркетинговый BS? - как мониторинговой системе справляться с cardinality данных, когда клауд нейтив датасорсы и теги/лейблы метрик сменяются каждые 5 минут? - как классифицировать метрики, когда их 100500, и зачем? - какими еще данными дополнить time series, чтобы всё стало зашибись? - что всё таки такое аномалия, и зачем их выявлять?

Логирование и мониторинг

Технологии отказоустойчивости и катастрофоустойчивости, бэкапы

Devops / другое