Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Как мы мониторим Tarantool Аппаратное обеспечение, инфраструктура

Программный комитет ещё не принял решения по этому докладу
Тезисы

Пока нет мониторинга, ни одно решение нельзя назвать producton-ready. Без мониторинга никак не узнать, что пора добавить памяти или что кэш отвечает с задержкой в 5 минут. С задачей построения мониторинга мы столкнулись, когда заканчивали проект для одного крупного телекома.

Мы сделали репликацию из Oracle в Tarantool с помощью GoldenGate. Получилось два кэша, каждый примерно в терабайт размером. Это пользовательские данные - номера, договоры, сроки, паспортные данные, подключенные продукты и услуги.

Хороший мониторинг -- это когда алерты предупреждают вас, если

- перестает хватать места в памяти или на диске;
- вы начинаете отставать от Oracle больше, чем на минуту;
- во время работы приложения возникают какие-либо инциденты.

А еще мы хотим удобный Grafana дэшборд для эксплуатации, который можно будет передать другим проектам. На него мы вывели

- время обработки HTTP-запросов (средние значения, перцентили),
- health status всех инстансов,
- метрики инстансов Tarantool,
- лаги репликации.

Готового решения не было, так что мы сделали своё и перевели его на open-source. Мы не уверены, что замеряем самые важные показатели. Поэтому для нас важна обратная связь - что замеряете вы? Какие алерты у вас? Что у вас выведено на дэшборд?

Доклад подойдет для тех, кто мониторит, собирается мониторить или создает решения для мониторинга кэшей или приложений на Tarantool.

Георгий Моисеев
Tarantool, VK

Программист в Tarantool. Пишет экосистемные модули для платформы и ведет тренинги; раньше занимался продуктовой разработкой высоконагруженных систем. С отличием окончил механико-математический факультет МГУ, продолжает обучение в аспирантуре.

Другие доклады секции Аппаратное обеспечение, инфраструктура