Как мы мониторим Tarantool Аппаратное обеспечение, инфраструктура
Пока нет мониторинга, ни одно решение нельзя назвать producton-ready. Без мониторинга никак не узнать, что пора добавить памяти или что кэш отвечает с задержкой в 5 минут. С задачей построения мониторинга мы столкнулись, когда заканчивали проект для одного крупного телекома.
Мы сделали репликацию из Oracle в Tarantool с помощью GoldenGate. Получилось два кэша, каждый примерно в терабайт размером. Это пользовательские данные - номера, договоры, сроки, паспортные данные, подключенные продукты и услуги.
Хороший мониторинг -- это когда алерты предупреждают вас, если
- перестает хватать места в памяти или на диске;
- вы начинаете отставать от Oracle больше, чем на минуту;
- во время работы приложения возникают какие-либо инциденты.
А еще мы хотим удобный Grafana дэшборд для эксплуатации, который можно будет передать другим проектам. На него мы вывели
- время обработки HTTP-запросов (средние значения, перцентили),
- health status всех инстансов,
- метрики инстансов Tarantool,
- лаги репликации.
Готового решения не было, так что мы сделали своё и перевели его на open-source. Мы не уверены, что замеряем самые важные показатели. Поэтому для нас важна обратная связь - что замеряете вы? Какие алерты у вас? Что у вас выведено на дэшборд?
Доклад подойдет для тех, кто мониторит, собирается мониторить или создает решения для мониторинга кэшей или приложений на Tarantool.
Программист в Tarantool. Пишет экосистемные модули для платформы и ведет тренинги; раньше занимался продуктовой разработкой высоконагруженных систем. С отличием окончил механико-математический факультет МГУ, продолжает обучение в аспирантуре.