Мониторинг сложных систем в 2019 году. Что изменилось и как не пропустить проблему?DevOps и эксплуатация

Доклад принят в программу конференции

ITSumma

Генеральный директор компании ITSumma, 10 лет обеспечивающей круглосуточную техническую поддержку веб-сайтов. В настоящий момент на поддержке более 10000 серверов, сайты на которых посещает более 100 миллионов человек каждый день.

telegram: @eapotapov

Тезисы

Зал «Нева»

8 апреля, 13:00

Инфраструктура любого сложного проекта сегодня представляет собой подобие многоэтажного жилого здания. Кто-то следит за состоянием здоровья жильцов в квартире, кто-то - за коммуникациями в самих квартирах, кто-то - за состоянием самого здания и коммуникаций в нем.

За последние 10 лет "многослойность" систем очень усложнилась. Приложение, которое развернуто в Kubernetes, который развернут в Openstack, который в свою очередь уже развернут на настоящем "железе" - звучит не как безумный зоопарк, а вполне "живой" (и практически применяющийся) кейс. Сервисы приложения при этом могут коммуницировать между собой через шину на Kafka.

Как отследить, где произошла проблема в случае аварии в системе? Может быть, это связано с нагрузкой на базу создаваемой самим приложением? Может быть, что-то происходит с брокером сообщений, и сервисы перестали коммуницировать между собой? А почему начались проблемы с брокером - может быть, это проблемы в низлежащей архитектуре?

В докладе я рассмотрю современный стек мониторинга, логирования и трейсинга сложных приложений, ключевые точки их мониторинга и способы объединить информацию из разрозненных систем для того, чтобы в максимально короткое время иметь представление о том, что же происходит на примере мониторинга "живого" проекта.

Структура доклада:
1. Архитектура современного сложного проекта.
2. Мониторинг инфраструктуры и его специфика.
3. Мониторинг уровня виртуализации и его специфика.
4. Мониторинг уровня контейнеризации и PaaS и его специфика.
5. Мониторинг уровня приложений.
6. Трейсинг приложений.
7. Организация системы оповещения и расследования инцидентов.

Логирование и мониторинг

Технологии отказоустойчивости и катастрофоустойчивости, бэкапы

Devops / другое

Другие доклады секции DevOps и эксплуатация

njs ‒ родной JavaSсript-скриптинг в nginx (модуль для создания переменных и обработчиков стадий запроса на JavaScript)

Дмитрий Волынцев

Nginx, Inc.

Анализатор кода PVS-Studio (мастер-класс)

Сергей Хренов

PVS-Studio

Расширяем и дополняем Kubernetes

Андрей Половов

Флант

Мониторинг сложных систем в 2019 году. Что изменилось и как не пропустить проблему?DevOps и эксплуатация

Другие доклады секции DevOps и эксплуатация

Мы используем файлы cookie