HighLoad++

Конференция разработчиков
высоконагруженных систем

Многоуровневый мониторинг веб-систем класса “mission critical”

Юрий Федосеев (IT-Online)

Программный комитет еще не принял решения по этому докладу

Постановка задачи. Когда возникает необходимость в многоуровневом мониторинге?

  • Круглосуточные продажи на глобальном рынке;
  • Сложность ИТ-инфраструктуры и веб-приложения, поэтому проблемы не всегда видны «невооруженным» взглядом и не всегда сразу;
  • Если предотвращение потерь покрывает затраты на мониторинг.

Опыт компании ITONLINE GROUP

  • Описание системы заказчика:
    • Шесть связанных веб-приложений, организованных в единую бизнес-модель;
    • Несколько территориально удаленных площадок, несколько реплицируемых БД;
    • 100 000 посетителей в день, 1 000 000 просмотров страниц;
    • Стоимость часа простоя измеряется в тысячах долларов потерянной выручки и в десятках тысяч долларов потерянной лояльности клиентов.
  • Проактивный подход к обеспечению отказоустойчивости:
    • Реактивный подход: «Что будем делать, если какой-то сервер сломается?»
    • Проактивный подход: – «Как будет работать система, когда вот этот сервер сломается?»
    • После обнаружения первого сбоя в какой-либо точке сразу должен быть настроен ее мониторинг. Повторный сбой – халатность.
  • Три уровня мониторинга:
    • Состояние технической платформы: серверов и коммуникаций;
    • Состояние приложений;
    • Динамика бизнес-показателей.
  • Параметры мониторинга:
    • Доступность и нагрузоустойчивость;
    • Профилактический, оперативный и экстренный уровень проблем.
  • Отказоустойчивость мониторинга:
    • Дублирование систем мониторинга и систем оповещений;
    • Мониторинг мониторинга.

Инструменты мониторинга:

  • Системные средства операционной системы (счетчики Performance);
  • Встроенные утилиты, поставляемые вендором оборудования (например, Dell);
  • Специализированный софт (например, Servers Alive);
  • Специализированные SaaS-приложения, обеспечивающие дополнительные возможности (например, WebSitePulse.com – несколько locations, takeover actions, публикация данных о доступности и прочие возможности);
  • Встроенные в само приложение, которое мониторится (продажи можно отслеживать только так).

Человеческий фактор:

  • «Волки, волки!..» – оповещения должны присылаться только в случае реального сбоя;
  • Ответственность: регламентированная, финансовая, персональная;
  • Регламенты не должны подавлять творческий подход при решении нетривиальных проблем.

Подведение итогов. Каким должен быть мониторинг:

  • Проактивным;
  • Многоуровневым (бизнес-уровень – для контроля фактических показателей, технический уровень – для предотвращения потенциальных проблем);
  • Не ориентированным на инструменты, они вторичны;
  • Ориентированным на бизнес;
  • Ориентированным на человека.
По любым вопросам обращайтесь:
Программный комитет : Олег Бунин , +7 (916) 635-95-84
Организационный комитет : , +7 (495) 646-07-68 доб. 2
Бухгалтерия и вопросы оплаты : Анна Громовая , +7 (495) 646-07-68 доб. 1
Пресс-служба : , +7 (495) 646-07-68 доб. 6

Почтовый адрес: 125362, Москва, ул.Водников, дом 2, стр.2, офис 15 (четвертый этаж), ООО «Онтико»

Rambler's Top100
Рейтинг@Mail.ru