Как считать и анализировать сотни гигабит трафика в секунду, не тратясь на Hadoop и не парся логи
Архитектуры

Доклад принят в Программу конференции
UCDN.COM

Я занимаюсь интернет-проектами с 1997 года. Прошел путь от хостинга, высоконагруженного интернет-видеопроекта и ряда других начинаний до создания CDN, которая обслуживает сотни гигабит трафика в секунду уже несколько лет.

Как считать и анализировать сотни гигабит трафика в секунду, Станислав Николов (UCDN.com) from Ontico

Тезисы

В своем докладе я расскажу о такой непростой задаче, как обсчет и анализ трафика многих клиентов под очень высокими нагрузками и при практически полном отсутствии расходов на дополнительные серверы под статику. Задача усложняется тем, что все клиенты отдаются со всех серверов, а статистика ведется по отдельным субдоменам. Сбор статистики многоуровневый - скорость отдачи, коды ошибок HTTP, количество отданных байтов и ряд других параметров с 5-минутными интервалами.

Основные подтемы доклада
- В чем проблема подхода, включающего парсинг логов?
- Чем хороши, а чем не очень инструменты работы с логами?
- Что получается, если объем собираемых в день логов составляет около 70 Тб?
- Плюсы и минусы универсальных решений типа Hadoop для такой задачи.
- Наш подход к интеграции MapReduce в nginx.
- Горизонтальная масштабируемость системы агрегации логов.
- Почему одного сервера достаточно, чтобы считать 50 гигабит трафика в секунду и более 7 миллиардов хитов в день?
- Результаты работы в production
- Как бы мы реализовали то же самое сейчас?

Другие доклады секции
Архитектуры

Hailo (hailoapp.com)
LiteSpeed Technologies
LinkedIn
ПЕТЕР-СЕРВИС
Pivotal Inc.
Positive Technologies