От разбора ошибок до полноценного понимания продакшена Архитектуры, масштабируемость

Доклад принят в программу конференции
Иван Карев
Яндекс

Больше 10 лет в Яндексе, занимался разработкой главной страницы, Эфира, Дзена. Люблю понимать то, что происходит на клиентских устройствах, с помощью метрик. Руковожу несколькими командами разработки. Последние несколько лет изучаю работу видео — от создания до воспроизведения.

newbfg@gmail.com
Тезисы

Расскажу о том, как решение одной частной проблемы выросло в систему, с которой работает сотня команд и которая позволяет в режиме реального времени ответить на большинство вопросов про то, что происходит с продакшеном. Мы объединили разбор ошибок клиентов и бэкендов, клиенсткую скорость, телеметрию видео, клики по элементам интерфейсов, access_log сервисов, логи балансеров, CSP, CDN статики, CDN видео в общий набор инструментов, который позволяет навигироваться по более чем 150B событий в сутки. И еще фильтровать данные по произвольным срезам, строить графики, считать метрики, сравнивать сегменты, настраивать алерты.

Я поделюсь рецептом того, как мы собирали такую систему, а так же приведу технические характеристики текущих кластеров. Хочу показать, что создание подобной системы внутри компании возможно и может быть сделано силами небольшого числа людей.

Другие доклады секции Архитектуры, масштабируемость