Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

17 и 18 мая 2021 Москва, Крокус-Экспо 3, зал 20

Пишем свой Domain Crawler Архитектуры, масштабируемость

17 мая, 14:10

Доклад принят в программу конференции

Тезисы

Скачать презентацию Все презентации конференции

Причины, зачем может понадобиться сбор данных о доменах и размещенных на них сайтах, могут быть разными. В нашем случае речь шла о лучшем понимании, что же происходит на сайтах клиентов и как меняется интернет. Некоторое время мы покупали эти данные, но качество оставляло желать лучшего. Таким образом мы пришли к задаче написания собственного Domain Crawler'а, способного обходить до 100 миллионов доменов и собирать самую разную информацию о них.

В докладе планируется осветить различные аспекты и проблемы построения такого решения: где можно получить данные бесплатно, где можно купить нужные данные, как можно организовать архитектуру, как масштабировать проект, как следить за качеством и, конечно же, какие ожидают грабли на этом, весьма тернистом, пути.

Евгений Карагодин

Plesk

Fullstack-разработчик в компании Plesk. Занимается разработкой web-приложений на Node.js и React — от создания прототипа до автоматического развёртывания на инфраструктуре AWS. Более 10 лет опыта программирования на JavaScript.

Другие доклады секции Архитектуры, масштабируемость

Public Cloud. Гайд по масштабированию

Нарек Татевосян

Яндекс

Микросервисы с нуля

Семен Катаев

Авито

Консенсус на пальцах, или Как договориться в распределенной системе

Владимир Протасов

Yandex.Cloud

Crash Recovery в Распределенном Хранилище

Антон Виноградов

СберТех

Как мы создавали Data Management Platform в OZON

Евгений Чмель

Ozon

Как мы попали в истории. Stories в сервисе объявлений

Александр Инякин

Юла

Платформа видеоконференций ВКонтакте – сделано удалённо

Александр Тоболь

ВКонтакте, VK

Как сдержать самые сложные обещания: планирование batch-задач в системе Yandex.YT

Игнат Колесниченко

Яндекс

Чёрная магия JIT-компиляции

Алексей Рагозин

Дойче Банк

API Gateway: пустая трата сил или полезный инструмент?

Василий Сошников

Quantil Inc.

Почему распределенный SQL сложнее, чем кажется

Станислав Лукьянов

GridGain

Игровой сервер: что там внутри?

Марк Локшин

IT Territory/Mail.ru Group

Архитектура отказоустойчивого платежного шлюза

Алексей Павлов

Wildberries

Python и Ruby под нагрузкой: самый низкий уровень

Григорий Петров

Evrone

Угнать за 5 миллисекунд: как мы делали транспорт для торговых ядер Московской Биржи

Николай Карлов

VK Cloud

Разработка приложений, устойчивых к кратковременным отказам

Георгий Полевой

Dodo Pizza

Как правильно выбирать очередь

Владимир Перепелица

Tarantool, VK

Мониторинг большого количества движущихся по карте объектов

Егор Маслов

big3.ru

Согласованная локализация: версии, транзакции, очереди

Алексей Тимин

Badoo

Metadata management system в Авито

Фрол Крючков

Авито

GraphQL Federation, или Как не выстрелить себе в ногу

Иван Решетин

Юла, VK

Кошелек с нуля в 2020 году: технологии, вызовы, решения

Филипп Дельгядо

lekton.io

Проектирование высоконагруженных систем на основе моделирования и теории массового обслуживания

Максим Юнусов

IT1

Отказоустойчивое Такси, или Как мы строим надежный сервис

Максим Педченко

Яндекс.Go

Платформа для любой биометрии: проблемы и решения, или Как устроена Единая биометрическая система

Сергей Браун

РТЛабс

Тысяча и один бэкап, или Резервное копирование Compute Cloud

Артемий Капитула

VK Cloud

Серебряная пуля геораспределенных систем

Евгений Кузовлев

Тинькофф

Как мы добавляли распределенный SQL в Hazelcast

Владимир Озеров

Querify Labs

Высоконагруженная платежная система "Мир": что под капотом

Юрий Бабак

Авито