Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

17 и 18 мая 2021 Москва, Крокус-Экспо 3, зал 20

Пишем свой Domain Crawler Архитектуры, масштабируемость

17 мая, 14:10

Доклад принят в программу конференции

Тезисы

Скачать презентацию Все презентации конференции

Причины, зачем может понадобиться сбор данных о доменах и размещенных на них сайтах, могут быть разными. В нашем случае речь шла о лучшем понимании, что же происходит на сайтах клиентов и как меняется интернет. Некоторое время мы покупали эти данные, но качество оставляло желать лучшего. Таким образом мы пришли к задаче написания собственного Domain Crawler'а, способного обходить до 100 миллионов доменов и собирать самую разную информацию о них.

В докладе планируется осветить различные аспекты и проблемы построения такого решения: где можно получить данные бесплатно, где можно купить нужные данные, как можно организовать архитектуру, как масштабировать проект, как следить за качеством и, конечно же, какие ожидают грабли на этом, весьма тернистом, пути.

Евгений Карагодин

Plesk

Fullstack-разработчик в компании Plesk. Занимается разработкой web-приложений на Node.js и React — от создания прототипа до автоматического развёртывания на инфраструктуре AWS. Более 10 лет опыта программирования на JavaScript.

Другие доклады секции Архитектуры, масштабируемость

Платформа видеоконференций ВКонтакте – сделано удалённо

Александр Тоболь

ВКонтакте, VK

Серебряная пуля геораспределенных систем

Евгений Кузовлев

Т-Банк

Python и Ruby под нагрузкой: самый низкий уровень

Григорий Петров

Evrone

Как сдержать самые сложные обещания: планирование batch-задач в системе Yandex.YT

Игнат Колесниченко

Яндекс

Разработка приложений, устойчивых к кратковременным отказам

Георгий Полевой

Dodo Pizza

Тысяча и один бэкап, или Резервное копирование Compute Cloud

Артемий Капитула

VK Cloud

Высоконагруженная платежная система "Мир": что под капотом

Юрий Бабак

Т-Банк

Мониторинг большого количества движущихся по карте объектов

Егор Маслов

big3.ru

Кошелек с нуля в 2020 году: технологии, вызовы, решения

Филипп Дельгядо

lekton.io

GraphQL Federation, или Как не выстрелить себе в ногу

Иван Решетин

Озон Банк

Как правильно выбирать очередь

Владимир Перепелица

Tarantool, VK

Отказоустойчивое Такси, или Как мы строим надежный сервис

Максим Педченко

Яндекс.Go

Микросервисы с нуля

Семен Катаев

Авито

Public Cloud. Гайд по масштабированию

Нарек Татевосян

Яндекс

API Gateway: пустая трата сил или полезный инструмент?

Василий Сошников

Quantil Inc.

Платформа для любой биометрии: проблемы и решения, или Как устроена Единая биометрическая система

Сергей Браун

РТЛабс

Как мы создавали Data Management Platform в OZON

Евгений Чмель

Ozon

Почему распределенный SQL сложнее, чем кажется

Станислав Лукьянов

GridGain

Архитектура отказоустойчивого платежного шлюза

Алексей Павлов

Wildberries

Чёрная магия JIT-компиляции

Алексей Рагозин

Дойче Банк

Как мы попали в истории. Stories в сервисе объявлений

Александр Инякин

Юла

Как мы добавляли распределенный SQL в Hazelcast

Владимир Озеров

Querify Labs

Угнать за 5 миллисекунд: как мы делали транспорт для торговых ядер Московской Биржи

Николай Карлов

VK Cloud

Согласованная локализация: версии, транзакции, очереди

Алексей Тимин

Badoo

Игровой сервер: что там внутри?

Марк Локшин

IT Territory/Mail.ru Group

Консенсус на пальцах, или Как договориться в распределенной системе

Владимир Протасов

Yandex.Cloud

Crash Recovery в Распределенном Хранилище

Антон Виноградов

СберТех

Проектирование высоконагруженных систем на основе моделирования и теории массового обслуживания

Максим Юнусов

IT1

Metadata management system в Авито

Фрол Крючков

Авито