Владимир Попов на HighLoad++ Foundation 2022

Быстрая, простая, параллельная: обработка больших данных на платформе Amazon Web Services (AWS)

BigData и машинное обучение

Доклад отклонён

Целевая аудитория

Инженеры по работе с большими данными

Тезисы

Как можно быстро обработать большое число файлов (речь идет о миллионах объектов и терабайтах данных), если нет Hadoop кластера со Spark? Докладчик предлагает использовать сервисы AWS S3, Lambda, SQS. Они позволяет решить задачу используя относительно простой однопоточный код на скриптовых языках, и, в конечном итоге, тратить на обработку минуты и часы, а не дни и недели. Решение, предлагаемое докладчиком, используются на практике в нескольких проектах.

В докладе будет представлена бессерверная архитектура решения на основе облачных сервисов AWS: Будут обсуждаться особенности и подводные камни данных сервисов, и обоснована их применимость к решению описанной задачи. Докладчик расскажет:
• Как одновременно обрабатывать тысячи файлов однопоточным кодом
• Как правильно настраивать сервисы AWS
• О времени исполнения реальной задачи с большими данными
• Как модифицировать код решения для своих задач
Слушатели доклада смогут скачать работающий пример решения тестовой задачи на Python и развернуть его на AWS с помощью Terraform.

Владимир Попов

Практический опыт разработки и внедрения ПО на платформе AWS - 3 года. Занимался созданием программных продуктов, как в крупных компаниях (Лаборатория Касперского, Билайн, БКС), так и в стартапах. Общий опыт работы в индустрии - более 20 лет.

Консультант по Amazon Web Services.