Полезноe
бесплатная книга Продуманная оптимизация
Материалы HighLoad++
материалы За все восемь лет вебинар Пошаговый
алгоритм
вебинар Вопросы
и ответы
Презентации
2014 года
Видеозаписи
2014 года
Как это было
книга Услуги и скидки корпоративный Обучающий тренинг Тезисы и расписание Шаржи на докладчиков
2014 года

HighLoad++

31 октября
и 1 ноября
Место проведения: Москва,
Краснопресненская наб. 12.

Вычисления в памяти для Hadoop: используем Spark
Базы данных, системы хранения

Программный комитет ещё не принял решения по этому докладу
Retail Rocket

Сооснователь и директор по аналитике сервиса Retail Rocket. В Retail Rocket отвечает за алгоритмы вычисления рекомендаций, аналитику и обработку данных на кластере Hadoop/Spark. Ранее Роман работал в интернет-проектах Ostrovok.ru, Ozon.ru и Wikimart.ru, где успешно запустил аналитику с нуля, включая найм команды и построение IT-инфраструктуры. Реализовывал запуск проектов по товарным рекомендациям. Роман ведет блог по аналитике KPIs.ru. Окончил Московский Физико-Технический Институт (МФТИ).

Тезисы

Как обрабатывать большой объем данных быстро с наименьшими затратами?
Мы смогли этого добиться в компании RetailRocket. Обработка данных это наш бизнес! У нас много данных: более 100 Тб, в сутки нам поступает более 100 млн событий для обработки.
До недавнего времени у нас все работало на кластере на базе Hadoop относительно устаревшего дистрибутива Cloudera CDH 4.5, программный код был написан на Pig, Hive, Python и Java. Это порождало ряд проблем с архитектурой, производительностью. Тестирование превращалось в настоящую головную боль.

В конце лета RetailRocket перешел на Yarn на базе CDH 5.1.2. Это открыло путь к более совершенным технологиям семейства Spark. Сейчас мы находимся в фазе полного перехода на Spark на функциональном языке Scala. Это позволило нам избавится от зоопарка технологий, упростив архитектуру решений и автоматизировав тестирование. Первые результаты результаты не заставили себя ждать - получен прирост производительности на том же железе в 3-5 раз. А это значит, что мы будем меньше инвестировать в расширение парка серверов кластера.

В докладе будет рассказано о проблемах, с которыми мы столкнулись и как мы их решили. Будут примеры исходного кода для оптимизации производительности и повышения удобства работы, который мы закоммитили в наш публичный GitHub!


Другие доклады секции
Базы данных, системы хранения

Спонсоры конференции

  • Nutanix
  • Webzilla
  • Badoo
  • Parallels
  • Филанко
  • Treatface
  • Дата центр Selectel

Информационная поддержка

  • SQLInfo.ru
  • Интернет Хостинг Центр
  • Sports.ru
  • Rusonyx
  • Adriver
  • SuperJob
  • REG.RU
  • ООО «Юмисофт»
  • Агава
  • PCWeek
  • PС Мagazine
  • Bugtraq.ru
  • TRINET
  • FL.ru
  • Телеканал «Конференция ТВ»
По любым вопросам обращайтесь:
Бухгалтерия и вопросы оплаты :
Олег Бунин , +7(495) 646-07-68
Организационный комитет :
Олег Бунин , +7 (495) 646-07-68
Программный комитет :
Олег Бунин , +7 (916) 635-95-84
Горячая линия :
+7 (495) 646-07-68, ежедневно с 10 до 22

Почтовый адрес:
119180, Москва, Бродников пер., д. 7 стр. 1, +7 (495) 646-07-68 ООО «Онтико»

Rambler's Top100
Рейтинг@Mail.ru