Как создать мировую систему класса OBD&A только на OpenSource решениях. Мониторинг и анализ социальных медиа в режиме реал-тайм. Архитектуры
Тезисы
Существует множество систем, решающих задачи по обработке структурированных Big Data. Но рынок диктует новые вызовы и сегодня актуальны нерешаемые раньше задачи класса OBD&A (Online Big Data &
Analytics) для анализа неструктурированных данных в реальном времени.
По версии Gartner одно из Топ-10 самых перспективных направлений в 2014г. - обработка в режиме реал-тайм данных социальных медиа.
Последние сделки на рынке OBD&A выявили технологических лидеров и фактически оценили стоимости подобных разработок:
- в декабре 2013г Apple купила американскую компанию TopSy, специализирующуюся на работе с Твиттером и близкий партнер Твиттера. По оценкам аналитиков, сумма сделки составила минимум $200 млн.;
- в "отместку" в марте 2014г Twitter покупает другого лидера американского рынка - компанию Gnip. Точная сумма сделки остаётся неизвестной, но эксперты Wall Street Journal оценивают сделку в сумму не меньше $200 млн.
Также на рынке присутствуют два «свободных» игрока - английская DataSift и разработка нашего "конгломерата" компаний – платформа iLook и система мониторинга и анализа соцмедиа Brand Analytics.
HP Autonomy – мировой лидер рынка аналитических услуг, приобретена HP за $13 млрд. - заключило соглашение с обоими игроками: и DataSift и Brand Analytics.
OBD&A - многомерная задача:
• сбор: десятки-сотни миллионов документов в сутки, что предполагает тысячи документов в секунду;
• хранение: десятки миллиардов разноформатных сообщений из всех видов соцмедиа;
• полнотекстовая выборка с учетом лингвистики;
• многопараметрическая реал-тайм обработка постов из Twitter, Facebook, ВКонтакте, YouTube, Instgram, тысяч сайтов, форумов и пр.
Каково практическое применение подобных технологий? С их помощью, например, можно решать задачи, которые не берутся реализовывать приверженцы «традиционных» исследований и подходов. Вот несколько ссылок на то, что можно делать, используя возможности систем подобного рода:
- Распространение эпидемий: Анализ соцмедиа VS Анализ запросов Google Flu
http://habrahabr.ru/company/palitrumlab/blog/200540/
- Прогноз выборов в Венесуэле
http://vox-populi.ru/venezuala.phtml
- На языке футбола: Big Data + лингвистика для виджета по Чемпионату Мира
http://habrahabr.ru/company/palitrumlab/blog/225985/
- Прямая линия с Президентом РФ В.В.Путиным: Мониторинг динамики общественного мнения в социальных медиа
http://vox-populi.ru/pl2013.phtml
- Исследование эмоционального состояния пользователей социальных медиа:
https://br-analytics.ru/blog/?p=1489
В своем докладе мы расскажем, каким образом создавалась и модифицировалась архитектура нашей системы, как нам удалось разработать систему класса OBD&A для неструктурированных данных с использованием общедоступного ПО, и как мы решили масштабные задачи, имея в своем арсенале достаточно ограниченные ресурсы.
Мы расскажем, как использовать MongoDB для управления огромным информационным массивом данных (более 10 млрд. документов), как «допилить» ElasticSearch, чтобы решить задачу полнотекстового поиска в высоконагруженных потоках данных и, возможно, удивим многих, рассказав, что основной язык программирования наших проектов – PHP.