Cosmify: как мы строим разведочный анализ данных для всех Архитектуры
Тезисы
• Эволюция: бизнес-аналитика, Big Data, разведочный анализ данных.
• Анализ структурированных данных: логов, баз данных, табличных данных.
• Анализ неструктурированных данных: документов, веб-страниц, электронных писем, резюме, записей чатов, и т.д.
o Язык не важен (английский, русский, испанский - безразлично)
o Выделение кластеров с общими признаками.
o Приложения.
• Наш стек:
o Python, R
o графовая база данных (Neo4J, Titan, GraphX)
o C
o Наименьшее значение (минимальный элемент)
• Система Cosmify:
o PaaS-реализация разведочного анализа данных.
o Серверы: локальные центр обработки данных или в облаке.
o Docker для упрощения развертывания.
• Компоненты Cosmify:
o Rover/Проводник: обнаружение документов (Python, AngularJS, Docker и встроенное развертывание на OS X, Linux и Windows).
o Orbiter/Спутник: веб-интерфейс, прикладной программный интерфейс (API) прокси-сервера, инструменты разведочного анализа данных (Python, Tinker Pop, Docker).
o Dark Matter/Тёмная Материя: как мы перемещаем данные в облако без шифрования, сохраняя конфиденциальность и соблюдая закон о защите персональных данных.
o Применение разведочного анализа данных для других целей: интерфейс Excel (C, интерфейс ODBC).
• Reactor/Атомный Котел:
o Разведочный анализ данных для программистов: интеграция IPython/Jupyter и RStudio (Python, R).
o Разведочный анализ данных для бизнес-аналитиков: интерфейс пользователя с возможностью перетаскивания элементов (AngularJS, D3.js) и автоматическая генерация документов (Dexy).
• Nebula/Туманность: облако для вычислений.
o Nebula/облако – Amazon Web Services, другой облачный хостинг.
o Локальное решение: разверните свое облако.
o Docker, Chef; логика вычислений: Python (NumPy, SciPy), R
o GraphX - графовая и колоночная база данных
o Создаем свое собственное приложение: RESTful API для Orbiter/Nebula (Mule, RAML, Python/Jython, JSON).
• Сравнение с Databricks, машинным обучением Microsoft Azure и т.д.
• Вопросы и ответы.