Конференция завершена. Ждем вас на HighLoad++ в следующий раз!
Park Inn Пулковская, пл. Победы, 1,
Санкт-Петербург, 8 и 9 апреля 2019
* Мы откроем публичный доступ к видеозаписям через ~6 месяцев после конференции

Обфускация баз данныхБазы данных и системы хранения

Доклад принят в программу конференции
Алексей Миловидов
Яндекс

Разработчик ClickHouse. С 2008 года занимается разработкой Яндекс.Метрики.

Тезисы

В вашей компании есть данные, представляющие коммерческую ценность. Такие данные нельзя просто так никому давать.

Но есть потребность в публикации изменённых или искусственных дата-сетов, максимально похожих на настоящие данные. Такие дата-сеты могут быть использованы для тестирования производительности, для отладки алгоритмов и для машинного обучения. Необходимое количество статистических свойств данных должно быть сохранено, но в то же время, данные должны быть анонимизированы.

Для разработки ClickHouse нам нужны дата-сеты, приближающие данные Яндекс.Метрики. Я расскажу про четыре разных подхода к решению задачи, которые мы попробовали - какой подход в итоге победил, и как самому им воспользоваться.

C/C++
,
Защита информации
,
Бэкенд / другое
,
Базы данных / другое
,
Алгоритмы и их сравнение
,
Администрирование баз данных
,
Нагрузочное тестирование

Другие доклады секции Базы данных и системы хранения

Rambler's Top100