Как снять бэкап в распределенной системе, чтобы этого никто не заметил Базы данных и системы хранения

Доклад принят в программу конференции

GridGain

Старший разработчик в GridGain Systems, участник сообщества Apache Software Foundation, коммиттер в проекте Apache Ignite. Область экспертизы в Ignite - persistence, crash recovery и структуры данных.
До этого занимался разработкой высоконагруженной трейдинговой платформы (Java).

irakov@gridgain.com

Тезисы

Зал «Пекин + Шанхай»

9 ноября, 14:00

Как бы ни развивались технологии, резервная копия в трудную минуту продолжает сохранять нам нервы, а иногда и работу. Платформа GridGain работает поверх распределенной системы с открытым исходном кодом Apache Ignite, где отсутствует возможность делать бэкапы данных. На сегодняшний день максимальный объем данных в клиентском проде GridGain составляет 200 терабайт на 160 узлах. Данные не только хранятся, но и постоянно модифицируются с обеспечением транзакционных гарантий.

Отсутствие возможности создания бэкапов распределенной системы в подобных масштабах было камнем преткновения для практического использования нашей платформы крупным бизнесом. Из доклада вы узнаете, как нам удалось ликвидировать этот пробел.

Нам пришлось научиться:
— делать бэкап данных, не останавливая работу пользователя;
— делать данные в бэкапе распределенной системы консистентными и транзакционно целостными;
— делать процедуры создания и восстановления бэкапа устойчивыми к изменению топологии с помощью распределенного конечного автомата;
— реализовать инкрементальные бэкапы, занимающие на порядок меньше места;
— восстанавливать старые бэкапы данных, созданные на существенно отличающейся топологии кластера.

Организация доступа к базам данных, ORM, собственные драйвера

Отказоустойчивость

Распределенные системы

Big Data и Highload в Enterprise