Тысяча и один бэкап, или Резервное копирование Compute Cloud Архитектуры, масштабируемость

Доклад принят в программу конференции
Артемий Капитула
Mail.Ru Cloud Solutions

Архитектор, разработчик, инженер.

Тезисы

Любой облачный провайдер ставит своим приоритетом сохранность пользовательских данных, и резервное копирование — один из инструментов, который используется для решения этой задачи. При развертывании сервиса резервного копирования у себя в Mail.ru Cloud Solutions мы столкнулись с серьезной проблемой. Средства резервного копирования, предоставляемые программным обеспечением платформы, не могли обеспечить копирование требуемых объемов данных за заданное время.

Несколько попыток обойтись “малой кровью” ясно обозначили — мы ограничены со всех сторон: производительность систем хранения, производительность самих драйверов резервного копирования дисков, производительность процессора, способы работы Runtime Environment с системой хранения. Для нас это означало невозможность реализовать бизнес-сценарии и вынудило к реализации своего драйвера копирования дисков виртуальной платформы, который обходил эти ограничения.

В докладе расскажем:
- что делать, если предстоит забэкапить сотни терабайт данных за несколько часов — из чего состоит цикл резервной копии, оценка объемов данных;
- какие проблемы приходится решать при создании системы резервного копирования и какие ограничения накладывают инфраструктура и фреймворк;
- что бывает, когда срабатывают законы Мёрфи, и как теория вероятности устроила нам “отказ на пустом месте”.

Другие доклады секции Архитектуры, масштабируемость