Резервный ЦОД на Ansible: как мы сделали DR по одной кнопке для PostgreSQL, MongoDB, Kafka, AMQ

DevOps и эксплуатация

Программный комитет ещё не принял решения по этому докладу

Иван Кабанов

АО "Инфосистемы Джет"

системный архитектор в крупных комплексных проектах по ИТ-инфраструктуре

Тезисы

Видео

Ansible не нуждается в представлении. Система повсеместно используется для выполнения рутинных задач в ИТ-инфраструктуре. Мы применили Ansible для нетиповой задачи - переключения и восстановления системы в резервном ЦОДе в случае потери основного.

Бизнесом была поставлена задача обеспечить катастрофоустойичивость, продолжить работу в случае выхода одной зоны доступности из строя c минимальным простоем. Проект довольно масштабный - 100+ баз Postgres и Mongo, сотни серверов приложений, кластеры Kafka, сервисы очередей AMQ, десятки файловых серверов.

Из доклада вы узнаете:
• Зачем вообще автоматизировать процесс Disaster Recovery
• Разница между Switchover и Failover c точки зрения Ansible
• Нюансы автоматизации управления репликациями БД
• Как мы защитили perisistence ActiveMQ и Kafka
• Что можно сделать с Legacy-файлопомойкой
• Как организовать доступность приложений

Другие доклады секции

DevOps и эксплуатация