Crash Recovery в Распределенном Хранилище Архитектуры, масштабируемость

Доклад принят в программу конференции
Антон Виноградов
SberTech

Делает Apache Ignite и Сбер лучше.

Тезисы

Мы используем распределенное хранилище Apache Ignite в продакшне, как следствие — предъявляем к нему высокие требования по надежности и доступности.

Раньше в случае выхода узла из строя обработка поступающих операций приостанавливалась на продолжительный период времени, до десятков секунд в некоторых кейсах. Простои такой длительности недопустимы для наших сервисов, поэтому процедура восстановления в Apache Ignite была мною доработана. Расскажу о том, как было, что изменилось и что еще предстоит сделать.

В докладе рассмотрим:
- гарантии сохранности данных в распределенных хранилищах,
- партиционирование и ребалансировку данных,
- разницу между кластером, кэшом и партицией,
- типы распределенных кэшей, типы партиций,
- механизмы, позволяющие кластеру сохранять работоспособность при смене топологии (входе и выходе узлов),
- механизмы обеспечения консистентности данных при смене топологии,
- "трюки", позволяющие минимизировать время простоя при смене топологии,
- как мы проверяем эффективность оптимизаций, разрабатываемых и уже включенных в Apache Ignite.

Другие доклады секции Архитектуры, масштабируемость