Crash Recovery в Распределенном Хранилище Архитектуры, масштабируемость

Доклад принят в программу конференции
Антон Виноградов
Сбербанк Технологии

Делаю Apache Ignite и Сбербанк лучше.

Тезисы

Мы используем распределенное хранилище Apache Ignite в продакшене, как следствие - предъявляем к нему высокие требования по надежности и доступности.
Раньше, в случае выхода узла из строя, обработка поступающих операций приостанавливалась на продолжительный период времени, до десятков секунд в некоторых кейсах.
Процедура восстановления в Apache Ignite была доработана, тяжеловесные операции были заменены подкладыванием "подушечки" заранее, и теперь восстановление происходит значительно быстрее.

В докладе рассмотрим:
- как Apache Ignite реплицирует данные и гарантирует консистентность реплик в случае инцидентов,
- каковы гарантии времени отклика и чем они обусловлены,
- что и как было улучшено в процедуре восстановления после сбоев,
- почему старый вариант восстановления остался в продукте, когда он отрабатывает,
- какие доработки еще предстоят.

Другие доклады секции Архитектуры, масштабируемость