AutoLSR - автоматизированный сбор сведений при значительных инцидентах DevOps и эксплуатация

Доклад принят в программу конференции
Владимир Колобаев
Авито

Lead DevOps Engineer.

Тезисы

Иногда возникают ситуации, при которых всё ломается, все графики красные, и всё в огне. Вроде бы при детальном разборе всё становится понятно… но нет. Корневую причину проблемы отловить нелегко, особенно когда ты не обладаешь полной картиной происходящего в монолите, сервисах, микросервисах, базах, в сетях, в головах разработчиков и т.п.

Я расскажу, как мы собрали все тайные знания, сценарии отказов различных систем и сервисов и перенесли все это в код с целью автоматизированного обнаружения и первичного анализа значительных инцидентов.

Другие доклады секции DevOps и эксплуатация