Monitoring: From Duty OPS to SREСистемное администрирование
Программный комитет ещё не принял решения по этому докладу
Тезисы
Различия между Duty OPS и SRE заключаются главным образом в том, что Duty OPS большую часть времени тратит на решение инцидентов, эскалации и деплои. В отличие от него, SRE большую часть времени тратит на оптимизацию и автоматизацию рутинных процессов, уменьшая количество однообразной и скучной работы и увеличивая возможности по дальнейшему улучшению сети, кода и инфраструктуры.
Я расскажу о том, как мы улучшили мониторинг и уменьшили количество алертов вдвое, при этом мониторя больше и об изменении подхода к мониторингу нашей инфраструктуры в целом; приведу примеры улучшений в алертинге, репортинге, отслеживании инцидентов, автоматизации.