Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Железо не подведет. Как я готовлю к бою десятки серверов в деньDevOps и эксплуатация

Доклад принят в программу конференции
Артем Артемьев
Tango.me

Lead SRE

Тезисы

Serverless - это все равно сервер. Выход из строя сервера под нагрузкой причиняет боль. Избыточность оборудования в облаке решает эту проблему.

Я хочу поговорить о том, как мы уменьшаем вероятность поломки оборудования под нагрузкой. Недопустимо, чтобы "новый" сервер, взятый для задачи, работал плохо или не в полную силу. Диагностика обеспечивает, чтобы все доступные сервера являлись полностью исправными и готовыми к бою.

Как я измеряю здоровье "железяки", какие показатели правильны для CPU, памяти и устройств хранения?

За 2017 год наша система проверила порядка 5000 серверов. Очевидные пути для проверки оборудования не подошли для пакетной работы. Методы пришлось подбирать экспериментальным путем. Как понять, какие метрики являются показательными? Стоит ли измерять скорость работы RAM?

Мы добились того, что в работу отдаются только исправные машины. Научу вас это делать в автоматическом режиме.

Технологии отказоустойчивости и катастрофоустойчивости, бэкапы
,
Аппаратное обеспечение

Другие доклады секции DevOps и эксплуатация

Rambler's Top100