Рейтинг@Mail.ru
Конференция завершена. Ждём вас на HighLoad++ в Москве. Приём докладов уже начался!

Железо не подведет. Как я готовлю к бою десятки серверов в деньDevOps и эксплуатация

Доклад принят в программу конференции
Артем Артемьев
АО Первый

Тимлид отдела эксплуатации большого хостинг-провайдера.

Тезисы

Serverless - это все равно сервер. Выход из строя сервера под нагрузкой причиняет боль. Избыточность оборудования в облаке решает эту проблему.

Я хочу поговорить о том, как мы уменьшаем вероятность поломки оборудования под нагрузкой. Недопустимо, чтобы "новый" сервер, взятый для задачи, работал плохо или не в полную силу. Диагностика обеспечивает, чтобы все доступные сервера являлись полностью исправными и готовыми к бою.

Как я измеряю здоровье "железяки", какие показатели правильны для CPU, памяти и устройств хранения?

За 2017 год наша система проверила порядка 5000 серверов. Очевидные пути для проверки оборудования не подошли для пакетной работы. Методы пришлось подбирать экспериментальным путем. Как понять, какие метрики являются показательными? Стоит ли измерять скорость работы RAM?

Мы добились того, что в работу отдаются только исправные машины. Научу вас это делать в автоматическом режиме.

Технологии отказоустойчивости и катастрофоустойчивости, бэкапы
,
Аппаратное обеспечение

Другие доклады секции DevOps и эксплуатация

Rambler's Top100