Использование облачных систем и тушение пожара до пожара
Самая главная новость — на сайте Saint HighLoad++ 2021 опубликовано расписание конференции. Можно рисовать свой конференционный маршрут ;)
Забронировать билет на Saint HighLoad++ 2021
А мы продолжаем знакомить вас с самыми интересными докладами конференции. Сегодня поговорим об облачных системах.
Использование облачных систем стало стандартом для большинства highload-проектов. На конференции в Санкт-Петербурге мы рассмотрим тему облаков с двух сторон.
Сторона первая — построение приватного облака
В программе инструкция от Алексея Учакина из ECOMMPAY IT по построению собственного облака.
Если вам нужно приватное облако, то вот вам VMWare, Nutanix или решение «под ключ» от сервис-провайдера…
Но что делать, если своё (совсем своё) облако хочется, а команды разработчиков под рукой нет? Покупать «коробку» и настраивать под себя? Собирать конструктор из кубиков opensource-решений?
Вместе с Алексеем обсудим:
- OpenStack vs VMWare: что выбрать?
- Хранилище: CEPH или не CEPH?
- Гиперконвергентность или отдельные роли?
- Сеть как основа всего — сколько слоёв абстракции необходимо и достаточно?
- Сколько нужно человек, чтобы запустить облако?
Вторая сторона облачных систем — автомасштабирование
Владислав Шпилевой из Ubisoft расскажет о надстройке автомасштабирования для Google Cloud.
Google Cloud имеет встроенное автомасштабирование, которое работает приемлемо для простых серверов без состояния (stateless).
Но такая схема не работает для игровых серверов:
- На серверах есть игроки. Внезапное отключение сервера обнулит их прогресс.
- Сервер перед выключением должен выгрузить сохранения.
- Запуск нового сервера — долгий процесс из-за его размера и сложности. Надо запускать еще до роста нагрузки.
В Ubisoft создан собственный сервис масштабирования. Он работает на одной машине в облаке и автоматически управляет игровым кластером из тысяч машин. Для добавления и удаления серверов он использует Google Cloud API и имеет много дополнительных функций:
- Он быстрый. Кластер с нуля до тысяч машин запускается за несколько минут.
- Отслеживает популяцию кластера игроками, а не CPU и память.
- Предсказывает рост популяции и запускает новые машины заранее.
- Выводит лишние машины аккуратно, не влияя на игровой процесс.
- Позволяет выкатывать пробные версии игры на часть кластера (canary deployment).
- Быстро и аккуратно выводит из кластера устаревшие версии игры (rolling update).
- Поддерживает баланс серверов по географическим зонам облака.
Доклад Владислава о технологиях и алгоритмах, использованных в этом сервисе.
А теперь поговорим об инцидентах. «Пожары» и даже пожары — неисчерпаемая тема для любого хайлоадера.
Как коммуникации помогают в решении инцидентов
Давайте честно — shit рано или поздно happens. И когда он happens, есть большое искушение замести всё под ковёр, сделать poker face и сказать: «Вам показалось».
Во что может вылиться такое поведение при инцидентах — это отдельный вопрос.
Виктор Попов (X5 Retail Group) рассказал, как правильно организовать работу с инцидентами и что нужно сделать ещё на берегу, чтобы искра не превратилась в неуправляемый пожар.
О важном для отрасли!
Прежде чем попрощаться, хотим рассказать об одной важной инициативе. Онтико участвует в масштабном исследовании IT-отрасли России.
Авторы проекта — портал Хабр вместе с партнёрами — собирают мнения айтишников, чтобы разобраться, какими критериями они руководствуются при выборе работодателя, замерить, как специалистами воспринимаются разные компании. По итогу будет составлен открытый рейтинг IT-работодателей (опубликуют на Хабре), основанный на том, как к ним относятся в сообществе.
Нам ценно мнение каждого из вас, вне зависимости от должности и опыта работы.
Подключайтесь к опросу, это займёт 10-15 минут. Результаты мы ждем осенью, а пока можно посмотреть рейтинг и аналитику по IT-работодателям России 2020.