Доклады
Внедрение QoS Infiniband во внутреннем облаке Яндекса
Доклад принят в программу конференции
Описание доклада
В докладе расскажем, как мы в Яндексе внедрили QoS в сетях Infiniband при ограниченной вендорской поддержке и скудной практической документации. Обсудим мотивацию: рост смешанных нагрузок во внутреннем облаке и необходимость предсказуемых SLO для различных обучений. Разберём конфигурацию QoS и тестовый сетап GPU кластера Infiniband.
Отдельно рассмотрим как могут быть связаны QoS и топология сети DragonFly+.
Подведем итоги, как мы сделали приоритизацию трафика различных обучений в кластере, фичей внутреннего облака Яндекса.
AI Hardware In a Nutshell
Роман Глебов
Яндекс
Сетевой архитектор (и немного менеджер) в Яндексе. Преимущественно занимается дизайном и эксплуатацией фабрик сетей дата-центров, хочет объединить frontend и backend сети в одну. Увлекается чтением художественной литературы, любит кинематограф новой волны.