В докладе расскажем, как мы в Яндексе внедрили QoS в сетях Infiniband при ограниченной вендорской поддержке и скудной практической документации. Обсудим мотивацию: рост смешанных нагрузок во внутреннем облаке и необходимость предсказуемых SLO для различных обучений. Разберём конфигурацию QoS и тестовый сетап GPU кластера Infiniband.
Отдельно рассмотрим как могут быть связаны QoS и топология сети DragonFly+.
Подведем итоги, как мы сделали приоритизацию трафика различных обучений в кластере, фичей внутреннего облака Яндекса.