Dynamic Load Balancing : routage adaptatif pour les fabrics IA
L'ECMP à hachage statique a été conçu pour le trafic web nord-sud, pas pour les collectives GPU. Le Dynamic Load Balancing (DLB) d'OcNOS redistribue les flowlets sur des chemins moins congestionnés à des intervalles inférieurs à la milliseconde, comblant l'écart entre Ethernet et InfiniBand pour les charges d'entraînement distribué.
Adaptive Routing sur une fabric Leaf-Spine
Un segment à 4 spines et 2 leafs transportant du trafic GPU AllReduce. Le DLB mesure en temps réel la profondeur de la file d'attente d'egress locale. Lorsque Spine-3 sature, le leaf réaffecte le flowlet suivant sur Spine-2, gardant les quatre uplinks équilibrés.
Pourquoi l'ECMP statique échoue sur les fabrics IA
L'ECMP standard choisit un port de sortie en hachant le 5-tuple au début du flux et y fixe le flux pendant toute sa durée de vie. Sur le trafic web nord-sud, des millions de flux éphémères, la loi des grands nombres lisse l'utilisation entre les chemins. Sur un fabric IA, vous avez un petit nombre de flux éléphants des collectifs GPU (AllReduce, AllGather, All-to-All) qui consomment chacun la totalité d'un lien montant 400G ou 800G pendant plusieurs secondes d'affilée. Deux éléphants hachés sur le même lien montant entreront en collision pendant toute la durée de l'opération, tandis qu'un autre lien montant reste inactif.
Il en résulte une polarisation du hachage : un taux d'utilisation mesuré de la fabric d'environ 50 à 60 % avec des points chauds aléatoires, et des valeurs aberrantes de latence de queue qui bloquent l'ensemble de la tâche d'entraînement. Le DLB comble cet écart en réévaluant la décision de chemin sur chaque flowlet, un segment de sous-flux délimité par un petit intervalle inter-paquets, à l'aide de la télémétrie en temps réel sur la profondeur des files d'attente de sortie et l'utilisation des ports fournie par l'ASIC.
L'implémentation DLB d'OcNOS
Minuteur d'écart inframilliseconde
Le minuteur d'inactivité de flowlet natif à l'ASIC (typiquement 16 à 256 μs) découpe les longs flux éléphants en segments que l'on peut répartir sans risque entre les chemins, sans réordonnancement TCP/RoCEv2.
Retour en temps réel sur la profondeur des files
Le DLB exploite les signaux d'occupation des files par port de sortie et d'utilisation des liens issus du pipeline Tomahawk pour évaluer chaque next-hop ECMP en temps réel.
Sélection adaptative du next-hop
À la frontière d'un flowlet, le membre de plus haute qualité est sélectionné. La qualité des membres est recalculée toutes les quelques microsecondes, de sorte qu'un spine saturé sort de l'ensemble des candidats en l'espace d'un flowlet.
Co-tuned with PFC & ECN
Le DLB s'intègre à la pile lossless RoCEv2 (PFC, ECN/DCQCN, calcul du headroom), de sorte que le rebinding des flowlets se produit avant que les trames de pause ne se propagent en amont.
export gNMI
Les nombres de réassociations par membre, les distributions d'écarts de flowlet et les scores de qualité des membres sont diffusés via le dial-out gNMI pour un réglage de la fabric en boucle fermée.
TH4 / TH5 natif
Validé sur les plateformes spine Broadcom Tomahawk 4 (25,6T) et Tomahawk 5 (51,2T), en configurations de ports ×ばつ400G et ×ばつ800G, sans pénalité logicielle sur le fast-path.
Ce que DLB apporte dans les fabrics IA en production
- Meilleure utilisation. Les benchmarks de rééquilibrage de flowlets publiés dans l'industrie font passer l'utilisation du fabric d'environ 55 % en ECMP statique à plus de 90 % sur le même matériel, sans acheter d'uplinks supplémentaires.
- Latence de queue réduite. Le temps de complétion des collectives P99.9 se resserre car aucun lien unique ne sature pendant que d'autres restent inactifs.
- Entraînement plus rapide. Moins de temps d'inactivité GPU à attendre le rang le plus lent se traduit par une amélioration mesurable du temps réel sur les charges de travail intensives en AllReduce.
- Aucune modification de NIC. Le DLB réside dans l'ASIC du commutateur. Les NIC RoCEv2 existants et les piles d'opérations collectives xCCL (NCCL / RCCL / oneCCL) existantes bénéficient d'une livraison ordonnée correcte sans modification de code.
- Une seule licence. DLB fait partie du SKU OcNOS-DC PLUS : même image, même contrat de support, sans supplément par fonctionnalité.