Accueil · Documentation · Technologie · Équilibrage de charge dynamique

Dynamic Load Balancing : routage adaptatif pour les fabrics IA

L'ECMP à hachage statique a été conçu pour le trafic web nord-sud, pas pour les collectives GPU. Le Dynamic Load Balancing (DLB) d'OcNOS redistribue les flowlets sur des chemins moins congestionnés à des intervalles inférieurs à la milliseconde, comblant l'écart entre Ethernet et InfiniBand pour les charges d'entraînement distribué.

Adaptive Routing sur une fabric Leaf-Spine

Un segment à 4 spines et 2 leafs transportant du trafic GPU AllReduce. Le DLB mesure en temps réel la profondeur de la file d'attente d'egress locale. Lorsque Spine-3 sature, le leaf réaffecte le flowlet suivant sur Spine-2, gardant les quatre uplinks équilibrés.

Dynamic Load Balancing sur une fabric IA leaf-spine Une fabric IA à quatre spines et deux leaves. Les serveurs GPU connectés aux leaves émettent des flux AllReduce. Trois chemins spine transportent des flowlets équilibrés. Le quatrième spine est congestionné (rouge), et le Dynamic Load Balancing réaffecte le flowlet suivant vers un spine moins chargé. Le bandeau inférieur indique les métriques DLB : profondeur de file, utilisation des ports, réaffectation de flowlet. Spine-3 congestionné → prochain flowlet rebasculé sur Spine-2 Spine-1 file 18% Spine-2 file 22% Spine-3 file 92% Spine-4 file 25% Leaf-1 DLB · flowlet Leaf-2 DLB · flowlet GPU-0 GPU-1 GPU-2 GPU-3 DLB · QUEUE-DEPTH FEEDBACK · FLOWLET REBIND · CONGESTION-AWARE ECMP

Pourquoi l'ECMP statique échoue sur les fabrics IA

L'ECMP standard choisit un port de sortie en hachant le 5-tuple au début du flux et y fixe le flux pendant toute sa durée de vie. Sur le trafic web nord-sud, des millions de flux éphémères, la loi des grands nombres lisse l'utilisation entre les chemins. Sur un fabric IA, vous avez un petit nombre de flux éléphants des collectifs GPU (AllReduce, AllGather, All-to-All) qui consomment chacun la totalité d'un lien montant 400G ou 800G pendant plusieurs secondes d'affilée. Deux éléphants hachés sur le même lien montant entreront en collision pendant toute la durée de l'opération, tandis qu'un autre lien montant reste inactif.

Il en résulte une polarisation du hachage : un taux d'utilisation mesuré de la fabric d'environ 50 à 60 % avec des points chauds aléatoires, et des valeurs aberrantes de latence de queue qui bloquent l'ensemble de la tâche d'entraînement. Le DLB comble cet écart en réévaluant la décision de chemin sur chaque flowlet, un segment de sous-flux délimité par un petit intervalle inter-paquets, à l'aide de la télémétrie en temps réel sur la profondeur des files d'attente de sortie et l'utilisation des ports fournie par l'ASIC.

L'implémentation DLB d'OcNOS

Détection de flowlet

Minuteur d'écart inframilliseconde

Le minuteur d'inactivité de flowlet natif à l'ASIC (typiquement 16 à 256 μs) découpe les longs flux éléphants en segments que l'on peut répartir sans risque entre les chemins, sans réordonnancement TCP/RoCEv2.

Qualité du chemin

Retour en temps réel sur la profondeur des files

Le DLB exploite les signaux d'occupation des files par port de sortie et d'utilisation des liens issus du pipeline Tomahawk pour évaluer chaque next-hop ECMP en temps réel.

Re-bind

Sélection adaptative du next-hop

À la frontière d'un flowlet, le membre de plus haute qualité est sélectionné. La qualité des membres est recalculée toutes les quelques microsecondes, de sorte qu'un spine saturé sort de l'ensemble des candidats en l'espace d'un flowlet.

Lossless

Co-tuned with PFC & ECN

Le DLB s'intègre à la pile lossless RoCEv2 (PFC, ECN/DCQCN, calcul du headroom), de sorte que le rebinding des flowlets se produit avant que les trames de pause ne se propagent en amont.

Télémétrie

export gNMI

Les nombres de réassociations par membre, les distributions d'écarts de flowlet et les scores de qualité des membres sont diffusés via le dial-out gNMI pour un réglage de la fabric en boucle fermée.

Matériel

TH4 / TH5 natif

Validé sur les plateformes spine Broadcom Tomahawk 4 (25,6T) et Tomahawk 5 (51,2T), en configurations de ports ×ばつ400G et ×ばつ800G, sans pénalité logicielle sur le fast-path.

Ce que DLB apporte dans les fabrics IA en production

  • Meilleure utilisation. Les benchmarks de rééquilibrage de flowlets publiés dans l'industrie font passer l'utilisation du fabric d'environ 55 % en ECMP statique à plus de 90 % sur le même matériel, sans acheter d'uplinks supplémentaires.
  • Latence de queue réduite. Le temps de complétion des collectives P99.9 se resserre car aucun lien unique ne sature pendant que d'autres restent inactifs.
  • Entraînement plus rapide. Moins de temps d'inactivité GPU à attendre le rang le plus lent se traduit par une amélioration mesurable du temps réel sur les charges de travail intensives en AllReduce.
  • Aucune modification de NIC. Le DLB réside dans l'ASIC du commutateur. Les NIC RoCEv2 existants et les piles d'opérations collectives xCCL (NCCL / RCCL / oneCCL) existantes bénéficient d'une livraison ordonnée correcte sans modification de code.
  • Une seule licence. DLB fait partie du SKU OcNOS-DC PLUS : même image, même contrat de support, sans supplément par fonctionnalité.

Vous réglez le DLB pour votre fabric GPU ? Échangez avec un architecte réseau.

Demander une démo technique →