ホーム · ドキュメント · テクノロジー · Global Load Balancing
OcNOS 7.1 で提供予定

Global Load Balancing:ファブリック全体のアダプティブルーティング

DLB は 1 ホップ単位で正しい判断を下し、GLB はファブリック全体にわたって正しい判断を下します。OcNOS 7.1 で登場する Global Load Balancing は、適応型ルーティングをポート単位の視点からエンドツーエンドのパス品質へと拡張し、最大 16k-GPU の上限まで対応する 3 段 Clos AI ファブリックにおけるマルチホップのホットスポットの隙間を解消します。

エンドツーエンドのパステレメトリ

GPU AllReduce を運ぶ3段 Clos スライス(リーフ、スパイン、スーパースパイン)。各ティアがキュー占有率とリンク利用率のテレメトリをイングレスリーフへストリーミング。GLB は最良のパスを選択: end-to-end スコア。最適なローカルエグレススコアではありません。

3ステージClos AI Fabric全体にわたるグローバルロードバランシング 3 段 Clos AI ファブリックです。最上段に 2 台のスーパースパイン、中段に 4 台のスパイン、最下段に 2 台のリーフを配置します。テレメトリの矢印が上方向と下方向に流れることで、入口リーフがエンドツーエンドのパス品質を把握します。1 本のスパイン〜スーパースパイン リンクが輻輳し、代替のエンドツーエンド パスを優先してバイパスされます。 エンドツーエンドのテレメトリ Super-Spine-1TH5 · 51.2T Super-Spine-2TH5 · 51.2T Spine-1e2e ✓ Spine-2e2e ✓ Spine-3アップリンク高負荷 Spine-4e2e ✓ イングレスリーフGLB・パスをランク付け エグレスリーフ対象ラック GLB・エンドツーエンドのパススコアリング・マルチホップ輻輳認識・OcNOS 7.1

マルチホップのホットスポット問題

DLBは各ECMPネクストホップを次の指標でスコアリング: local イグレスキュー深度:このスイッチのアウトバウンドポートで何が起きているか。2 ティアのリーフスパインでは最適です。しかし3ティアの Clos にスケールすると、クリーンなアップリンクを持つスパインを選んでも、その先のスーパースパインに行き着いてしまう可能性があり、そこでは downlink 出口リーフへ戻る経路が輻輳。ローカルから見た状態は正しいが、エンドツーエンドで見た状態は誤り。

1,024 GPU以上のファブリック、すなわちスーパースパインを用いた3段Closが標準トポロジーとなる規模において、これがテールレイテンシーの外れ値として残る支配的な要因です。 OcNOS 7.1 では Global Load Balancing を新たに搭載 解決策:各ティアがパス品質テレメトリをイングレスリーフへ向けて配信するため、イングレスの判断はエンドツーエンドのスコア全体に基づいて行われます。

DLB対GLB:パス選択の適用範囲

ローカル:DLB

ホップごとの適応型ルーティング

各スイッチが、ローカルの送信キュー深度とリンク使用率を用いて自身のECMPネクストホップをランク付け。2ステージファブリック、および3ステージにおけるleaf→spineホップに最適。TH4/TH5で本日より利用可能です。

グローバル:GLB・7.1

エンドツーエンドの経路スコアリング

各ティアが輻輳テレメトリをイングレスリーフへ発行。イングレスは完全なパス(リーフ→スパイン→スーパースパイン→スパイン→リーフ)をランク付けし、ローカルホップだけでなくファブリック全体の品質スコアで選択。

OcNOS 7.1のGLB実装

テレメトリプレーン

パス品質のパブリッシュ

あらゆるスパインおよびスーパースパインが、ポートごとのキュー占有率と使用率の差分を、ファブリック全体の隣接関係に公開します。更新はサブミリ秒で、既存のインバンドシグナリングを使用し、追加のコントロールプレーン通信は発生しません。

パススコアリング

エンドツーエンドのアグリゲーション

イングレスリーフは、ローカルのイグレス品質とダウンストリームのテレメトリを組み合わせ、候補パスごとに総合スコアを算出します。最悪のホップがスコアを支配します。これは事業者がトラブルシューティング時に用いるのと同じ直感です。

Selection

Flowlet-aligned

DLBと同様に、GLBはフローレット境界で再バインドし、RoCEv2およびTCPの順序保証を維持します。違いは判断の入力情報にあり、ローカルポートの品質ではなくファブリック全体の品質を用います。

Backwards-Compatible

DLB上に階層化

GLBはDLBの判断を拡張するものであり、置き換えるものではありません。GLB対応スイッチとDLBのみのスイッチが混在するファブリックも正しく動作し、非GLBスイッチは単にローカルのみの品質を提供します。

Scale

最大16k-GPUの上限まで

×ばつ800G TH5シャーシを構成単位とし、16,384-GPUのアーキテクチャ上限に合わせて最適化。

テレメトリー出力

運用チームのためのgNMI

パスごとのスコア、再バインドイベント、最悪ホップの特定情報を gNMI/OpenConfig 上でストリーム配信、SRE はファブリックの判断と xCCL (NCCL / RCCL / oneCCL) 集合通信ジョブの挙動をブラックボックスなしで相関分析できます。

ロードマップと提供状況

  • OcNOS 7.1、初回リリース。 GLBは、現在DLBを稼働している同一のTH4/TH5ハードウェア上で、7.1 OcNOS-DCトレインの一部として提供されます。スケジュールおよび機能範囲については以下を OcNOS リリースページ.
  • 同一SKU。 OcNOS-DC PLUSに同梱:機能ごとのペイウォールなし、アップグレード時の新規ライセンスキーなし。
  • 無停止アップグレード。 7.0から7.1へのブラウンフィールドアップグレードに対応。バージョン混在ファブリックは、アップグレード期間中はDLBのみの挙動で動作を継続。
  • UEC-aligned. パス品質プレーンは、UEC NIC エコシステムが成熟した際に Ultra Ethernet Consortium のシグナリングと相互運用できるよう設計中であり、7.1 GLB は業界の進む方向と前方互換。参照: Ultra Ethernet (UEC).
  • アーキテクチャレビューをご利用いただけます。 1k以上のGPUファブリックのサイジングをご検討の場合、GLBテレメトリプレーンを含むサイジング作業を実施します。

数千GPU規模のファブリックのサイジングをご検討ですか。数値の試算を一緒に進めましょう。

アーキテクチャレビューを予約 →