GOSAT-2 研究用計算設備について

RCF-2導入経緯背景

2009年1月に温室効果ガスを観測する世界初の専用の衛星としてGOSAT (いぶき) が打ち上げられました。GOSATにより観測された大量のデータは、GOSATデータ処理運用設備(GOSAT DHF)において処理・配信されていますが、解析アルゴリズムの研究・開発を確実に実施するため、国立環境研究所 (以下、NIES という。) は、「GOSAT 研究用計算設備」(以下、RCF という。) を 2010年 3 月に導入しました

RCF は短波長赤外データの研究処理を、 6 年間の運用期間中に延べ約 58 年分実施する等の実績を挙げました。この研究処理結果に基づき短波長赤外データ解析アルゴリズムの改訂が行われ、二酸化炭素・メタンのカラム平均濃度の精度が大幅に向上しました。

この成果によりアルゴリズムの研究・開発を目的とした計算設備の必要性が認められ、「GOSAT-2 研究用計算設備」(以下、RCF2 という。) の導入が実現しました。RCF2 導入の主たる目的は、”GOSAT データ等を元に GOSAT-2 データ解析アルゴリズムの研究・開発をGOSAT-2プロジェクト全体として着実に実施すること”です。


RCF の主たるユーザはNIES の研究者でしたが、RCF2では,「GOSAT-2プロジェクト全体としての着実な実施」を目指すため、GOSAT-2 プロジェクトに関わる所外の研究者にも利用範囲を拡げました。

Calculating Lamps

運営組織図RCF2の運用について

NIES衛星観測センター GOSAT-2プロジェクトによりRCF2が運用されています。RCF2の運用状況は下記のとおりです。

2016 年 3 月 機材設置
2016 年 9 月 NIES内ユーザ向けサービス開始
2016 年12 月 NIES外ユーザ向けサービス開始

nav2RCF2の仕様

RFC2

RCF2 の仕様は、下記の通りです。

RCF2 仕様 (カッコ内は、RCF の仕様)

  • 演算ノード数 120台 (160台)
  • 総コア数 2880コア (1280コア)

主要部品名

  • CPU E5-2650 v4 (Xeon E5530)
  • GPU NVIDIA Pascal (NVIDIA Fermi)
  • DISK DDN SFA 14K (DDN S2A 9900)

理論演算性能

  • CPU 101 TFLOPS (12 TFLOPS)
  • GPU 900 TFLOPS (165 TFLOPS)
  • 合計 1 PFLOPS (177 TFLOPS)

消費電力性能

  • 9796 MFLOPS/W (636 MFLOPS/W)

*スパコン省エネ性能ランキング Green500 において

世界第 8 位 (2017 年 6 月時点)
https://www.top500.org/green500/lists/2017/06/

共有ディスク容量

  • 実効容量 2 PB (0.1 PB)

インターコネクト性能

  • バンド幅 100 Gbps (32 Gbps)
  • 規格 InfiniBand EDR (InfiniBand QDR)

RCF-2導入経緯RCF2の特徴

RCF2では、RCF のオリジナル機能である EcoManager を発展させた EcoManager2 を企画・導入しました。EcoManagerの機能は当初、単純なジョブ連動型の節電機能のみでしたが、RCF 運用中に得た経験を適宜取り込み、計算ノード立ち上げタイミング調整機能等を追加してきました。これらの追加機能に加え、EcoManager2には、計算ノード利用率自動平準化機能、計算ノード健全性自動確認機能、計算ノード冗長割り当て機能等を追加しています。

EcoManager2 で追加された新機能の概要は以下のとおりです。

  • 計算ノード利用率自動平準化機能

EcoManager では、計算ノードはジョブキューと静的に紐づけられていたため、頻繁に利用されるジョブキューと紐付いている計算ノードの利用時間、起動・停止回数が平均よりも多くなっていました。

一般に、利用時間、起動・停止回数が多ければ故障回数も多くなります。そこで EcoManager2 では、ジョブキューと計算ノードの静的な紐づけを止め、過去の利用状況からジョブに対し動的に計算ノードを割り当て、計算ノード利用率を自動的に平準化する機能を実現しました。

  • 計算ノード健全性自動確認機能

EcoManager が計算ノードを起動させる際に、起動失敗・故障等が原因で、ジョブが実行されない・異常停止する等の障害が稀に発生し、その都度、運用者が手動で故障原因の切り分けや再起動を行なっていました。EcoManager2 では、この故障原因の手動切り分けの第一段階である、計算ノードの健全性確認作業を取り込み、計算ノードの起動直後に、健全性を自動的に確認する機能を実現しました。

  • 計算ノードの冗長割り当て機能

RCF では、予備の計算ノードを、静的なコールドスタンバイとして数台用意していましたが、RCF2 では、EcoManager2 が要求数 + 1 台以上の計算ノードを起動させ、その中から正常に利用できるノードを割り当てる、動的なホットスタンバイ機能を実現しました。

* トップのバナー写真:RCF2のインターコネクトスイッチ

Updated: June 20, 2017

GOSAT-2とは

AltStyle によって変換されたページ (->オリジナル) /