世界最高水準の研究を支えるHPC環境を刷新。第2世代AMD EPYC搭載サーバーでCPUコア数が約7倍に

科学分野における世界最高水準の研究が数多く進められている沖縄科学技術大学院大学(OIST)。高度な研究を支えているのが、研究者や学生が共同で利用するHPC環境だ。このHPC環境は、継続的に強化が図られており、2020年7月には第4世代へと刷新。その際、主要な計算ノードとして採用されたのが、Dell EMC PowerEdge C6525サーバーだ。決め手となったのは、コストパフォーマンスに優れた最新のAMD EPYCプロセッサーにいち早く対応していたこと。またiDRACを搭載し遠隔で立ち上げや管理が行えることや、RedfishやAnsibleを利用した管理の集中化・自動化が容易なことも、高く評価されている。

国際的に高い評価を受けている大学院大学

2011年に設立され、「世界最高水準の科学技術の研究大学になる」という高い目標を追求する、沖縄科学技術大学院大学(以下、OIST)。国内外から優れた研究者を集めて質の高い研究を行い、世界レベルの研究拠点の形成を推進することで、世界の科学技術に大きな貢献を果たし続けている。

その最大の特徴は、科学分野の5年一貫制博士課程を置く、学際的な大学院大学であること。学部を持たず、博士課程コースも1分野に限定しないことで、多様な研究分野にまたがった学際的な研究を促進している。

准教授やアシスタント・プロフェッサーを含むすべての教員は、それぞれが独立して研究ユニットを主宰し、自らの研究課題に責任を持つ。2020年5月時点での研究ユニット数は79にのぼり、研究分野も物理学や化学、神経科学、海洋科学、環境・生態学、数学・計算科学、分子・細胞・発生生物学と、多岐にわたる。

また研究スタッフや博士課程学生の多様性も、OISTの大きな特徴だ。学生と教員の半数以上は外国人であり、学内の公用語は英語、教職員全体に占める女性の割合も50%となっている。さらに、教員1名に対して学生2名という比率も、特筆すべきだといえるだろう。

このような環境で高度な研究を行うことで、世界中からトップレベルの研究者を惹きつけ、それがさらに研究レベルを高めていくという、好循環が生まれている。実際にOISTは、論文科学誌「Nature」を発行する英Springer Nature社が2019年6月に取りまとめた「2018年の自然科学分野の大学における質の高い論文の総合ランキング」において、世界第9位にランクインしている。このランキングでは、東京大学が40位、京都大学が60位にランキングしているが、日本勢ではOISTが一番高い評価を受けていることになる。

研究に不可欠なHPC環境を全学で整備し研究者を支援

沖縄科学技術大学院大学(OIST) 科学計算およびデータ解析セクション セクションリーダー 博士(工学) タユフェール・エディ氏

このような質の高い研究を支える重要な基盤となっているのが、高度な科学技術計算をスピーディーに実行する、HPC(High Performance Computing)環境だ。

「最近の科学技術の研究では、ほぼすべての分野でコンピューターを利用した計算処理が不可欠になっています」と語るのは、OISTのタユフェール・エディ氏。OISTではそのためのHPC環境を全学規模で整備しており、これをすべての研究者と学生に提供しているという。

「HPC環境を各研究ユニットが自分たちで用意するのではなく、私たちのようなセクションが集中的に構築し、共有のファシリティーとして使ってもらうことで、研究者は自分の研究に専念できるようになり、共同研究も行いやすくなります。共有ファシリティーを提供するのは私たちのセクションだけではなく、DNA解析や生物学の画像解析を支援するセクションなどもあります。このような支援セクションが充実していることも、OISTの大きな特徴です」(エディ氏)

沖縄科学技術大学院大学(OIST) 科学計算およびデータ解析セクション HPC及び研究用コンピューティング エンジニア 田仲 康司氏

こうした考えの基、OISTでは研究者や学生のニーズに対応するため、HPC環境を段階的に強化し続けている。2011年の設立当初からHPC環境の構築・提供を行っており、2015年にはその第3世代を構築。そして2019年10月には、第4世代のHPC環境の構築を開始。そのための公開入札を行った。

「第1~2世代のころは、学内の研究も神経科学や海洋関連の研究がメインでしたが、第3世代から対応すべき研究分野が一気に拡大しました。中でも特に大きな計算能力が必要になるのが、バイオサイエンスや応用数学です」とエディ氏。これらの研究に対応するには、処理能力が不足するようになっていたのである。

「実際、第3世代の最後の時期には、HPCを構成するCPUコアの使用率は常時80%を超えるようになっていました」と語るのは、同社の田仲 康司氏。定常的なコア不足のため、ジョブ投入の順番待ち時間も長くなりつつあったという。「このコア不足を解消するために企画されたのが、第4世代HPCです。要件は多岐にわたりましたが、その中で最も重視したのが、予算内でどれだけ多くのコアを実装できるかでした」(田仲氏)

コストパフォーマンスを重視し第2世代AMD EPYC搭載マシンを採用

この入札の結果採用されたのが、PowerEdge C6525サーバーを中心に構成されたHPCクラスターである。PowerEdge C6525は2Uサイズで4ノード×2CPUスロットを有する、業界屈指の高密度サーバー。OISTの第4世代HPC環境ではこれが114シャーシ、つまり456ノード導入され、合計912CPUを実装できるようになっている。

このサーバー製品が選ばれた最大の理由は、第2世代AMD EPYCプロセッサー(コードネーム「Rome」)への対応を、他社に先駆けて実現していたからだ。

「AMDのプロセッサーについては、EPYCの第1世代であるNaplesのころから注目しており、これをHPC環境で利用できないか、AMD側とも直接話を進めていました。最近ではまずAMDが高性能なCPUをリリースし、その後で他社が追随するといった構図ができつつあることがわかっていたからです。NaplesはまだEPYCの第1世代ということもあり完成度に問題が残っていましたが、Romeは完成度も高く、大量のノードを導入しても十分に実用レベルで使えると判断。そのため第4世代HPCではぜひ、コストパフォーマンスに優れるRomeを採用しようと考えていました。また7nm(ナノメートル)プロセスで製造されていることも評価しています」(エディ氏)

第2世代AMD EPYC

第2世代AMD EPYCが発表されたのは2019年8月。このころにはまだ、このCPUを搭載したサーバーは存在しなかった。そこでエディ氏は各サーバーベンダーに直接コンタクトを取り、AMD対応サーバーのロードマップなどの情報を綿密に調査。その結果、最も早く対応するのがデル・テクノロジーズだということが判明したという。

「もちろん第2世代AMD EPYC対応だけではなく、マザーボードの構成やメモリーとCPUとの転送速度、冷却方式、消費電力なども評価しています。またノード間を接続するネットワークに何が使えるのか、高速転送が可能なHDR InfiniBandに対応しているかなども細かく調査しました。その上で最終的には総合評価に基づき、PowerEdge C6525の採用を決めています」(エディ氏)

2019年11月には落札し、検証のための環境構築がデル・テクノロジーズによって進められていく。ここで問題がないことが実証された後、2020年4月からOISTによる第4世代HPCの構築が行われ、2020年7月から正式にカットオーバーしている。

OISTが新たに構築した第4世代のHPC環境

第2世代AMD EPYCプロセッサーが搭載されたPowerEdge C6525が、合計で456台導入されている。このサーバー製品は2Uサイズの筐体に4ノード×2CPUスロットを搭載可能で、システム全体で912CPU(456台×2CPU)を高いラック密度で実装可能だ。

コア数は以前の7倍近くに増強、運用管理も容易に

「第4世代のHPC環境は、第3世代に比べてコア数が7倍近くに増えています」とエディ氏。これによって分散処理が以前よりも高速に行えるようになり、コア数の制限のためにこれまでできなかった計算を行う研究者や学生も増えているという。またストレージにはフラッシュストレージを採用しているため、機械学習のようにランダムなデータアクセスが発生する処理も、大幅に高速化されているという。

「利用者からは『以前よりも格段にパフォーマンスがあがった』と喜ばれています。例えば、構築後のテスト期間にトゥベール先生(衝撃波・ソリトン・乱流ユニット 、イミル・トゥベール准教授)が圧縮ナビエーストークス方程式(※)の計算でベンチマークを行ったところ、前世代のHPCより7倍以上もスピードアップしました。また、1ノード当りの比較では約6倍の性能に達しています。この結果はリアル・ワールド(彼らが実際に研究で行う計算)の比較なので、我々にとって本当に意味があります」(エディ氏) (※)流体力学の方程式

このように処理能力が大幅に増強された一方で、管理性が向上したことも、デル・テクノロジーズ製品を採用した大きなメリットだと田仲氏は指摘する。

「デル・テクノロジーズのサーバー製品にはiDRAC(integrated Dell Remote Access Controller: アイドラック)というハードウエア管理機能が内蔵されており、リモートでハードウエアの運用管理が行えます。またデル・テクノロジーズが提供するOMSA(OpenManage Server Administrator)やOpenManage Ansible Modules等の管理ツールを活用すれば、数百台のサーバーのOSだけでなくBIOS等の設定に至るまで簡単に一元管理することが可能です。今回のHPC環境の構築は、緊急事態宣言の中、在宅勤務の中で行う必要がありましたが、物理的な作業(ラッキングやケーブリング)以外はすべて在宅でストレスなく行うことができました」

これに加え、iDRACがRedfishというマルチベンダーのサーバーハードウェア管理インタフェースの業界標準に対応しており、最新バージョンの「iDRAC9」ではそのサポートがさらに強化されていることも、運用管理性を高める上で重要なポイントになっている。Redfishとは、DMTFスケーラブルプラットフォームマネジメントフォーラムが策定した、業界標準の次世代管理システム。ブラウザベースのGUIで利用できるほか、RESTfulな管理インタフェース(API)を介し、外部アプリケーションからも大規模なサーバー環境の運用管理を行うことが可能だ。

「例えばAnsibleから利用することで、運用管理の自動化を進めることが容易になります。実際に第4世代HPC環境ではAnsibleを実装し、Redfish API対応のiDRACも活用し、数百台の大規模のサーバー群を運用管理する仕組みも短期間で実現できました。この環境の運用管理を行っているのは実質私1人ですが、自動化を進めていくことで十分に対応できると考えています」(田仲氏)

HPCを熟知したデル・テクノロジーズのサポートも高く評価

また入札前の検討や入札後の構築でも、デル・テクノロジーズのサポートは重要な役割を果たしたと田仲氏は言う。「デル・テクノロジーズにはHPCを熟知したエンジニアがおり、今回の検討・構築にも積極的に参画してくれました。こちらの疑問をきちんと把握し、HPC環境の運用で何が重要なのか理解した上で、数百台のノード管理を前提にした適切な答えを出してくれたのです」(田仲氏)

科学計算およびデータ解析セクションでは、今後もこのHPC環境を拡充し、研究者が使える十分なリソースを提供し続けていく方針だ。これによって研究者がより効率的に研究に専念し、質の高い論文を生み出せるようにしていくことが、サポートセクションの最重要課題なのだという。

「最近では『OISTからほかの研究機関に移って初めて、OISTのHPC環境の便利さがわかった』とメッセージをくださる研究者や、『これだけの環境が整っているからこそ、OISTに移りたい』という研究者も少なくありません」とエディ氏。OISTが構築・提供するHPC環境は、優秀な人材を集める上で、大きな貢献を果たしているわけだ。

今後もOISTでは、最新技術の動向をいち早く取り入れながら、研究者にとって最適なリソース提供を行い、高度な研究を支えていく考えだ。

2Uに4ノード搭載可能で高密度で高性能なAMD EPYC搭載PowerEdge C6525サーバー

日経BP社の許可により、2020年10月27日~ 2020年11月23日掲載 の 日経 xTECH Special を再構成したものです。

<前の記事へ   次の記事へ>

About the Author: Dell Technologies