SMP/MPP/GPUへの対応

JMAGは計算アルゴリズムの開発、チューニングにより高速化への取り組みを続けています。シングルコアの計算が速いことに加え、大規模なモデルに対してはハードウェアを有効に活用しノード間の通信量を抑えながら並列化する技術があります。

JMAGは解析時間短縮のため、HPCソリューションを強化し、高並列ソルバー、GPUソルバーを提供しています。

共有メモリ型(マルチCPU、マルチコア)

JMAGは非並列の状態であっても、辺要素の利用や高速なICCG法を用いることで速さを追及しています。

高並列(MPP)ソルバー

JMAGはノード間の通信量を抑える技術を開発しています。これにより、クラスタシステムにおいて、高い並列度数で演算を実現しています。

計算速度の評価

ここでは、JMAG MPPソルバーを用いた速度性能向上の効果についてご紹介します。試験に使用したハードウェアスペックを示します。

ハードウェアスペック
CPU Intel® Xeon® E5-2670
クロック周波数 (GHz) 2.6
コア数 / プロセッサ 8
プロセッサ数 / ノード 2
メモリ (GB) 32
ノード数 16
ネットワーク Infiniband (QDR)

事例:

埋め込み型永久磁石モータの過渡応答解析

大規模な三次元永久磁石同期モータ(要素数:約206万)について、電気角一周期分の過渡応答解析を実行しました。その結果、32並列では約2時間30分、64並列ではわずか1時間45分で解析を完了することができました。この性能は従来の非並列と比べ、それぞれ13倍、20倍の速度です。

解析時間 (埋め込み型永久磁石モータ)

バスバーの周波数応答解析

大規模な三次元バスバー(要素数:約242万)について周波数応答解析を行いました。非並列ではおよそ60分の解析時間を要していましたが、32並列では約6.4分、64並列ではわずか4.6分で解析を完了することができました。

解析時間 (バスバー)

GPUへの対応

ここ数年、GPU(Graphics Processing Units)の性能は目覚しい進歩を遂げています。GPUはCPUに比べて圧倒的にコア数が多く、並列処理を得意とします。最近では、その並列性能を活かして、本来の画像処理以外に、スーパーコンピューターの演算装置としてもGPUが使われるようになっています。もちろんCAEの分野でもGPUは注目されており、数値計算など汎用な目的にGPUを利用するGPGPU(General-purpose computing on graphics processing units)が広まりつつあります。
弊社ではいち早くGPGPUに着目し、2012年からGPUソルバーを提供しており、日々改良を重ね進化を続けております。

計算速度の評価

NVIDIA社が提供する最新の数値計算向けのGPU、Tesla K40でJMAGのGPUソルバーを評価した事例を紹介します。
数値計算において、計算時間の多くが有限要素法により得られる線形方程式の反復解法の処理、つまり求解部分の処理に費やされます。特に数百万要素の大規模なメッシュモデルを扱う場合、求解部分の処理時間はより顕著になります。JMAGのGPUソルバーはこの求解部分の処理をGPUにより加速する技術を採用しています。GPUを用いた場合の解析時間短縮への効果を、共有メモリ型のCPU並列ソルバーを用いた場合と比較して示します。使用したGPU、CPUのハードウェアスペックは以下の通りです。

ハードウェアスペック
ハードウェア CPU Intel® Xeon® X5670 GPU NVIDIA® Tesla® K40
クロック周波数 (GHz) 2.93 0.745
コア数 12 (2CPU) 2880 (1GPU)
メモリ (GB) 24 12
メモリバンド幅 (GB/s) 32 288

事例:

埋め込み型永久磁石モータの過渡応答磁界解析

4極24スロットの埋め込み型永久磁石モータモデルにおいて過渡応答磁界解析を2ステップ実行した時の解析時間を示します。本モデルの要素数は約200万要素です。CPU1コアの計算時間に比べて、GPUを1基のみ使用した場合は約10倍、GPUを2基使用した場合は約14倍の計算速度の高速化が期待されます。

解析時間(埋め込み型永久磁石モータ)

リニアモータの過渡応答磁界解析

次に、リニアモータモデルにおいて過渡応答磁界を2ステップ実行した時の解析時間を示します。本モデルの要素数は約750万要素です。CPU1コアの計算時間に比べてGPUを1基のみ使用した場合で約4.2倍の計算速度の高速化が期待されます。GPUを2基使用した場合では、約4.6倍です。

解析時間(リニアモータ)

誘導電動機の過渡応答磁界解析

ロータスキューを有する誘導電動機モデルにおいて過渡応答磁界解析を2ステップ実行した時の時間を示します。本モデルの要素数は約900万要素となります。Tesla K40ではGPUのメモリ量が12GByteに増強されていますので、GPU1基でもこのような超大規模な計算が可能です。CPU1コアでの計算時間と比較して、GPUを1基のみ使用した場合は約6.8倍の計算時間の高速化が期待されます。GPUを2基使用した場合では、約7.5倍です。

解析時間(誘導電動機)

動作環境についてはこちらをご覧ください。[動作環境]