NECスーパーコンピュータ ~現在と今後 NEC

NEC C&Cシステム SP研究会 第133回
NECスーパーコンピュータ
~ 現在と今後
2014年11月11日
NEC ITプラットフォーム事業部 第三サーバ統括部
愛野 茂幸
NECのHPC製品
n アプリケーション特性に応じて、最適なプラットフォームを
お客様にご提供
HPCクラスタソリューション
計算密度
アクセラレータ系が
多体問題、天体
適している領域
化学系
粒子系
物性、ナノ物理
流 体
ベクトル型スーパーコンピュータ
気象・気候
電磁場
ベクトルが
適している領域
メモリーアクセス密度
Page 2
© NEC Corporation 2014
SXシリーズのロードマップと技術の進化
Performance
NECは一貫して、ベクトルアーキテクチャに基づく
スーパーコンピュータSXにより、高い実効性能を
ご提供しています
ES
1000+ノード
クラスタ対応
ES2
マルチレーン
IXS対応MPI
製品発表
(2013年11月)
100+ノード
マルチコア
SX-9
All in One Chip
クラスタ対応
ECOスパコン
SX-8/8R
100GF
分散並列化
SX-7
(MPI-SX)
プロセッサ
3Dノード
自動共有並列化
SX-6
モジュール
SUPER-UX
SX-5
1チップ
自動ベクトル化
ベクトルプロセッサ
SX-4
コンパイラ
マルチノード
CMOS
SX-3
空冷
バイポーラ
SX-1/2
水冷
1990
Page 3
© NEC Corporation 2014
2000
2010
SX-ACEの特長
SXのDNA である「実アプリケーションでの高い実効性能」を
継承しつつ、低消費電力化、省スペース化を実現
高実効性能スパコン
世界トップクラスのCPUコア性能(64GFLOPS)
世界トップクラスのメモリバンド幅(64GB/s)
低消費電力スパコン
世界トップクラスの省エネスパコン
省スペーススパコン
お客様フロアコストの削減
Page 4
© NEC Corporation 2014
SX-DNA
の継承
従来機比
同演算性能で
1
10
従来機比
同演算性能で
1
5
CPUアーキテクチャ(ビッグコア、高メモリバンド幅)
スカラ処理部
ベクトル処理部
SPU
リモートアクセス制御部
VPU
CPUアーキテクチャ
256GB/s
core core core
ADB
コアの仕様
RCU
(Assignable Data Buffer)
256GB/s
インターコネクト
8GB/s x2
8GB/s x2
クロスバ
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
256GB/s
メモリ制御部
256GB/s
メモリ (DDR3)
Page 5
© NEC Corporation 2014
ベクトル型
性能
64GFlops
ADB容量
1MB
ADBバンド幅
256GB/s
メモリバンド幅
64~256GB/s
Byte/Flop
1.0 ~ 4.0
CPUの仕様
コア数
4
性能
256GFlops
メモリバンド幅
256GB/s
Byte/Flop
1.0
CPUレイアウト
PCIE
PLL
RCU
IXS
DDR3
DDR3
DDR3
CORE0
CORE1
DDR3
DDR3
DDR3
ADB
ADB
DDR3
DDR3
Crossbar
DDR3
DDR3
ADB
ADB
DDR3
DDR3
DDR3
CORE2
CORE3
DDR3
DDR3
I/O pads
Page 6
DDR3
© NEC Corporation 2014
n メモリアクセス効率優先のレイ
アウト
n 仕様
lデザインルール: 28nm
lクロック周波数: 1GHz
l基板サイズ:
23.05 x 24.75mm
lトランジスタ数: 20億
n インターフェイス
lDDR3 x 16ch.
lIXS
lPCIe x8 x2ch.
SX-9 CPUのLSIに対して
5.5倍の集積度を実現
省電力化を実現するオールインワンプロセッサ
n 4つのCPUコア、メモリ・I/O・ネットワークの制御部を単一LSIに
搭載するオールインワンプロセッサ化。大幅な省電力化を実現
n コンパクトな基板設計による省スペース
オールインワンプロセッサ
I/O制御部
ストレージ装置、イーサネット等へ接続
ノードカード
演算性能:
256GF
メモリバンド幅: 256GB/s
11cm
ネットワーク制御部
8GB/s(1方向当り), Fat-tree
CPUコア
世界トップレベルのCPUコア
64GF x 4コア
1MB ADB/コア
メモリ制御部
256GB/sバンド幅制御
memory
超高帯域メモリ転送
世界最高のバンド幅 256GB/s
Page 7
© NEC Corporation 2014
37cm
ノード・アーキテクチャ
気象・気候/流体アプリに適した演算性能とメモリバンド幅バランスを提供
スカラ
(x86, Power, etc)
S
S
SX-ACE
Cache
Small for HPC
Narrow for HPC
Memory
V
V
HPC Cache
SX
V
V
Memory
Memory wall + Power wall
Memory
Page 8
© NEC Corporation 2014
ベクトル演算方式
による高電力効率
HPC専用キャッシュ
(ソフト制御)
高バンド幅・高B/F
高実効性能を支持するADB
HPC専用設計キャッシュ(ADB) + 高メモリバンド幅
高実効性能を維持しつつ、メモリウォールを打破
HPC専用設計キャッシュ(ADB)
V
ADB(Cache)
Memory
実効性能 [GF]
V
SX-ACE
再利用性の高いデータのみを格納し、
キャッシュの高利用効率を実現
ADB
tune
Scalar
(x86 etc.)
データサイズ
高メモリバンド幅
キャッシュに収まりきらない大規模データに
おいても、高速なメモリアクセスを実現
Page 9
© NEC Corporation 2014
省スペース/省電力
省電力設計とコンパクトな実装によって、SX-9比で
設置面積を5分の1、消費電力を10分の1に削減
同一性能(131TF)でのシステム諸元比較
SX-9
SX-ACE
24m
7m
12m
80ノード
25mプールの大きさ
131TF
288m2
2.4MW
Page 10
© NEC Corporation 2014
設置面積 1/5
消費電力 1/10
8m
512ノード
会議室の大きさ
131TF
56m2
0.24MW
コンパクトな設計仕様
n オールインワンプロセッサの採用により、SXシリーズのDNAである高性能を
継承しつつ、LSI数を100分の1に削減
n 省電力、省スペースを実現
SX-9 1ノード 1.6TF
SX-ACE 6ノード 1.5TF
電力の70%以上がメモリネットワーク
高性能を維持
CPU (LSI数 16、 コア数 16)
ケーブル
SX
DNA
メモリネットワークスイッチ (LSI数 32)
プリント配線
メモリ制御部 (LSI 512個)
RAM
LSI数 560
30KW
Page 11
© NEC Corporation 2014
メモリ
高い電力効率
LSI数を1/100に削減
6LSI
2.8KW
ノード筐体構造
オールインワンプロセッサ、コンパクト設計により、SX-9の半分以下
のラックサイズで、10倍の演算性能を実現
SX-9
1ノード
16コア
1.6TF
1TB
1.8m
SX-ACE
64ノード
256コア
16TF
4TB
1.8m
1.5m
1.1m
Page 12 © NEC Corporation 2014
0.75m
CPU部は水冷。システムとしては、
空冷+水冷のハイブリッド冷却
2m
SX-ACEの構成
システム
ラック
64 nodes = 16TF, 16TB/s
16ノードケージ x4
4 cages = 32 modules = 64 nodes = 64CPUs
16ノードケージ
8 modules = 16 nodes = 16 CPUs
2ノードモジュール
2 nodes = 2 CPUs
ノードカード
1CPU, 256GF, 256GB/s
Page 13
© NEC Corporation 2014
ラックの仕様
16TF, 16TB/s, 64 CPUs
0.75m x 1.5m x 2.0m
30KW
クラスタ構成(512ノードモデル)
システム構成: 131TFLOPS (8ラック=計512ノード、2,048ベクトルコア)
高実効性能コア、超高速インターコネクトにより、高スケーラビリティを提供
IXS (専用インターコネクト)
集団通信
高速化機構
4GB/s x2(双方向)
core
core
core
core
core
core
core
core
core
core
core
core
core
core
core
core
memory
memory
512ノード /8ラック
memory
IXS
memory
64ノード×8ラック
=512ノード
Page 14
© NEC Corporation 2014
・ノード数:
・ コ ア 数 :
・演算性能:
・メモリBW:
・メモリ容量:
512
2,048
131TF
131TB/s
32TB
アーキテクチャの工夫・改善による性能強化
n 短ベクトル性能・リストベクトル性能を強化
n 実効メモリ帯域向上のための新機能
短ベクトル性能評価
ベクトル命令発行能力強化
ベクトル演算器間バイパスパス強化
リストベクトル性能強化
メモリレイテンシ短縮
命令追い越し制御強化
実効メモリ帯域強化
ADB容量拡張
ADB
冗長なメモリロードの回避 (MSHR)
冗長なメモリストアの回避 (store merge)
Page 15
© NEC Corporation 2014
CPU
性能向上(例)
気象予報プログラムの中核処理 (ルジャンドル陪関数の計算)
SX-ACE 1コア/SX-9 1CPU性能比で1.8倍の性能向上を実現
【例】
06: +------>
31: |+----->
32: ||V---->
33: |||
34: |||
35: |||
36: |||
37: |||
・・・
72: |||
73: |||
74: ||V---75: |+----76: +------
DO K = 1, L
DO J = 1, M
DO i = 1, N
X( i, K
&
+ A( i,J
&
+ A( i,J+1
&
+ A( i,J+2
&
+ A( i,J+3
&
&
Peak性能
SX-9
SX-ACE
性能比
102.4GF
64GF
0.63
SX-ACE/SX-9 性能比較(SX-9性能で正規化)
)
)
)
)
)
=
*
*
*
*
X(
B(
B(
B(
B(
i,K )
C(i),J
C(i),J+1
C(i),J+2
C(i),J+3
)
)
)
)
&
&
&
&
&
+ A( i,J+38) * B( C(i),J+38) &
+ A( i,J+39) * B( C(i),J+39)
ENDDO
ENDDO
ENDDO
2.0
1.8
1.6
1.4
1.8倍
1.2
1.0
0.8
0.6
0.4
n ADB、メモリレイテンシ短縮、命令追い越し
機能強化等によりリストベクトル性能が向上
Page 16
© NEC Corporation 2014
0.2
0.0
SX-9
(1CPU)
SX-ACE
(1core)
省エネスパコンを更に省エネ運用
n 運用中ノードも常時省電力
n 消費電力のマニュアル調整
ジョブ実行予定がない運用中ノードの
稼働コア数を制御(休止)して省電力化
即時または、実行中ジョブの終了を待って
指定稼働数上限まで運用ノードを停止
l 最短で終了する実行中ジョブの終了
を待って稼働上限数変更(8→6)
HWによる動的な資源制御を実現
CPU
コア
CPU
コア
コア
(Node#)
コア
#8
#7
コア
コア
メモリNW
メモリ制御
×16
DRAM
・・・
コア
コア
メモリNW
メモリ制御
×16
DRAM
・・・
ソフトウエア制御
l 1コア単位で動的に切離 (休止状態)
l 休止状態のコアのみ再初期化して、組み込み
Page 17 © NEC Corporation 2014
#6
#5
Job
Job
#4
#3
#2
#1
Job
Job
Job
Job
Job
(time)
l 稼働コア数自動変更(4→1)
l ジョブ実行開始予定前に復帰
小規模モデル SX-ACE Lite (16ノード/32ノード構成)
16、32ノード構成による小規模モデル
SX-ACEの1ラックにノード部・インターコネクト部・ラジエータ部等の
全コンポーネントを実装し、空冷環境で動作
16ノードモデル
32ノードモデル
▌モデル構成
Radiator
Radiator
l16ノード、及び32ノード
▌ラック
16 nodes
lSX-ACE標準ラックに搭載
lWxDxH = 0.75m x 1.5m x 2.0m
▌オールインワンラック
IXS
IXS
16 nodes
16 nodes
lノード部・ネットワーク部等の全機能を
1ラックに搭載
▌空冷環境動作
lラジエータをラック内に搭載することによ
り、水冷設備不要で空冷環境により動作
10KVA
Page 18
© NEC Corporation 2014
18KVA
システムソフトウェアの特長
大規模な科学技術計算に最適なシステム環境を実現
n高い実効性能のアプリケーション開発を支援するソフトウェア開発環境
nシステム全体でデータ共有を可能とする分散共有ファイルシステム
nクラスタ、サーバ群を有機的に統合(容易に適所利用を可能に)する統合スケジューラ
ベクトル,スカラ
処理・連成利用
データ処理 前・後処理
演算処理
フロントエンド
シングルシステム
統合スケジューラ
SX-ACEクラスタ
ソフトウェア開発環境
高い実効性能のアプリケーション
分散共有ファイルシステム
大容量・高速・高信頼
Page 19
© NEC Corporation 2014
スカラクラスタ
次世代のベクトル型スーパーコンピュータ
20
次世代ベクトル型スーパーコンピュータの開発に着手
スーパーコンピュータSX-ACEの後継機となる次世代機
(開発プロジェクト名:Aurora)を2017年に発売予定
SX-1/2(1983年発売)から9世代
Performance
最新機種SX-ACEを2014年7月出荷
マルチレーン
IXS対応MPI
ソフトウェア
の進化
Aurora
ES2
SX-ACE
ES
マルチコア
100ノード超
SX-9 All in One Chip
ECOスパコン
クラスタ対応
100GF
SX-8/8R
分散並列化
(MPI-SX)
SX-7 3Dノード プロセッサ
自動共有並列化
モジュール
SX-6
SUPER-UX
SX-5
自動ベクトル化
1チップ
SX-4
コンパイラ
ハードウェア
マルチノード ベクトルプロセッサ
SX-3
SX-1/2
バイポーラ
水冷
1990
Page 21
© NEC Corporation 2014
CMOS
空冷
の進化
2000
2010
次期プロセッサ・システムのコンセプト
n アプリケーション実行における高い実効性能(SXのDNA継承)
• 高いコア性能、高いメモリ帯域を維持しつつ、アーキテクチャを刷新
n 使いやすいシステム
• プログラミングの容易性(SXの従来資産はリコンパイルで動作)
• 容易なチューニング
• 定評あるSXシステムソフトウェア(コンパイラ、スケジューラ等)
n マーケット領域の拡大
• スパコン領域は主ターゲットとして継続
(研究室、民間レベルにも展開)
NEXT
• 社会インフラを支えるべく領域を拡大
SX-1/2
Page 22
SX-3
SX-4
© NEC Corporation 2014
SX-5
SX-6
SX-7
SX-8
SX-9
SXACE
アプリケーション要求性能とプロセッサトレンド
nアプリケーション性能特性は、演算重視型からメモリ重視型まで多様
nスカラCPUのByte/Flopは0.2前後と低く、将来はさらに低下傾向
nスカラCPUでは、効率よく実行できないアプリケーション領域が拡大
ベクトルCPUが得意な領域
メモリ帯域と演算性能の比率(B/F)の
高いプロセッサを必要とする領域
現在のスカラCPUのByte/Flop
スカラCPU
トレンド
スカラCPUが得意な領域
演算密度が高く、理論演算性能を必要
とする領域 (B/Fは要しない領域)
Page 23
© NEC Corporation 2014
NECの目指す方向性 ~ 高メモリバンド幅を要する領域
n汎用CPUは、“メモリ帯域よりも処理スループット重視”の方向性
(本質的には、オンライン・トランズアクションなどビジネス向けに適合)
nNECは、高いコア性能と高メモリ帯域のHPC向けプロセッサを目指す
演算性能/core
high
NECの主要
ターゲット領域
high
low
low
Page 24
© NEC Corporation 2014
メモリバンド幅/core
システムイメージ
スケーラブルな構成で小規模~大規模まで対応
▌民間企業、研究室単位で導入可能な小型・低価格モデルを準備
▌柔軟なシステム構成により、様々な要件にも対応可能
データセンターモデル
システム性能
スパコン
領域
領域を拡大
ラックモデル
エントリモデル
サーバ領域
システム価格
HPC市場
Page 25
研究者
研究室
計算センタ・気象サイトなど
プログラム開発・実行
プログラム開発・実行
大規模プログラムの実行
© NEC Corporation 2014
ビッグデータ領域への展開
ビッグデータ時代の到来で、⼤量データを⼀括処理するベクトル技術の
重要性が高まる
Auroraではビッグデータ領域にも展開
流通
金融
安全
資源
環境
新サービス・ビジネス創出、社会の高度化・安定化
スーパーコンピュータ製品
SX-1/2
SX-3
ビッグデータ
解析製品
Page 26
© NEC Corporation 2014
SXACE
Aurora
未来に向かい、人が生きる、豊かに生きるために欠かせないもの。
それは「安全」「安心」「効率」「公平」という価値が実現された社会です。
NECは、ネットワーク技術とコンピューティング技術をあわせ持つ類のないインテグレーターとして
リーダーシップを発揮し、卓越した技術とさまざまな知見やアイデアを融合することで、
世界の国々や地域の人々と協奏しながら、
明るく希望に満ちた暮らしと社会を実現し、未来につなげていきます。