SX-ACEハードウェア紹介(資料提供:NEC)(pdf)

大阪大学サイバーメディアセンター様
次期スーパーコンピュータ SX−ACE
利用説明会(ハードウェア)資料
2014年11月26日
日本電気
ITプラットフォーム事業部
SXロードマップと技術の進化(深化)
省電力対応
1000ノード超
クラスタ対応
Performance
SXのDNA(高実効性能=演算性能とメモリ性能の
優れたバランス)を継承した製品の継続的な開発・提供
マルチレーン
IXS対応MPI
ソフトウェア
自動ベクトル化
コンパイラ
SX-4
SX-7
3Dノード
SX-6
100GF
プロセッサ
モジュール
SX-5
1チップ
ベクトルプロセッサ
ハードウェア
バイポーラ
水冷
1990
Page 2
SX-8/8R
マルチノード
CMOS
空冷
SX-3
SX-2
マルチコア
All in One Chip
SX-9 ECOスパコン
100ノード超
クラスタ対応
分散並列化
(MPI-SX)
自動共有並列化
SUPER−UX
SX-ACE
© NEC Corporation 2014
2000
2010
SX-ACEの特長
SXのDNA である「実アプリケーションでの高い実効性能」を
継承しつつ、低消費電力化、省スペース化を実現。
高実効性能スパコン
世界トップクラスのCPUコア性能(64GFLOPS)
世界トップクラスのメモリバンド幅(64GB/s)
低消費電力スパコン
世界トップクラスの省エネスパコン
省スペーススパコン
お客様フロアコストの削減
Page 3
© NEC Corporation 2014
SX-DNA
の継承
現行機比
同演算性能で
1
10
現行機比
同演算性能で
1
5
チップ・ノード性能のイノベーション
数世代前のSMPノードを1コア化・1チップ化し、
省電力・省スペースなスーパーコンピュータ・プラットフォームを開発
300GFLOPS
64GFLOPS/core
256GFLOPS/chip
1チップ化
SX-7/8Rの1筐体
を1チップ化
281.6GFLOPS/node
マルチコア化
281.6GFLOPS/node
演算性能
200GFLOPS
100GFLOPS
1チップ化
128GFLOPS/node
64GFLOPS/node
102.4GFLOPS/chip
SX-6/ESの1筐体を1コア化
64GFLOPS/core
8GFLOPS/chip
SX-6
Page 4
© NEC Corporation 2014
8.8GFLOPS/chip 16GFLOPS/chip
SX-7
SX-8
35.2GFLOPS/chip
SX-8R
SX-9
SX-ACE
省電力を実現したオールインワンプロセッサ
最新LSIテクノロジにより、4つのCPUコア、メモリ・I/O・ネットワー
クの制御部を1つのLSIに搭載するオールインワンプロセッサ化
大幅な省電力化を実現
データ通信を高速化し、高性能・高スケーラビリティを実現
I/O制御部
オールインワンプロセッサ
ストレージ装置、イーサネット等へ接続
ネットワーク制御部
HPC専用開発ネットワーク
CPUコア
64GFLOPS x 4CPUコア
メモリ制御部
256GB/sの帯域制御
メモリ(64GB)
超広帯域メモリ
世界一のメモリ帯域
256GB/s
Page 5
© NEC Corporation 2014
ノードカード
CPU構成
 演算性能
256GFLOPS (64GFLOPS/コア ×4コア)
 メモリバンド幅 256GB/s (16GB/s /ポート ×16ポート)
コア
256GFLOPS
core#0
SPU
IO I/F
VPU
64GFLOPS
256GB/s
I/Oポート
core core core
#1 #2 #3
ADB(1MB)
RCU
専用ネットワーク
ポート
crossbar
64GFlops
ADBサイズ
1MB
ADB帯域
256GB/s
CPU
コア数
4
演算性能
256GFlops
メモリ帯域
256GB/s
Byte/Flop
1
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
256GB/s
演算性能
256GB/s
(16ポート)
Memory (64GB)
Page 6
© NEC Corporation 2014
SPU: Scalar Processing Unit
VPU: Vector Processing Unit
ADB: Assignable Data Buffer
RCU: Remote Access Control Unit
MC: Memory Controller
コア構成(演算器、キャッシュ、ADB容量など)




SX-9からの強化点・変更点
スカラキャッシュの容量を倍増
ADBの容量を4倍に拡大
ベクトルパイプライン(VPP)を2倍の16パイプ化
SX-ACE
SX-9
VPP x8
MSR x16
VPP x16
Mask
MSR x16
Logical
Logical
ADB
256KB
Vector
Reg.
VAR x8
VDR x64
(144KB)
Multi
Multi
Add
Mask
ADB
1MB
Vector
Reg.
VAR x8
VDR x64
(144KB)
Add
Div/Sqrt
Multi
Multi
Add
Add
Div/Sqrt
fmp/fad
S$
I:32KB
D:32KB
Scalar
Reg.
fmp/fad/fdv
S$
ALU
I:64KB
D:64KB
ALU
Page 7
Scalar
Reg.
fmp/fad/fdv
ALU
ALU
コア、ノードの性能諸元比較
CPU・コア諸元比較
演算性能
ADB容量
SX-8R
35.2GF
なし
SX-9
102.4GF
256KB
SX-ACE
64GF
1MB
ノード諸元比較
Page 8
コア
(CPU)数
演算性能
メモリ容量
メモリ
バンド幅
SX-8R
8
281.6GF
256GB
563.2GB/s
SX-9
16
1638.4GF
1TB
4096B/s
SX-ACE
4
256GF
64GB
256GB/s
© NEC Corporation 2014
クラスタ構成(512ノードモデル)
システム構成: 131TFLOPS (8ラック=計512ノード、2,048ベクトルコア)
高実効性能コア、超高速インタコネクトにより、高スケーラビリティを提供
IXS (専用インタコネクト)
集団通信
高速化機構
4GB/s x2(双方向)
core
core
core
core
core
core
core
core
core
core
core
core
core
core
core
core
memory
memory
512ノード /8ラック
memory
IXS
memory
64ノード×8ラック
=512ノード
Page 9
© NEC Corporation 2014
・ ノード(CPU)数 :
・ コ ア 数 :
・ 演 算 性 能 :
・ メ モ リ B W :
・メモリ容量:
512
2,048
131TF
131TB/s
32TB
マルチノード・システムのリソース比較
1ジョブから利用できる計算機リソースは、大幅に拡大
ノード数
コア
(CPU)数
演算
性能
メモリ
容量
メモリ
バンド幅
ノード間通信
バンド幅
SX-8R
8
64
2.2TF
2TB
8.8TB/s
128GB/s
SX-9
8
128
13.1TF
8TB
32TB/s
512GB/s
SX-ACE
512
2048
131TF
32TB
131TB/s
2048GB/s
(SX-8R比)
64倍
32倍
59倍
16倍
14倍
16倍
(SX-9比)
64倍
16倍
10倍
4倍
4倍
4倍
Page 10
© NEC Corporation 2014
Page 11
2014
© NEC Corporation 2013