NEC C&Cシステム SP研究会 第133回 NECスーパーコンピュータ ~ 現在と今後 2014年11月11日 NEC ITプラットフォーム事業部 第三サーバ統括部 愛野 茂幸 NECのHPC製品 n アプリケーション特性に応じて、最適なプラットフォームを お客様にご提供 HPCクラスタソリューション 計算密度 アクセラレータ系が 多体問題、天体 適している領域 化学系 粒子系 物性、ナノ物理 流 体 ベクトル型スーパーコンピュータ 気象・気候 電磁場 ベクトルが 適している領域 メモリーアクセス密度 Page 2 © NEC Corporation 2014 SXシリーズのロードマップと技術の進化 Performance NECは一貫して、ベクトルアーキテクチャに基づく スーパーコンピュータSXにより、高い実効性能を ご提供しています ES 1000+ノード クラスタ対応 ES2 マルチレーン IXS対応MPI 製品発表 (2013年11月) 100+ノード マルチコア SX-9 All in One Chip クラスタ対応 ECOスパコン SX-8/8R 100GF 分散並列化 SX-7 (MPI-SX) プロセッサ 3Dノード 自動共有並列化 SX-6 モジュール SUPER-UX SX-5 1チップ 自動ベクトル化 ベクトルプロセッサ SX-4 コンパイラ マルチノード CMOS SX-3 空冷 バイポーラ SX-1/2 水冷 1990 Page 3 © NEC Corporation 2014 2000 2010 SX-ACEの特長 SXのDNA である「実アプリケーションでの高い実効性能」を 継承しつつ、低消費電力化、省スペース化を実現 高実効性能スパコン 世界トップクラスのCPUコア性能(64GFLOPS) 世界トップクラスのメモリバンド幅(64GB/s) 低消費電力スパコン 世界トップクラスの省エネスパコン 省スペーススパコン お客様フロアコストの削減 Page 4 © NEC Corporation 2014 SX-DNA の継承 従来機比 同演算性能で 1 10 従来機比 同演算性能で 1 5 CPUアーキテクチャ(ビッグコア、高メモリバンド幅) スカラ処理部 ベクトル処理部 SPU リモートアクセス制御部 VPU CPUアーキテクチャ 256GB/s core core core ADB コアの仕様 RCU (Assignable Data Buffer) 256GB/s インターコネクト 8GB/s x2 8GB/s x2 クロスバ MC MC MC MC MC MC MC MC MC MC MC MC MC MC MC MC 256GB/s メモリ制御部 256GB/s メモリ (DDR3) Page 5 © NEC Corporation 2014 ベクトル型 性能 64GFlops ADB容量 1MB ADBバンド幅 256GB/s メモリバンド幅 64~256GB/s Byte/Flop 1.0 ~ 4.0 CPUの仕様 コア数 4 性能 256GFlops メモリバンド幅 256GB/s Byte/Flop 1.0 CPUレイアウト PCIE PLL RCU IXS DDR3 DDR3 DDR3 CORE0 CORE1 DDR3 DDR3 DDR3 ADB ADB DDR3 DDR3 Crossbar DDR3 DDR3 ADB ADB DDR3 DDR3 DDR3 CORE2 CORE3 DDR3 DDR3 I/O pads Page 6 DDR3 © NEC Corporation 2014 n メモリアクセス効率優先のレイ アウト n 仕様 lデザインルール: 28nm lクロック周波数: 1GHz l基板サイズ: 23.05 x 24.75mm lトランジスタ数: 20億 n インターフェイス lDDR3 x 16ch. lIXS lPCIe x8 x2ch. SX-9 CPUのLSIに対して 5.5倍の集積度を実現 省電力化を実現するオールインワンプロセッサ n 4つのCPUコア、メモリ・I/O・ネットワークの制御部を単一LSIに 搭載するオールインワンプロセッサ化。大幅な省電力化を実現 n コンパクトな基板設計による省スペース オールインワンプロセッサ I/O制御部 ストレージ装置、イーサネット等へ接続 ノードカード 演算性能: 256GF メモリバンド幅: 256GB/s 11cm ネットワーク制御部 8GB/s(1方向当り), Fat-tree CPUコア 世界トップレベルのCPUコア 64GF x 4コア 1MB ADB/コア メモリ制御部 256GB/sバンド幅制御 memory 超高帯域メモリ転送 世界最高のバンド幅 256GB/s Page 7 © NEC Corporation 2014 37cm ノード・アーキテクチャ 気象・気候/流体アプリに適した演算性能とメモリバンド幅バランスを提供 スカラ (x86, Power, etc) S S SX-ACE Cache Small for HPC Narrow for HPC Memory V V HPC Cache SX V V Memory Memory wall + Power wall Memory Page 8 © NEC Corporation 2014 ベクトル演算方式 による高電力効率 HPC専用キャッシュ (ソフト制御) 高バンド幅・高B/F 高実効性能を支持するADB HPC専用設計キャッシュ(ADB) + 高メモリバンド幅 高実効性能を維持しつつ、メモリウォールを打破 HPC専用設計キャッシュ(ADB) V ADB(Cache) Memory 実効性能 [GF] V SX-ACE 再利用性の高いデータのみを格納し、 キャッシュの高利用効率を実現 ADB tune Scalar (x86 etc.) データサイズ 高メモリバンド幅 キャッシュに収まりきらない大規模データに おいても、高速なメモリアクセスを実現 Page 9 © NEC Corporation 2014 省スペース/省電力 省電力設計とコンパクトな実装によって、SX-9比で 設置面積を5分の1、消費電力を10分の1に削減 同一性能(131TF)でのシステム諸元比較 SX-9 SX-ACE 24m 7m 12m 80ノード 25mプールの大きさ 131TF 288m2 2.4MW Page 10 © NEC Corporation 2014 設置面積 1/5 消費電力 1/10 8m 512ノード 会議室の大きさ 131TF 56m2 0.24MW コンパクトな設計仕様 n オールインワンプロセッサの採用により、SXシリーズのDNAである高性能を 継承しつつ、LSI数を100分の1に削減 n 省電力、省スペースを実現 SX-9 1ノード 1.6TF SX-ACE 6ノード 1.5TF 電力の70%以上がメモリネットワーク 高性能を維持 CPU (LSI数 16、 コア数 16) ケーブル SX DNA メモリネットワークスイッチ (LSI数 32) プリント配線 メモリ制御部 (LSI 512個) RAM LSI数 560 30KW Page 11 © NEC Corporation 2014 メモリ 高い電力効率 LSI数を1/100に削減 6LSI 2.8KW ノード筐体構造 オールインワンプロセッサ、コンパクト設計により、SX-9の半分以下 のラックサイズで、10倍の演算性能を実現 SX-9 1ノード 16コア 1.6TF 1TB 1.8m SX-ACE 64ノード 256コア 16TF 4TB 1.8m 1.5m 1.1m Page 12 © NEC Corporation 2014 0.75m CPU部は水冷。システムとしては、 空冷+水冷のハイブリッド冷却 2m SX-ACEの構成 システム ラック 64 nodes = 16TF, 16TB/s 16ノードケージ x4 4 cages = 32 modules = 64 nodes = 64CPUs 16ノードケージ 8 modules = 16 nodes = 16 CPUs 2ノードモジュール 2 nodes = 2 CPUs ノードカード 1CPU, 256GF, 256GB/s Page 13 © NEC Corporation 2014 ラックの仕様 16TF, 16TB/s, 64 CPUs 0.75m x 1.5m x 2.0m 30KW クラスタ構成(512ノードモデル) システム構成: 131TFLOPS (8ラック=計512ノード、2,048ベクトルコア) 高実効性能コア、超高速インターコネクトにより、高スケーラビリティを提供 IXS (専用インターコネクト) 集団通信 高速化機構 4GB/s x2(双方向) core core core core core core core core core core core core core core core core memory memory 512ノード /8ラック memory IXS memory 64ノード×8ラック =512ノード Page 14 © NEC Corporation 2014 ・ノード数: ・ コ ア 数 : ・演算性能: ・メモリBW: ・メモリ容量: 512 2,048 131TF 131TB/s 32TB アーキテクチャの工夫・改善による性能強化 n 短ベクトル性能・リストベクトル性能を強化 n 実効メモリ帯域向上のための新機能 短ベクトル性能評価 ベクトル命令発行能力強化 ベクトル演算器間バイパスパス強化 リストベクトル性能強化 メモリレイテンシ短縮 命令追い越し制御強化 実効メモリ帯域強化 ADB容量拡張 ADB 冗長なメモリロードの回避 (MSHR) 冗長なメモリストアの回避 (store merge) Page 15 © NEC Corporation 2014 CPU 性能向上(例) 気象予報プログラムの中核処理 (ルジャンドル陪関数の計算) SX-ACE 1コア/SX-9 1CPU性能比で1.8倍の性能向上を実現 【例】 06: +------> 31: |+-----> 32: ||V----> 33: ||| 34: ||| 35: ||| 36: ||| 37: ||| ・・・ 72: ||| 73: ||| 74: ||V---75: |+----76: +------ DO K = 1, L DO J = 1, M DO i = 1, N X( i, K & + A( i,J & + A( i,J+1 & + A( i,J+2 & + A( i,J+3 & & Peak性能 SX-9 SX-ACE 性能比 102.4GF 64GF 0.63 SX-ACE/SX-9 性能比較(SX-9性能で正規化) ) ) ) ) ) = * * * * X( B( B( B( B( i,K ) C(i),J C(i),J+1 C(i),J+2 C(i),J+3 ) ) ) ) & & & & & + A( i,J+38) * B( C(i),J+38) & + A( i,J+39) * B( C(i),J+39) ENDDO ENDDO ENDDO 2.0 1.8 1.6 1.4 1.8倍 1.2 1.0 0.8 0.6 0.4 n ADB、メモリレイテンシ短縮、命令追い越し 機能強化等によりリストベクトル性能が向上 Page 16 © NEC Corporation 2014 0.2 0.0 SX-9 (1CPU) SX-ACE (1core) 省エネスパコンを更に省エネ運用 n 運用中ノードも常時省電力 n 消費電力のマニュアル調整 ジョブ実行予定がない運用中ノードの 稼働コア数を制御(休止)して省電力化 即時または、実行中ジョブの終了を待って 指定稼働数上限まで運用ノードを停止 l 最短で終了する実行中ジョブの終了 を待って稼働上限数変更(8→6) HWによる動的な資源制御を実現 CPU コア CPU コア コア (Node#) コア #8 #7 コア コア メモリNW メモリ制御 ×16 DRAM ・・・ コア コア メモリNW メモリ制御 ×16 DRAM ・・・ ソフトウエア制御 l 1コア単位で動的に切離 (休止状態) l 休止状態のコアのみ再初期化して、組み込み Page 17 © NEC Corporation 2014 #6 #5 Job Job #4 #3 #2 #1 Job Job Job Job Job (time) l 稼働コア数自動変更(4→1) l ジョブ実行開始予定前に復帰 小規模モデル SX-ACE Lite (16ノード/32ノード構成) 16、32ノード構成による小規模モデル SX-ACEの1ラックにノード部・インターコネクト部・ラジエータ部等の 全コンポーネントを実装し、空冷環境で動作 16ノードモデル 32ノードモデル ▌モデル構成 Radiator Radiator l16ノード、及び32ノード ▌ラック 16 nodes lSX-ACE標準ラックに搭載 lWxDxH = 0.75m x 1.5m x 2.0m ▌オールインワンラック IXS IXS 16 nodes 16 nodes lノード部・ネットワーク部等の全機能を 1ラックに搭載 ▌空冷環境動作 lラジエータをラック内に搭載することによ り、水冷設備不要で空冷環境により動作 10KVA Page 18 © NEC Corporation 2014 18KVA システムソフトウェアの特長 大規模な科学技術計算に最適なシステム環境を実現 n高い実効性能のアプリケーション開発を支援するソフトウェア開発環境 nシステム全体でデータ共有を可能とする分散共有ファイルシステム nクラスタ、サーバ群を有機的に統合(容易に適所利用を可能に)する統合スケジューラ ベクトル,スカラ 処理・連成利用 データ処理 前・後処理 演算処理 フロントエンド シングルシステム 統合スケジューラ SX-ACEクラスタ ソフトウェア開発環境 高い実効性能のアプリケーション 分散共有ファイルシステム 大容量・高速・高信頼 Page 19 © NEC Corporation 2014 スカラクラスタ 次世代のベクトル型スーパーコンピュータ 20 次世代ベクトル型スーパーコンピュータの開発に着手 スーパーコンピュータSX-ACEの後継機となる次世代機 (開発プロジェクト名:Aurora)を2017年に発売予定 SX-1/2(1983年発売)から9世代 Performance 最新機種SX-ACEを2014年7月出荷 マルチレーン IXS対応MPI ソフトウェア の進化 Aurora ES2 SX-ACE ES マルチコア 100ノード超 SX-9 All in One Chip ECOスパコン クラスタ対応 100GF SX-8/8R 分散並列化 (MPI-SX) SX-7 3Dノード プロセッサ 自動共有並列化 モジュール SX-6 SUPER-UX SX-5 自動ベクトル化 1チップ SX-4 コンパイラ ハードウェア マルチノード ベクトルプロセッサ SX-3 SX-1/2 バイポーラ 水冷 1990 Page 21 © NEC Corporation 2014 CMOS 空冷 の進化 2000 2010 次期プロセッサ・システムのコンセプト n アプリケーション実行における高い実効性能(SXのDNA継承) • 高いコア性能、高いメモリ帯域を維持しつつ、アーキテクチャを刷新 n 使いやすいシステム • プログラミングの容易性(SXの従来資産はリコンパイルで動作) • 容易なチューニング • 定評あるSXシステムソフトウェア(コンパイラ、スケジューラ等) n マーケット領域の拡大 • スパコン領域は主ターゲットとして継続 (研究室、民間レベルにも展開) NEXT • 社会インフラを支えるべく領域を拡大 SX-1/2 Page 22 SX-3 SX-4 © NEC Corporation 2014 SX-5 SX-6 SX-7 SX-8 SX-9 SXACE アプリケーション要求性能とプロセッサトレンド nアプリケーション性能特性は、演算重視型からメモリ重視型まで多様 nスカラCPUのByte/Flopは0.2前後と低く、将来はさらに低下傾向 nスカラCPUでは、効率よく実行できないアプリケーション領域が拡大 ベクトルCPUが得意な領域 メモリ帯域と演算性能の比率(B/F)の 高いプロセッサを必要とする領域 現在のスカラCPUのByte/Flop スカラCPU トレンド スカラCPUが得意な領域 演算密度が高く、理論演算性能を必要 とする領域 (B/Fは要しない領域) Page 23 © NEC Corporation 2014 NECの目指す方向性 ~ 高メモリバンド幅を要する領域 n汎用CPUは、“メモリ帯域よりも処理スループット重視”の方向性 (本質的には、オンライン・トランズアクションなどビジネス向けに適合) nNECは、高いコア性能と高メモリ帯域のHPC向けプロセッサを目指す 演算性能/core high NECの主要 ターゲット領域 high low low Page 24 © NEC Corporation 2014 メモリバンド幅/core システムイメージ スケーラブルな構成で小規模~大規模まで対応 ▌民間企業、研究室単位で導入可能な小型・低価格モデルを準備 ▌柔軟なシステム構成により、様々な要件にも対応可能 データセンターモデル システム性能 スパコン 領域 領域を拡大 ラックモデル エントリモデル サーバ領域 システム価格 HPC市場 Page 25 研究者 研究室 計算センタ・気象サイトなど プログラム開発・実行 プログラム開発・実行 大規模プログラムの実行 © NEC Corporation 2014 ビッグデータ領域への展開 ビッグデータ時代の到来で、⼤量データを⼀括処理するベクトル技術の 重要性が高まる Auroraではビッグデータ領域にも展開 流通 金融 安全 資源 環境 新サービス・ビジネス創出、社会の高度化・安定化 スーパーコンピュータ製品 SX-1/2 SX-3 ビッグデータ 解析製品 Page 26 © NEC Corporation 2014 SXACE Aurora 未来に向かい、人が生きる、豊かに生きるために欠かせないもの。 それは「安全」「安心」「効率」「公平」という価値が実現された社会です。 NECは、ネットワーク技術とコンピューティング技術をあわせ持つ類のないインテグレーターとして リーダーシップを発揮し、卓越した技術とさまざまな知見やアイデアを融合することで、 世界の国々や地域の人々と協奏しながら、 明るく希望に満ちた暮らしと社会を実現し、未来につなげていきます。
© Copyright 2024