VM - 株式会社アルティマ

ネットワーク仮想化向けハードウェアオフロード
メラノックステクノロジーズジャパン株式会社 津村英樹
June 2014
40Gbps以上の高速ネットワークを実現する唯一のベンダー
包括的なエンドトゥエンドソリューションを実現するInfiniBandとEthernet両方に対応可能な製品ラインナップ
シリコン
アダプタカード
スイッチ
ゲートウェイ
ホスト
Metro / WAN
ファブリックソフトウェア
ケーブル
モジュール
HCA/NIC用コントローラやスイッチ用ASICを全て自社開発
40Gbpsを超えるネットワークで最強のコストパフォーマンスを提供
PCクラスタ、ストレージ高速化、クラウド環境向けIO統合などに最適な次世代インフラストラクチャ
© 2014 Mellanox Technologies
- Mellanox Confidential -
2
カーネル
ユーザ
RDMAの概要
アプリケーション 1
アプリケーション
バッファ 1
バッファ 1
バッファ 1
バッファ 1
2
OS
OS
バッファ 1
バッファ 1
ハードウェア
RDMA over InfiniBand or
Ethernet
HCA
NIC
HCA
バッファ 1
バッファ 1
TCP/IP
ラック 1
© 2014 Mellanox Technologies
NIC
ラック 2
- Mellanox Confidential -
3
Solid State Deviceの特性を活かすストレージサーバ
 フラッシュメモリのコモディティ化はSSDストレージの利用を促進
• SSDは共有ストレージへのアクセス競合を緩和し、ランダムI/O性能を劇的に向上
 SSDは最小のレイテンシーと低消費電力のストレージを実現
• 最高性能だがまだ高価なSSDを低価格で利用するには、SSDのアプリケーションへの
応答性能を妨げない、低レイテンシーなインターコネクト技術による外部共有が必須
Component
Latency (usec)
InfiniBand
0.7
Ethernet RDMA (RoCE)
1.3
Ethernet TCP
6
Fibre Channel
20
SSD Read
25
Disk Read
6000
Total: 45usec
Total: 25.7usec
Fibre ChannelではSSDのパフォーマンスを活かすことはできない
SSDの共有にはInfiniBand、RoCE (RDMA over Coverged Ethernet)が最適!
© 2014 Mellanox Technologies
- Mellanox Confidential -
4
SMB Direct 仮想環境での性能比較
Configuration
© 2014 Mellanox Technologies
BW
IOPS
%CPU
Latency
MB/sec
512KB IOs/sec
Privileged
milliseconds
Local
10,090
38,492
~2.5%
~3ms
Remote
9,852
37,584
~5.1%
~3ms
Remote VM
10,367
39,548
~4.6%
~3 ms
- Mellanox Confidential -
5
SMBはHyper-V Live Migrationとの共用が可能
 SMBは仮想マシンのLive Migrationに対応可能
 SMBによって提供される主な機能
• RDMA (SMB Direct)
• Streaming over multiple NICs(SMBマルチチャネル)
Live Migration Times
70
60
 最高のスループットと最小のレイテンシーを実現
Seconds
50
Windows
Server
2012 R2
で初めて
サポート
40
30
20
10
0
Live Migrationが
高帯域
Live Migrationは
40/56Gbps
SMBマルチチャネ
RDMAは Live
ネットワークに
ルによって複数の
Migration中の
よって高速化
通信を同時に
CPU処理をNIC
ロードバランスして
でオフロード
実行が可能
© 2014 Mellanox Technologies
- Mellanox Confidential -
6
ブートストーム解消&仮想デスクトップ台数を2.5倍以上にするiSER
 Mellanox社とLSI社の共同ソリューションにより、 VDI環境にお
Benchmark Configuration
けるストレージレイテンシーの改善とIOPSを劇的に向上
• LSI Nytro MegaRAIDは、SSDベースのキャッシュによってディスク
アクセスを大幅に高速化
• Mellanox ConnectX®-3 10/40ギガビットEthernet NICは、ハイパー
バイザーから共有高速ストレージへのアクセスをRDMAによって高速化
すると同時に、オーバーヘッドゼロのレプリケーションを実現
 Login VSI社VDI Load Generatorでテストした場合、上記
ソリューションは物理サーバ1台当り160仮想デスクトップという
空前の統合率を実現
• iSER (iSCSI Extension for RDMA) を使用することで、通常のTCP/IP
ベースのiSCSIに比べてまったく同じ設定環境で2.5倍以上のVMが搭載可能に
* http://www.mellanox.com/related-docs/whitepapers/SB_Virtual_Desktop_Infrastructure_Storage_Acceleration_Final.pdf
© 2014 Mellanox Technologies
- Mellanox Confidential -
iSCSI/RDMA
(iSER) target
Replication
Mellanox SX1012
10/40GbE Switch
iSCSI/RDMA
(iSER) target
Software
RAID (MD)
LSI Caching
Flash/RAID
Controller
LSI Caching
Flash/RAID
Controller
Primary
Secondary
• 2 x Xeon E5-2650
processors
• Mellanox ConnectX®-3
Pro, 40GbE/RoCE
• LSI Nytro MegaRAID
NMR 8110-4i
Redundant Storage Cluster
7
40ギガビットEthernet: ストレージ市場における最新トレンド
 NetApp, Inc.
• 40GbE Adoption Takes Off in the Data Center
The next evolution of the Ethernet, 40Gb, will begin widespread adoption at the core
of the data center. Higher bandwidths allow larger datasets to move more quickly
and easily, which in turn encourages the growth of data.
Jay Kidd Chief Technology Officer and Senior Vice President, NetApp Inc.
https://communities.netapp.com/community/netapp-blogs/netapp-360/blog/2013/12/12/the-it-almanac-for-2014
 株式会社東芝
• vForum2013において、メラノックス社40ギガビット
Ethernetを使用したIO統合ソリューションを動態展示
Ethernetを
• 2014年度に同社のFlashストレージシステムで40ギガ
Ethernetを正式サポート予定
ビット
© 2014 Mellanox Technologies
- Mellanox Confidential -
8
一般的なオーバーレイネットワークのイメージ
Gateway (Network) Nodes
Router / NAT
Software Gateway
vEth1
vEth0
SDN Manager e.g.
OpenStack Neutron,
ODL, VMware NSX
BR0
BR1
VXLAN
OVS
VNI200 VNI300
Hypervisor
Hypervisor
VM
VM
VM
VM
VM
VM
VM
VM
OS
OS
OS
OS
OS
OS
OS
OS
vTap
vTap
vTap
BR0
vTap
BR1
vTap
vTap
BR2
VXLAN Overlay
Open vSwitch (OVS)
VNI100 VNI200 VNI300
vTap
vTap
vTap
BR1
BR0
VXLAN Overlay
Open vSwitch (OVS)
VNI100 VNI300
UDP
UDP
UDP
IP
IP
IP
Internet
Underlay Network (Layer 2 or Layer 3)
VXLAN Overlay
(tenant) networks
© 2014 Mellanox Technologies
- Mellanox Confidential -
9
VXLANやNVGREベースのネットワーク仮想化の直面する課題
 ハイパーバイザのIPスタックや標準的なNICはクライアントTCP/IPのトラフィックを認識できない
 ハードウェアによるセグメンテーション/リアッセンブリ、チェックサムオフロード、 RSS/TSS
CPUコアのスケーリングなど標準的なオフロード技術では、仮想マシンが生成するTCP/IPパケット
(インナーペイロード)を処理することができない
 これらの処理をCPUに負担させることにより、VXLANやNVGREを使用する環境では、多大な負荷が
ホストCPUに掛かってしまい、アプリケーション性能やサーバ統合率に悪影響を与えてしまう
 メラノックスのConnectX®-3 Proは、これらの仮想マシンが生成するTCP/IPパケットを処理でき
る世界初のNICであり、VXLANやNVGRE使用時におけるCPUのオーバーヘッドをなくすことで、シ
ステム性能に影響を与えずにオーバーレイ型ネットワーク仮想化環境に移行することができる
VXLAN Packet Format
Generated by
the VM
Generated by
the Hypervisor
© 2014 Mellanox Technologies
- Mellanox Confidential -
10
ConnectX®-3 ProによるNVGREスループット
35
30
(Gb/s)
Throughput
スループット
(Gb/s)
NVGRE Offload Engine – Breaks the 10Gb/s Barrier
29.3
25
20
NVGREオフロードなし
NVGRE Offload Disabled
NVGREオフロードあり
NVGRE Offload Enabled
15
9.2
10
5
5
0
40ギガビットEthernet
40Gb/s Adapter
© 2014 Mellanox Technologies
5
10ギガビットEthernet
10Gb/s Adapter
- Mellanox Confidential -
11
Bandwidth [Gbit/sec]
ConnectX®-3 Proによるオーバーレイネットワークの高速化
VXLAN使用時のVM全体のバンド幅
25
20
15
10
5
0
NO VxLAN
VxLAN in software
VxLAN HW Offload
VXLANオフロードにより
バンド幅が5倍に
1 VM
11
2
10
2 VMs
19
3
19
3 VMs
21
3.5
21
VXLANオフロードにより
CPU使用率が1/4に
CPU% / Bandwidth
(Gbit/sce)
VXLAN使用時のCPU使用率(Gbit/sec あたり)
Test Details
4.00
-
3.00
2.00
1.00
0.00
NO VxLAN
VxLAN in software
VxLAN HW Offload
© 2014 Mellanox Technologies
1 VM
0.55
3.50
0.90
2 VMs
0.68
3.33
0.89
3 VMs
0.67
4.29
1.19
- Mellanox Confidential -
-
Test command: netperf -t TCP_STREAM –H
1-3 VMs talking to 1-3 VMs on a second server
OpenvSwitch (OVS) with VXLAN support
Servers:
- HP ProLiant DL380p Gen8
- 2 x Intel(R) Xeon(R) CPU E5-2650 0 @ 2.00GHz
- 32GB RAM
Hypervisor OS: Linux Upstream Kernel 3.14-rc1 + KVM
Guest VM OS: RHEL 6.5 2.6.32-431.el6.x86_64
NIC: ConnectX-3Pro , FW: 2.30.8000
CPU% and Bandwidth measures on the Hypervisor (aggregate 1-3 VMs)
12
スイッチベースのVXLANオフロードとの違いは?
 VXLAN用ゲートウェイの機能はスイッチでもオフロードすることが可能であり、VLANベース
の既存ネットワークに対する高速なブリッジ機能を提供できる
• クラウドサービスプロバイダは、BGPに対応した最先端のルータ、NAT、DHCP、モニタリングやファイアウォール
を展開しているため、柔軟性の高いソフトウェアベースのゲートウェイの方が良い場合もある
• OpenStack Network Nodesのようにソフトウェアゲートウェイは拡張性に優れているため、メラノックスの
VXLANハードウェアオフロードと組み合わせることで、高い性能を保持しながらシステムを拡張できる
 VXLAN Switch Termination/Gateway (VTAP)は、VXLAN処理に関するCPUの負荷を軽
減できない
• Internal VLANはハイパーバイザで生成され、オーバーレイネットワークとは別に管理される
• スイッチベースのオフロード機能は、NICによるハードウェアオフロードに比べてCPUオーバーヘッドの解消には効果
がない
SDN/Cloud Manager is only aware
of the VXLAN overlay networks
(VNIs), and doesn’t manage the
internal VLANs, adding significant
complexity
SDN Manager
VM
VM
VM
OS
OS
OS
OS
vTap
?
Limited hardware
resources for tunneling
and ACLs
© 2014 Mellanox Technologies
VM
- Mellanox Confidential -
vTap
vTap
BR0
Open vSwitch (OVS)
vTap
BR1
vTap
Switch Based
VXLAN Gateway
(VTAP) Approach
BR2
VLAN3
VLAN4
VLAN5
Internal VLANs must be created
and managed in the Hypervisor to
ensure isolation between VMs on
different networks/tenants
13
ITシステム全体を仮想的なメインフレームに再構築
 ITシステムは分散と集中を繰り返す
•
•
•
•
1980年代
1990年代
2000年代
2010年代
メインフレームで業務を集中処理
クライアント・サーバでIT適用エリアを拡大
サーバ・ストレージ仮想化
ネットワーク仮想化
 基幹系以外のサーバをプライベートクラウドに移行
• 継続使用するサーバはプライベートクラウド
• 非基幹系サーバはパブリッククラウドを併用
• プライベートクラウドの空き容量を有効活用
90
80
70
60
50
40
30
20
10
0
9時-12時
空き容量
夜間バッチ
業務サーバ
email
開発用途
12時-15時
15時-18時
夜間
80
基幹系
空き容量
70
 基幹系サーバもクラウド環境に統合でTCOを半減
• Haswell等高性能サーバで統合率を倍増 -30% (1)
• 運用コスト、ラック代、電気代
-30% (2)
• 仮想メインフレームによる平準化
(1) + (2) -30%
夜間バッチ
60
50
業務サーバ
40
30
email
20
開発用途
10
0
9時-12時
© 2014 Mellanox Technologies
- Mellanox Confidential -
12時-15時
15時-18時
夜間
基幹系
14
Thank you!