ネットワーク仮想化向けハードウェアオフロード メラノックステクノロジーズジャパン株式会社 津村英樹 June 2014 40Gbps以上の高速ネットワークを実現する唯一のベンダー 包括的なエンドトゥエンドソリューションを実現するInfiniBandとEthernet両方に対応可能な製品ラインナップ シリコン アダプタカード スイッチ ゲートウェイ ホスト Metro / WAN ファブリックソフトウェア ケーブル モジュール HCA/NIC用コントローラやスイッチ用ASICを全て自社開発 40Gbpsを超えるネットワークで最強のコストパフォーマンスを提供 PCクラスタ、ストレージ高速化、クラウド環境向けIO統合などに最適な次世代インフラストラクチャ © 2014 Mellanox Technologies - Mellanox Confidential - 2 カーネル ユーザ RDMAの概要 アプリケーション 1 アプリケーション バッファ 1 バッファ 1 バッファ 1 バッファ 1 2 OS OS バッファ 1 バッファ 1 ハードウェア RDMA over InfiniBand or Ethernet HCA NIC HCA バッファ 1 バッファ 1 TCP/IP ラック 1 © 2014 Mellanox Technologies NIC ラック 2 - Mellanox Confidential - 3 Solid State Deviceの特性を活かすストレージサーバ フラッシュメモリのコモディティ化はSSDストレージの利用を促進 • SSDは共有ストレージへのアクセス競合を緩和し、ランダムI/O性能を劇的に向上 SSDは最小のレイテンシーと低消費電力のストレージを実現 • 最高性能だがまだ高価なSSDを低価格で利用するには、SSDのアプリケーションへの 応答性能を妨げない、低レイテンシーなインターコネクト技術による外部共有が必須 Component Latency (usec) InfiniBand 0.7 Ethernet RDMA (RoCE) 1.3 Ethernet TCP 6 Fibre Channel 20 SSD Read 25 Disk Read 6000 Total: 45usec Total: 25.7usec Fibre ChannelではSSDのパフォーマンスを活かすことはできない SSDの共有にはInfiniBand、RoCE (RDMA over Coverged Ethernet)が最適! © 2014 Mellanox Technologies - Mellanox Confidential - 4 SMB Direct 仮想環境での性能比較 Configuration © 2014 Mellanox Technologies BW IOPS %CPU Latency MB/sec 512KB IOs/sec Privileged milliseconds Local 10,090 38,492 ~2.5% ~3ms Remote 9,852 37,584 ~5.1% ~3ms Remote VM 10,367 39,548 ~4.6% ~3 ms - Mellanox Confidential - 5 SMBはHyper-V Live Migrationとの共用が可能 SMBは仮想マシンのLive Migrationに対応可能 SMBによって提供される主な機能 • RDMA (SMB Direct) • Streaming over multiple NICs(SMBマルチチャネル) Live Migration Times 70 60 最高のスループットと最小のレイテンシーを実現 Seconds 50 Windows Server 2012 R2 で初めて サポート 40 30 20 10 0 Live Migrationが 高帯域 Live Migrationは 40/56Gbps SMBマルチチャネ RDMAは Live ネットワークに ルによって複数の Migration中の よって高速化 通信を同時に CPU処理をNIC ロードバランスして でオフロード 実行が可能 © 2014 Mellanox Technologies - Mellanox Confidential - 6 ブートストーム解消&仮想デスクトップ台数を2.5倍以上にするiSER Mellanox社とLSI社の共同ソリューションにより、 VDI環境にお Benchmark Configuration けるストレージレイテンシーの改善とIOPSを劇的に向上 • LSI Nytro MegaRAIDは、SSDベースのキャッシュによってディスク アクセスを大幅に高速化 • Mellanox ConnectX®-3 10/40ギガビットEthernet NICは、ハイパー バイザーから共有高速ストレージへのアクセスをRDMAによって高速化 すると同時に、オーバーヘッドゼロのレプリケーションを実現 Login VSI社VDI Load Generatorでテストした場合、上記 ソリューションは物理サーバ1台当り160仮想デスクトップという 空前の統合率を実現 • iSER (iSCSI Extension for RDMA) を使用することで、通常のTCP/IP ベースのiSCSIに比べてまったく同じ設定環境で2.5倍以上のVMが搭載可能に * http://www.mellanox.com/related-docs/whitepapers/SB_Virtual_Desktop_Infrastructure_Storage_Acceleration_Final.pdf © 2014 Mellanox Technologies - Mellanox Confidential - iSCSI/RDMA (iSER) target Replication Mellanox SX1012 10/40GbE Switch iSCSI/RDMA (iSER) target Software RAID (MD) LSI Caching Flash/RAID Controller LSI Caching Flash/RAID Controller Primary Secondary • 2 x Xeon E5-2650 processors • Mellanox ConnectX®-3 Pro, 40GbE/RoCE • LSI Nytro MegaRAID NMR 8110-4i Redundant Storage Cluster 7 40ギガビットEthernet: ストレージ市場における最新トレンド NetApp, Inc. • 40GbE Adoption Takes Off in the Data Center The next evolution of the Ethernet, 40Gb, will begin widespread adoption at the core of the data center. Higher bandwidths allow larger datasets to move more quickly and easily, which in turn encourages the growth of data. Jay Kidd Chief Technology Officer and Senior Vice President, NetApp Inc. https://communities.netapp.com/community/netapp-blogs/netapp-360/blog/2013/12/12/the-it-almanac-for-2014 株式会社東芝 • vForum2013において、メラノックス社40ギガビット Ethernetを使用したIO統合ソリューションを動態展示 Ethernetを • 2014年度に同社のFlashストレージシステムで40ギガ Ethernetを正式サポート予定 ビット © 2014 Mellanox Technologies - Mellanox Confidential - 8 一般的なオーバーレイネットワークのイメージ Gateway (Network) Nodes Router / NAT Software Gateway vEth1 vEth0 SDN Manager e.g. OpenStack Neutron, ODL, VMware NSX BR0 BR1 VXLAN OVS VNI200 VNI300 Hypervisor Hypervisor VM VM VM VM VM VM VM VM OS OS OS OS OS OS OS OS vTap vTap vTap BR0 vTap BR1 vTap vTap BR2 VXLAN Overlay Open vSwitch (OVS) VNI100 VNI200 VNI300 vTap vTap vTap BR1 BR0 VXLAN Overlay Open vSwitch (OVS) VNI100 VNI300 UDP UDP UDP IP IP IP Internet Underlay Network (Layer 2 or Layer 3) VXLAN Overlay (tenant) networks © 2014 Mellanox Technologies - Mellanox Confidential - 9 VXLANやNVGREベースのネットワーク仮想化の直面する課題 ハイパーバイザのIPスタックや標準的なNICはクライアントTCP/IPのトラフィックを認識できない ハードウェアによるセグメンテーション/リアッセンブリ、チェックサムオフロード、 RSS/TSS CPUコアのスケーリングなど標準的なオフロード技術では、仮想マシンが生成するTCP/IPパケット (インナーペイロード)を処理することができない これらの処理をCPUに負担させることにより、VXLANやNVGREを使用する環境では、多大な負荷が ホストCPUに掛かってしまい、アプリケーション性能やサーバ統合率に悪影響を与えてしまう メラノックスのConnectX®-3 Proは、これらの仮想マシンが生成するTCP/IPパケットを処理でき る世界初のNICであり、VXLANやNVGRE使用時におけるCPUのオーバーヘッドをなくすことで、シ ステム性能に影響を与えずにオーバーレイ型ネットワーク仮想化環境に移行することができる VXLAN Packet Format Generated by the VM Generated by the Hypervisor © 2014 Mellanox Technologies - Mellanox Confidential - 10 ConnectX®-3 ProによるNVGREスループット 35 30 (Gb/s) Throughput スループット (Gb/s) NVGRE Offload Engine – Breaks the 10Gb/s Barrier 29.3 25 20 NVGREオフロードなし NVGRE Offload Disabled NVGREオフロードあり NVGRE Offload Enabled 15 9.2 10 5 5 0 40ギガビットEthernet 40Gb/s Adapter © 2014 Mellanox Technologies 5 10ギガビットEthernet 10Gb/s Adapter - Mellanox Confidential - 11 Bandwidth [Gbit/sec] ConnectX®-3 Proによるオーバーレイネットワークの高速化 VXLAN使用時のVM全体のバンド幅 25 20 15 10 5 0 NO VxLAN VxLAN in software VxLAN HW Offload VXLANオフロードにより バンド幅が5倍に 1 VM 11 2 10 2 VMs 19 3 19 3 VMs 21 3.5 21 VXLANオフロードにより CPU使用率が1/4に CPU% / Bandwidth (Gbit/sce) VXLAN使用時のCPU使用率(Gbit/sec あたり) Test Details 4.00 - 3.00 2.00 1.00 0.00 NO VxLAN VxLAN in software VxLAN HW Offload © 2014 Mellanox Technologies 1 VM 0.55 3.50 0.90 2 VMs 0.68 3.33 0.89 3 VMs 0.67 4.29 1.19 - Mellanox Confidential - - Test command: netperf -t TCP_STREAM –H 1-3 VMs talking to 1-3 VMs on a second server OpenvSwitch (OVS) with VXLAN support Servers: - HP ProLiant DL380p Gen8 - 2 x Intel(R) Xeon(R) CPU E5-2650 0 @ 2.00GHz - 32GB RAM Hypervisor OS: Linux Upstream Kernel 3.14-rc1 + KVM Guest VM OS: RHEL 6.5 2.6.32-431.el6.x86_64 NIC: ConnectX-3Pro , FW: 2.30.8000 CPU% and Bandwidth measures on the Hypervisor (aggregate 1-3 VMs) 12 スイッチベースのVXLANオフロードとの違いは? VXLAN用ゲートウェイの機能はスイッチでもオフロードすることが可能であり、VLANベース の既存ネットワークに対する高速なブリッジ機能を提供できる • クラウドサービスプロバイダは、BGPに対応した最先端のルータ、NAT、DHCP、モニタリングやファイアウォール を展開しているため、柔軟性の高いソフトウェアベースのゲートウェイの方が良い場合もある • OpenStack Network Nodesのようにソフトウェアゲートウェイは拡張性に優れているため、メラノックスの VXLANハードウェアオフロードと組み合わせることで、高い性能を保持しながらシステムを拡張できる VXLAN Switch Termination/Gateway (VTAP)は、VXLAN処理に関するCPUの負荷を軽 減できない • Internal VLANはハイパーバイザで生成され、オーバーレイネットワークとは別に管理される • スイッチベースのオフロード機能は、NICによるハードウェアオフロードに比べてCPUオーバーヘッドの解消には効果 がない SDN/Cloud Manager is only aware of the VXLAN overlay networks (VNIs), and doesn’t manage the internal VLANs, adding significant complexity SDN Manager VM VM VM OS OS OS OS vTap ? Limited hardware resources for tunneling and ACLs © 2014 Mellanox Technologies VM - Mellanox Confidential - vTap vTap BR0 Open vSwitch (OVS) vTap BR1 vTap Switch Based VXLAN Gateway (VTAP) Approach BR2 VLAN3 VLAN4 VLAN5 Internal VLANs must be created and managed in the Hypervisor to ensure isolation between VMs on different networks/tenants 13 ITシステム全体を仮想的なメインフレームに再構築 ITシステムは分散と集中を繰り返す • • • • 1980年代 1990年代 2000年代 2010年代 メインフレームで業務を集中処理 クライアント・サーバでIT適用エリアを拡大 サーバ・ストレージ仮想化 ネットワーク仮想化 基幹系以外のサーバをプライベートクラウドに移行 • 継続使用するサーバはプライベートクラウド • 非基幹系サーバはパブリッククラウドを併用 • プライベートクラウドの空き容量を有効活用 90 80 70 60 50 40 30 20 10 0 9時-12時 空き容量 夜間バッチ 業務サーバ email 開発用途 12時-15時 15時-18時 夜間 80 基幹系 空き容量 70 基幹系サーバもクラウド環境に統合でTCOを半減 • Haswell等高性能サーバで統合率を倍増 -30% (1) • 運用コスト、ラック代、電気代 -30% (2) • 仮想メインフレームによる平準化 (1) + (2) -30% 夜間バッチ 60 50 業務サーバ 40 30 email 20 開発用途 10 0 9時-12時 © 2014 Mellanox Technologies - Mellanox Confidential - 12時-15時 15時-18時 夜間 基幹系 14 Thank you!
© Copyright 2024