WebSAM Glance+Pak, GlancePlus のご紹介 - 日本電気

WebSAM Glance+Pak, GlancePlus のご紹介
(概要説明資料)
2014年11月
日本電気株式会社
目次
▌製品を知る
• WebSAM Glance+Pak / WebSAM GlancePlus とは
• GlancePlus について
• PA について
▌他性能測定ツールとの違いを知る
• 性能測定・監視ができるその他のアプリケーションとの違い
• Glance+Pak と SystemManager に見る性能情報のサポート範囲の違い
▌Glance+Pak を使用した実例を見る
•
•
•
•
•
•
実例1:Java がメモリリークしているかを知りたい
実例2:ファイルシステムがフルになった原因を知りたい
実例3:CPU 負荷発生の原因を知りたい
実例4:プロセスのシステムコールの実行状況を知りたい
実例5:kthread: table is full の発生原因を知りたい
実例6:プロセスに対する設定変更前後の CPU、メモリなどの性能情報を比較したい
Page 2
© NEC Corporation 2014
目次
▌製品の利用、導入に関する情報について
• 利用イメージ、システム構成イメージ
• 価格情報
• 参考URL
Page 3
© NEC Corporation 2014
WebSAM Glance+Pak / WebSAM GlancePlus とは
▌WebSAM Glance+Pak(以降、Glance+Pak) は、以下の2つのソフトウェアがセッ
トになった製品です。
・ WebSAM GlancePlus (以降、GlancePlus)
・ HP Performance Agent Software (以降、PA)
▌GlancePlus は単品製品です。
▌Glance+Pak / GlancePlus は共に、インストールマシンの CPU,メモリ、ディスク、
LVM、ファイルシステム、ネットワークインターフェイス、プロセス単体の、システム
コールなどの性能情報を収集する機能を有した製品です。
▌NEC では、Glance+Pak、 GlancePlus の2つの製品を出荷・販売・保守サポートし
ています。
Page 4
© NEC Corporation 2014
GlancePlus について
▌GlancePlus は、パフォーマンスの監視、診断をリアルタイムで行うソフトウェアです。
▌OS が提供しているツール(標準ツール)では入手することができない細かな性能情報を提
供します。
▌測定した性能情報は、CUI、 Motif GUI で表示することができます。
▌システム状況の調査、パフォーマンスボトルネックの特定、より効率的な運用のためのシス
テムチューニングをお手伝いできます。
【CUI版 glance の表示例】
Page 5
© NEC Corporation 2014
【GUI版 xglance の表示例】
PA について
▌性能情報をファイルに蓄積することにより過去のトレンドを分析するツールです。
▌ファイルに蓄積した性能情報は、製品が提供するコマンドを用いて、CSV 形式、ワークシー
ト形式などのファイルに出力することができます。
▌収集した性能情報を元に、あらかじめ設定しているしきい値条件をあてはめ、条件に合致
した場合に、しきい値超過のアラームを syslog ファイルへ出力する等の通知を行うことが
できます。
▌任意のユーザプロセスをアプリケーションとして登録することで、そのプロセスに特化した性
能情報を蓄積することができます。
▌画面を持たないデーモンの状態で動作します。
※備考
HP Performance Manager Software(別売り) を用いることで、 PA が蓄積しているファイルにアクセス
し Manager 上で性能情報を元にした様々なグラフを表示させることや、蓄積しているデータからその情
報に関する将来の使用状態等の予測を行うこともできます。
GlancePlusでも「glance adviser 機能」を用いて指定する測定項目のみの性能情報を収集・蓄積するこ
とは可能です。本機能に関しては詳細説明編をご参照ください。
多数の測定項目に関する性能情報を収集・蓄積しておきたい場合はGlance+Pakをご購入いただき、PA
も一緒に使われることを推奨いたします。
Page 6
© NEC Corporation 2014
Glance+Pak ご利用イメージ
▌サービスインに向けた事前検証
App 1
システム,アプリ,プロセス
ごとに分析しチューニング
App 2
App 1
App 2
App 3
サービスイン
▌通常運用時
しきい値監視など
定期的に状況確認
正常稼働中
アラーム
安定して
正常稼働中
▌障害発生時
蓄積情報の解析
より詳細なメトリック収集
障害発生中
log
障害解消
正常稼働中
▌運用変更、アプリケーション追加などのシステム変更
反映
本番用
Page 7
検証用
© NEC Corporation 2014
検証用
本番用
検証用
性能測定・監視ができるその他のアプリケーションとの違い
NECでは、以下の3つの製品を性能測定・監視ツール(アプリケーション)として販売しています。
サポートOS
構成
特徴
価格
該当する導入環境
ESMPRO/ServerAgent
(ESMPRO/SA)
Linux, Windows
(Manager は Express サーバのみ)
Manager ⇔ Agent
Manager を介して Agent 在中の複数の
サーバより、 CPU 負荷監視、メモリ監
視、ディスク監視、LAN のトラフィック状
況の監視、採取情報をグラフ描画が可
能
Express サーバには無償添付
Express サーバに Manager 環境を用意
でき、プロセス監視が不要でチューニング
や分析も不要な場合
WebSAM SystemManager
(SystemManager)
HP-UX, AIX, Solaris, Linux, Windows
Glance+Pak
HP-UX, Linux
Manager ⇔ Agent
Manager を介して Agent 在中の複数
サーバより、CPU監視、メモリ監視、ディ
スク監視、プロセス監視、LANのトラ
フィック状況の監視、採取情報のグラフ
描画が可能
導入規模に依存(1AG \60,000~)
Express サーバ、もしくは他社製サーバ
に Manager 環境を用意し、CPUやメモリ
といった基本的な性能情報の監視やプ
ロセス監視が必要だが、チューニングや
分析が不要な場合
サーバへの単独インストール
Glance+Pak がインストールされている
サーバより、CPU監視、メモリ監視、ディ
スク監視、ファイルシステム監視、LVM監
視、プロセス監視、スレッド監視、システ
ムコール監視が可能
マシンのモデル(ランク)に依存
サーバリソースの細部に渡る性能情報の
収集を行い障害発生時の解析に役立て
る場合
チューニングや分析に必要な性能の情報
の収集が必要な場合
※ ESMPRO/SAやSystemManagerで基
本的なサーバリソースの監視・通報を行
い、その監視・通報に対して
Glance+Pak を使い詳細に性能情報を
確認する運用の実例あり
ESMPRO/SA や SystemManager は、Manager – Agent 構成を基本とし、各 Agent 在中のサーバよりCPU,メモリ、ディ
スクといった性能監視に必要な情報を取得しています。
Glance+Pak はサーバ毎に単独にインストールし、障害調査時にも備えるため ESMPRO/SA や SystemManager では
提供していないサーバの詳細な性能情報を取得しています。
また、取得した詳細な性能情報を活用し、サーバリソースのチューニングや障害発生時の調査のお役に立ちます。
Page 8
© NEC Corporation 2014
Glance+PakとSystemManagerに見る性能情報のサポート範囲の違い
下記の表は、SystemManager(背景色:緑)とGlance+Pak(背景色、枠色:赤)で各性能情報に対してサポートしている範囲を示しています。
採取可能な性能情報の項目
採
取
可
能
な
性
能
情
報
の
種
類
CPU
メモリ
スワップ
ディスク
ファイルシ
ステム
LVM
ネットワーク
プロセス
システム
コール
User %
Memory %
Swap %
Peak
disk %
FS
Space %
LV Read
Rate
IN Packet
Rt
CPU %
GBL
Syscall
Name
System %
Read Cache
Hit %
Swap size
Disk IO
Rate
FS Size
LV Read
KB Rt
OUT
Packet Rt
Phys IO Rt
GBL Syscall
Count
I/O Wait %
Write Cache
Hit %
Swap Out
Disk IO
Block Rt
FS Phys
IO Rt
LV Write
Rate
ERR
Packet Rt
Process
Stop
Reason
GBL Syscall
CPU Time
Total %
User %
Used
Swap %
Disk Wait
Time
FS Phys
Read Rt
LV Write
KB Rt
COLL
Packet Rt
RSS
Memory
PROC
Syscall
Name
Interrupt %
System %
Swap
Dev %
Phys IO
Rate
FS Phys
Write Rt
Network %
VIRT
Memory
PROC Syscall
Count
Idle %
Cache %
Swap
FS %
Log IO
Rate
FS Log IO
Rt
IN KB
Rate
Memory
Region
PROC Syscall
Rate
CPU
Queue
Mem
Queue
etc.
Disk
Queue
FS Log
Read Rt
OUT KB
Rate
Open Files
PROC Total
Time
etc.
etc.
etc.
etc.
etc.
etc.
etc.
※SystemManager と Glance+Pak の使い分けについて。
通常のサーバ監視では、Manager – Agent 構成で広く浅く俯瞰的に監視する SystemManager を使用することを推奨します。
対して、Glance+Pak は、例えば障害が発生したサーバにおいて広く深く(より詳細な)情報を収集することで、障害調査のお役に立つこと
ができます。 特に上記の表にある、LVM, プロセス単位, システムコール に関する性能情報の取得は Glance+Pak でのみ取得可能です。
Page 9
© NEC Corporation 2014
製品使用の実例(こんな時こそ Glance+Pak が、お役にたちます)
以降のスライドでは、実際にお客様環境で発生した障害事象に対して原因調査のため Glance+Pak を用いた幾つか
の事例を紹介します。
ここで紹介する事例については、発生した障害事象に対して、
- OS で提供しているコマンドを用いて調査を行う場合、複数のコマンドを使い分けて情報採取を行う必要があります。
そのため目的の情報を得るまでに時間がかかってしまいます。
(1つのコマンドで一度の測定で目的の情報を得るということが困難なケースの方が多い。)
- ESMPRO/SA や SystemManager で提供している性能情報中から、目的の情報を得ることが難しい。
という課題に対して、Glance+Pak を使うことにより目的の情報が取得できたという事例を紹介しています。
(主に Glance+Pak に含まれる GlancePlus を用いた事例を紹介しています。)
Page 10
© NEC Corporation 2014
【事例1】Java がメモリリークしているかを知りたい
■実例
Java を実装している AP で、Java のメモリーリークが疑われる事象の発生を確認しました。
調査の過程で、java のデータ領域(Java Cヒープ)のメモリリークの疑いが浮上しました。
このデータ領域が実際にメモリリークしているのかを確認したいです。
■GlancePlus の使用例
Java のデータ領域、つまり Cヒープのメモリリーク確認には、GlancePlus のプロセス毎の性能情報で提供されている
PROC_REGION_VIRT_DATA の値の推移を確認することでリークの有無が判断できます。
PROC_REGION_VIRT_DATA の値に上昇傾向が見られるならば、Cヒープのメモリリークが疑われます。
【glance : PROCESS MEMORY REGION の画面より】
プロセスの各種メモリ領域の使用状況が確認できます。
“Data R/VSS” の VSS が PROC_REGION_VIRT_DATA
メトリックになります。
<ポイント>
プロセスのメモリ領域に関する性能情報が
確認できるのは GlancePlus だけです!
Page 11
© NEC Corporation 2014
【事例2】ファイルシステムがフルになった原因を知りたい
■実例
HP-UX サーバで Filesystem is full の事象が発生しました。
ファイルサイズの大きな不要ファイルを全て削除しましたが、bdf の出力結果では期待したほどのファイル使用量の減少が見られませんでし
た。
調査の過程で、プロセスが open(2) しているファイルを削除(unlink(2))した場合、そのファイルの内容は close(2) するまではファイルシ
ステムから消去されない仕様であることが分かりました。
そのため、ファイルシステムの使用量を減らして bdf, df コマンドの出力に反映させるためには、ファイルをオープンしている全てのプロセスが
ファイルをクローズさせる必要が分かりました。削除対象となるファイルをオープンしているプロセスを確認したいです。
■GlancePlus の使用例
GlancePlus ではプロセスがオープンしているファイルを確認することができます。
この機能を用いることで、削除対象ファイルをオープンしているプロセスを特定することができます。
【glance : PROCESS OPEN FILE の画面より】
プロセスがオープンしているファイル名とパス、
ファイルタイプ、オープンモードなどの情報が
一目で確認することができます。
Page 12
© NEC Corporation 2014
【事例3】CPU 負荷発生の原因を知りたい
■実例
サーバで CPU 負荷(CPU 待ちによる負荷)が発生しました。
調査の過程で、CPU 待ちは主に CPU 使用率が高い場合、またディスク I/O が高い状態の場合に発生することが分かりました。
まずは、このような状態を招いているプロセスを特定したいです。
■GlancePlus の使用例
GlancePlus の PROCESS LIST 画面を CPU 使用率の高い順、ディスク I/O の高い順とそれぞれソートして表示させることで、
CPU使用率の高いプロセス、 ディスク I/O の高いプロセスを1つの画面上で素早く確認することができます。
PROCESS LIST 画面を CPU 使用率の高い順にソートした例
Page 13
© NEC Corporation 2014
PROCESS LIST画面をディスク I/O の高い順にソートした例
【事例4】プロセスのシステムコールの実行状況を知りたい
■実例
アプリケーションのサービス異常を調査するため、プロセスで発行しているシステムコールの情報を確認したいです。
■GlancePlus の使用例
GlancePlus では測定対象プロセスがあらかじめ分かっていれば、そのプロセスのシステムコールに関する性能情報を表示させることができ
ます。
GlancePlus を使えば対象プロセスがいつ、どのようなシステムコールを発行したのか正確に把握することができます。
【glance : PROCESS SYSTEM CALLS の画面より】
プロセスの各システムコールの実行回数、1秒あたりの実
行回数、システムコール中の経過時間などの状況が確認
できます。
<ポイント>
GlancePlus ならば、tusc や strace 等のシステム
コール採取コマンドを実行しなくてもシステムコール
に関する性能情報が簡単に表示できます。
(システム全体からみたシステムコールの性能情報
も表示することができます。)
Page 14
© NEC Corporation 2014
【事例5】 kthread: table is full の発生原因を知りたい
■実例
サーバで vmunix: kthread: table is full が出力され調査の必要があります。
“vmunix: kthread: table is full” は、システム上で動作するスレッド数がカーネルパラメータ : nkthread に達した場合に出力されます。
この状態になった場合に想定される影響としては、システム上で動作するスレッド数の上限に達しているため、システム上で新しい
スレッドを生成したり、新しいプロセスを fork することができなくなります。
原因調査のため、はじめにプロセス毎のスレッド数を把握したいです。
■GlancePlus の使用例
GlancePlus は、プロセスのスレッド数を proc_thread_count というメトリックで提供しています。
GlacnePlus の glance adviser 機能を用いれば、proc_thread_count に対して条件を指定して、その条件以上の proc_thread_count の
値が高いプロセスのみを出力することができます。
それにより、大量にスレッドを生成しているプロセスを特定することができます。
<ポイント>
プロセスのスレッド数が確認でき
【 glance adviser 定義文サンプル】
るのは GlancePlus だけです!
headers_printed = headers_printed
if ( headers_printed == 0 ) then {
print "Date,Time,PID,Proc Name,Thrd Cnt"
headers_printed = 1
}
process loop {
if proc_thread_count > 100 then {
print gbl_statdate,",",
gbl_stattime,",",
proc_proc_id,",",
proc_proc_name,",",
proc_thread_count
}
}
Page 15
© NEC Corporation 2014
定義文の読込
GlancePlus
[ glance adviser 機能]
【 glance adviser 出力結果サンプル】
Date
,Time ,
PID,Proc Name
09/22/2014,09:23:58,
44,lvmp_wk_th_d
09/22/2014,09:23:58, 14306,mthread
09/22/2014,09:24:03,
44,lvmp_wk_th_d
09/22/2014,09:24:03, 14306,mthread
:
:
:
:
実行結果の出力
,Thrd Cnt
, 101
, 301
, 101
, 301
:
【事例6】プロセスに対する設定変更前後の CPU、メモリなどの性能情報を比較したい
(PA 編)
■実例
この度、ある業務プロセスの設定変更を行うことになりました。
設定の変更前と変更後でそのプロセスの CPU 使用率、メモリ使用率、ディスク I/O の変化を比較したいです。
■PA の使用例
PA ではプロセスを任意のアプリケーションとして設定ファイル(parmファイル)へ登録することができます。
登録したアプリケーションはアプリケーション専用のメトリックにより性能情報を蓄積することができます。
事前に対象プロセスを PA にアプリケーション登録しておけば、設定変更作業完了後にアプリケーションの性能情報を抽出することで、設定
前後の CPU使用率、メモリ使用率、Disk I/O の容易に比較することができます。
【PA アプリケーションの性能情報抽出までのイメージ】
対象となるユーザプロセスを User-A とします。
1) User-A を PA に対してアプリケーション : user-process-A として登録します。
2) PA でアプリケーションの性能情報の蓄積を開始します。
3) ユーザプロセスの設定変更作業を開始します。
4) ユーザプロセスの設定変更作業を終了します。
5) PA 登録しているアプリケーションの性能情報を抽出します。
アプリケーション : user-process-A として、ユーザプロセスの
設定変更前から変更後までの性能情報が出力できます。
※PA のアプリケーションの性能情報には、アプリケーションとして
CPU使用率 : APP_CPU_TOTAL_UTIL
メモリ使用率 : APP_MEM_UTIL
ディスク I/O : APP_DISK_PHYS_IO
といったメトリックが提供されています。
Page 16
© NEC Corporation 2014
【事例6】プロセスに対する設定変更前後の CPU、メモリなどの性能情報を比較したい
(GlancePlus 編)
■実例
プロセスの設定変更を行うことになりました。
設定の変更前と変更後でそのプロセスの CPU 使用率、メモリ使用率、ディスク I/O の変化を比較したいです。
■GlancePlus の使用例
前述の PA 編で測定対象となるプロセスを任意のアプリケーションとして設定ファイル(parmファイル)に登録しました。
この parm ファイルを GlancePlus も参照しており、APPLICATION LIST 画面で登録アプリケーションの性能情報を確認することができます。
設定変更作業を行う前から GlancePlus でアプリケーションの情報を表示させておけば、プロセスの設定変更作業の実施前後の CPU使用
率、物理/仮想メモリの使用量など比較することができます。
<ポイント>
glance ならば、任意の1つのまたは複数の
プロセスを1つの(測定用)アプリケーションと
して登録することができます。
Page 17
© NEC Corporation 2014
システム構成イメージ
▌GlancePlusがログインされているサーバに直接ログイン。
GlancePlus
▌別サーバ上のGlancePlusからリソース情報を参照することができます。
GlancePlus
TCP
GlancePlus
perfd
perfd
TCP
GlancePlus
ネットワーク
perfd
TCP
※Ver 5.00以降で追加された
perfd機能を使用します。
Page 18
© NEC Corporation 2014
GlancePlus
perfd
GlancePlus の実績と優位性
▌ GlancePlus は性能分析ツールとして、HP-UX で高い導入実績を誇っています。
 デファクトスタンダードとして認知され、導入されています。
 NEC の NX サーバにおいては、多くのお客様で使用しています。
▌ Linux においても Mission Critical システムにて導入実績あり
 今後も Express5800, NX7700x シリーズ向けに広く販売していきます。
▌ 業務 AP/PKG のリソースを性能分析するための SE 必須ツール
 GlancePlus 1つで、各種機能を使い分けることが可能であり、総合テスト等で、性能分析/リソース
使用状況を確認するための使用に適しています。
例えば、プロセス単位でのシステムコールの発行状態、オープンしているファイルの確認、メモリ領域
の使用状況などが確認できます。
 将来的に発生する障害に結びつく兆候がないかを調べることができます。
 障害発生時には、原因特定のために蓄積している多彩な項目の分析に使用することができます。
▌ トラブルを未然に防止し、万が一の障害発生時にも SE が性能分析し、早期解決することが可能。
Page 19
© NEC Corporation 2014
価格
WebSAM GlancePlus
WebSAM Glance+Pak
希望小売価格
単位:円(税別)
製品名
製品名
希望小売価格
単位:円(税別)
WebSAM GlancePlus-L(T0)
140,000
WebSAM Glance+Pak-L(T0)
172,000
WebSAM GlancePlus-L(T1)
175,000
WebSAM Glance+Pak-L(T1)
287,000
WebSAM GlancePlus-L(T2)
379,000
WebSAM Glance+Pak-L(T2)
794,000
WebSAM GlancePlus-L(T3)
1,231,000
WebSAM Glance+Pak-L(T3)
1,842,000
WebSAM GlancePlus-L(T4)
1,590,000
WebSAM Glance+Pak-L(T4)
2,651,000
WebSAM GlancePlus-CM
26,000
WebSAM Glance+Pak-CM
▌製品のライセンスはマシンモデルのランク(Tier)により分かれています。
Tier については次ページの問い合わせ先へご確認ください。
Page 20
© NEC Corporation 2014
26,000
製品問合せ先/参考URL
▌製品に関する問合せ先
 http://jpn.nec.com/websam/contact.html
▌Webページ
 http://jpn.nec.com/websam/glanceplus/index.html
本製品は Hewlett-Packard 社 HP Software 製品のライセンスに基づく製品です。
HP Software は Hewlett-Packard 社の商標です。
This software and documentation is based in on HP Software under license Hewlett-Packard Company.
HP Software is a trademark of the Hewlett-Packard Company.
Page 21
© NEC Corporation 2014