JP4980581B2 - Performance monitoring device, performance monitoring method and program - Google Patents
Performance monitoring device, performance monitoring method and program Download PDFInfo
- Publication number
- JP4980581B2 JP4980581B2 JP2005114821A JP2005114821A JP4980581B2 JP 4980581 B2 JP4980581 B2 JP 4980581B2 JP 2005114821 A JP2005114821 A JP 2005114821A JP 2005114821 A JP2005114821 A JP 2005114821A JP 4980581 B2 JP4980581 B2 JP 4980581B2
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- monitoring
- correlation
- data
- monitoring data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims description 353
- 238000000034 method Methods 0.000 title claims description 47
- 238000012806 monitoring device Methods 0.000 title claims description 16
- 230000010365 information processing Effects 0.000 claims description 131
- 238000001514 detection method Methods 0.000 claims description 58
- 238000004891 communication Methods 0.000 claims description 56
- 238000013500 data storage Methods 0.000 claims description 53
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 4
- 238000007689 inspection Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 44
- 230000008569 process Effects 0.000 description 32
- 238000000605 extraction Methods 0.000 description 31
- 230000005856 abnormality Effects 0.000 description 30
- 230000006870 function Effects 0.000 description 21
- 238000007726 management method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 230000006399 behavior Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
- Computer And Data Communications (AREA)
Description
本発明は、複数の情報処理装置が協動して動作する情報処理システムの稼働を監視し、情報処理システムの障害発生を検知又は予測する性能監視装置、性能監視方法及びプログラムに関するものである。 The present invention relates to a performance monitoring apparatus, a performance monitoring method, and a program for monitoring the operation of an information processing system in which a plurality of information processing apparatuses operate in cooperation and detecting or predicting the occurrence of a failure in the information processing system.
従来、装置の障害を監視する手法、或いは運用管理を行う手法が提案されている。例えば、特許文献1には、障害発生予測アルゴリズムと障害検出用のパラメータを格納したテーブルをメモリに格納しておき、また、顧客名・製品名・モデル番号・保守履歴・障害履歴などをデータベースに格納しておき、障害発生予測アルゴリズムを用いてデータベースに格納しておき、障害発生予測アルゴリズムを用いてデータベースに格納された各情報が、障害発生条件を満たせば通知メールを発信するシステムが開示されている。また、特許文献2には、ハードウェア状態・プログラムの稼働状況を能動的に採取して解析を行い、運用支障をきたす危険がある場合には障害を回避する指示を与えるための装置が開示されている。 Conventionally, a method for monitoring a failure of an apparatus or a method for performing operation management has been proposed. For example, in Patent Document 1, a table storing a failure occurrence prediction algorithm and failure detection parameters is stored in a memory, and a customer name, product name, model number, maintenance history, failure history, and the like are stored in a database. Disclosed is a system that sends a notification e-mail when each information stored in the database using the failure prediction algorithm and stored in the database satisfies the failure condition. ing. Further, Patent Document 2 discloses an apparatus for actively collecting and analyzing the hardware state / program operating status and giving an instruction to avoid a failure when there is a risk of causing an operational trouble. ing.
特許文献1に開示される発明は、特定の装置の監視をして障害発生を予測するものであるが、監視対象が装置自体のみであることを想定している。例えば、ウェブサーバ、アプリケーションサーバ及びデータベースサーバから成る3層構造のウェブシステムなど、複数の機能が協調して動作しているシステムの場合、装置間における処理の負荷分散やトランザクション発生数に対してメモリ等のリソースが不足している等、様々な原因による障害が予測されるが、特許文献1に開示される発明は、その点については全く考慮されていない。 The invention disclosed in Patent Document 1 predicts the occurrence of a failure by monitoring a specific device, but assumes that the monitoring target is only the device itself. For example, in the case of a system in which a plurality of functions operate in a coordinated manner, such as a web system having a three-layer structure including a web server, an application server, and a database server, a memory is provided for processing load distribution and the number of transactions generated between devices. Although a failure due to various causes such as a shortage of resources is predicted, the invention disclosed in Patent Document 1 does not take this point into consideration at all.
また、特許文献2に開示される発明は、知識ベース格納装置に格納された採取すべきハードウェア/ソフトウェアの稼働情報に基づいて、情報採取手段が情報を採取し、採取された情報を用いて経験則から対処すべき指示を出力するものである。特許文献2に開示された発明の場合も、監視対象はコンピュータ自体のみであり、複数のコンピュータが協調して動作しているようなシステムで発生し得る上記の障害については何ら説明がなされていない。 In the invention disclosed in Patent Document 2, the information collection unit collects information based on the hardware / software operation information to be collected stored in the knowledge base storage device, and uses the collected information. It outputs instructions to be dealt with based on empirical rules. Also in the case of the invention disclosed in Patent Document 2, the monitoring target is only the computer itself, and there is no description of the above-described failure that may occur in a system in which a plurality of computers operate in cooperation. .
以上のように、従来の監視・運用管理システムは個々のコンピュータを監視すること自体はできたものの、今日のような複数のコンピュータが協調して動作し、協調して動作することによる複雑化した障害発生の予測は想定されておらず、複雑なコンピュータシステムを対象とする監視においては、障害の検出・予測や原因の切りわけが難しい、あるいは手間がかかる場合が多かった。 As described above, the conventional monitoring / operation management system was able to monitor each computer itself, but it became complicated by the fact that multiple computers like today operate in a coordinated fashion. The prediction of failure occurrence is not assumed, and it has often been difficult or time-consuming to detect and predict failures and to determine the cause in monitoring for complex computer systems.
従って、本発明の目的は、例えば、情報処理装置間における処理の負荷分散やトランザクション発生数に対してメモリ等のリソースが不足している等、複数の情報処理装置が協調して動作する情報処理システムに発生し得る複雑化した障害を精度よく検知又は予測可能とすることにある。 Accordingly, an object of the present invention is to provide information processing in which a plurality of information processing devices operate in a coordinated manner, for example, there is a shortage of resources such as memory for processing load distribution among the information processing devices and the number of transactions generated It is to be able to accurately detect or predict a complicated failure that may occur in the system.
本発明の性能監視装置は、複数の情報処理装置が協調して動作する情報処理システムの性能を監視する性能監視装置であって、前記複数の情報処理装置の稼働状況、及び、前記複数の情報処理装置間を接続する各通信回線のデータ通信状況を監視する監視手段と、前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと他の情報処理装置の稼働状況に関する監視データとの相関関係、前記複数の情報処理装置間を接続する各通信回線のうちの一の通信回線のデータ通信状況に関する監視データと他の通信回線のデータ通信状況に関する監視データとの相関関係、又は、前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと当該情報処理装置と他の情報処理装置とを接続する通信回線のデータ通信状況に関する監視データとの相関関係に基づいて、前記情報処理システムに現在発生している障害を検知、又は、前記情報処理システムに将来障害が発生する可能性を予測する障害検知/予測手段とを有することを特徴とする。 The performance monitoring device of the present invention is a performance monitoring device that monitors the performance of an information processing system in which a plurality of information processing devices operate in cooperation, and the operating status of the plurality of information processing devices and the plurality of information Monitoring means for monitoring the data communication status of each communication line connecting the processing devices, monitoring data regarding the operating status of one information processing device among the plurality of information processing devices, and operating status of the other information processing devices Correlation with monitoring data, correlation between monitoring data related to data communication status of one communication line of each communication line connecting the plurality of information processing devices and monitoring data related to data communication status of another communication line Or a communication line for connecting monitoring data related to the operating status of one of the plurality of information processing devices and the information processing device to another information processing device Based on the correlation between the monitoring data about communication status, the information processing system detects a failure currently occurring, or, failure detection / prediction means for predicting the likelihood of future failure of the information processing system It is characterized by having.
本発明の性能監視方法は、複数の情報処理装置が協調して動作する情報処理システムの性能を監視する性能監視装置による性能監視方法であって、前記複数の情報処理装置の稼働状況、及び、前記複数の情報処理装置間を接続する各通信回線のデータ通信状況を監視する監視ステップと、前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと他の情報処理装置の稼働状況に関する監視データとの相関関係、前記複数の情報処理装置間を接続する各通信回線のうちの一の通信回線のデータ通信状況に関する監視データと他の通信回線のデータ通信状況に関する監視データとの相関関係、又は、前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと当該情報処理装置と他の情報処理装置とを接続する通信回線のデータ通信状況に関する監視データとの相関関係に基づいて、前記情報処理システムに現在発生している障害を検知、又は、前記情報処理システムに将来障害が発生する可能性を予測する障害検知/予測ステップとを有することを特徴とする。 The performance monitoring method of the present invention is a performance monitoring method by a performance monitoring device that monitors the performance of an information processing system in which a plurality of information processing devices operate in cooperation, and the operating status of the plurality of information processing devices, and A monitoring step for monitoring a data communication status of each communication line connecting the plurality of information processing devices; monitoring data regarding an operating status of one information processing device of the plurality of information processing devices; and another information processing device Correlation with monitoring data related to the operation status of the computer, monitoring data related to the data communication status of one communication line among the communication lines connecting the plurality of information processing devices, and monitoring data related to the data communication status of the other communication line Or the monitoring data on the operating status of one of the plurality of information processing devices, the information processing device and another information processing device Based on the correlation between the monitoring data relating to communication conditions of the communication line for connecting the door, detects a failure currently occurring in the information processing system, or, the possibility of future failure to the information processing system is generated It has a failure detection / prediction step to predict.
本発明のプログラムは、前記性能監視方法をコンピュータに実行させることを特徴とする。 The program according to the present invention causes a computer to execute the performance monitoring method.
本発明によれば、情報処理システムを構成する複数の情報処理装置の稼働状況、及び、当該複数の情報処理装置を接続する各通信監視のデータ通信状況を監視することにより、例えば、情報処理装置間における処理が正常に動作している場合、発生するトランザクション量に対して本来使うべきリソースよりも多いあるいは少ないリソースしか使用できていないことから、障害の発生を検出、予測したり、その現象がどのサーバでおきているかを検出することによって、複数の情報処理装置からなるシステムのどの部分で障害がおきているかを知ることができ、複数の情報処理装置が協調して動作する情報処理システムに発生し得る複雑化した障害を精度よく検知又は予測することが可能となる。 According to the present invention, by monitoring the operating status of a plurality of information processing devices constituting an information processing system and the data communication status of each communication monitoring connecting the plurality of information processing devices, for example, the information processing device If the processing between them is operating normally, the resources that can be used are more or less than the resources that should be used for the transaction volume that occurs. By detecting which server is running, it is possible to know which part of the system consisting of multiple information processing devices has a fault, and for an information processing system in which multiple information processing devices operate in cooperation It is possible to accurately detect or predict a complicated failure that may occur.
以下、本発明を適用した好適な第一の実施形態を、添付図面を参照しながら詳細に説明する。 Hereinafter, a preferred first embodiment to which the present invention is applied will be described in detail with reference to the accompanying drawings.
図1は、本発明の第一の実施形態に係る性能監視システムの構成を概略的に示した図である。図1において、本実施形態の性能監視システムは、性能監視装置10、Webサーバ11、AP(アプリケーション)サーバ12、及び、DB(データベース)サーバ13により構成されている。性能監視装置10は、Webサーバ11、APサーバ12及びDBサーバ13から構成される情報処理システムとLAN(Local Area Network)等の通信回線で接続され、この通信回線を介して各サーバの状態を監視することが可能である。
FIG. 1 is a diagram schematically showing a configuration of a performance monitoring system according to the first embodiment of the present invention. In FIG. 1, the performance monitoring system of this embodiment includes a
本実施形態の性能監視装置10は、蓄積サーバ101と分析サーバ102によって構成され、蓄積サーバ101は、各サーバに対する監視により夫々のCPUやメモリ等のリソースの使用量、使用率を示すリソース使用状況データ及び処理履歴を示すログデータ等を取得するとともに、Webサーバ11、APサーバ12及びDBサーバ13間を接続する各通信回線で通信されるトランザクションのスループット、処理名等を示すトランザクションデータを取得し、夫々を監視データとして内部に蓄積する。また、サーバに対する監視或いは通信回線に対する監視いずれからも取得できる情報として、ある処理命令に対する応答時間なども蓄積する。分析サーバ102は、蓄積サーバ101に蓄積された監視データに基づいて、情報処理システムに現在発生している障害を検知、又は、情報処理システムに将来発生する可能性のある障害を予測する。
The
このように、本実施形態では、性能監視装置10の監視対象を複数の装置夫々の稼働状況、装置間を接続する各通信回線のデータ通信状況としていることにより、複数の情報処理装置が協動して動作する情報処理システムに発生する障害の検知又は予測を精度よく行うことが可能となる。
As described above, in the present embodiment, the monitoring target of the
図2は、性能監視装置10(蓄積サーバ101、分析サーバ102)内のコンピュータシステムのハードウェア構成を概略的に示した図である。
図2に示すように、上記コンピュータシステム1200は、CPU1201、ROM1202、RAM1203、キーボード(KB)1209のキーボードコントローラ(KBC)1205、表示部としてのCRTディスプレイ(CRT)1210のCRTコントローラ(CRTC)1206、ハードディスク(HD)1211及びフレキシブルディスク(FD)1212のディスクコントローラ(DKC)1207、並びに、ネットワーク1220との接続のためのネットワークインタフェースカード(NIC)1208が、システムバス1204を介して互いに通信可能に接続された構成としている。
FIG. 2 is a diagram schematically showing a hardware configuration of a computer system in the performance monitoring apparatus 10 (
As shown in FIG. 2, the
CPU1201は、ROM1202或いはHD1211等から情報を読み出すソフトウェアを実行することで、システムバス1204に接続された各構成部を統括的に制御し、後述する図4及び図5に示す処理等を実行する。
The
RAM1203は、CPU1201の主メモリ或いはワークエリア等として機能する。KBC1205は、KB1209や図示していないポインティングデバイス等からの指示入力を制御する。CRTC1206は、CRT1210の表示を制御する。DKC1207は、ブートプログラム、種々のアプリケーション、編集ファイル、ユーザファイル及びネットワーク管理プログラムへのアクセスを制御する。NIC1208は、Webサーバ11、APサーバ12、DBサーバ13及び各サーバ間を接続する通信回線と本性能監視装置10間のデータの送受信を制御する。
A
図3は、性能監視装置10(蓄積サーバ101及び分析サーバ102)の機能構成を示すブロック図である。
性能監視装置10は、監視データ取得部1001、監視データ記憶部1002、異常検出部1003、相関関係抽出部1004、相関関係記憶部1005、障害検知/予測部1006及び報知部1007により構成される。監視データ取得部1001は、例えばCPU1201、ROM1202内のプログラム及びNIC1208により構成され、異常検出部1003、相関関係抽出部1004及び障害検知/予測部1006は、例えばCPU1201及びROM1202内のプログラムにより構成され、監視データ記憶部1001及び相関関係記憶部1004は、例えばRAM1203やHD1211の記録媒体により構成され、報知部1007は、例えばCPU1201、CRTC1206及びCRT1210によって構成される。
FIG. 3 is a block diagram illustrating a functional configuration of the performance monitoring apparatus 10 (the
The
監視データ取得部1001は、Webサーバ11、APサーバ12及びDBサーバ13からリソース使用状況データ及びログデータ、上記サーバ間を接続する通信回線からトランザクションデータ等を取得する。図示していないが、APサーバ12やDBサーバ13のログデータは、APサーバ12やDBサーバ13内に保存されていたり、或いは別途設けられるログ保存用サーバに保存されていたりするが、監視データ取得部1001は、通信回線を介してftpなどによりこのログデータを取得する。なお、APサーバ12やDBサーバ13がログデータを送信する機能を設けていれば、監視データ取得部1001はログデータを受動的に取得するという方法をとっても良い。監視データ記憶部1002は、監視データ取得部1001によってこれまで取得された監視データを蓄積する。
The monitoring
異常検出部1003は、監視データ記憶部1002から監視データを読み込み、読み込んだ監視データに基づいて情報処理システムの異常を検出する。相関関係抽出部1004は、監視データ記憶部1002から2種類の監視データを読み込み、その相関関係を求める。この相関関係の詳細については後述するが、相関関係抽出部1004では、情報処理システムが正常に稼働しているときの相関関係や、情報処理システムに異常が発生したときの相関関係が求められる。なお、1組の監視データに基づいて作成される相関関係は、正常時も異常時も複数あって良い。相関関係記憶部1005は、相関関係抽出部1004によって求められた相関関係をそれぞれにIDを付与して記憶する。
The
障害検知/予測部1006は、情報処理システムに現在発生している障害の検知、又は、情報処理システムに将来発生する可能性のある障害の予測を行う。即ち、障害検知/予測部1006は、情報処理システムが正常に稼働しているときの上記2種類の監視データの相関関係と、監視データ記憶部1002に蓄積される最新の上記2種類の監視データとを比較することにより、情報処理システムに現在発生している障害を検知したり、情報処理システムに異常が発生したときの上記2種類の監視データの相関関係と、最近得られた上記2種類の監視データの相関関係との類似性から情報処理システムに将来発生する可能性のある障害を予測する。
The failure detection /
報知部1007は、障害検知/予測部1006により障害発生が検知された場合、又は、障害発生が予測された場合にそれらの内容を報知する。本実施形態の報知方法としては、報知部1007が画面表示により検知内容又は予測内容をオペレータに報知するが、他の実施形態として、電子メール等による報知方法でもよい。
The
尚、本実施形態においては、監視データ取得部1001及び監視データ記憶部1002が蓄積サーバ101内の構成、異常検出部1003、相関関係抽出部1004、相関関係記憶部1005、障害検知/予測部1006及び報知部1007が分析サーバ102内の構成であることを想定しているが、他の実施形態として、性能監視装置10の構成を蓄積サーバ101及び分析サーバ102の二つのサーバに分けることなく、一つのサーバ内に集約した構成としてもよい。
In this embodiment, the monitoring
次に、性能監視装置10の動作について図4及び図5のフローチャートを用いて詳細に説明する。本発明を適用した第一の実施形態における性能監視システムでは、大きく分けて次の5つの処理がある。(1)監視データ取得部1001が取得した監視データを監視データ記憶部1002に記憶させる処理。(2)監視データ記憶部1002から読み込んだデータに基づいて相関関係を求める(生成する)処理。(3)相関関係抽出部1004が求めた相関関係を相関関係記憶部1005に記憶させる処理。この(1)〜(3)の処理は監視目的に応じてバッチ処理或いはリアルタイム処理で行われる。更に、(4)監視データと相関関係或いは相関関係どうしを比較する処理。そして(5)監視データと相関関係から異常検知する処理などがある。図4は、監視データ取得部1001、異常検出部1003及び相関関係抽出部1004の動作を示すフローチャートであり、図5は、障害検知/予測部1006の動作を示すフローチャートである。
Next, the operation of the
なお、監視データ記憶部1002に(1)で蓄積された各種データは、その後の各処理で用いられた後も原則として消去せずに残しておくことが好ましい。例えば後述する第二の実施形態で説明する通り、システムの構成が変更されたときなどに、過去データとの比較を行う上で、多くのデータが使用できるという利点がある。
Note that the various data accumulated in (1) in the monitoring
先ず、図4を参照しながら、監視データ取得部1001、異常検出部1003及び相関関係抽出部1004の動作について説明する。図4では、上述した(1)や(3)の記憶させる処理と他の処理とを並行して説明するが、必ずしも並行して行う必要はない。まず最初に監視データ取得部1001は、Webサーバ11、APサーバ12、DBサーバ13及び各サーバを接続する通信回線の監視データを取得し、取得した監視データを監視データ記憶部1002に蓄積させていく(ステップS401、S402)。
First, operations of the monitoring
続いて、異常検出部1003は、監視データ記憶部1002から2種類の監視データを読み込んだ後、それらの2種類の監視データに対応する正常時の相関関係を相関関係記憶部1005から読み込み、監視データ記憶部1002から読み込んだ当該2種類の監視データと、相関関係記憶部1005から読み込んだ正常時の相関関係とを比較することにより情報処理システムの異常を検出する(ステップS403)。これは監視目的に応じて任意の周期で監視データと相関関係を読み込んで比較処理する。なお、ここで異常検出部1003によって監視データ記憶部1002から読み込まれる2種類の監視データは、監視データ取得部1001によって同時に取得されたデータであることが前提である。また、ここで異常検出部1003によって用いられる正常時の相関関係とは、当該2種類の監視データに関して一つ前のステップS406の処理で求められた正常時の相関関係である。
Subsequently, after detecting two types of monitoring data from the monitoring
情報処理システムの異常が検出された場合、相関関係抽出部1004は、監視データ記憶部1002から読み込んだ過去の当該2種類の監視データから当該2種類の監視データの相関関係を算出する(ステップS403/YES、S404)。続いて、相関関係抽出部1004は、算出した相関関係を異常時の相関関係として相関関係記憶部1005に相関関係IDと共に記憶させる(ステップS407)。このとき、相関関係記憶部1005内においては、当該2種類の監視データについて、一つ前のステップS404の処理において求められた異常時の相関関係が今回のステップS404の処理において求められた異常時の相関関係に更新される。従って、本実施形態では、情報処理システムの稼働に追従して常に新しい異常時の相関関係を、後述のステップS505におけるエラー予測処理に用いることが可能となる。
When an abnormality in the information processing system is detected, the
一方、ステップS403において異常が検出されなかった場合、相関関係抽出部1004は、当該2種類の監視データの取得開始から所定時間が経過したか否かを判断する(ステップS403/NO、S405)。
On the other hand, if no abnormality is detected in step S403, the
当該2種類の監視データの取得開始から所定時間が経過している場合、相関関係抽出部1004は、取得開始から所定時間が経過するまでに監視データ記憶部1002から読み込んだ当該2種類の監視データから当該2種類の監視データの相関関係を算出し、正常時の相関関係として相関関係記憶部1005に相関関係IDと共に記憶させる(ステップS405/YES、ステップS406、S407)。このとき、相関関係記憶部1005内においては、当該2種類の監視データに関し、一つ前のステップS406の処理において求められた正常時の相関関係が今回のステップS406の処理において求められた正常時の相関関係に更新される。従って、本実施形態では、情報処理システムの稼働に追従して常に新しい正常時の相関関係を、後述のステップS503におけるエラー検知処理に用いることが可能となる。
When a predetermined time has elapsed from the start of acquisition of the two types of monitoring data, the
ステップS405において、当該監視データの取得開始から所定時間が経過していない場合には、ステップS401の監視データの取得処理に戻る。以上のように、本実施形態では監視対象のシステムに特に異常がない限り常に正常時としての相関関係が蓄積されていき、異常が発生したときには、異常時の相関関係が新たに生成され蓄積されていく。 In step S405, if the predetermined time has not elapsed since the monitoring data acquisition start, the process returns to the monitoring data acquisition process in step S401. As described above, in this embodiment, the normal correlation is always accumulated unless there is any abnormality in the monitored system. When an abnormality occurs, a new correlation is generated and accumulated. To go.
次に、図5を参照しながら、障害検知/予測部1006の動作について説明する。障害検知/予測部1006は、監視データ記憶部1002から2種類の監視データを読み込む(ステップS501)。なお、ここで読み込まれる2種類の監視データは、監視データ取得部1001によって同時に取得されたデータであり、監視データ記憶部1002において記憶される当該2種類の監視データのうち最新のデータであることが前提である。そして、監視データ記憶部1002から監視データを読み込む周期は監視目的に応じて任意に設定できるが、障害検知という目的からすればできるだけリアルタイム性が求められる。従って監視データ取得部1001がデータを取得して監視データ記憶部1002に記憶されたらすぐに読み込むよう設定することが好ましい。
Next, the operation of the failure detection /
続いて、障害検知/予測部1006は、当該2種類の監視データと、相関関係記憶部1005に記憶される当該2種類の監視データに対応する正常時の相関関係とを比較し、その比較結果に基づいて情報処理システムにエラー(異常)が発生したか否かを判断する(ステップS502、S503)。
Subsequently, the failure detection /
ステップS503において、障害検知/予測部1006が情報処理システムにエラーが発生したと判断した場合、報知部1007はその内容をオペレータに対して報知する(ステップS503/YES、S506)。
In step S503, when the failure detection /
一方、障害検知/予測部1006は、ステップS503において情報処理システムにエラーが発生したと判断しなかった場合には、所定回数前のステップS501の処理から今回のステップS501の処理までに得られた複数の当該2種類の監視データに基づいて、当該2種類の監視データの相関関係を求め、この相関関係と相関関係記憶部1005に蓄積されている当該2種類の監視データの過去の相関関係とを用いてエラーが発生する可能性があるか否かを予測をする(ステップS503/NO、S504、S505)。
On the other hand, if the failure detection /
ステップS505において、障害検知/予測部1006が情報処理システムに将来エラーが発生する可能性があると判断した場合、報知部1007はその内容をオペレータに対して報知する(ステップS505/YES、S507)。
In step S505, when the failure detection /
一方、障害検知/予測部1006が上記2つの相関関係が類似していないと判断した場合、処理はステップS501の監視データの読み込みに戻る(ステップS505/NO、S501)。
On the other hand, when the failure detection /
ここで、ステップS503におけるエラー検知処理について図6を用いて具体的に説明する。 図6では、上記2種類の監視データとしてトランザクションデータとリソース使用状況データとが用いられ、トランザクションデータにより示されるスループット、リソース使用状況データにより示されるディスクI/O量から算出された相関関係601を示している。なお、図6中の「×」印は、上記2種類の監視データで示されるスループット、ディスクI/O量の関係からプロットされる点であり、上記2種類の監視データ毎に対応する点として、12個の点がプロットされている。また、ハッチングされた範囲領域604は、正常時の相関関係601を基準としたときに正常とみなす範囲であり、相関関係に応じて予め定められている。なお、図6においては、相関関係601と平行して範囲領域604が設定されているが、必ずしも相関関係を中心とした一定幅で領域を設定する必要はない。
Here, the error detection processing in step S503 will be specifically described with reference to FIG. In FIG. 6, transaction data and resource usage status data are used as the two types of monitoring data, and the correlation 601 calculated from the throughput indicated by the transaction data and the disk I / O amount indicated by the resource usage status data is shown. Show. In FIG. 6, “x” marks are plotted from the relationship between the throughput and the disk I / O amount indicated by the two types of monitoring data, and correspond to the two types of monitoring data. , 12 points are plotted. A hatched
相関関係抽出部1004は、上記12個の点の近似式(図6中の直線に相当)を求める。ここで求められる近似式がスループットとディスクI/O量との相関関係601である。この相関関係601がステップS406において求められる正常時の相関関係であるとすると、ステップS501において読み込まれる2種類の監視データに対応して(当該2種類の監視データにより示されるスループット、ディスクI/O量に対応して)プロットされる点が図6中の602である場合、即ち、相関関係601を基準とする所定幅の範囲領域604外であって、当該範囲領域604の上方にステップS501にて読み込まれる2種類の監視データがプロットされるような場合、障害検知/予測部1006は、正常時の相関関係601を基準にして、現在、スループットに対してディスクI/O量が多過ぎると判断し、ディスクI/O量の多さを原因とした情報処理システムのエラーを検知することができる。報知部1007は、画面表示によりオペレータに対してシステムのエラーとその原因(スループットに対してディスクI/O量が多過ぎる)とを報知する。
The
また、ステップS501において読み込まれた2種類の監視データに対応して(当該2種類の監視データにより示されるスループット、ディスクI/O量に対応して)プロットされる点が図6中の603である場合、即ち、相関関係601を基準とした所定幅の範囲領域604外であって、当該範囲領域604の下方にステップS501にて読み込まれる2種類の監視データがプロットされるような場合、障害検知/予測部1006は、正常時の相関関係601を基準にして、現在、ディスクI/O量に対してスループットが高過ぎると判断し、スループットの高さを原因とした情報処理システムのエラーを検知することができる。報知部1007は、画面表示によりオペレータに対してシステムのエラーとその原因(ディスクI/O量に対してスループットが高過ぎる)とを報知する。
Further, a point plotted in correspondence with the two types of monitoring data read in step S501 (corresponding to the throughput and disk I / O amount indicated by the two types of monitoring data) is indicated by
なお、上述した実施形態では、どのような処理に対するスループットであるかの内容は限定していない。したがって、特定の処理に関するスループットであってもよいし、或いは、いくつかの処理を足し合わせたスループットでも良い。例えば処理a、処理b、処理c毎にスループットとディスクのI/O量との相関関係を求めておき、これら3つの相関関係の足し合わせた量を、当該スループットにおける基準のディスクI/O量として扱うようにしても良い。 In the above-described embodiment, the content of what kind of processing is the throughput is not limited. Therefore, it may be a throughput related to a specific process, or may be a throughput obtained by adding several processes. For example, the correlation between the throughput and the disk I / O amount is obtained for each of the processing a, processing b, and processing c, and the sum of these three correlations is used as the reference disk I / O amount for the throughput. You may make it treat as.
また、本実施形態の性能監視システムは、複数のサーバを監視していることを特徴としているので、オペレータに対しては、どのサーバの挙動に基づいてエラーを検知したかを含めてシステムのエラーとその原因を報知するようにする。 Further, since the performance monitoring system of this embodiment is characterized by monitoring a plurality of servers, the system error including which server's behavior is detected for the operator is included. And the cause of it.
本実施形態では、監視データ取得部1001によって取得される監視データに基づいて他にも様々なエラー検知を行うことが可能である。例えば、或るサーバへのトランザクションを監視して得られるトランザクションデータと、当該サーバのリソース使用状況データとを用い、トランザクションデータにより示されるスループット、リソース使用状況データにより示されるCPU使用率に基づいて、当該サーバのスループットが高くなっているにも拘わらずCPU使用率が低い、又は、当該サーバのスループットが低いにも拘わらずCPU使用率が高いことを情報処理システムのエラー原因として判断することができる。
In the present embodiment, various other error detections can be performed based on the monitoring data acquired by the monitoring
また、異なる2つのサーバのリソース使用状況データに基づいて次のようなエラー原因を把握することが可能となる。例えば、正常な稼働状態では、Webサーバ11とAPサーバ12とのCPU使用率はN:Mであるはずなのに、Webサーバ11から得られるリソース使用状況データにより示されるCPU使用率、APサーバ12から得られるリソース使用状況データにより示されるCPU使用率に基づいて、Webサーバ11の使用率のみが高い場合には、情報処理システムのエラー原因がAPサーバ12における障害発生であることが判断できる。
Further, it is possible to grasp the following error causes based on the resource usage data of two different servers. For example, in a normal operating state, the CPU usage rate between the
また、或るサーバのリソース使用状況データとログデータとに基づいて次のようなエラー原因を把握することが可能となる。例えば、リソース使用状況データにより示されるCPU使用率、ログデータから判断される処理1の発生頻度に基づいて、当該サーバのCPU利用率が異常に高い値をとる時間帯で通常より処理1の発生頻度が高くなっている場合には、情報処理システムのエラー原因が、その時間帯において当該サーバ内の処理1の発生頻度が高くなっていることであることが判断できる。 Further, the following error causes can be grasped based on the resource usage status data and log data of a certain server. For example, based on the CPU usage rate indicated by the resource usage status data and the frequency of occurrence of process 1 determined from the log data, occurrence of process 1 occurs normally during the time period when the CPU usage rate of the server takes an abnormally high value. When the frequency is high, it can be determined that the cause of the error in the information processing system is that the frequency of occurrence of the process 1 in the server is high in the time period.
さらに、異なる2つのサーバのログデータに基づいて次のようなエラー原因を把握することが可能となる。例えば、Webサーバ11のログデータから判断されるWebサーバ11のスループット、APサーバ12のログデータから判断されるAPサーバ12のスループットに基づいて、Webサーバ11のスループットが増加傾向であるのに拘わらずAPサーバ12のスループットが増加しない場合には、APサーバ12に問題があるため、APサーバ12を利用する処理が滞っており、Webサーバ11のみを利用する処理の比率が増えているということを検出できる。
Furthermore, it is possible to grasp the following error causes based on the log data of two different servers. For example, the throughput of the
次に、図5のステップS505のエラー予測処理を図7を用いて具体的に説明する。
図7は、異なるサーバ(ここでは、Webサーバ11とAPサーバ12)のログデータを用い、それらのログデータにより判断されるWebサーバ11の処理1のスループット、APサーバ12の処理2のスループットに基づいて算出された相関関係を示している。範囲領域701は、Webサーバ11の処理1の発生数に対してAPサーバ12の処理2の発生数が正常時に求められたときの正常とみなされる範囲を示している。
Next, the error prediction process in step S505 in FIG. 5 will be specifically described with reference to FIG.
FIG. 7 shows the throughput of processing 1 of the
図7においては、相関関係702として、相関関係1005に蓄積されている過去の相関関係として、702(a)と702(b)がある。そして、所定回数前のステップS501の処理から今回のステップS501の処理までに得られたWebサーバ11とAPサーバ12のログデータに基づいて、相関関係抽出部1004が求めた相関関係702(c)も示されている。時系列的に見たときに、最初に求めた相関関係が702(a)、次が702(b)、最新のデータが702(c)であるとする。更に、相関関係703(d)は監視対象システムの今後予想される相関関係を示している。なお、図をわかりやすくするために、図7においては範囲領域701に対応する相関関係の線は表示していない。
In FIG. 7, as the
ステップ504では、監視対象システムの過去の動向と現在の状況を相関関係702(a)〜702(c)に基づいて、つまり、ある監視対象のシステムを定期的に監視したときのデータを用いてエラーを予測する。 In step 504, the past trend and the current situation of the monitoring target system are based on the correlations 702 (a) to 702 (c), that is, using data when a certain monitoring target system is periodically monitored. Predict errors.
障害検知/予測部1006は、ステップS505において、相関関係702の時系列に伴う推移を判定し、相関関係が正常時の範囲領域701からはずれそうな場合、情報処理システムに将来異常が発生する可能性があると予測する。この時、必要に応じて、将来の相関関係702(d)を生成する。尚、本実施例では、最新の監視データから作成された相関関係が、正常時の相関関係の範囲領域701から外れそうであることを判断の基準としているが、例えば、最新の監視データから作成された相関関係が異常時の相関関係に類似した相関関係になりつつあることを判断基準としても良いし、或いは、領域範囲に入るか否かで判断するのではなく、正常時・異常時の相関関係の傾きなどで判断しても良い。
In step S505, the failure detection /
障害検知/予測部1006による上記の予測内容は、報知部1007によってオペレータに対して報知される。
The above prediction content by the failure detection /
また、本実施形態においては、本情報処理システムに類似した構成の情報処理システムを新規に設置する場合、本情報処理システムの相関関係記憶部1005で記憶された正常時及び異常時の相関関係を、新規の情報処理システム内の相関関係記憶部に記憶させることにより、新規の情報処理システムにおいて適切なエラー検知処理、エラー予測処理を同様に行うこともできる。ここで性能監視装置10は、図1に示す情報処理システムに限られず様々な構成の情報処理システムを監視対象とすることができるため、流用できる相関関係は上述した例に限られないことは勿論である。
In this embodiment, when a new information processing system having a configuration similar to the information processing system is newly installed, the correlation between normal time and abnormal time stored in the
以上のように、本実施形態によれば、障害検知又は予測時に用いた2種類の監視データの種類によって、当該障害の原因まで追求することが可能となる。尚、本実施形態では、2種類の監視データの相関関係を用いているが、本発明に適用可能な相関関係は2種類の監視データから算出されるものに限られず、更に多種類の監視データの相関関係であってもよい。 As described above, according to the present embodiment, the cause of the failure can be pursued according to the two types of monitoring data used at the time of failure detection or prediction. In this embodiment, the correlation between two types of monitoring data is used, but the correlation applicable to the present invention is not limited to that calculated from two types of monitoring data, and more types of monitoring data. The correlation may be as follows.
また、説明の便宜上、異常検出部1003と障害検知/予測部1006とは別の構成で行うよう説明したが、いずれも、監視データ記憶部1002から読み込んだ監視データと、相関関係記憶部1005から読み込んだ相関関係とを比較するという処理については、共通のソフトウェア/ハードウェアを用いてもよい。
Further, for convenience of explanation, the
次に、本実施形態の他の処理の例について説明する。Webサーバ11における処理1の発生回数とAPサーバ12における処理2の発生回数間の基準比率を予め設定しておき、現在の当該2種類の監視データ間の比率が基準比率から離れていく傾向にある場合にエラーを予測することも可能である。例えば基準比率が1:1で設定されているにもかかわらず、時間経過と共にその比率が1:1.1、1:1.2、1:1.3、・・・などと基準から離れていく傾向が見られた場合に検知して、オペレータに報知する。
Next, another example of processing according to this embodiment will be described. A reference ratio between the number of occurrences of processing 1 in the
さらに、2種類の監視データから得られる1つの相関関係情報に基づいても異常検知をすることができる。図8は、スループットデータに対する応答時間との相関関係を示す例である。この図においては、スループットが高くなるにつれて応答時間が長くなっており、スループットがある量を超えると急激に応答時間が悪化することがわかる。応答時間が悪化する点をエラーとして検知することにより、レスポンス悪化に対してオペレータは早期に対策をとることが可能となる。具体的には、このような相関関係を相関関係記憶部1005に記憶しておき、性能監視装置10は監視データがこのような相関関係の極点に差し掛かったことを検知した場合にエラーと判断してオペレータに報知する。
Furthermore, it is possible to detect an abnormality based on one piece of correlation information obtained from two types of monitoring data. FIG. 8 is an example showing a correlation with response time for throughput data. In this figure, it can be seen that the response time becomes longer as the throughput increases, and that the response time rapidly deteriorates when the throughput exceeds a certain amount. By detecting a point where the response time is deteriorated as an error, the operator can take an early countermeasure against the response deterioration. Specifically, such correlation is stored in the
このように、本実施形態では相関関係の時間経過による変化を捉え、相関関係の傾きの変化、相関関係のX軸やY軸方向へのシフトなどが許容されていない場合には、これらの状況を元にエラーを報知するものである。但しこれに限るものではなく、ある時刻断面で正常時の相関関係と比較してエラー予測しても良い。 As described above, in the present embodiment, the change of the correlation over time is captured, and when the change in the correlation inclination or the shift of the correlation in the X-axis or Y-axis direction is not permitted, these situations are detected. An error is reported based on the above. However, the present invention is not limited to this, and an error may be predicted by comparing with a normal correlation in a certain time section.
なお、上述した実施形態では、性能監視装置10によって取得される監視データとしてリソース使用状況データ、トランザクションデータ及びログデータを例として挙げたが、本発明に適用可能な監視データはこれらに限られず、Webサーバ11、APサーバ12及びDBサーバ13の稼働状況を特定可能なデータは全て性能監視装置10の採取対象とすることができ、同様の動作によるエラー検知処理、エラー予測処理が可能である。さらに、上記実施形態では、性能監視装置10の監視対象となる情報処理システムの構成を、図1に示すWebサーバ11、APサーバ12及びDBサーバ13から成る情報処理システムとしているが、他の構成の情報処理システムも本発明の性能監視装置の監視対象となり得ることは勿論である。
In the above-described embodiment, resource usage status data, transaction data, and log data are given as examples of monitoring data acquired by the
上述した実施形態では、1つのWebサーバ11と1つのAPサーバ12と1つのDBサーバ13とで構成されたシステムを1つの性能監視装置10で監視するという例で説明したが、これらは必ずしも1つずつである必要はない。性能監視装置10は、ネットワーク上に接続されたサーバや通信回線を監視できるものであるため、1つの性能監視装置10で2組以上のWebサーバ11とAPサーバ12とDBサーバ13とで構成されたシステムを監視することも可能である。
In the above-described embodiment, an example in which a system configured by one
また、Webサーバ11とAPサーバ12とDBサーバ13の数も1:1:1である必要はなく、M:N:Lというようにそれぞれが複数備えられたシステムであっても良い。1例を挙げると、図9のように、6台のWebサーバ11がそれぞれ3台ずつ2台のAPサーバ12と接続され、この2台のAPサーバ12が1台のDBサーバ13と接続されている。このとき性能監視装置10は個々のサーバや通信回線を監視し、その挙動からきめ細かにエラー検知をすることができるようになる。また、必要に応じて1台のAPサーバ12に接続されている3台のWebサーバ11との通信については、取りまとめて1つのWebサーバ11とみなして監視することもできる。この場合、システム構成情報を性能監視装置10に格納しておき、任意に監視対象を設定できるようにすることが好ましい。
Further, the number of
次に、本発明を適用した好適な第二の実施形態を説明する。上述したように、監視対象となるシステムについて、システム構成情報を性能監視装置10に格納しておき、任意に監視対象を設定できるようにすることが好ましい。そこで第二の実施形態では、第一の実施形態の機能構成に加え、監視対象となるシステムのシステム構成情報を更に管理することで、より多様な監視と障害予測を行えるように工夫している。
Next, a second preferred embodiment to which the present invention is applied will be described. As described above, it is preferable to store system configuration information in the
図10は、第二の実施形態に係る性能監視システムの構成を概略的に示した図である。以下、図面を参照しながら詳細に説明するが、第一の実施形態と同一の機能については説明を省略する。図10は、図9で示した6台のWebサーバ11と2台のAPサーバ12と1台のDBサーバ13とから構成されたシステムの性能監視を行うための構成であり、第一の実施形態と同様に、蓄積サーバ101と分析サーバ102から構成される性能監視装置10が通信回線から取得できる情報を収集蓄積し、分析する。第二の実施形態では更に、構成情報管理装置20が備わっており、性能監視装置10に接続されている。なお、以下の説明では構成情報管理装置20は性能監視装置10と別の装置として構成した例を説明するが、これは1台のコンピュータで構成しても良い。
FIG. 10 is a diagram schematically showing the configuration of the performance monitoring system according to the second embodiment. Hereinafter, although it demonstrates in detail, referring drawings, description is abbreviate | omitted about the same function as 1st embodiment. FIG. 10 is a configuration for monitoring the performance of a system composed of the six
構成情報管理装置20は、監視対象となるシステム全体の構成にかかわる情報を格納しておくものである。具体的には、各機能のサーバの数やハードウェア属性、ネットワーク構成、ネットワーク属性、ソフトウェアやファームウェアなど、情報処理装置自体の情報と各情報処理装置間の関連性を示す情報をデータベースに格納している。なお、以下では説明を簡単にするために、ハードウェアに関する構成情報を扱う例とする。例えば、図9で示した全体構成について、IDを付与して格納しておく。新たにサーバが追加されたなど監視対象のシステムの構成が変更された場合には、新たな構成情報として別途IDが付与されて構成情報管理装置20に格納される。なお、構成情報管理装置20は、単体コンピュータで構成するには、図2に示したようなコンピュータの基本的な機能を有することになる。
The configuration
図11は第二の実施形態に用いる性能監視装置10と構成情報管理装置20の構成を詳細に説明する図である。性能監視装置10は、第一の実施形態で説明した機能に加え、システム構成全体の中で、監視対象とする範囲を指定するための監視対象指定部1008と、指定された監視対象範囲を記憶しておくための監視対象範囲データを監視データ記憶部1002に備えている。
FIG. 11 is a diagram for explaining in detail the configurations of the
後述するように、第二の実施形態においては、複数のハードウェアで構成されたシステムの全体構成が構成情報管理装置20に構成情報IDが付与されて記憶される。これに対して、監視対象は記憶されているシステムの全体構成の内任意の範囲を指定することができるようになっている。例えば図9において6台のWebサーバ11と2台のAPサーバ12と1台のDBサーバ13の合計9台のコンピュータで構成されているシステムについて、システム全体を監視対象とすることもでき、或はその内の何台かだけを監視対象とすることもできる。そのために監視対象指定部1008は監視対象を特定するための情報をオペレータから受付ける機能を持っている。具体的には、オペレータのキーボードやマウス操作等で範囲指定の情報を受け取る。
As will be described later, in the second embodiment, the entire configuration of a system constituted by a plurality of hardware is stored in the configuration
監視対象指定部1008で受け取った範囲指定の情報は、監視データ記憶部1002に監視対象範囲データとして監視対象IDが付与されて記憶される。監視データ所得部1001は、Webサーバ11、APサーバ12及びDBサーバ13からリソース使用状況データ及びログデータ、上記サーバ間を接続する通信回線からトランザクションデータ等を取得する際に、監視対象範囲データを参照し、指定されている範囲の情報だけを取得する。なお、監視データ所得部1001が能動的に監視データを取得する場合には、指定されているサーバ等にアクセスしてログデータ等を取得し、受動的に監視データを取得する場合には、受信したログデータ等の内、監視対象範囲として指定されているサーバ等のデータだけを選別(フィルタリング)して取得する。
The range designation information received by the monitoring
構成情報管理装置20は、構成情報を入力して登録するための構成情報登録部2001と、入力された構成情報を記憶するための構成情報記憶部2002、そして性能監視装置10からの要求に応じて構成情報記憶部2002に記憶された構成情報を抽出し、性能監視装置10に送信するための構成情報抽出部2003から構成される。
The configuration
構成情報登録部2001は、キーボードやマウスなどでありオペレータが入力する情報を受け付ける機能である。例えば図9であればオペレータは、監視対象としたいシステムの全体構成として、6台のWebサーバと2台のAPサーバと1台のDBサーバなど、ハードウェアの数量に関する情報と、各ハードウェアがそれぞれどのような形態で接続されているか、接続するためのネットワークはどれほどの転送レートを持ったものであるか、各ハードウェア・ソフトウェアのスペックはどのようなものであるか等を入力する。各ハードウェア・ソフトウェアのスペックとしては、単に購入時のスペックだけではなく、ファームウェアやソフトウェアのバージョンなども登録しておくと良い。なお、オペレータからの入力だけでなく、ネットワークを介してコンピュータが取得できるシステムの構成情報は、自動的に取得しても良い。
The configuration
構成情報記憶部2002は、構成情報登録部2001で受け付けた情報を監視対象システム毎に格納するものである。構成情報には、構成情報ID以外にも構成情報を受け付けた記憶日時情報等の属性情報も付加されて記憶される。
The configuration
構成情報抽出部2003は、構成情報記憶部2002に格納されている構成情報を、性能監視装置10やオペレータからの指示に基づいて抽出する機能である。後述するように、第二の実施形態では、システムの構成に応じて性能を監視したり異常を検出するため、監視対象のシステムと正常時のシステムの挙動とから相関関係を求める必要がある。そこで、性能監視装置10は必要に応じて構成情報を構成情報記憶部2002から読み出して相関関係のデータ等を作成する。
The configuration
ここで、相関関係記憶部1005内の相関関係は、相関関係を求めた環境毎に記憶される。例えばサーバが10台の時と、11台の時とではシステムの挙動は異なってくる。従ってサーバが10台の時の相関関係と11台になったときの相関関係は別に求めてそれぞれに相関関係IDを付与して記憶する。そして、当該相関関係を求めた際の監視対象ID及び/又は構成情報IDとをリンクさせておく。リンクはリレーショナルデータベース等で管理することで容易に設定できる。このような、IDで関連付けられた各情報は別途履歴情報として格納しておいても良い。当然ながら、1つの監視対象に対して複数の相関関係が生成されるので、相関関係IDと監視対象IDとは複数対複数の関係でリンクが形成される。構成情報IDも同様である。
Here, the correlation in the
次に、図12を参照しながら性能監視装置10と構成情報管理装置20の動作を説明する。第二の実施形態では、図4を用いて説明した第一の実施形態による監視と相関関係抽出の処理自体は同じであるが、この監視処理に先立って監視対象の範囲を特定する処理が行われる。まず最初に、構成情報登録部2001は、オペレータ又はコンピュータにより入力されるシステムの全体構成に拘る情報を受信して構成情報記憶部2002に転送する(ステップS1201)。システムの全体構成に拘る情報を受信した構成情報記憶部2002は、構成情報にIDを付与して順次情報を記憶していく。この時、上述のように受信した日時情報も一緒に記憶される(ステップS1202)。
Next, operations of the
続いて、構成情報記憶部2002に記憶されたシステムの全体構造の内、監視対象としたい範囲に関する情報をオペレータが入力し、入力された情報を監視対象指定部1008が受付ける(ステップS1203)。範囲指定方法の一例としては、対象となる複数のサーバのIPアドレスなど一意にハードウェアを特定することが挙げられる。そして受付けられた情報に基づいて、監視データ取得部1001は構成情報抽出部2003に抽出指示し、構成情報抽出部2003が構成情報記憶部2002からシステムに関する情報を抽出して監視データ取得部1001に返送する(ステップS1204)。
Subsequently, the operator inputs information about a range to be monitored among the entire system structure stored in the configuration
例えば、図9において、DBサーバ以外の8台のサーバを監視対象とするようオペレータからの指示を監視対象指定部1008が受けると、監視データ取得部1001はその情報を構成情報抽出部2003に抽出条件として送信し、構成情報抽出部2003は8台のIPアドレス等を用いてサーバを特定する。特定された対象となる複数のサーバのIPアドレスは監視データ取得部1001に送信され、監視データ取得部1001は監視データ記憶部1002に監視対象範囲データとして監視対象IDを付与して記憶する(S1205)。
For example, in FIG. 9, when the monitoring
監視データ取得部1001は監視処理を行う際に、監視データ記憶部1002に記憶された監視対象範囲データで特定されるハードウェア群に関する監視データを取得する。以下は図4や図5を用いて説明した第一の実施形態と同様に処理が行われる。この時、監視対象IDと対応する相関関係IDとに基づいて比較に用いられる相関関係が抽出され各処理が行われる。なお、図12のステップS1201からステップS1205に於ける処理はシステムの構成が変更された度、または監視対象範囲が変更される度に行われる。
When the monitoring
以上説明したように、本発明を適用した第二の実施形態では、監視対象とするハードウェア構成とソフトウェア構成を特定する情報を更に備えることにより、システム全体の中の特定部位だけの監視を行たいなど、目的に応じた監視対象の範囲を監視することが可能となる。なお、上述した実施形態では1つのシステムについて性能監視装置10と構成情報管理装置20がひとつずつ備わっている例を示したが、本発明はこれにとどまらず例えば、ASP(アプリケーションサービスプロバイダ)サービス等の形態にも応用できる。つまり、監視対象となるシステムが複数存在し、それら個々のシステム内の特定範囲だけを監視対象とすることができる。その場合、システム毎に構成情報を記憶し、システム毎に監視対象範囲データを持てば良い。
As described above, in the second embodiment to which the present invention is applied, information for specifying the hardware configuration and software configuration to be monitored is further provided to monitor only a specific part in the entire system. It is possible to monitor the range of the monitoring target according to the purpose. In the above-described embodiment, an example is shown in which one
また、別の形態として、1つのシステムの中で、目的に応じて複数の監視対象範囲を設定しても良い。例えばサーバA〜サーバJまでの10台のサーバで構成されたシステム全体の内、1つ目の監視対象範囲がサーバA〜サーバEの5台、2つ目の監視対象範囲がサーバF〜サーバHの3台という範囲を指定しても良い。更には、1つ目の監視対象範囲がサーバA〜サーバGの7台、2つ目の監視対象範囲がサーバC〜サーバJの8台など、1つのサーバが複数の監視対象として指定されても良い。いずれの場合も、監視データ取得部1001は監視処理を行う際に、監視データ記憶部1002に記憶された監視対象範囲データを参照して監視対象のサーバを特定し、必要な監視データを取得するという処理が行われる。
As another form, a plurality of monitoring target ranges may be set according to the purpose in one system. For example, in the entire system composed of 10 servers from server A to server J, the first monitoring target range is five servers A to E, and the second monitoring target range is server F to server. A range of 3 units of H may be specified. Furthermore, one server is designated as a plurality of monitoring targets, such as the first monitoring target range is seven servers A to G, and the second monitoring target range is eight servers C to J. Also good. In any case, when performing the monitoring process, the monitoring
次に、本発明を適用した好適な第三の実施形態を説明する。上述した第一の実施形態と第二の実施形態では、何れもリソース使用状況データ、ログデータ、トランザクションデータなど、コンピュータの稼働状況を収集していた。これに対して第三の実施形態では、更に、コンピュータ稼働状況以外の情報をも収集して相関関係を求めるようにしている。 Next, a preferred third embodiment to which the present invention is applied will be described. In the first embodiment and the second embodiment described above, the operating status of the computer such as resource usage status data, log data, and transaction data is collected. In contrast, in the third embodiment, information other than the computer operating status is also collected to obtain the correlation.
コンピュータシステムは、様々な理由により、ハードウェア構成やソフトウェア構成が変更される。これらの変更によりコンピュータシステムの性能が変化する。また、コンピュータシステムを取りまく環境の変化によってもコンピュータシステムの性能は変化する。本実施形態においては、これらの変化を捉えて監視データのひとつとして扱うことを特徴としている。これを特に「イベントデータ」と称することとする。「イベントデータ」は、稼働状況を含めて監視したい対象システムの内外で発生する事象に関するデータである。例えば、内部で発生する事象としては、エラーの発生、コンピュータに組み込まれるCPUの数量が増加したなどのシステムの変更がある。また外部的な事象としては、温度の変化や地震や衝撃による揺れの発生などがある。そしてイベントの内容によってはコンピュータの演算性能が低下してスループットが低下するなどの変化が発生する。そこで、例えば、監視データ取得部1001がイベントデータをキャッチしたときに、イベントに応じて分析や異常検知などの処理を行うようにする。
The computer system is changed in hardware configuration and software configuration for various reasons. These changes change the performance of the computer system. In addition, the performance of a computer system changes with changes in the environment surrounding the computer system. This embodiment is characterized in that these changes are captured and handled as one of the monitoring data. This is particularly referred to as “event data”. “Event data” is data relating to events that occur inside and outside the target system to be monitored, including the operating status. For example, events that occur internally include system changes such as the occurrence of errors and the increase in the number of CPUs incorporated in a computer. External events include temperature changes and the occurrence of shaking due to earthquakes and shocks. Depending on the contents of the event, changes such as a decrease in throughput due to a decrease in computing performance of the computer may occur. Therefore, for example, when the monitoring
図13は、第三の実施形態に係る性能監視システムの構成を概略的に示した図である。第三の実施形態でも基本的な情報処理は第一の実施形態及び第二の実施形態と同様であるが、本実施形態の特徴をわかりやすく説明するための構成のみを表示している。従って、同じ処理については説明を省略する。第三の実施形態の特徴のひとつとして入力データソースが「Webサーバ」「APサーバ」「DBサーバ」等の監視対象装置に加え、「運用管理ツール」「ユーザ入力」が含まれている点がある。そして監視データ記憶部1002に記憶されているデータについて、監視データに関するもの1002と、イベントデータに関するもの1002'とを分けて示している。
FIG. 13 is a diagram schematically showing the configuration of the performance monitoring system according to the third embodiment. In the third embodiment, the basic information processing is the same as in the first embodiment and the second embodiment, but only the configuration for explaining the features of the present embodiment in an easy-to-understand manner is displayed. Therefore, the description of the same processing is omitted. One of the features of the third embodiment is that the input data source includes “operation management tool” and “user input” in addition to monitoring target devices such as “Web server”, “AP server”, and “DB server”. is there. The data stored in the monitoring
イベントデータは、監視対象システムから発せられる信号をそのまま利用したり、図示しない運用管理ツールから受信したり、或いは人間により入力されるデータがある。なお、運用管理ツールはシステムのハードウェアやソフトウェアを管理するものであって、それぞれのハードウェアがどのような構成を持っており、どのようなバージョンのソフトウェアがインストールされているかどうか等の情報を管理している。 The event data includes data that is used as it is from a monitored system, is received from an operation management tool (not shown), or is input by a human. The operation management tool manages system hardware and software. Information such as what configuration each hardware has and what version of software is installed. I manage.
さらに、イベントデータは後述するように、監視対象システムから受信したログデータなどを元に生成されるものもある。いずれにしても、イベントデータもそれぞれイベントデータIDが付与されて監視データ記憶部1002の所定の場所に格納される。
Further, as will be described later, some event data is generated based on log data received from the monitoring target system. In any case, the event data is assigned an event data ID and stored in a predetermined location in the monitoring
次に、第三の実施形態におけるデータの流れを説明する。監視データ取得部1001を介して受信した各データは、それぞれデータの種類に応じて、記憶部に格納される。まず監視対象システムの構成に関するデータは、第二の実施形態で説明したように構成情報管理装置20の構成情報記憶部2002に記憶される。監視対象システムから受信したログデータやスループットなどの監視データは、監視データ記憶部1002に格納され、同様に監視データ取得部1001を介して受信したイベントデータも監視データ記憶部1002'に格納される。
Next, the data flow in the third embodiment will be described. Each data received via the monitoring
監視データ記憶部1002に格納された監視データからは、何らかのイベントに関する情報を引き出すこともできる。例えば監視対象のサーバがダウンすると、監視データが受信されなくなる。つまり、定期的に受信できていた監視データが監視データ記憶部1002に記憶されなくなった時点を感知できれば監視対象のサーバがダウンしたというエラー(障害)に関するイベントを抽出することができる。また、CPU使用率が10分程度にわたって90%を越えているような場合は過負荷とみなすことができるので、システムの稼働状況に関するイベントを抽出することができる。
Information related to some event can be extracted from the monitoring data stored in the monitoring
そこで、第三の実施形態では、イベントデータ生成部1009を設けて、監視データをもとにイベントデータを生成している。イベントデータ生成部1009は、監視データ記憶部1002に格納された監視データについて、図示しないルール記憶部に記憶されているイベントデータ生成ルールに基づいてイベントデータを生成する。イベントデータ生成ルールには、どのようなタイミングで、どのデータを用いて、どのようなイベントデータを生成すかどうかが定義されている。上述したエラーに関するイベントの例では、「常に」「監視データ」を抽出して「監視データが一定時間受信できなければ"サーバダウン"」というイベントデータ生成ルールに従ってルール生成処理が行われる。また、稼働状況に関するイベントの例では、「常に」「CPU使用率」を抽出して「90%異常が10分続いたら"過負荷"」というイベントデータ生成ルールに従ってルール生成処理が行われる。そして、イベントデータIDを付与した上で監視データ記憶部1002'に格納する。
Therefore, in the third embodiment, an event
このように、第三の実施形態では、監視対象のシステムに発生するあらゆる事象について、監視対象システムから発せられる信号、図示しない運用管理ツールから受信した信号、人間により入力される情報、或いはイベントデータ生成部1009で生成されたデータを、イベントデータとして監視データ記憶部1002に格納する。
As described above, in the third embodiment, for every event occurring in the monitored system, a signal generated from the monitored system, a signal received from an operation management tool (not shown), information input by a person, or event data Data generated by the
相関関係抽出部1004は、監視データ記憶部1002及び構成情報記憶部2002に記憶された各情報を用いて相関関係を求め、相関関係1005に記憶しておく。
The
次に、イベントデータを用いた処理について説明する。第一の実施形態や第二の実施形態では、(2)監視データ記憶部1002から読み込んだデータに基づいて相関関係を求める(生成する)処理、(4)監視データと相関関係或いは相関関係どうしを比較する処理、(5)監視データと1つの相関関係から異常検知する処理を行ったが、本実施形態では更に(6)監視データと、イベントデータをきっかけとして生成した相関関係とを比較する。
Next, processing using event data will be described. In the first embodiment and the second embodiment, (2) a process for obtaining (generating) a correlation based on data read from the monitoring
監視データと、イベントデータをきっかけとして生成した相関関係とを比較する処理(6)の例として、ここでは上述した監視データとサーバダウンというイベントデータとの相関関係を用いた一連の分析処理を説明する。監視データとしては、「ディスクI/O」と「サーバのスループット」を監視しているものとする。 As an example of the process (6) for comparing the monitoring data and the correlation generated by using the event data as a trigger, here, a series of analysis processes using the correlation between the monitoring data and the event data called server down will be described. To do. It is assumed that “disk I / O” and “server throughput” are monitored as monitoring data.
まず、監視対象のシステムについて「ディスクI/O」と「サーバのスループット」を継続的に測定し、測定されたデータは監視データ取得部1001で取得され、監視データ記憶部1002に「ディスクI/O」と「サーバのスループット」として逐次記憶される。イベントデータ生成部1009は常に監視データを抽出し続け、もし監視データが一定時間受信できなければ"サーバダウン"とみなして"サーバダウン"というイベントデータを生成した上で監視データ記憶部1002'に記憶する。
First, “disk I / O” and “server throughput” are continuously measured for the system to be monitored, and the measured data is acquired by the monitoring
次に相関関係抽出部1004は、監視データ記憶部1002に記憶されたディスク「ディスクI/O」と「サーバのスループット」と、監視データ記憶部1002'に記憶された"サーバダウン"のイベントデータに基づいて相関関係を抽出し、相関関係記憶部1005に記憶する。具体的には、監視データ記憶部1002に記憶された「ディスクI/O」と「サーバのスループット」の監視データが急増した直後に監視データが一定時間受信できなくなっていれば、「ディスクI/O」と「サーバの処理数」に基づいて図14に示したような相関関係を求めた上で、更に、「ディスクI/O」または「サーバのスループット」がある一定値を超えたときに"サーバダウン"が発生したという情報を生成する。図14では、ハッチングした領域が過去に"サーバダウン"発生した時の「ディスクI/O」と「サーバのスループット」との関係を示す部分である。
Next, the
次に、障害検知/予測部1006は、監視データ記憶部1002に逐次記憶される「ディスクI/O」と「サーバのスループット」の監視データについて読み出し、そのデータが図14に示した相関関係の正常値にあるのか、それとも"サーバダウン"が発生する可能性にあるのか(障害予測)、或は"サーバダウン"が発生したのか(障害検知)を判別する。そして、障害予測または障害検知と判断した場合には、「"サーバダウン"が発生する可能性がある」「"サーバダウン"が発生した」等のメッセージを報知部1007に表示する。
Next, the failure detection /
なお、先に示した稼働状況に関するイベントの例では、生成された"過負荷"というイベントデータに基づいて、次のような相関関係の比較をすることができる。一般的にはスループットが上昇したときにCPUの処理が増加して負荷が高くなる。それに対して、スループットが高くなっているにもかかわらず、CPU負荷が高くなっていない状態は異常と考えられる。そこで、CPU使用率とスループットとの相関関係について、正常時の相関関係と"過負荷"というイベントが発生した時の相関関係を比較し、障害を判断する。 In the example of the event relating to the operation status described above, the following correlation can be compared based on the generated event data “overload”. Generally, when throughput increases, CPU processing increases and the load increases. On the other hand, a state where the CPU load is not high although the throughput is high is considered abnormal. Therefore, regarding the correlation between the CPU usage rate and the throughput, the correlation between the normal state and the correlation when the event of “overload” occurs is compared to determine the failure.
以上のように、第三の実施形態では、監視対象のシステムの内外に発生するあらゆる事象をイベントデータとして抽出し、抽出したイベントデータと監視データとを用いて相関関係を抽出している。なお、上記実施形態では単にイベントデータと監視データとを用いた分析処理について説明したが、第二の実施形態で説明したような構成情報まで含めたデータを用いて相関関係を求めることでより詳細な異常検知をすることも可能となる。 As described above, in the third embodiment, all events that occur inside and outside the monitored system are extracted as event data, and the correlation is extracted using the extracted event data and monitoring data. In the above-described embodiment, the analysis process using only the event data and the monitoring data has been described. However, the details are obtained by obtaining the correlation using the data including the configuration information as described in the second embodiment. It is also possible to detect anomalies.
なお、上述した各実施形態では、予め相関関係を求めるには図示しないルール記憶部に記憶された相関関係抽出ルールに基づいて相関関係が抽出される。この相関関係抽出ルールは予めユーザによって登録されているものであるが、記憶された監視データやイベントデータを元に、どのような相関関係を抽出すればよいかを自動的に推測し、相関関係抽出ルール自体を自動生成するようにしても良い。つまり、監視データやイベントデータを蓄積しつづけておき、エラー等が発生しない状況を正常値とし、この正常値を外れた何らかの監視データがあった場合に相関関係抽出ルール生成機能が働き、それらデータから新たな相関関係ルールを生成するなどしても良い。 In each of the above-described embodiments, in order to obtain the correlation in advance, the correlation is extracted based on a correlation extraction rule stored in a rule storage unit (not shown). This correlation extraction rule is registered in advance by the user, but based on the stored monitoring data and event data, it automatically guesses what kind of correlation should be extracted, and the correlation The extraction rule itself may be automatically generated. In other words, monitoring data and event data are continuously accumulated, the situation where no error etc. occurs is regarded as a normal value, and if there is any monitoring data that deviates from this normal value, the correlation extraction rule generation function works, and these data A new correlation rule may be generated from
以上詳細に説明したとおり、本発明では、第一の実施形態および第二の実施形態のように、システムの稼動状況に関する量的な複数種類の情報から相関関係を求める方法、そして、第三の実施形態のように、システムの稼動状況に関する量的な情報とシステムに対して発生したイベント情報とから相関関係を求める。このようにして求めた相関関係は相関関係記憶部1005に記憶され、監視データはこの相関関係と比較されて障害の検知や予測が行われる。
As described above in detail, in the present invention, as in the first embodiment and the second embodiment, a method for obtaining a correlation from a plurality of types of quantitative information related to the operating status of the system, and the third embodiment As in the embodiment, a correlation is obtained from quantitative information related to the operating status of the system and event information generated for the system. The correlation obtained in this way is stored in the
ところで、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。 By the way, an object of the present invention is to supply a storage medium storing software program codes for realizing the functions of the above-described embodiments to a system or apparatus, and the computer (or CPU or MPU) of the system or apparatus stores the storage medium. Needless to say, this can also be achieved by reading and executing the program code stored in.
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、プログラムコード自体及びそのプログラムコードを記憶した記憶媒体は本発明を構成することになる。 In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the program code itself and the storage medium storing the program code constitute the present invention.
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。 As a storage medium for supplying the program code, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used.
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(基本システム或いはオペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (basic system or operating system) running on the computer based on the instruction of the program code. Needless to say, a case where the functions of the above-described embodiment are realized by performing part or all of the actual processing and the processing is included.
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, after the program code read from the storage medium is written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function is determined based on the instruction of the program code. It goes without saying that the CPU or the like provided in the expansion board or function expansion unit performs part or all of the actual processing and the functions of the above-described embodiments are realized by the processing.
10:性能監視装置
11:Webサーバ
12:APサーバ
13:DBサーバ
20:構成情報管理装置
101:蓄積サーバ
102:分析サーバ
1001:監視データ取得部
1002:監視データ記憶部
1003:異常検出部
1004:相関関係抽出部
1005:相関関係記憶部
1006:障害検知/予測部
1007:報知部
1008:監視対象指定部
1009:イベントデータ生成部
1200:コンピュータシステム
1201:CPU
1202:ROM
1203:RAM
1204:システムバス
1205:キーボードコントローラ(KBC)
1206:CRTコントローラ(CRTC)
1207:ディスクコントローラ(DKC)
1208:ネットワークインタフェースカード(NIC)
1209:キーボード(KB)
1210:CRTディスプレイ(CRT)
1211:ハードディスク(HD)
1212:フレキシブルディスク(FD)
1220:LAN
2001:構成情報登録部
2002:構成情報記憶部
2003:構成情報抽出部
10: Performance monitoring device 11: Web server 12: AP server 13: DB server 20: Configuration information management device 101: Storage server 102: Analysis server 1001: Monitoring data acquisition unit 1002: Monitoring data storage unit 1003: Abnormality detection unit 1004: Correlation extraction unit 1005: Correlation storage unit 1006: Failure detection / prediction unit 1007: Notification unit 1008: Monitoring target designation unit 1009: Event data generation unit 1200: Computer system 1201: CPU
1202: ROM
1203: RAM
1204: System bus 1205: Keyboard controller (KBC)
1206: CRT controller (CRTC)
1207: Disk controller (DKC)
1208: Network interface card (NIC)
1209: Keyboard (KB)
1210: CRT display (CRT)
1211: Hard disk (HD)
1212: Flexible disk (FD)
1220: LAN
2001: Configuration information registration unit 2002: Configuration information storage unit 2003: Configuration information extraction unit
Claims (13)
前記複数の情報処理装置の稼働状況、及び、前記複数の情報処理装置間を接続する各通信回線のデータ通信状況を監視する監視手段と、
前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと他の情報処理装置の稼働状況に関する監視データとの相関関係、前記複数の情報処理装置間を接続する各通信回線のうちの一の通信回線のデータ通信状況に関する監視データと他の通信回線のデータ通信状況に関する監視データとの相関関係、又は、前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと当該情報処理装置と他の情報処理装置とを接続する通信回線のデータ通信状況に関する監視データとの相関関係に基づいて、前記情報処理システムに現在発生している障害を検知、又は、前記情報処理システムに将来障害が発生する可能性を予測する障害検知/予測手段とを有することを特徴とする性能監視装置。 A performance monitoring device that monitors the performance of an information processing system in which a plurality of information processing devices operate in cooperation,
Monitoring means for monitoring the operating status of the plurality of information processing devices and the data communication status of each communication line connecting the plurality of information processing devices;
Correlation between monitoring data related to the operating status of one information processing device among the plurality of information processing devices and monitoring data related to the operating status of another information processing device, and each communication line connecting the plurality of information processing devices Correlation between monitoring data related to data communication status of one communication line and monitoring data related to data communication status of another communication line, or operating status of one information processing device among the plurality of information processing devices Detecting a fault currently occurring in the information processing system based on the correlation between the monitoring data related to the monitoring data related to the data communication status of the communication line connecting the information processing apparatus and another information processing apparatus , or A performance monitoring apparatus comprising failure detection / prediction means for predicting the possibility of a future failure in the information processing system.
前記監視データ蓄積手段から複数種類の監視データを読み出し、前記複数種類の監視データの相関関係を算出する相関関係算出手段とを更に有し、
前記障害検知/予測手段は、前記相関関係算出手段により算出される前記複数種類の監視データの相関関係と、前記監視手段によって得られる現在の前記複数種類の監視データとに基づいて、前記情報処理システムに現在発生している障害を検知することを特徴とする請求項1に記載の性能監視装置。 Monitoring data storage means for storing monitoring data by the monitoring means;
Correlation calculating means for reading a plurality of types of monitoring data from the monitoring data storage means and calculating a correlation between the plurality of types of monitoring data;
The failure detection / prediction unit is configured to perform the information processing based on the correlation between the plurality of types of monitoring data calculated by the correlation calculation unit and the current plurality of types of monitoring data obtained by the monitoring unit. The performance monitoring apparatus according to claim 1 , wherein a fault currently occurring in the system is detected.
前記監視データ蓄積手段から前記複数種類の監視データを読み出し、前記複数種類の監視データの相関関係を算出する相関関係算出手段とを更に有し、
前記障害検知/予測手段は、前記相関関係算出手段により算出される前記複数種類の監視データの相関関係と、前記監視手段によって現在までに得られた前記複数種類の監視データの推移とに基づいて、前記情報処理システムに将来障害が発生する可能性のあることを予測することを特徴とする請求項1に記載の性能監視装置。 Monitoring data storage means for storing monitoring data by the monitoring means;
A correlation calculation unit that reads the plurality of types of monitoring data from the monitoring data storage unit and calculates a correlation between the plurality of types of monitoring data;
The failure detection / prediction unit is based on the correlation between the plurality of types of monitoring data calculated by the correlation calculation unit and the transition of the plurality of types of monitoring data obtained up to now by the monitoring unit. , performance monitoring apparatus according to claim 1, characterized in that predict that is likely to future failure occurs in the information processing system.
前記監視手段は、前記監視対象指定手段で特定された範囲について監視することを特徴とする請求項1乃至7の何れか1項に記載の性能監視装置。 An information processing system of an information processing system in which the plurality of information processing devices operate in cooperation, configuration information storage means for storing configuration information relating to relevance between the plurality of information processing devices, and the stored configuration information A monitoring target specifying means for specifying a range to be monitored by the monitoring means;
It said monitoring means, performance monitoring apparatus according to any one of claims 1 to 7, characterized in that monitoring the range specified by the inspection target specification unit.
前記監視手段は、前記情報処理装置の稼働状況及び前記複数の情報処理装置間を接続する各通信回線のデータ通信状況に加え、前記イベントデータを取得し、前記イベントデータ格納手段に格納することを特徴とする請求項1乃至8の何れか1項に記載の性能監視装置。 The information processing device to be monitored, each communication line connecting the information processing devices, and an event data storage means for storing event data relating to an event that has occurred in at least one of the environments surrounding the information processing device,
The monitoring means acquires the event data in addition to the operating status of the information processing apparatus and the data communication status of each communication line connecting the plurality of information processing apparatuses, and stores the event data in the event data storage means performance monitoring apparatus according to any one of claims 1 to 8, characterized.
前記イベントデータ生成手段は、生成したイベントデータを、前記イベントデータ格納手段に格納することを特徴とする請求項1乃至9の何れか1項に記載の性能監視装置。 Based on the monitoring data acquired by the monitoring means, further comprising event data generating means for generating event data,
It said event data generating means, performance monitoring apparatus according the generated event data, to any one of claims 1 to 9, characterized in that stored in the event data storage unit.
前記複数の情報処理装置の稼働状況、及び、前記複数の情報処理装置間を接続する各通信回線のデータ通信状況を監視する監視ステップと、
前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと他の情報処理装置の稼働状況に関する監視データとの相関関係、前記複数の情報処理装置間を接続する各通信回線のうちの一の通信回線のデータ通信状況に関する監視データと他の通信回線のデータ通信状況に関する監視データとの相関関係、又は、前記複数の情報処理装置のうちの一の情報処理装置の稼働状況に関する監視データと当該情報処理装置と他の情報処理装置とを接続する通信回線のデータ通信状況に関する監視データとの相関関係に基づいて、前記情報処理システムに現在発生している障害を検知、又は、前記情報処理システムに将来障害が発生する可能性を予測する障害検知/予測ステップとを有することを特徴とする性能監視方法。 A performance monitoring method by a performance monitoring device that monitors the performance of an information processing system in which a plurality of information processing devices operate in cooperation,
A monitoring step of monitoring the operating status of the plurality of information processing devices and the data communication status of each communication line connecting the plurality of information processing devices;
Correlation between monitoring data related to the operating status of one information processing device among the plurality of information processing devices and monitoring data related to the operating status of another information processing device, and each communication line connecting the plurality of information processing devices Correlation between monitoring data related to data communication status of one communication line and monitoring data related to data communication status of another communication line, or operating status of one information processing device among the plurality of information processing devices Detecting a fault currently occurring in the information processing system based on the correlation between the monitoring data related to the monitoring data related to the data communication status of the communication line connecting the information processing apparatus and another information processing apparatus , or A performance monitoring method comprising: a failure detection / prediction step for predicting a possibility that a failure will occur in the information processing system in the future.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005114821A JP4980581B2 (en) | 2004-04-16 | 2005-04-12 | Performance monitoring device, performance monitoring method and program |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004122074 | 2004-04-16 | ||
JP2004122074 | 2004-04-16 | ||
JP2005114821A JP4980581B2 (en) | 2004-04-16 | 2005-04-12 | Performance monitoring device, performance monitoring method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005327261A JP2005327261A (en) | 2005-11-24 |
JP4980581B2 true JP4980581B2 (en) | 2012-07-18 |
Family
ID=35473535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005114821A Active JP4980581B2 (en) | 2004-04-16 | 2005-04-12 | Performance monitoring device, performance monitoring method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4980581B2 (en) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100992209B1 (en) * | 2005-12-16 | 2010-11-04 | 인터내셔널 비지네스 머신즈 코포레이션 | Method, system and computer program for metering usage of software products based on real-time benchmarking of processing power |
JP4594258B2 (en) * | 2006-03-10 | 2010-12-08 | 富士通株式会社 | System analysis apparatus and system analysis method |
JP2007264921A (en) * | 2006-03-28 | 2007-10-11 | Fujitsu Ltd | Performance information extraction program and apparatus |
JP4896573B2 (en) * | 2006-04-20 | 2012-03-14 | 株式会社東芝 | Fault monitoring system and method, and program |
JP4573179B2 (en) * | 2006-05-30 | 2010-11-04 | 日本電気株式会社 | Performance load abnormality detection system, performance load abnormality detection method, and program |
JP4837445B2 (en) * | 2006-06-06 | 2011-12-14 | 株式会社日立製作所 | Storage system and management apparatus and method |
JP4859558B2 (en) | 2006-06-30 | 2012-01-25 | 株式会社日立製作所 | Computer system control method and computer system |
JP2008015596A (en) * | 2006-07-03 | 2008-01-24 | Nec Fielding Ltd | Management server and repair program transmission method |
JP4957256B2 (en) * | 2007-01-12 | 2012-06-20 | 日本電気株式会社 | System configuration change rule generation system, method and program |
JP4752767B2 (en) * | 2007-01-12 | 2011-08-17 | 日本電気株式会社 | System configuration candidate derivation device, method and program |
JP4881761B2 (en) * | 2007-02-23 | 2012-02-22 | 株式会社日立製作所 | System resource monitoring method, monitoring apparatus, and program |
WO2008111428A1 (en) | 2007-03-14 | 2008-09-18 | Nec Corporation | Operation management device, operation management method, and operation management program |
JP4990018B2 (en) * | 2007-04-25 | 2012-08-01 | 株式会社日立製作所 | Apparatus performance management method, apparatus performance management system, and management program |
JP2009053992A (en) * | 2007-08-28 | 2009-03-12 | Jiec Co Ltd | Log collection system |
JP4872945B2 (en) * | 2008-02-25 | 2012-02-08 | 日本電気株式会社 | Operation management apparatus, operation management system, information processing method, and operation management program |
JP4872944B2 (en) * | 2008-02-25 | 2012-02-08 | 日本電気株式会社 | Operation management apparatus, operation management system, information processing method, and operation management program |
JP2009217770A (en) * | 2008-03-13 | 2009-09-24 | Nec Corp | Failure prediction and report system, failure prediction and report method, failure prediction and report program and program recording medium |
JP5384136B2 (en) * | 2009-02-19 | 2014-01-08 | 株式会社日立製作所 | Failure analysis support system |
JP5287382B2 (en) * | 2009-03-13 | 2013-09-11 | 日本電気株式会社 | System performance analysis apparatus, system performance analysis method, and program |
JP2010231293A (en) * | 2009-03-26 | 2010-10-14 | Nomura Research Institute Ltd | Monitoring device |
JP5267684B2 (en) * | 2010-01-08 | 2013-08-21 | 日本電気株式会社 | Operation management apparatus, operation management method, and program storage medium |
JP5418250B2 (en) * | 2010-01-26 | 2014-02-19 | 富士通株式会社 | Abnormality detection apparatus, program, and abnormality detection method |
JP5471859B2 (en) * | 2010-06-10 | 2014-04-16 | 富士通株式会社 | Analysis program, analysis method, and analysis apparatus |
WO2012029500A1 (en) * | 2010-09-01 | 2012-03-08 | 日本電気株式会社 | Operations management device, operations management method, and program |
JP5516494B2 (en) * | 2011-04-26 | 2014-06-11 | 日本電気株式会社 | Operation management apparatus, operation management system, information processing method, and operation management program |
JP5141789B2 (en) * | 2011-04-26 | 2013-02-13 | 日本電気株式会社 | Operation management apparatus, operation management system, information processing method, and operation management program |
US9531588B2 (en) * | 2011-12-16 | 2016-12-27 | Microsoft Technology Licensing, Llc | Discovery and mining of performance information of a device for anticipatorily sending updates to the device |
JP5500301B2 (en) * | 2013-07-18 | 2014-05-21 | 日本電気株式会社 | Monitoring control system, monitoring control method, monitoring control server, and monitoring control program |
JP5590196B2 (en) * | 2013-07-22 | 2014-09-17 | 日本電気株式会社 | Operation management apparatus, operation management system, information processing method, and operation management program |
JP6295857B2 (en) | 2014-06-27 | 2018-03-20 | 富士通株式会社 | Extraction method, apparatus, and program |
JP6574332B2 (en) * | 2015-03-26 | 2019-09-11 | 株式会社日立システムズ | Data analysis system |
JP6741217B2 (en) * | 2015-12-04 | 2020-08-19 | 日本電気株式会社 | Log analysis system, method and program |
WO2017154241A1 (en) * | 2016-03-07 | 2017-09-14 | 株式会社日立製作所 | Anomaly detection device and anomaly detection method |
JP6823265B2 (en) * | 2017-03-28 | 2021-02-03 | 富士通株式会社 | Analytical instruments, analytical systems, analytical methods and analytical programs |
JP7501266B2 (en) | 2019-12-06 | 2024-06-18 | 富士電機株式会社 | Driving assistance device, driving assistance system, and driving assistance method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3321487B2 (en) * | 1993-10-20 | 2002-09-03 | 株式会社日立製作所 | Device / equipment diagnosis method and system |
JPH1049219A (en) * | 1996-08-02 | 1998-02-20 | Mitsubishi Electric Corp | Fault occurrence evading device |
JPH1188399A (en) * | 1997-09-02 | 1999-03-30 | Nippon Telegr & Teleph Corp <Ntt> | Network management method |
JPH11308221A (en) * | 1998-04-22 | 1999-11-05 | Sumitomo Electric Ind Ltd | Network management system |
-
2005
- 2005-04-12 JP JP2005114821A patent/JP4980581B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2005327261A (en) | 2005-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4980581B2 (en) | Performance monitoring device, performance monitoring method and program | |
JP5267736B2 (en) | Fault detection apparatus, fault detection method, and program recording medium | |
CN107925612B (en) | Network monitoring system, network monitoring method, and computer-readable medium | |
US10496465B2 (en) | System operations management apparatus, system operations management method and program storage medium | |
JP5736881B2 (en) | Log collection system, apparatus, method and program | |
JP5948257B2 (en) | Information processing system monitoring apparatus, monitoring method, and monitoring program | |
JP2010526352A (en) | Performance fault management system and method using statistical analysis | |
JP2008009842A (en) | Control method of computer system, and computer system | |
JP4990018B2 (en) | Apparatus performance management method, apparatus performance management system, and management program | |
JP4573179B2 (en) | Performance load abnormality detection system, performance load abnormality detection method, and program | |
US8713377B2 (en) | System and method to assess serviceability of device | |
WO2018179937A1 (en) | Risk assessment device, risk assessment method, and risk assessment program | |
JP6777142B2 (en) | System analyzer, system analysis method, and program | |
JP6482743B1 (en) | Risk assessment device, risk assessment system, risk assessment method, and risk assessment program | |
JP2007207117A (en) | Performance monitor, performance monitoring method and program | |
JP2016146020A (en) | Data analysis system and analysis method | |
JP6574533B2 (en) | Risk assessment device, risk assessment system, risk assessment method, and risk assessment program | |
WO2020044898A1 (en) | Device status monitoring device and program | |
JP4081258B2 (en) | Management server system | |
JP4934660B2 (en) | Communication bandwidth calculation method, apparatus, and traffic management method | |
JP6482742B1 (en) | Risk assessment device, risk assessment system, risk assessment method, and risk assessment program | |
JP2008191849A (en) | Operation management device, information processor, control method for operation management device, control method for information processor and program | |
JP2021149115A (en) | Monitoring system, monitoring device and monitoring method | |
JP4881761B2 (en) | System resource monitoring method, monitoring apparatus, and program | |
JP2009032052A (en) | Information processor, information processing method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110524 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120403 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120419 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150427 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4980581 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |