JP5207082B2 - コンピュータシステム、及びコンピュータシステムの監視方法 - Google Patents

コンピュータシステム、及びコンピュータシステムの監視方法 Download PDF

Info

Publication number
JP5207082B2
JP5207082B2 JP2010006918A JP2010006918A JP5207082B2 JP 5207082 B2 JP5207082 B2 JP 5207082B2 JP 2010006918 A JP2010006918 A JP 2010006918A JP 2010006918 A JP2010006918 A JP 2010006918A JP 5207082 B2 JP5207082 B2 JP 5207082B2
Authority
JP
Japan
Prior art keywords
flow entry
statistical information
computer system
flow
switch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010006918A
Other languages
English (en)
Other versions
JP2011146982A (ja
Inventor
雅也 川本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010006918A priority Critical patent/JP5207082B2/ja
Publication of JP2011146982A publication Critical patent/JP2011146982A/ja
Application granted granted Critical
Publication of JP5207082B2 publication Critical patent/JP5207082B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、コンピュータシステム、及びコンピュータシステムの監視方法に関し、特に、障害発生箇所を特定可能なコンピュータシステムの監視する方法に関する。
ネットワークを利用した情報システムの普及により、IP網などのネットワークは大規模かつ複雑になり、加えて高品質が求められている。このため、通信障害や品質劣化の原因箇所の特定はより困難になっているにもかかわらず、迅速な復旧が要求されている。
このような要求を実現するため、特開2006−238052では、フロー品質情報に基づいて品質劣化箇所を推定する技術が開示されている(特許文献1参照)。特許文献1では、現在通信中のフローが経由している全てのリンクについて、現在の通信品質劣化を起こし得る、あらゆる品質劣化したリンクの組み合わせのうち、最小のリンク数からなる組み合わせを品質劣化箇所として推定する。あるいは、過去の各リンクが品質劣化原因となった確率に基づいて、最も高い確率となる組み合わせを品質劣化箇所として推定する。
特許文献1では、フロー品質情報を得るためにネットワーク上に多数のパケット収集装置を設置する必要があるため、膨大なコストが必要となる。又、提供される結果は確率的な推定であり、状況によっては正しい原因箇所を得ることはできない。
一方、特開2002−152266には、計測装置によってフロー毎にカウントされた受信パケット数を収集し、複数の計測装置間のカウント値の比較結果に基づいて区間毎のパケットロスを検出するシステムが記載されている(特許文献2参照)。
又、本発明の関連技術として、OpenFlow Consortiumが提案しているOpenFlowがある(非特許文献1参照)。この技術に対応したネットワークスイッチ(以下、オープンフロースイッチ(OFS)と称す)は、プロトコル種別やポート番号等の詳細な情報をフローテーブルに保持し、フローの制御と統計情報の採取を行うことができる。
特開2006−238052 特開2002−152266
OpenFlow Switch Specification Version 0.9.0 (Wire Protocol 0x98) July 20, 2009
特許文献2の技術では、区間毎のパケット数を取得することで、計測区間におけるパケットロスを検出することが可能となる。しかし、区間毎のパケットロスを検出できても、通信障害や品質劣化の原因箇所を特定することはできなかった。
上記の課題を解決するために、本発明は、以下に述べられる手段を採用する。その手段を構成する技術的事項の記述には、[特許請求の範囲]の記載と[発明を実施するための形態]の記載との対応関係を明らかにするために、[発明を実施するための形態]で使用される番号・符号が付加されている。ただし、付加された番号・符号は、[特許請求の範囲]に記載されている発明の技術的範囲を限定的に解釈するために用いてはならない。
本発明によるコンピュータシステムは、コントローラ(2)と、コントローラ(2)によってフローエントリが設定されたフローテーブル(11)を保持し、フローエントリに適合する受信パケットに対し、フローエントリで規定された中継動作を行うスイッチ(1)と、スイッチ(1)を介して通信を行う複数のコンピュータ(6)と、データ処理装置(20)とを具備する。データ処理装置(20)は、異常のある通信に対応するフローエントリが設定された複数のスイッチ(1)から当該通信に対する統計情報を収集し、当該統計情報に応じて、異常のある通信の原因箇所を特定する。
本発明によるコンピュータシステムの監視方法は、コントローラ(2)と、コントローラ(2)によってフローエントリが設定されたフローテーブル(11)を保持し、フローエントリに適合する受信パケットに対し、フローエントリで規定された中継動作を行うスイッチ(1)と、スイッチ(1)を介して通信を行う複数のコンピュータ(6)を具備するコンピュータシステムを監視する方法である。本発明による監視方法は、異常のある通信に対応するフローエントリが設定された複数の前記スイッチから、当該通信に対する統計情報を収集するステップと、当該統計情報を用いて異常のある通信の原因箇所を特定するステップとを具備する。
本発明によれば、コンピュータシステムにおける通信障害や通信品質の劣化の原因を精度良く特定することができる。
又、コンピュータシステムにおける各スイッチ間の通信障害や通信品質の劣化を把握できる。
更に、スイッチ間の通信障害や通信品質の劣化の原因を特定するためのコストを削減できる。
図1は、本発明によるコンピュータシステムの実施の形態における構成を示す図である。 図2は、本発明によるデータ処理装置、記憶装置、オープンフロースイッチの実施の形態における構成を示す図である。 図3は、本発明による異常箇所特定処理の動作の一例を示すフロー図である。 図4は、本発明によって異常箇所が特定される通信経路の一例を示す図である。 図5は、本発明によるデータ処理装置によって収集される統計情報の一例を示す図である。 図6は、本発明による異常箇所特定処理の動作の他の一例を示すフロー図である。 図7は、本発明に係るオープンフロー制御を説明するための図である。
以下、添付図面を参照しながら本発明の実施の形態を説明する。図面において同一、又は類似の参照符号は、同一、類似、又は等価な構成要素を示す。
(コンピュータシステムの構成)
図1及び図2を参照して、本発明によるコンピュータシステムの構成を説明する。図1は、本発明によるコンピュータシステムの構成を示す図である。本発明によるコンピュータシステムは、通信ネットワークを介して接続される、複数のオープンフロースイッチ1−1〜1−n(以下、OFS1−1〜1−nと称す。nは自然数)、オープンフローコントローラ2(以下、OFC2と称す)、障害検知装置4、及びホストコンピュータ6−1〜6−m(以下、HOST6−1〜6−mと称す。mは2以上の整数)を具備する。尚、OFS1−1〜1−nを区分せずに説明する場合、OFS1と称す。又、HOST6−1〜6−mを区分せずに説明する場合、HOST6と称す。
HOST6は、図示しないCPU、主記憶装置、及び外部記憶装置を備えるコンピュータ装置であり、外部記憶装置に格納されたプログラムを実行することで、他のHOST6との間で通信を行う。HOST6間の通信は、OFS1を介して行われる。HOST6は、実行するプログラムに応じて、Webサーバ、ファイルサーバ、アプリケーションサーバ、あるいはクライアント端末等に例示される機能を実現する。例えば、HOST6がWebサーバとして機能する場合、図示しないクライアント端末の要求に従い、記憶装置(図示なし)内のHTML文書や画像データを他のHOST6(例示:クライアント端末)に転送する。
OFC2は、オープンフロー技術により、システム内の通信を制御するフロー制御部10を備える。オープンフロー技術とは、コントローラ(ここではOFC2)が、ルーティングポリシー(フローエントリ:フロー+アクション)に従い、マルチレイヤ及びフロー単位の経路情報をOFS1に設定し、経路制御やノード制御を行う技術を示す。これにより、経路制御機能がルータやスイッチから分離され、コントローラによる集中制御によって最適なルーティング、トラフィック管理が可能となる。オープンフロー技術が適用されるOFS1は、従来のルータやスイッチのようにパケットやフレームの単位ではなく、END2ENDのフローとして通信を取り扱う。
OFC2は、図示しないCPU及び記憶装置を備えるコンピュータによって実現される。フロー制御部10は、記憶装置に格納されたプロラムを実行することで実現され、OFS1毎にフローエントリ(フロー+アクション)を設定することで当該OFS1の動作(例えばパケットデータの中継動作)を制御する。
詳細には、フロー制御部10は、OFC2が保持するフローテーブル31に従ってOFS1に対するフローエントリ(フロー+アクション)の設定又は削除を行う。これにより、各OFS1が保持するフローテーブル11に対し、フローエントリ(フロー+アクション)が設定又は削除される。
フローエントリをOFS1に設定する場合、フロー制御部10は、フローエントリを設定したOFS1の識別子を、当該フローに対応づけてフローテーブル31に記録する。又、フローエントリをOFS1から削除する場合、当該フローエントリに対応付けられていたOFS1の識別子をフローテーブル31から削除する。
OFS1は、自身が保持するフローテーブル11を参照し、受信パケットのヘッダ情報に応じたフローエントリで規定されたアクション(例えばパケットデータの中継や破棄)を実行する。詳細には、OFS1は、受信パケットのヘッダ情報が、自身のフローテーブルに設定されたフローエントリで規定されたフローに適合(一致)する場合、当該フローエントリで規定されたアクションを実行する。一方、OFS1は、受信パケットのヘッダ情報が、フローテーブルに設定されたフローエントリで規定されたフローに適合(一致)しない場合、受信パケットをファーストパケットと認識し、当該ファーストパケットを受信したことをOFC2に通知するとともに、当該ヘッダ情報をOFC2に送信する。この際、OFC2は、通知されたヘッダ情報に対応するフローエントリ(フロー+アクション)をフローテーブル31から選択し、通知元のOFS1に設定する。
フローエントリには、フロー(パケットデータ)を特定するための情報(以下、フロー情報と称す)として、例えば、TCP/IPのパケットデータにおけるヘッダ情報に含まれる、OSI(Open Systems Interconnection)参照モデルのレイヤ1からレイヤ4のアドレスや識別子の組み合わせが規定される。例えば、図7に示すレイヤ1の物理ポート、レイヤ2のMACアドレス、レイヤ3のIPアドレス、レイヤ4のポート番号、VLANタグのそれぞれの組み合わせがフロー情報としてフローエントリに設定される。ここで、フローエントリに設定されるポート番号等の識別子やアドレス等は、所定の範囲が設定されても構わない。又、フロー情報として、宛先や送信元のアドレス等を区別してフローエントリに設定されることが好ましい。例えば、MAC宛先アドレスの範囲や、接続先のアプリケーションを特定する宛先ポート番号の範囲、接続元のアプリケーションを特定する送信元ポート番号の範囲がフロー情報としてフローエントリに設定される。更に、データ転送プロトコルを特定する識別子をフロー情報としてフローエントリに設定してもよい。
フローエントリで規定されるアクションは、例えばTCP/ IPのパケットデータを処理する方法が規定される。例えば、受信パケットデータを中継するか否かを示す情報や、中継する場合はその送信先が設定される。又、アクションは、パケットデータの複製や、破棄することを指示する情報が設定されてもよい。
具体例として、フロー情報:MAC送信元アドレス(L2)が“A1〜A3”、IP宛先アドレス(L3)が“B1〜B3”、プロトコルが“http”、宛先ポート番号(L4)が“C1〜C3”と、アクション:“HIST6−1に中継”とが対応付けられているフローエントリが設定されたOFS1−1の動作を説明する。MAC送信元アドレス(L2)が“A1”、IP宛先アドレス(L3)が“B2”、プロトコルが“http”、宛先ポート番号(L4)が“C3”であるパケットデータを受信した場合、OFS1は、ヘッダ情報が当該フローエントリに適合(一致)していると判断し、受信したパケットデータをHOST6−1に転送する。一方、MAC送信元アドレス(L2)が“A5”、IP宛先アドレス(L3)が“B2”、プロトコルが“http”、宛先ポート番号(L4)が“C4”であるパケットデータを受信した場合、OFS1−1は、ヘッダ情報が当該フローエントリに適合しないと判断し、ファーストパケット受信の旨をOFC2に通知するとともに当該ヘッダ情報をOFC2に送信する。OFC2は、自身が保持するフローテーブルから、受信したヘッダ情報に対応するフローエントリを抽出し、OFS1−1に送信する。尚、OFC2は、フローテーブルに適切なフローがない場合は、新たにフローエントリを作成してもよい。OFS1−1は送信されたフローエントリを自身のフローテーブルに設定し、これに従った、受信パケットの中継処理を実行する。
本発明によるコンピュータシステムでは、上述のようなオープンフロー技術によってフロー制御が行われている。このため、フローエントリよってHOST間の通信を特定できるとともに、フローエントリを指定することで特定の通信に対するフロー制御や品質監視を行うことが可能となる。
本発明によるOFC2は、上述のOFCの機能の他に各OFS1から統計情報を収集する機能、及び統計情報を利用して通信障害や品質劣化(以下、異常と称す)の原因箇所(以下、異常箇所と称す)を特定する機能を備える。詳細には、OFC2は、OFS1から統計情報を収集し、これを用いて異常箇所を特定するデータ処理装置20、OFS1から収集した統計情報を格納する記憶装置30、収集した統計情報や、特定された異常箇所を視認可能に表示する出力装置40(例えば、モニタ装置)を備える。ただし、これらの機能(データ処理装置20、記憶装置30、及び出力装置40)は、OFC2とは別の装置として、システム内に設けられても良い。
図2は、本発明によるデータ処理装置20、記憶装置30、OFS1の実施の形態における構成を示す図である。データ処理装置20は、図示しないCPU及び記憶装置を備え、記憶装置に格納されたプログラムをCPUによって実行することで統計情報収集部21、フロー経路計算部22、異常箇所計算部23の各機能を実現する。データ処理装置20は、フロー制御部10と共通のCPU及び記憶装置によって実現されても良い。
統計情報収集部21は、異常のあった通信フローに対応するフローエントリが設定されたOFS1を統計情報の収集対象スイッチとして指定し、当該フローエントリに適合するフロー(パケットデータ)の統計情報を収集する。この際、統計情報収集部21は、当該フローの統計情報を収集するためのフローエントリを生成し、指定した収集対象スイッチに設定する。尚、統計情報を収集するためのフローエントリは、予め用意されたフローテーブルから抽出しても良い。記憶装置30は、統計情報を格納する領域として統計情報記憶部31を有する。統計情報収集部21によって収集された統計情報は、収集元のOFS1と対応付けられて統計情報記憶部31に記録される。
収集対象スイッチとして指定されたOFS1は、設定された統計情報収集用のフローエントリに適合するパケットの処理回数(例えば転送回数)を、統計情報としてデータ処理装置20に送信する。統計情報収集部21は、統計情報を収集する期間をOFS1に指定することが好ましい。この場合、OFS1は、指定された期間内における統計情報を取得し、データ処理装置20に送信する。
例えば、sFlowでは、所定のサンプリング周期で取得されたパケットを解析することで、フロー毎の統計情報を求めている。この場合、データ転送のタイミングによっては、実際のトラフィック状況と異なる結果となる場合がある。一方、本発明によるOFS1は、フローに応じた処理毎に、パケットの統計情報を収集している。このため、監視対象のフローに対する実際のトラフィック状況に応じた統計情報を得ることができる。又、OFS1は、フローテーブル11に適合するフローのみを統計情報の収集対象とするため、sFlowのようにサンプリング処理を行うことなく処理負荷が低減される。
フロー経路計算部22は、記憶装置30におけるトポロジ情報記憶部33から取得した各OFSの物理的な接続関係(トポロジ情報)を用いて、障害が発生している通信フローが通過するOFS1の経路を算出する。算出された経路は経路情報として異常箇所計算部23に出力される。
トポロジ情報は、OFS1やノード(例えば、HOST6)、外部ネットワーク(例えばインターネット)等の接続状況に関する情報を含む。具体的には、トポロジ情報として、スイッチやノードを特定する装置識別子に、当該装置のポート数やポート接続先情報が対応付けられて記憶装置に記録される。ポート接続先情報は、接続相手を特定する接続種別(スイッチ/ノード/外部ネットワーク)や接続先を特定する情報(スイッチの場合はスイッチID、ノードの場合はMACアドレス、外部ネットワークの場合は外部ネットワークID)が含まれる。
通信経路情報は、通信経路を特定するための情報である。詳細には、通信経路情報として、ノード(例えばHOST6)、あるいは、外部ネットワークインタフェースを端点として指定する端点情報と、通過するOFS1とポートの対群を指定する通過スイッチ情報とが対応付けられる。例えば、2つのHOST6を接続する経路である場合、2つのHOST6のそれぞれのMACアドレスが端点情報として記録される。通過スイッチ情報は、端点情報で示される端点間の通信経路上に設けられるOFS1の識別子を含む。
異常箇所計算部23は、障害が発生、又は品質が低下している通信フローの経路上の統計情報を分析し、パケットロスが発生している箇所を特定する。異常箇所計算部23は、異常のある通信経路において、隣接する2つのスイッチから収集された統計情報の比較結果に応じて当該スイッチ間におけるパケットロスを算出する。又、通信経路内の各区間におけるパケットロスが大きく変化する区間を、異常箇所として特定する。異常箇所や通信経路上における各区間のパケットロスは、出力装置40によって視認可能に出力される。
本発明では、フローを指定することで、当該フローに対応するフローエントリが設定されたOFS1及び通信経路を一意に特定することができる。このため、障害が発生したフローを特定することで、異常のある通信経路、及び異常通信経路上のOFSを特定することができる。又、特定したOFSに対して統計情報を収集するためのフローエントリを設定することで、異常通信経路上のフローに対する統計情報のみを選択して収集することができる。更に、通信経路上のOFS1から収集した統計情報を比較することで、パケットロスの大きさを区間毎に確認することができる。更に、パケットロスの変化が大きい箇所を特定できるため、当該箇所を通信障害や品質低下の原因箇所として特定することができる。
データ処理装置20に対する通信の異常通知は、異常検知装置4によって行われる。異常検知装置4は、一般的に用いられるネットワーク監視機器と同様に、ネットワーク内の品質低下や、障害発生を検出する。あるいは、異常検知装置4は、HOST6のユーザからの苦情(例えば、所定のコンピュータからのFTPが遅いや、ストリーミングが乱れる等)を通信異常として検知してもよい。又、本発明による異常検知装置4は、異常通知とともに、異常のある通信で転送されるパケットデータのヘッダ情報をデータ処理装置20に通知する。通知されるヘッダ情報は、例えば、送信元IPアドレス、宛先IPアドレス、プロトコル番号、送信元ポート番号、宛先ポート番号を含む。
(コンピュータシステムにおける異常箇所特定動作)
次に、図3から図6を参照して、本発明による異常箇所特定処理の動作の詳細を説明する。図3は、本発明による異常箇所特定処理の動作の一例を示すフロー図である。
障害検知装置4は、障害が発生したフローのヘッダ情報(送信元IPアドレス、宛先IPアドレス、プロトコル番号、送信元ポート番号、宛先ポート番号)を障害箇所計算部23に通知する(ステップS11)。異常箇所計算部23は、通知されたヘッダ情報に基づき、統計情報収集用のフローエントリを計算する(ステップS12)。
ステップS12では、障害箇所計算部23は、障害が発生したフローのヘッダ情報に一致するフロー情報と、所定の統計情報(例えば受信パケット数)を収集するためのアクションとが対応付けられたフローエントリをフロー情報統計情報収集用のフローエントリとして生成する。例えば、統計情報収集用のフローエントリには、フロー情報として、送信元IPアドレス:HOST6−1、宛先IPアドレス:HOST6−2、プロトコル番号:6、送信元ポート番号:*、宛先ポート番号:80が設定され、アクションとして受信パケット数の収集する処理が設定される。
次に、異常箇所計算部23は、フローテーブル31を参照して、障害が発生したフローに対応するフローエントリが設定されているOFS1を特定し、これを統計情報収集対象スイッチとして設定する(ステップS13)。この際、フロー経路計算部22は、障害が発生したフローに対応するOFS1(統計情報収集対象スイッチ)を始点から終点まで順に辿ることで異常のある通信経路を特定することができる。
統計情報収集対象スイッチが特定されると、統計情報の収集が行われる(ステップS14)。ステップS14において、統計情報収集部21は、異常箇所計算部23から通知された統計情報収集用のフローエントリを、統計情報収集対象スイッチに設定(指定)されたOFS1に指定する。ここでは、OFS1−1〜1−5が統計情報収集対象スイッチに設定(指定)される。OFS1−1〜1−5は、統計情報収集部12から指定された期間中、設定された統計情報収集用のフローエントリに適合する受信パケット数を計数し、統計情報として統計情報収集部21に送信する。ここで、各OFS1における統計情報の取得期間は、同一時刻を開始時刻とする同じ期間が設定されることが好ましい。統計情報収集部21は、OFS1−1〜1−5から送信された統計情報をそれぞれの識別子に対応付けて統計情報記憶部32に記録する。
図5は、本発明によるデータ処理装置20によって収集される統計情報の一例を示す図である。図5に示す一例では、統計情報として、受信パケット数が収集される。ここで収集される統計情報は、送信元IPアドレスがHOST6−1であるフローエントリに対応するため、HOST6−1側から送信されたパケットの受信数が収集される。図5を参照して、OFS1−1〜1−3における受信パケット数は、“9999”であり、OFS1−3〜1−5における受信パケット数は“555”である。
一方、ステップS13において、フロー経路計算部22は、トポロジ情報記憶部33から各OFSの物理的な接続関係を解析しフローの経路(異常通信経路)を算出している。詳細には、フロー経路計算部22は、異常検知装置4からのヘッダ情報に基づいて端点を特定し、統計情報収集対象スイッチを、端点間の経路上のスイッチとして通信経路(異常通信経路)を特定する。この結果、例えば、図4に示すような通信経路が算出される。ここでは、HOST6−1、6−2を端点とし、OFS1−1〜1−5を通過する経路が算出される。
統計情報の収集と異常通信経路の計算が終了すると、異常箇所計算部23は、異常通信経路上において隣接する2つのスイッチ間の統計情報を比較し、異常箇所を特定する(ステップS16)。図4及び図5に示す一例では、HOST6−1側からの受信パケット数が、OFS1−2とOFS1−3との間で大きく変化している。この場合、OFS1−2とOFS1−3との間で大きなパケットロスが生じていると判定され、当該区間が通信異常の原因箇所と特定される。
図5に示す統計情報の一例では、隣接するスイッチ間における統計情報に差が生じる箇所が1区間のみであるが、これに限らず、複数の箇所で差が生じる場合がある。この場合、それぞれの差は、それぞれのOFS間におけるパケットロスとして表示することができる。又、このパケットロスが最大の区間を異常箇所として特定してもよいし、パケットロスが所定の閾値異常の区間を異常箇所として特定してもよい。ここで、異常箇所を判定するための閾値は、予め設定された値でも、収集した統計情報に基づいて設定された値(例えば偏差値等)でも良い。
図3に示す一例では、異常のある通信経路上における各OFS間におけるパケットロスを精度よく計算し、表示することができる。一方、図6に示すフローのように、通信経路における送信元の端点から順に、OFS1間のパケットロスを計算することで、早期に異常箇所のみを検出することが可能となる。
図6は、本発明による異常箇所特定処理の動作の他の一例を示すフロー図である。ステップS11〜S14までは、上述(図3)と同様な動作が行われる。
統計情報の収集と通信経路の計算が終了すると、異常箇所計算部23は、通信経路上において隣接するスイッチ間の統計情報を通信経路の開始点から順に比較し、スイッチ間のパケットロスを計算する。(ステップS21)。詳細には、異常箇所計算部23は、特定した異常通信経路の開始点からから最も近いOFS1−1とOFS1−2の受信パケット数の差を当該区間におけるパケットロスとして算出する。
次に、異常箇所計算部23は、パケットロスが所定の閾値以上となるかを判定する(ステップS22)。例えば、OFS1−1とOFS1−2の間のパケットロスは“0”である。ここで、異常判定のための閾値が、“2000”である場合、この区間は、正常区間と判定され、ステップS21に移行する。
ステップS21、S22の処理は、OFS間のパケットロスが閾値を越えるまで続けられる。ここで、OFS1−2とOFS1−2との間のパケットロスは、“9944”となり閾値“2000”より大きいため、この区間が異常箇所として特定される(ステップS23)。
以上のように、図6に示す方法では、異常箇所が特定されるまで統計情報の比較判定が行われ、特定後の比較判定処理が省略されるため、データ処理装置20における処理負荷が軽減されるとともに、障害検出速度が向上する。
従来技術によれば、数千台規模のコンピュータ装置を有するネットワークにおいて障害が発生した場合、原因となっている機器とポートを特定することは通常困難である。一方、本発明では、障害が発生したフローに対応するフローエントリを特定することで統計情報の収集対象となる通信経路(スイッチ)及びフロー(パケットデータ)を特定できる。このため、障害発生箇所を特定するために収集するデータ量や計算量は大幅に減少する。又、指定したフロー対する全ての統計情報を収集するため、従来のサンプリングによる統計情報の収集比べて精確なパケットロス等の検証及び異常箇所の特定を行うことができる。
又、本発明によれば、TRAP、SYSLOG等のアラート監視や死活監視では検知できないサイレント障害であっても、その原因箇所を特定することができる。その理由は、TRAPやICMP(Internet Control Message Protocol)ではなくパケットロスを確認することで原因箇所を特定しているためである。
以上、本発明の実施の形態を詳述してきたが、具体的な構成は上記実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲の変更があっても本発明に含まれる。
1、1−1〜1−n:オープンフロースイッチ(OFS)
2:オープンフローコントローラ(OFC)
4:異常検知装置
6、6−1〜6−m:ホストコンピュータ(HOST)
10:フロー制御部
11、31:フローテーブル
20:データ処理装置
21:統計情報収集部
22:フロー経路計算部
23:異常箇所計算部
30:記憶装置
32:統計情報記憶部
33:トポロジ情報記憶部
40:出力装置

Claims (10)

  1. コントローラと、
    前記コントローラによってフローエントリが設定されたフローテーブルを保持し、前記フローエントリに適合する受信パケットに対し、前記フローエントリにおいてアクションとして規定された中継動作を行うスイッチと、
    前記スイッチは、異常のある通信に対応するフローエントリにおいてアクションとして規定された統計情報の収集を実行し、
    前記スイッチを介して通信を行う複数のコンピュータと、
    前記異常のある通信に対応するフローエントリが設定された複数の前記スイッチから、前記異常のある通信に対する統計情報を収集し、前記統計情報に応じて前記異常のある通信の原因箇所を特定するデータ処理装置と
    を具備する
    コンピュータシステム。
  2. 請求項1に記載のコンピュータシステムにおいて、
    前記データ処理装置は、
    前記異常のある通信に対応するフローエントリと、前記複数のコンピュータと前記スイッチとの接続関係を示すトポロジ情報とを用いて、前記異常のある通信の経路を計算する通信経路計算部と、
    前記通信経路において、隣接する2つのスイッチのそれぞれから収集された統計情報の差が所定の閾値以上の箇所を、前記原因箇所として特定する異常箇所計算部と
    を備える
    コンピュータシステム。
  3. 請求項1又は2に記載のコンピュータシステムにおいて、
    前記データ処理装置は、前記異常のある通信に対応するフローエントリが設定されたスイッチに対し、統計情報収集用のフローエントリを設定する統計情報収集部を備え、
    前記統計情報収集用のフローエントリが設定されたスイッチは、前記統計情報収集用のフローエントリに適合するパケットの、所定の期間内における統計情報を前記データ処理装置に送信する
    コンピュータシステム。
  4. 請求項1から3のいずれか1項に記載のコンピュータシステムにおいて、
    異常のある通信を検知し、前記異常のある通信において転送されるデータのヘッダ情報を前記データ処理装置に通知する異常検知装置を更に具備し、
    前記データ処理装置は、前記ヘッダ情報に適合するフローエントリを前記異常のある通信に対応するフローエントリとして特定する
    コンピュータシステム。
  5. 請求項1から4のいずれか1項に記載のコンピュータシステムにおいて、
    前記統計情報は、前記スイッチにおいて、前記データ処理装置によって指定されたフローに適合する受信パケット数である
    コンピュータシステム。
  6. コントローラと、
    前記コントローラによってフローエントリが設定されたフローテーブルを保持し、前記フローエントリに適合する受信パケットに対し、前記フローエントリにおいてアクションとして規定された中継動作を行うスイッチと、
    前記スイッチは、異常のある通信に対応するフローエントリにおいてアクションとして規定された統計情報の収集を実行し、
    前記スイッチを介して通信を行う複数のコンピュータと、
    を具備するコンピュータシステムの監視方法において、
    前記異常のある通信に対応するフローエントリが設定された複数の前記スイッチから、前記異常のある通信に対する統計情報を収集するステップと、
    前記統計情報を用いて前記異常のある通信の原因箇所を特定するステップと
    を具備する
    コンピュータシステムの監視方法。
  7. 請求項6に記載のコンピュータシステムの監視方法において、
    前記特定するステップは、
    前記異常のある通信に対応するフローエントリと、前記複数のコンピュータと前記スイッチとの接続関係を示すトポロジ情報とを用いて、前記異常のある通信の経路を計算するステップと、
    前記通信経路において、隣接する2つのスイッチのそれぞれから収集された統計情報の差を計算するステップと、
    前記差が所定の閾値以上の箇所を、前記原因箇所として特定するステップと
    を備える
    コンピュータシステムの監視方法。
  8. 請求項6又は7に記載のコンピュータシステムの監視方法において、
    前記収集するステップは、
    前記異常のある通信に対応するフローエントリが設定されたスイッチに対し、統計情報収集用のフローエントリを設定するステップと、
    前記統計情報収集用のフローエントリが設定されたスイッチが、前記統計情報収集用のフローエントリに適合するパケットの、所定の期間内における統計情報を前記データ処理装置に送信するステップと
    を備える
    コンピュータシステムの監視方法。
  9. 請求項6から8のいずれか1項に記載のコンピュータシステムの監視方法において、
    異常のある通信を検知するステップと、
    前記異常のある通信において転送されるデータのヘッダ情報を前記データ処理装置に通知するステップと
    を更に具備し、
    前記特定するステップは、前記ヘッダ情報に適合するフローエントリを前記異常のある通信に対応するフローエントリとして特定するステップを備える
    コンピュータシステムの監視方法。
  10. 請求項6から9のいずれか1項に記載のコンピュータシステムの監視方法において、
    前記統計情報は、前記スイッチにおいて、前記異常のある通信に対応するフローエントリに適合する受信パケット数である
    コンピュータシステムの監視方法。
JP2010006918A 2010-01-15 2010-01-15 コンピュータシステム、及びコンピュータシステムの監視方法 Expired - Fee Related JP5207082B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010006918A JP5207082B2 (ja) 2010-01-15 2010-01-15 コンピュータシステム、及びコンピュータシステムの監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010006918A JP5207082B2 (ja) 2010-01-15 2010-01-15 コンピュータシステム、及びコンピュータシステムの監視方法

Publications (2)

Publication Number Publication Date
JP2011146982A JP2011146982A (ja) 2011-07-28
JP5207082B2 true JP5207082B2 (ja) 2013-06-12

Family

ID=44461433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010006918A Expired - Fee Related JP5207082B2 (ja) 2010-01-15 2010-01-15 コンピュータシステム、及びコンピュータシステムの監視方法

Country Status (1)

Country Link
JP (1) JP5207082B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013057960A1 (en) 2011-10-21 2013-04-25 Nec Corporation Control apparatus for forwarding apparatus, control method for forwarding apparatus, communication system, and program
JP5637971B2 (ja) * 2011-11-16 2014-12-10 エヌ・ティ・ティ・コムウェア株式会社 監視装置、監視方法及びプログラム
JP5684748B2 (ja) * 2012-02-28 2015-03-18 日本電信電話株式会社 ネットワーク品質監視装置及びネットワーク品質監視方法
US9036638B2 (en) 2012-08-09 2015-05-19 International Business Machines Corporation Avoiding unknown unicast floods resulting from MAC address table overflows
WO2014038143A1 (en) * 2012-09-06 2014-03-13 Nec Corporation Flow information collecting system, method and program
KR101742894B1 (ko) 2012-12-19 2017-06-01 닛본 덴끼 가부시끼가이샤 통신 노드, 제어 장치, 통신 시스템, 패킷 처리 방법, 통신 노드 제어 방법 및 프로그램
JP2014171088A (ja) * 2013-03-04 2014-09-18 Ntt Comware Corp ネットワーク監視装置、サービス提供システム、ネットワーク監視方法、及びネットワーク監視プログラム
US9954781B2 (en) 2013-03-15 2018-04-24 International Business Machines Corporation Adaptive setting of the quantized congestion notification equilibrium setpoint in converged enhanced Ethernet networks
US9401857B2 (en) 2013-03-15 2016-07-26 International Business Machines Corporation Coherent load monitoring of physical and virtual networks with synchronous status acquisition
US9219689B2 (en) 2013-03-15 2015-12-22 International Business Machines Corporation Source-driven switch probing with feedback request
US9253096B2 (en) 2013-03-15 2016-02-02 International Business Machines Corporation Bypassing congestion points in a converged enhanced ethernet fabric
JP5894963B2 (ja) * 2013-04-30 2016-03-30 株式会社日立製作所 分析サーバ及び分析方法
JP6089940B2 (ja) 2013-05-08 2017-03-08 富士通株式会社 障害判定プログラム、装置、システム、及び方法
JP6287518B2 (ja) 2014-04-14 2018-03-07 富士通株式会社 オープンフロースイッチおよびオープンフローネットワークの障害復旧方法
WO2021240663A1 (ja) * 2020-05-26 2021-12-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 通信ログ集約装置および通信ログ集約方法
US20230198831A1 (en) * 2020-05-27 2023-06-22 Nec Corporation Failure detection system, failure recovery system, failure detection method, and non-transitory computer readable medium

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10150445A (ja) * 1996-11-19 1998-06-02 Fujitsu Ltd セルロス検出方法
JP2001077814A (ja) * 1999-09-08 2001-03-23 Mitsubishi Electric Corp ネットワーク障害解析支援装置、およびネットワーク障害解析方法、ならびに障害解析プログラムを記録した記録媒体
JP3994614B2 (ja) * 2000-03-13 2007-10-24 株式会社日立製作所 パケット交換機、ネットワーク監視システム及びネットワーク監視方法
JP4409394B2 (ja) * 2004-09-17 2010-02-03 富士通株式会社 通信システム管理装置
JP4244356B2 (ja) * 2006-08-31 2009-03-25 日本電信電話株式会社 トラヒック分析・制御システム

Also Published As

Publication number Publication date
JP2011146982A (ja) 2011-07-28

Similar Documents

Publication Publication Date Title
JP5207082B2 (ja) コンピュータシステム、及びコンピュータシステムの監視方法
JP4774357B2 (ja) 統計情報収集システム及び統計情報収集装置
JP5300076B2 (ja) コンピュータシステム、及びコンピュータシステムの監視方法
JP4547340B2 (ja) トラフィック制御方式、装置及びシステム
WO2011155510A1 (ja) 通信システム、制御装置、パケットキャプチャ方法およびプログラム
JP5120784B2 (ja) 通信ネットワークシステムにおけるネットワーク上の品質劣化箇所を推定する方法
EP2081321A2 (en) Sampling apparatus distinguishing a failure in a network even by using a single sampling and a method therefor
US20160149784A1 (en) Passive Performance Measurement for Inline Service Chaining
JP4764810B2 (ja) 異常トラヒック監視装置、エントリ管理装置およびネットワークシステム
US9019817B2 (en) Autonomic network management system
CN112311580B (zh) 报文传输路径确定方法、装置及系统、计算机存储介质
EP2608461A1 (en) Communication device, communication system, communication method, and recording medium
US9602374B2 (en) Systems and methods for collecting and analyzing data to determine link quality and stability in layer two networks
EP2557731B1 (en) Method and system for independently implementing fault location by intermediate node
EP3222006A1 (en) Passive performance measurement for inline service chaining
WO2011118575A1 (ja) 通信システム、制御装置およびトラヒック監視方法
JP2010088031A (ja) アンダーレイネットワーク障害検知方法及びネットワークシステム
JP4412031B2 (ja) ネットワーク監視システム及びその方法、プログラム
JP2012182739A (ja) 異常リンク推定装置、異常リンク推定方法、プログラムおよび異常リンク推定システム
JP2013223191A (ja) 通信システム、制御装置、パケット採取方法及びプログラム
US7898955B1 (en) System and method for real-time diagnosis of routing problems
CN114465897A (zh) 业务流中数据包的监控方法、装置和系统
JP3953999B2 (ja) 輻輳検知装置、tcpトラヒックの輻輳検知方法およびプログラム
JP3961415B2 (ja) プロトコル不具合自動検出方法、及び、プロトコル不具合自動検出装置
WO2011157108A2 (zh) 一种网络传输特性分析方法、装置及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160301

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5207082

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees