JPWO2013018183A1 - システム制御装置、電力制御方法及び電子システム - Google Patents
システム制御装置、電力制御方法及び電子システム Download PDFInfo
- Publication number
- JPWO2013018183A1 JPWO2013018183A1 JP2013526646A JP2013526646A JPWO2013018183A1 JP WO2013018183 A1 JPWO2013018183 A1 JP WO2013018183A1 JP 2013526646 A JP2013526646 A JP 2013526646A JP 2013526646 A JP2013526646 A JP 2013526646A JP WO2013018183 A1 JPWO2013018183 A1 JP WO2013018183A1
- Authority
- JP
- Japan
- Prior art keywords
- system control
- control device
- mutual monitoring
- unit
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Abstract
ネットワークを介して他の情報処理装置と接続された情報処理装置に含まれるSP(100a)は、相互監視部(205)と、電源制御部(206)とを有する。相互監視部(205)は、他の情報処理装置が有する運用系のSPと生存状態を相互に監視する。電源制御部(206)は、相互監視部(205)が他の情報処理装置が有する運用系のSPの生存状態の監視を開始した場合、情報処理装置が有する他のSPの電源をオフに制御する。
Description
本発明は、システム制御装置、電力制御方法及び電子システムに関する。
従来、複数の情報処理装置を有するスーパーコンピュータでは、部品の故障が起きてもシステムを停止させずに動作し続けられるように、大部分の部品が二重化または冗長化されている。このようなスーパーコンピュータを構築する技術として、例えば、HPC(High Performance Computer:以降、HPCと記す)がある。
例えば、HPCにおいて、情報処理装置の制御を行うサービスプロセッサ(Service Processor:以降、SPと記す)が二重化されており、情報処理装置は、アクティブ側SPとスタンバイ側SPとを有する。
アクティブ側SPは、運用系として情報処理装置の制御を行う。一方、スタンバイ側SPは待機系であり、通常時には情報処理装置の制御を行わず待機している。そして、スタンバイ側SPは、アクティブ側SPの生存状態を常時監視し、アクティブ側が故障した場合に、自身をアクティブ側に切り替えることで、情報処理装置の動作を継続させる。
また、二重化されたSPに加えて、監視を専用に行う装置を用いて情報処理装置の生存を監視する技術も知られている。
しかしながら、上述した従来の技術では、待機系であるシステム制御装置が無駄に電力を消費するという課題がある。
具体的には、従来の技術では、スタンバイ側SPは、通常時には待機しているだけであり、システムの制御を実行していない。このため、システムに障害が生じなければ、スタンバイ側SPは無駄に電力を消費するだけであるが、部品が故障した場合のシステムの可用性を想定すると、HPCは、SPの冗長構成や二重化構成を解除することはできない。このため、スタンバイ側SPの電源は常に入ったままにすることになる。また、監視を専用に行う装置を用いた場合でも同様に電源は常に入ったままである。
さらに、HPCは高性能を求められており、データセンター全体として数百台の装置が導入される場合がある。このように多数の装置が導入されると、消費電力は非常に大きくなるので、装置1台あたりの消費電力を減らすことが望まれている。
本発明の1つの側面では、待機系であるシステム制御装置の消費電力を削減することができるシステム制御装置、電力制御方法及び電子システムを提供することを目的とする。
第1の案では、ネットワークを介して他の電子装置と接続された電子装置に含まれるシステム制御装置である。システム制御装置は、他の電子装置が有する運用系のシステム制御装置と生存状態を相互に監視する。そして、システム制御装置は、他の電子装置が有する運用系のシステム制御装置の生存状態の監視を開始した場合、電子装置が有する他のシステム制御装置の電源をオフに制御する。
本発明の1側面では、待機系であるシステム制御装置の消費電力を削減することができる。
以下に、システム制御装置、電力制御方法及び電子システムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
実施例1では、システム制御装置の一例として、サービスプロセッサ(Service Processor:以降、SPと記す)を例に挙げて説明する。このSPは、複数の情報処理装置を有する、HPC(High Performance Computer:以降、HPCと記す)において、各情報処理装置に設けられる。
以下では、図1から図15を用いて、HPCのシステム構成例、実施例1に係るSPの構成、実施例1に係るSPによる処理動作、実施例1に係るSPによる処理の処理手順、実施例1の効果を順に説明する。
[HPCのシステム構成例]
図1は、HPCのシステム構成例を示す図である。図1に示すように、HPC1は、情報処理装置98、99、100、101、102を有する。そして、各情報処理装置は、ネットワークを介して他の情報処理装置と互いに通信可能に接続される。なお、図1に示すHPCのシステム構成例は、あくまで一例であり、情報処理装置の台数はこれに限定されるものではない。
図1は、HPCのシステム構成例を示す図である。図1に示すように、HPC1は、情報処理装置98、99、100、101、102を有する。そして、各情報処理装置は、ネットワークを介して他の情報処理装置と互いに通信可能に接続される。なお、図1に示すHPCのシステム構成例は、あくまで一例であり、情報処理装置の台数はこれに限定されるものではない。
情報処理装置98が有するSP98a及びSP98bは、情報処理装置98とは独立して動作し、情報処理装置98の制御を行う。ここで、SP98a及びSP98bのうち一方が情報処理装置98の制御を行う運用系として動作し、他方は情報処理装置98の制御を行わずに待機する待機系である。
そして、待機系であるSPは、運用系であるSPが故障した場合に自身を運用系に切り替えて情報処理装置98を制御する動作を継続する。すなわち、情報処理装置98において、SPは、SP98aとSP98bとによって二重化されている。なお、以下の説明では、特記しない限りSP98aを運用系、SP98bを待機系として説明する。
また、情報処理装置99、100、101の構成は、情報処理装置98の構成と同様であるので、情報処理装置99、100、101の構成については、詳細な説明を省略する。なお、情報処理装置99が有するSP99aを運用系、SP99bを待機系とし、情報処理装置100が有するSP100aを運用系、SP100bを待機系とし、情報処理装置101が有するSP101aを運用系、SP101bを待機系として説明する。
情報処理装置102は、情報処理装置98と異なりSP102aのみを有する。すなわち、情報処理装置102において、SPは、二重化されていない。なお、SP102aは常時運用系として動作するが、以下の説明における運用系SPには、SP102aを含まないものとして説明する。
また、図1に示すSP98a、SP98b、SP99a、SP99b、SP100a、SP100b、SP101a、SP101bは、装置タイプがAであるものとし、SP102aは装置タイプがBであるとする。すなわち、SP98a、SP98b、SP99a、SP99b、SP100a、SP100b、SP101a、SP101bは、同種の装置である。
このようなHPC1において、同種の各運用系SPは、所定のルールに従って選択した他の運用系SPと生存状態を相互に監視する。すなわち、同種の各運用系SPは、他の運用系SPによって二重化される。そして、各運用系SPが他の運用系SPと生存状態を相互監視することで、各待機系SPは、自身に対する運用系SPの監視をしなくてもよくなる。この結果、各待機系SPの電源がオフに制御される。
[情報処理装置の構成]
次に、図2を用いて、情報処理装置98、99、100、101、102の構成を説明する。図2は、情報処理装置の構成を示すブロック図である。図2に示すように、情報処理装置98は、SP98a、SP98b、システムボード98c、クロスバボード98d、IO(Input Output)ボード98e、パネル98f、ファン98g、電源98hを有する。
次に、図2を用いて、情報処理装置98、99、100、101、102の構成を説明する。図2は、情報処理装置の構成を示すブロック図である。図2に示すように、情報処理装置98は、SP98a、SP98b、システムボード98c、クロスバボード98d、IO(Input Output)ボード98e、パネル98f、ファン98g、電源98hを有する。
なお、ここでは、情報処理装置98を例に情報処理装置の構成を説明するが、情報処理装置99、100、101の構成についても情報処理装置98の構成と同様である。また、情報処理装置102の構成は、SPが二重化されていない点を除けば、情報処理装置98の構成と同様である。また、SP98a及びSP98bについては後述するので、ここでは、システムボード98c、クロスバボード98d、IOボード98e、パネル98f、ファン98g、電源98hについて説明する。
システムボード98cは、複数のCPUとDIMM(Dual Inline Memory Module)とを有し、各種演算処理を実行する。情報処理装置98は、このシステムボード98cを複数有し、クロスバボード98dを介して各システムボード間のデータをやり取りする。
IO(Input Output)ボード98eは、PCI(Peripheral Component Interconnect)スロットを有し、システムボード98cと、ネットワークによって接続される外部のIO装置との間のデータの入出力を制御する。また、IOボード98eは、ハードディスクを内蔵していてもよい。
パネル98fは、電源98hをオン、オフに制御する操作を利用者から受け付けるインターフェースを提供する。また、パネル98fは、情報処理装置98の稼動時間など情報処理装置98内部の情報を利用者が視認可能に出力する。
ファン98gは、情報処理装置98が有するシステムボード98c、クロスバボード98d、IOボード98eなどの電子機器を冷却する。
電源98hは、情報処理装置に電力を供給する。この電源98hは、予備の電源を有していてもよい。
[実施例1に係るSPの構成]
次に、図3を用いて、実施例1に係るSP98a、SP98b、SP99a、SP99b、SP100a、SP100b、SP101a、SP101bの構成を説明する。ここでは、図1に示すSP100aの構成を例にして説明する。図3は、実施例1に係るSPの構成を示す機能ブロック図である。なお、SP98a、SP98b、SP99a、SP99b、SP100b、SP101a、SP101bの構成は、SP98aの構成と同様である。
次に、図3を用いて、実施例1に係るSP98a、SP98b、SP99a、SP99b、SP100a、SP100b、SP101a、SP101bの構成を説明する。ここでは、図1に示すSP100aの構成を例にして説明する。図3は、実施例1に係るSPの構成を示す機能ブロック図である。なお、SP98a、SP98b、SP99a、SP99b、SP100b、SP101a、SP101bの構成は、SP98aの構成と同様である。
図3に示すように、SP100aは、通信部201、相互監視テーブル202、監視対象特定部203、監視依頼応答部204、相互監視部205、電源制御部206、異常処理部207、保守部208、システム制御部209、電源210を有する。ここで、電源制御部206は、自装置と同じ情報処理装置内のSP100bが有する電源とバスにより接続される。また、電源210は、自装置と同じ情報処理装置内のSP100bが有する電源制御部とバスにより接続される。
通信部201は、ネットワークを介して接続されるSPとの情報のやり取りを制御する。例えば、通信部201は、後述する監視対象特定部203によって生成されたパケットをSP99aに送信する。また、通信部201は、SP99aから受信したパケットを後述する監視対象特定部203に出力する。
相互監視テーブル202は、自装置が相互監視しているSPなどの情報を記憶する。図4を用いて、相互監視テーブル202として記憶される情報の一例を説明する。図4は、相互監視テーブルとして記憶される情報の一例を示す図である。図4に示すように、相互監視テーブル202は、「IPアドレス」、「装置の種別」、「相互監視対象」を対応付けて記憶する。
ここで、相互監視テーブル202として記憶される「IPアドレス」は、各SPに割り当てられたIP(Internet Protocol)アドレスを示す。例えば、「IPアドレス」には、「192.168.1.98」、「192.168.1.99」、「192.168.1.100」などが格納される。
また、相互監視テーブル202として記憶される「装置の種別」は、IPアドレスで紐付けられるSPが自装置と同種の装置であるか否かを示す。ここでいう「同種の装置」とは、装置タイプが同じ種類であることを示す。例えば、「装置の種別」には、同種の装置であることを示す「同種の装置」、自装置であることを示す「自装置」などが格納される。
また、相互監視テーブル202として記憶される「相互監視対象」は、IPアドレスで紐付けられるSPが相互監視対象であるか否かを示す。ここでいう「相互監視対象」とは、「生存状態を相互に監視する対象となるSP」のことを示す。例えば、「相互監視対象」には、IPアドレスで紐付けられるSPが相互監視対象である場合、「1」が格納され、IPアドレスで紐付けられるSPが相互監視対象でない場合、「0」が格納される。
図4に示す例では、相互監視テーブル202は、IPアドレスが「192.168.1.98」であるSPは、同種の装置であり、相互監視対象ではないことを示す。また、相互監視テーブル202は、IPアドレスが「192.168.1.99」であるSPは、同種の装置であり、相互監視対象であることを示す。
図3に戻り、監視対象特定部203は、自装置とネットワークを介して接続される運用系のSPのなかから生存状態を相互に監視する対象となるSPを特定する。
まず、監視対象特定部203は、生存状態を相互に監視する対象となるSPの候補となり得る同種の装置を特定する。例えば、監視対象特定部203は、HPC1に含まれるすべてのSPに対してブロードキャストで通信を行い、相互監視対象となり得る同種の装置を検出する。ここで、監視対象特定部203は、例えば、IPMI(Intelligent Platform Management Interface)を利用して、SNMP(Simple Network Management Protocol)でパケットを送信する。なお、監視対象特定部203が送信する、相互監視対象となり得る同種の装置を検出するパケットを「種別判定通知」として説明する。
図5を用いて、監視対象特定部203が送信する種別判定通知を説明する。図5は、監視対象特定部が送信する種別判定通知の一例を示す図である。図5に示すように、監視対象特定部203により送信される種別判定通知は、2byteの「コードタイプ」、2byteの「モデル情報」、2byteの「ステータス」、2byteの「モード」のフィールドを有する。
「コードタイプ」は、同種の装置を問い合わせるパケットであるか、問い合わせに対する応答パケットであるかを示す情報である。例えば、「コードタイプ」には、同種の装置を問い合わせるパケットであることを示す「0001」、応答パケットであることを示す「0002」が格納される。
また、「モデル情報」は、装置の種別を示す情報である。例えば、「モデル情報」には、装置タイプがAであることを示す「0001」、装置タイプがBであることを示す「0002」などが格納される。
また、「ステータス」は、SPの状態を示す情報である。例えば、「ステータス」には、SPが一重化されていることを示す「0001」、SPが二重化されていることを示す「0002」、SPが異常状態であることを示す「0003」などが格納される。
また、「モード」は、SPの運転状態を示す情報である。例えば、「モード」には、SPが正常に運転していることを示す「0000」、SPが停止中であることを示す「0001」、SPが保守状態であることを示す「0002」などが格納される。
例えば、監視対象特定部203は、図5に示す「コードタイプ」に「0001」を格納した種別判定通知をネットワーク上のすべてのSPに送信する。
続いて、監視対象特定部203は、同種の装置それぞれから種別判定通知に対する応答を受信し、「モデル情報」を読み出し、同一種別の装置があるか否かを判定する。ここで、監視対象特定部203は、同一種別の装置があると判定した場合、全ての同一種別の装置について、種別判定通知に対する応答に含まれるIPアドレスを抽出する。そして、監視対象特定部203は、抽出した同一種別の装置の一覧をIPアドレス順にソートする。
図1に示す例において、SP100aの監視対象特定部203が種別判定通知に対する応答を受信し、同一種別の装置の一覧をIPアドレス順にソートした場合を説明する。ここで、各SPに対してIPアドレスが以下のように割り当てられているとする。すなわち、SP98aに対してIPアドレス「192.168.1.98」が割り当てられ、SP99aに対してIPアドレス「192.168.1.99」が割り当てられる。また、SP100aに対してIPアドレス「192.168.1.100」が割り当てられ、SP101aに対してIPアドレス「192.168.1.101」が割り当てられる。なお、各SPに対するIPアドレスの割り当てはこれに限定されるものではなく、任意に変更可能である。
例えば、監視対象特定部203は、同種の装置であるSP98a、SP99a、SP101aから種別判定通知に対する応答を受信する。そして、監視対象特定部203は、種別判定通知に対する応答を受信した同一種別の装置の一覧をIPアドレス順にソートする。一例をあげると、監視対象特定部203は、「192.168.1.98」、「192.168.1.99」、「192.168.1.101」の順にIPアドレスをソートする。
続いて、監視対象特定部203は、予め定められた所定のルールに従って、相互監視対象の候補を選択する。例えば、監視対象特定部203は、所定のルールとして、ソートしたIPアドレスのうち自装置の前後2つの装置を相互監視対象の候補に選択する。
例えば、監視対象特定部203は、相互監視対象の候補として、IPアドレスが「192.168.1.99」であるSP99aと、IPアドレスが「192.168.1.101」であるSP101aとを選択する。なお、本実施例において、前後2つを相互監視対象として説明するが、これに限定されるものではなく、例えば、相互監視対象を1つとしても、3つ以上にしてもよい。
監視対象特定部203は、選択した相互監視対象の候補に相互監視を要求するパケットを生成し、生成したパケットを相互監視の要求先に送信する。なお、以下では、相互監視を要求するパケットのことを「相互監視対象通知」として適宜記載する。
図6を用いて、監視対象特定部203が送信する相互監視対象通知を説明する。図6は、監視対象特定部203が送信する相互監視対象通知の一例を示す図である。図6に示すように、監視対象特定部203により送信される相互監視対象通知は、2byteの「コードタイプ」、2byteの「依頼コード」、2byteの「ポーリング間隔」、2byteの「リザーブ」のフィールドを有する。
「コードタイプ」は、相互監視を要求するパケットであるか、相互監視の要求に対する応答パケットであるかを示す情報である。例えば、「コードタイプ」には、相互監視を要求するパケットであることを示す「0001」、相互監視の要求に対する応答パケットであることを示す「0002」が格納される。
「依頼コード」は、相互監視対象通知が相互監視を要求するパケットであるか、保守モードを通知するものであるかを示す情報である。例えば、「依頼コード」には、相互監視対象通知が相互監視を要求するパケットであることを示す「0001」、保守モードを通知するものであることを示す「0002」が格納される。
「ポーリング間隔」は、相互監視する間隔を示す情報である。例えば、5秒間隔で相互監視する場合、「ポーリング間隔」には、「0005」が格納される。「リザーブ」は、空き領域であり、データを8byteに揃えるために利用される。
例えば、監視対象特定部203は、図5に示す「依頼コード」に「0001」を格納し、「ポーリング間隔」に「0005」を格納した相互監視対象通知を相互監視対象の候補に送信する。
図3に戻り、監視対象特定部203は、送信した相互監視対象通知に対する応答を選択した相互監視の要求先から受信し、受信した応答に基づいて、相互監視対象通知が許可されたか否かを判定する。
例えば、監視対象特定部203は、相互監視の要求先から受信した相互監視対象通知に対する応答に相互監視を許可する旨が含まれているか否かを判定する。ここで、監視対象特定部203は、相互監視を許可する旨が含まれていた場合、相互監視を許可する応答を受信したと判定する。そして、監視対象特定部203は、相互監視テーブル202を更新して、相互監視を許可した運用系SPを相互監視対象として特定する。
一例を示すと、監視対象特定部203は、SP99aとSP101aとから相互監視を許可する応答を受信した場合、図4に示すように相互監視テーブル202を更新し、SP99aとSP101aとを相互監視対象として特定する。すなわち、SP99aのIPアドレス「192.168.1.99」に紐付けられる「相互監視対象」に「1」を格納し、SP101aのIPアドレス「192.168.1.101」に紐付けられる「相互監視対象」に「1」を格納する。
また、監視対象特定部203は、相互監視を許可する旨が含まれていない場合、相互監視を許可するものではない応答を受信したと判定する。この結果、監視対象特定部203は、新たな相互監視対象の候補を選択し、選択した相互監視対象の候補に相互監視対象通知を送信する。
図3に戻り、監視依頼応答部204は、自装置とネットワークを介して接続される運用系のSPから、生存状態を相互に監視する要求を受付け、生存状態を相互に監視することを許可するか否かを判定する。
例えば、監視依頼応答部204は、種別判定通知を他の運用系SPから受信した場合、自装置が種別判定通知の送信元SPと同種の装置であるか否かを判定する。監視依頼応答部204は、自装置が種別判定通知の送信元SPと同種の装置であると判定した場合、種別判定通知に対する応答パケットを送信する。ここで、監視依頼応答部204は、装置の種別、SPが二重化されているか否かを示す情報、相互監視対象として妥当であるか否かを示す情報を含んだパケットを生成し、生成したパケットを種別判定通知に対する応答として種別判定通知の送信元SPに送信する。
また、監視依頼応答部204は、自装置とネットワークを介して接続される運用系のSPから相互監視対象通知を受信した場合、受信した相互監視対象通知の送信元に対して、生存状態を相互に監視することを許可するか否かを判定する。
例えば、監視依頼応答部204は、相互監視テーブル202を更新し、相互監視対象として妥当であるか否かを判定する。図7は、監視依頼応答部によって更新された相互監視テーブルの一例を示す図である。図7において、IPアドレスが「192.168.1.99」であるSP99aの監視依頼応答部204が、IPアドレスが「192.168.1.100」であるSP100aから相互監視対象通知を受信し、相互監視テーブル202を更新した場合を例にする。図7に示すように、SP99aは、IPアドレスが「192.168.1.100」で紐付けられる「相互監視対象」に「1」を格納する。
そして、監視依頼応答部204は、生存状態を相互に監視することを許可すると判定した場合、相互監視を許可する旨を含んだパケットを生成し、生成したパケットを相互監視対象通知に対する応答として相互監視対象通知の送信元SPに送信する。
一方、監視依頼応答部204は、生存状態を相互に監視することを許可しないと判定した場合、相互監視を許可しない旨を含んだパケットを生成し、生成したパケットを相互監視対象通知に対する応答として相互監視対象通知の送信元SPに送信する。
図3に戻り、相互監視部205は、相互監視テーブル202を参照して、自装置を有する情報処理装置にネットワークを介して接続される情報処理装置内の運用系のSPと生存状態を相互に監視する。
例えば、相互監視部205は、相互監視対象が特定されたことを監視対象特定部203から通知された場合、特定された相互監視対である運用系のSPと生存状態を相互に監視する。そして、相互監視部205は、相互監視を開始後、相互監視テーブル202を参照して、相互監視対象を特定する。すなわち、相互監視部205は、相互監視テーブル202が更新された場合、更新後の相互監視対象と相互監視を実行する。
また、相互監視部205は、相互監視を開始したことを電源制御部206に通知する。この結果、電源制御部206は、自装置に対して待機系であるSP100bが有する電源をオフに制御する。
相互監視部205は、通信部201を介して相互監視対象のSPとの通信ができるか否かを判定することで相互監視対象のSPの生存状態を監視する。そして、相互監視部205は、通信部201を介して相互監視対象のSPとの通信ができると判定した場合、相互監視対象のSPが正常であると判定する。一方、相互監視部205は、通信部201を介して相互監視対象のSPとの通信ができないと判定した場合、相互監視対象のSPが異常であると判定する。
そして、相互監視部205は、相互監視対象のSPが異常であると判定した場合、相互監視対象との通信ができなくなったことを自装置の異常処理部207に通知する。この結果、異常処理部207は、後述する異常処理を実行する。
ここで、相互監視部205は、異常処理部207によって相互監視対象が更新された場合、更新された相互監視対象と相互監視を実行する。
電源制御部206は、相互監視部205、異常処理部207、または保守部208から各種の通知を受付けて、電源210のオンとオフまたは自装置と同じ情報処理装置内のSP100bが有する電源のオンとオフを制御する。
例えば、電源制御部206は、相互監視部205から、相互監視対象である運用系SPとの相互監視が開始されたことを通知された場合、自装置に対して待機系であるSP100bが有する電源をオフに制御する。
また、電源制御部206は、後述する異常処理部207によって監視対象となる運用系のSPを特定できないと判定された場合、自装置に対して待機系であるSP100bが有する電源をオンに制御する。
また、電源制御部206は、異常処理部207から自装置が有する電源210をオンに制御することを通知された場合、電源210をオンに制御する。なお、この制御は、SP100aがSP100bに対して待機系であり、運用系であるSP100bに異常が生じた場合に実行される。
また、電源制御部206は、後述する保守部208によって保守設定が受付けられたことを通知された場合、自装置に対して待機系であるSP100bが有する電源をオンに制御する。
また、電源制御部206は、保守部208から自装置に対して待機系であるSP100bが有する電源をオンに制御することを通知された場合、自装置に対して待機系であるSP100bが有する電源をオンに制御する。なお、この制御は、保守部208が相互監視対象である運用系SPから保守設定通知を受信した後に、相互監視対象となる運用系のSPを特定できないと判定した場合に実行される。なお、保守設定通知については後述する。
図3に戻り、異常処理部207は、相互監視部205から相互監視対象に異常が生じたことを通知された場合、異常処理を実行する。例えば、異常処理部207は、相互監視対象のSP99aに対して待機系であるSP99bの電源をオンに制御する。
一例をあげると、異常処理部207は、通信部201を介して、SP99bが有する異常処理部にSP99aに異常が生じたことを通知する。この結果、SP99bが有する異常処理部は、自装置が有する電源をオンに制御するように電源制御部に通知する。
また、異常処理部207は、予め定められた所定のルールに従って、新たな相互監視対象を特定する。なお、ここでいう所定のルールとは、監視対象特定部203の説明に用いた所定のルールと同じものである。例えば、異常処理部207は、異常が生じたSPを相互監視対象から外すように相互監視テーブル202を更新し、更新した相互監視テーブル202から新たな相互監視対象の候補を特定する。
図4に示す相互監視テーブル202において、IPアドレスが「192.168.1.99」であるSP99aに異常が生じた場合を例に異常処理部207の動作を説明する。異常処理部207は、IPアドレスが「192.168.1.99」に対応する「相互監視対象」に「0」を格納し、IPアドレスが「192.168.1.98」であるSP98aを相互監視対象の候補に特定する。
そして、異常処理部207は、特定した相互監視対象の候補に相互監視を要求する相互監視対象通知を生成し、生成した相互監視対象通知を相互監視の要求先に送信する。なお、異常処理部207が送信する相互監視対象通知は、監視対象特定部203が送信する相互監視対象通知と同様である。
また、異常処理部207は、送信した相互監視対象通知に対する応答を相互監視対象の候補である運用系のSPから受信し、受信した応答に基づいて、相互監視対象通知が許可されたか否かを判定する。
例えば、異常処理部207は、運用系のSPから受信した相互監視対象通知に対する応答に相互監視を許可する旨が含まれているか否かを判定する。ここで、異常処理部207は、相互監視を許可する旨が含まれていた場合、相互監視を許可する応答を受信したと判定し、相互監視テーブル202を更新し、相互監視対象の候補を新たな相互監視対象として特定する。
一例を示すと、異常処理部207は、SP98aから相互監視を許可する応答を受信した場合、SP98aのIPアドレス「192.168.1.98」に対応する「相互監視対象」に「1」を格納する。
また、異常処理部207は、相互監視を許可する旨が含まれていない場合、相互監視を許可するものではない応答を受信したと判定する。この結果、異常処理部207は、新たな相互監視対象の候補を特定し、特定した相互監視対象の候補に相互監視対象通知を送信する。
なお、異常処理部207は、相互監視を許可する応答をいずれのSPからも受信できなかった場合、電源制御部206に、自装置に対して待機系であるSP100bが有する電源をオンに制御するように通知する。
保守部208は、利用者によって保守モードに設定された場合、保守モードに設定されたことを電源制御部206に通知する。この結果、電源制御部206は、自装置に対して待機系であるSP100bが有する電源をオンに制御する。なお、保守モードとは、SPが、自装置を保守する作業を受けることを示す。
また、保守部208は、自装置が保守モードに設定された場合、生存状態を相互に監視している運用系のSPが有する保守部に自装置が保守モードに設定されたことを通知し、自装置を相互監視対象から外すことを要求するパケットを生成して送信する。このような場合、保守部208は、相互監視対象通知の「依頼コード」に保守モードを通知するものであることを示す「0002」を格納して、相互監視対象に送信する。なお、以下では、保守モードに設定されたことを通知するパケットを「保守設定通知」として適宜記載する。
また、保守部208は、ネットワークを介して他の情報処理装置が有するSPから保守設定通知を受信した場合、相互監視対象の候補があるか否かを判定する。そして、保守部208は、相互監視対象の候補があると判定した場合、相互監視対象の候補に相互監視対象通知を送信する。
保守部208は、送信した相互監視対象通知に対する応答を相互監視対象の候補である運用系のSPから受信し、受信した応答に基づいて、相互監視対象通知が許可されたか否かを判定する。
例えば、保守部208は、運用系のSPから受信した相互監視対象通知に対する応答に相互監視を許可する旨が含まれているか否かを判定する。ここで、保守部208は、相互監視を許可する旨が含まれていた場合、相互監視を許可する応答を受信したと判定し、相互監視テーブル202を更新し、相互監視対象の候補を新たな相互監視対象として特定する。
一方、保守部208は、相互監視を許可する旨が含まれていない場合、相互監視を許可するものではない応答を受信したと判定する。この結果、保守部208は、新たな相互監視対象の候補を特定し、特定した相互監視対象の候補に相互監視対象通知を送信する。
なお、保守部208は、相互監視を許可する応答をいずれのSPからも受信できなかった場合、電源制御部206に、自装置に対して待機系であるSP100bが有する電源をオンに制御するように通知する。
また、保守部208は、保守モードに設定されたことをSP100aが有する不揮発性領域に設定する。この不揮発性領域に設定された値は、SP100aがリブートしても消去されずに保持される。
システム制御部209は、情報処理装置100内の動作状況の監視及び動作履歴を取得することで、情報処理装置100を制御する。電源210は、SP100aの電源であり、電源制御部206及びSP100bが有する電源制御部によってオン、オフを制御される。
なお、監視対象特定部203、監視依頼応答部204、相互監視部205、電源制御部206、異常処理部207、保守部208、システム制御部209は、例えば、ASIC(Application Specific Integrated Circuit)などの集積回路で作成可能である。
また、電源をオフに制御された待機系のSPが有する、通信部、異常処理部及び電源制御部には常時電力が供給される。したがって、他の情報処理装置が有するSPから、自装置と同じ情報処理装置内にある運用系のSPに異常が生じたことを通知された場合、電源をオフにした待機系のSPは、自装置の電源をオンに制御することができる。
[実施例1に係るSPによる処理動作]
次に、実施例1に係るSP98a、99a、100a、101aの処理動作を説明する。ここでは、図8A〜図8Cを用いて、相互監視を要求する処理動作を説明し、図9A〜図9Cを用いて、異常発生時の処理動作を説明し、図10を用いて、相互監視相手が存在しない場合の処理動作を説明し、図11を用いて、保守設定時の処理動作を説明する。
次に、実施例1に係るSP98a、99a、100a、101aの処理動作を説明する。ここでは、図8A〜図8Cを用いて、相互監視を要求する処理動作を説明し、図9A〜図9Cを用いて、異常発生時の処理動作を説明し、図10を用いて、相互監視相手が存在しない場合の処理動作を説明し、図11を用いて、保守設定時の処理動作を説明する。
(相互監視を要求する処理動作)
図8Aは、種別判定通知を送信する処理動作を示す図であり、図8Bは、相互監視対象通知を送信する処理動作を示す図であり、図8Cは、相互監視を開始後の処理動作を示す図である。
図8Aは、種別判定通知を送信する処理動作を示す図であり、図8Bは、相互監視対象通知を送信する処理動作を示す図であり、図8Cは、相互監視を開始後の処理動作を示す図である。
図8Aでは、情報処理装置100が起動した直後であり、SP100aとSP100bとが共に電源がオンである。そして、運用系であるSP100aは、情報処理装置98、99、101、102が有する各SPに種別判定通知を送信する(ステップS11)。
図8Bでは、SP100aが種別判定通知に対する応答を受信し(ステップS12)、受信した応答に基づいて、SP99a及びSP101aに相互監視対象通知を送信する(ステップS13)。そして、SP100aは、SP99a及びSP101aから相互監視を許可する応答を受信した場合、SP99a及びSP101aと相互監視を開始する。
図8Cでは、SP100aは、SP99a及びSP101aと相互監視を開始し(ステップS14)、SP100bに対して電源をオフに制御する(ステップS15)。このように、待機系であるSP100bの電源をオフに制御することによって、SP100aは、待機系の消費電力を削減することができる。
(異常発生時の処理動作)
図9Aは、異常発生を検出した場合の処理動作を示す図であり、図9Bは、異常発生を検出した後の相互監視を要求する処理動作を示す図であり、図9Cは、相互監視を許可する応答を受信した場合に更新された相互監視テーブルの一例を示す図である。
図9Aは、異常発生を検出した場合の処理動作を示す図であり、図9Bは、異常発生を検出した後の相互監視を要求する処理動作を示す図であり、図9Cは、相互監視を許可する応答を受信した場合に更新された相互監視テーブルの一例を示す図である。
図9Aでは、SP100aは、SP99a及びSP101aと相互監視しており(ステップS16)、SP99aに異常が生じたことを検出する。そして、SP100aは、SP99aに対して待機系であるSP99bの電源をオンに制御する(ステップS17)。
続いて、図9Bでは、SP100aは、SP99aを相互監視対象から外し(ステップS18)、SP98aに相互監視対象通知を送信する(ステップS19)。そして、SP100aは、SP98aから相互監視を許可する応答を受信した場合(ステップS20)、図9Cに示すように相互監視テーブル202を更新する。すなわち、SP100aは、IPアドレスが「192.168.1.98」に紐付けられる「相互監視対象」に「1」を格納する(ステップS21)。
(相互監視相手が存在しない場合の処理動作)
図10は、相互監視相手が存在しない場合の処理動作を示す図である。図10では、SP100aが相互監視対象通知を送信したが(ステップS22)、SP98a、SP99a、SP101aのいずれからも相互監視を許可する応答を受信できなかった場合を示す。この場合、SP100aは、SP100bの電源をオンに制御し(ステップS23)、他の運用系SPと相互監視をすることなく、SP100bによって二重化される。
図10は、相互監視相手が存在しない場合の処理動作を示す図である。図10では、SP100aが相互監視対象通知を送信したが(ステップS22)、SP98a、SP99a、SP101aのいずれからも相互監視を許可する応答を受信できなかった場合を示す。この場合、SP100aは、SP100bの電源をオンに制御し(ステップS23)、他の運用系SPと相互監視をすることなく、SP100bによって二重化される。
(保守設定時の処理動作)
図11は、保守設定時の処理動作を示す図である。図11では、SP98aとSP99aとが相互監視し、SP99aとSP100aとが相互監視し、SP100aとSP101aとが相互監視している。
図11は、保守設定時の処理動作を示す図である。図11では、SP98aとSP99aとが相互監視し、SP99aとSP100aとが相互監視し、SP100aとSP101aとが相互監視している。
このような状態において、SP100aが保守状態に設定された場合、SP100aは、SP100bの電源をオンに制御し(ステップS24)、相互監視対象であるSP99a及びSP101aに保守設定通知を送信する(ステップS25)。そして、SP100aは、SP99a及びSP101aから保守設定通知に対する応答を受信した場合、SP99a及びSP101aによる相互監視対象から外れる。この結果、SP99aとSP101aとが相互監視を開始する(ステップS26)。
[実施例1に係るSPによる処理の処理手順]
次に図12〜17を用いて、実施例1に係るSP98a、99a、100a、101aによる処理の処理手順を説明する。
次に図12〜17を用いて、実施例1に係るSP98a、99a、100a、101aによる処理の処理手順を説明する。
(全体の処理の流れ)
まず、図12を用いて、実施例1に係るSP98a、99a、100a、101aによる処理を説明する。図12は、実施例1に係るSPによる処理の処理手順を示すフローチャートである。SP98a、99a、100a、101aは、例えば、自装置が起動したことを契機に処理を実行する。また、この場合、自装置に対して待機系であるSPの電源も投入されているものとする。なお、ここでは、SP100aを例に全体の処理の流れを説明するが、他のSPにおいても同様の処理を実行する。
まず、図12を用いて、実施例1に係るSP98a、99a、100a、101aによる処理を説明する。図12は、実施例1に係るSPによる処理の処理手順を示すフローチャートである。SP98a、99a、100a、101aは、例えば、自装置が起動したことを契機に処理を実行する。また、この場合、自装置に対して待機系であるSPの電源も投入されているものとする。なお、ここでは、SP100aを例に全体の処理の流れを説明するが、他のSPにおいても同様の処理を実行する。
図12に示すように、SP100aは、相互監視する装置を検出する(ステップS101)。そして、SP100aは、検出した装置と相互監視を実行し(ステップS102)、相互監視する装置に異常が生じたか否かを判定する(ステップS103)。
ここで、SP100aは、相互監視する装置に異常が生じたと判定した場合(ステップS103、Yes)、異常処理を実行する(ステップS104)。そして、SP100aは、異常処理の実行後、ステップS105に移行する。一方、SP100aは、相互監視する装置に異常が生じていないと判定した場合(ステップS103、No)、ステップS105に移行する。
SP100aは、ステップS105に移行し、保守設定を受付けたか否かを判定する(ステップS105)。ここで、SP100aは、保守設定を受付けていないと判定した場合(ステップS105、No)、ステップS102に移行して相互監視を実行する。
一方、SP100aは、保守設定を受付けたと判定した場合(ステップS105、Yes)、保守処理を実行し(ステップS106)、処理を終了する。
(相互監視を要求する処理)
次に、図13を用いて、実施例1に係るSP98a、99a、100a、101aによる相互監視を要求する処理を説明する。図13は、実施例1に係るSPによる相互監視を要求する処理の処理手順を示すフローチャートである。なお、この処理は、図12に示したステップS101の処理に対応する。また、ここでは、SP100aを例に相互監視を要求する処理を説明するが、他のSPにおいても同様の処理を実行する。
次に、図13を用いて、実施例1に係るSP98a、99a、100a、101aによる相互監視を要求する処理を説明する。図13は、実施例1に係るSPによる相互監視を要求する処理の処理手順を示すフローチャートである。なお、この処理は、図12に示したステップS101の処理に対応する。また、ここでは、SP100aを例に相互監視を要求する処理を説明するが、他のSPにおいても同様の処理を実行する。
図13に示すように、SP100aは、ネットワーク経由で同一種別の装置を検索する(ステップS201)。そして、SP100aは、同一種別の装置があるか否かを判定する(ステップS202)。ここで、SP100aは、同一種別の装置があると判定した場合(ステップS202、Yes)、全ての同一種別の装置を抽出する(ステップS203)。
そして、SP100aは、抽出した同一種別の装置の一覧をIPアドレス順にソートする(ステップS204)。続いて、SP100aは、所定のルールに従って、相互監視対象を特定し、特定した相互監視対象に相互監視対象通知を送信する(ステップS205)。その後、SP100aは、相互監視を許可する応答を受信したか否かを判定する(ステップS206)。
ここで、SP100aは、相互監視を許可する応答を受信したと判定した場合(ステップS206、Yes)、相互監視テーブル202を更新し(ステップS207)、相互監視を実行する(ステップS208)。そして、SP100aは、自装置に対して待機系であるSP100bの電源をオフにして(ステップS209)、相互監視を要求する処理を終了する。
また、SP100aは、ステップS202において、同一種別の装置がないと判定した場合(ステップS202、No)、SP100aは、SP100bと二重化で動作し(ステップS210)、生存監視を実行する(ステップS211)。そして、SP100aは、相互監視を要求する処理を終了する。また、SP100aは、ステップS206において、相互監視を許可するものではない応答を受信したと判定した場合(ステップS206、No)、ステップS205に移行する。
(異常発生時の処理)
続いて、図14を用いて、実施例1に係るSP98a、99a、100a、101aによる異常発生時の処理を説明する。図14は、SPによる異常発生時の処理の処理手順を示すフローチャートである。なお、この処理は、図12に示したステップS104の処理に対応する。また、ここでは、SP99aに異常が生じた場合を例に、SP100aによる異常発生時の処理を説明する。
続いて、図14を用いて、実施例1に係るSP98a、99a、100a、101aによる異常発生時の処理を説明する。図14は、SPによる異常発生時の処理の処理手順を示すフローチャートである。なお、この処理は、図12に示したステップS104の処理に対応する。また、ここでは、SP99aに異常が生じた場合を例に、SP100aによる異常発生時の処理を説明する。
図14に示すように、SP100aは、通信ができなくなったSP99aに対して待機系であるSP99bの状態を確認し(ステップS301)、電源がオンであるか否かを判定する(ステップS302)。ここで、SP100aは、SP99bの電源がオンでないと判定した場合(ステップS302、No)、SP99aに対して待機系であるSP99bに対して電源をオンにし(ステップS303)、ステップS304に移行する。
一方、SP100aは、SP99bの電源がオンであると判定した場合(ステップS302、Yes)、ステップS304に移行する。すなわち、SP100aは、相互監視テーブル202を更新する(ステップS304)。
そして、SP100aは、相互監視対象が存在するか否かを判定する(ステップS305)。ここで、SP100aは、相互監視対象が存在すると判定した場合(ステップS305、Yes)、ルールに従って、相互監視対象を特定し、特定した相互監視対象に相互監視対象通知を送信する(ステップS306)。その後、SP100aは、相互監視を許可する応答を受信したか否かを判定する(ステップS307)。
ここで、SP100aは、相互監視を許可する応答を受信したと判定した場合(ステップS307、Yes)、相互監視テーブル202を更新し(ステップS308)、相互監視を実行する(ステップS309)。一方、SP100aは、ステップS307において、相互監視を許可するものではない応答を受信したと判定した場合(ステップS307、No)、ステップS306に移行する。
また、SP100aは、ステップS305において、相互監視対象が存在しないと判定した場合(ステップS305、No)、以下の処理を実行する。すなわち、SP100aは、自装置に対して待機系であるSP100bに対して電源をオンにし(ステップS310)、生存を監視する(ステップS311)。SP100aは、ステップS309の処理の終了後、またはステップS311の処理が終了後、異常発生時の処理を終了する。
(保守設定時の通知処理)
次に、図15を用いて、実施例1に係るSP98a、99a、100a、101aによる保守設定時の通知処理の処理手順について説明する。図15は、SPによる保守設定時の通知処理の処理手順を示すフローチャートである。なお、この処理は、図12に示したステップS106の処理に対応する。また、ここでは、SP100aを例に保守設定時の通知処理を説明するが、他のSPにおいても同様の処理を実行する。
次に、図15を用いて、実施例1に係るSP98a、99a、100a、101aによる保守設定時の通知処理の処理手順について説明する。図15は、SPによる保守設定時の通知処理の処理手順を示すフローチャートである。なお、この処理は、図12に示したステップS106の処理に対応する。また、ここでは、SP100aを例に保守設定時の通知処理を説明するが、他のSPにおいても同様の処理を実行する。
図15に示すように、SP100aは、保守設定を受付け(ステップS401)、自装置に対して待機系であるSP100bの電源をオンにする(ステップS402)。そして、SP100aは、相互監視対象に保守設定を通知する(ステップS403)。
続いて、SP100aは、相互監視対象から応答を得え、相互監視テーブル202を更新し(ステップS404)、処理を終了する。
(相互監視対象通知に対する応答処理)
次に、図16を用いて、実施例1に係るSP98a、99a、100a、101aによる相互監視対象通知に対する応答処理の処理手順を説明する。図16は、SPによる相互監視対象通知に対する応答処理の処理手順を示すフローチャートである。SP98a、99a、100a、101aは、種別判定通知を受付けたことを契機に処理を実行する。なお、ここでは、SP99aが、SP100aから相互監視対象通知を受信した場合を例に相互監視対象通知に対する応答処理を説明するが、他のSPにおいても同様の処理を実行する。
次に、図16を用いて、実施例1に係るSP98a、99a、100a、101aによる相互監視対象通知に対する応答処理の処理手順を説明する。図16は、SPによる相互監視対象通知に対する応答処理の処理手順を示すフローチャートである。SP98a、99a、100a、101aは、種別判定通知を受付けたことを契機に処理を実行する。なお、ここでは、SP99aが、SP100aから相互監視対象通知を受信した場合を例に相互監視対象通知に対する応答処理を説明するが、他のSPにおいても同様の処理を実行する。
図16に示すように、SP99aは、種別判定通知を受付け(ステップS501)、受付けた種別判定通知に応答する(ステップS502)。そして、SP99aは、相互監視対象通知を受信したか否かを判定する(ステップS503)。ここで、SP99aは、相互監視対象通知を受信していないと判定した場合(ステップS503、No)、処理を終了する。
一方、SP99aは、相互監視対象通知を受信したと判定した場合(ステップS503、Yes)、相手装置、SP100aが相互監視対象として妥当であるか否かを判定する(ステップS504)。
ここで、SP99aは、相手装置が相互監視対象として妥当であると判定した場合(ステップS504、Yes)、相互監視テーブル202を更新する(ステップS505)。また、SP99aは、相手装置に相互監視対象として許可することを応答し(ステップS506)、処理を終了する。
一方、SP99aは、相手装置が相互監視対象として妥当でないと判定した場合(ステップS504、No)、相手装置に相互監視対象として許可しないことを応答し(ステップS507)、処理を終了する。
(保守設定通知に応答する処理)
次に、図17を用いて、実施例1に係るSP98a、99a、100a、101aによる保守設定通知に応答する処理の処理手順を説明する。図17は、保守設定通知に応答する処理の処理手順を示すフローチャートである。SP98a、99a、100a、101aは、保守設定通知を受付けたことを契機に処理を実行する。なお、ここでは、SP99aが、SP100aから保守設定通知を受信した場合を例に保守設定通知に応答する処理を説明するが、他のSPにおいても同様の処理を実行する。
次に、図17を用いて、実施例1に係るSP98a、99a、100a、101aによる保守設定通知に応答する処理の処理手順を説明する。図17は、保守設定通知に応答する処理の処理手順を示すフローチャートである。SP98a、99a、100a、101aは、保守設定通知を受付けたことを契機に処理を実行する。なお、ここでは、SP99aが、SP100aから保守設定通知を受信した場合を例に保守設定通知に応答する処理を説明するが、他のSPにおいても同様の処理を実行する。
図17に示すように、SP99aは、保守設定通知を受付け(ステップS601)、相互監視対象が存在するか否かを判定する(ステップS602)。ここで、SP99aは、相互監視対象が存在すると判定した場合(ステップS602、Yes)、ルールに従って、相互監視対象を特定し、特定した相互監視対象に相互監視対象通知を送信する(ステップS603)。その後、SP99aは、相互監視を許可する応答を受信したか否かを判定する(ステップS604)。
ここで、SP99aは、相互監視を許可する応答を受信したと判定した場合(ステップS604、Yes)、相互監視テーブル202を更新し(ステップS605)、相互監視を実行し(ステップS606)、ステップS610に移行する。一方、SP99aは、ステップS604において、相互監視を許可するものではない応答を受信したと判定した場合(ステップS604、No)、ステップS603に移行する。
一方、ステップS602において、相互監視対象が存在しないと判定した場合(ステップS602、No)、以下の処理を実行する。すなわち、SP99aは、自装置に対して待機系である装置SP99bに対して電源をオンにし(ステップS607)、生存を監視する(ステップS608)。そして、SP99aは、相互監視テーブル202を更新し(ステップS609)、ステップS610に移行する。
ステップS610において、SP99aは、保守設定通知に対する応答を送信して(ステップS610)、保守設定通知に応答する処理を終了する。
[実施例1の効果]
上述してきたように、実施例1に係るSPは、他の運用系SPと生存状態を相互に監視するので、待機系SPの電源をオフにすることができ、省電力化を図ることができる。
上述してきたように、実施例1に係るSPは、他の運用系SPと生存状態を相互に監視するので、待機系SPの電源をオフにすることができ、省電力化を図ることができる。
また、実施例1に係るSPは、相互監視する対象に異常が生じた場合、相互監視対象に対して待機系であるSPの電源をオンに制御する。そして、他の情報処理装置が有する運用系SPから相互監視する対象を選択する。このように、実施例1に係るSPは、相互監視する対象を自動で検知する。このため、利用者は、相互監視する対象に異常が生じた場合や、新たに情報処理装置をHPC1に追加することでデータセンターの構成が変わっても、定義変更などの手間を省略することができる。
また、実施例1に係るSPは、相互監視する対象が存在しなくなった場合に、自装置に対して待機系であるSPの電源をオンにして二重化で動作する。すなわち、実施例1に係るSPは、相互監視対象が存在しなくなるまでは待機系SPの電源をオフにすることができる。この結果、実施例1に係るSPを用いた電力制御方法では、高い省電力効果を得ることができる。また、実施例1に係るSPは、各SPで相互監視する範囲を限定することによって、ネットワークに余分な負荷をかけることなく省電力化を実現できる。
また、実施例1に係るSPは、自装置が保守される場合、相互監視するSPに自装置を相互監視対象から外すように通知する。そして、保守されるSPと相互監視をしていたSPは、新たな相互監視対象を選択し、選択したSPと相互監視を実行する。この結果、保守される装置を相互監視していたSPは、保守されるSPや保守されるSPを有する情報処理装置の電源をオフにされた場合でも、保守されるSPが故障したと誤認識するのを防止できる。
また、実施例1に係るSPは、相互監視対象を選択する所定のルール及び相互監視する間隔を任意に変更することができる。このため、利用者は、データセンターの規模に応じて本願の開示する電力制御方法を適用することができる。
さらに、本願の開示する電力制御方法は、物理的な部品や装置を新たに追加することなく、現状のハード構成のまま実現できる。このため、利用者は、例えば、データセンターを省電力するにあたり、初期投資にかかる費用を節約できる。
ところで、本発明は、上述した実施例以外にも、種々の異なる形態にて実施されてよい。そこで、実施例2では、本発明に含まれる他の実施例について説明する。
(システム構成等)
実施例1において説明した各処理のうち自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともできる。あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文章中や図面中で示した処理手順、制御手順、具体的名称については、特記する場合を除いて任意に変更することができる。
実施例1において説明した各処理のうち自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともできる。あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文章中や図面中で示した処理手順、制御手順、具体的名称については、特記する場合を除いて任意に変更することができる。
実施例1では、二重化されたシステム制御装置を有する情報処理装置をネットワークで接続するコンピュータシステムを例に説明したが、開示の技術は、これに限定されるものではない。例えば、開示の技術は、二重化されたシステム制御装置を有する電子装置にも適用可能である。
また、実施例1では、システム制御装置の一例としてSPを例に用いて説明したが、これに限定されるものではない。例えば、他の二重化された系統のシステムにおいて、消費電力の削減にも利用可能である。
また、実施例1では、運用系SPに異常が生じた場合について説明した。このように、運用系SPに異常が生じた場合、異常が生じたSPは、正常なSPに交換されることになる。開示の技術は、このような場合にも適用可能である。
例えば、二重化されたSPにおいて、運用系SPに異常が生じた場合、待機系SPが動作する。そして、異常が生じたSPを正常なSPに交換することによってSPの二重化構成が復旧する。そして、運用系SPは、SPの二重化構成が確立した後に、再び相互監視を実行する。この相互監視は、実施例1で説明した処理手順で実行される。この結果、運用系SPは、相互監視が確立した場合、待機系SPの電源をオフに制御できる。すなわち、待機系SPの消費電力を削減することができる。
監視対象特定部203は、同種の装置であるSPから種別判定通知に対する応答を受信し、IPアドレスの順にソートするものとして説明したが、これに限定されるものではない。例えば、監視対象特定部203は、MAC(Media Access Control)アドレスの順にソートするようにしてもよい。
また、図示した相互監視テーブル202が格納する情報は一例に過ぎず、必ずしも図示のごとく情報が格納される必要はない。例えば、相互監視テーブル202は、「IPアドレス」と「相互監視対象」とだけを対応付けて記憶するようにしてもよい。
また、各種の負荷や使用状況などに応じて、各実施例において説明した各処理の各ステップでの処理の順番を変更してもよい。
また、図示した各構成部は、必ずしも物理的に図示のごとく構成されていることを要しない。例えば、SP100aにおいて、監視対象特定部203と監視依頼応答定部204とが統合されてもよい。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
1 HPC
98、99、100、101、102 情報処理装置
98a、98b、99a、99b、100a、100b、101a、101b、102a SP
201 通信部
202 相互監視テーブル
203 監視対象特定部
204 監視依頼応答部
205 相互監視部
206 電源制御部
207 異常処理部
208 保守部
209 システム制御部
210 電源
98、99、100、101、102 情報処理装置
98a、98b、99a、99b、100a、100b、101a、101b、102a SP
201 通信部
202 相互監視テーブル
203 監視対象特定部
204 監視依頼応答部
205 相互監視部
206 電源制御部
207 異常処理部
208 保守部
209 システム制御部
210 電源
Claims (16)
- ネットワークを介して他の電子装置と接続された電子装置に含まれるシステム制御装置において、
他の電子装置が有する運用系のシステム制御装置と生存状態を相互に監視する監視部と、
前記監視部が前記他の電子装置が有する運用系のシステム制御装置の生存状態の監視を開始した場合、前記電子装置が有する他のシステム制御装置の電源をオフに制御する電源制御部と
を有することを特徴とするシステム制御装置。 - 前記監視部によって前記他の電子装置が有する運用系のシステム制御装置の異常が検出された場合、前記他の電子装置が有する待機系システム制御装置の電源をオンに制御し、自装置とネットワークを介して接続される他の電子装置が有する運用系のシステム制御装置のなかから生存状態を相互に監視するシステム制御装置を特定する異常処理部を更に有し、
前記監視部は、前記異常処理部によって特定された他の電子装置のシステム制御装置との間で生存状態を相互に監視する
ことを特徴とする請求項1に記載のシステム制御装置。 - 前記異常処理部によって生存状態を相互に監視する他の電子装置のシステム制御装置を特定できないと判定された場合、
前記電源制御部は、前記電子装置が有する他のシステム制御装置の電源をオンに制御し、
前記監視部は、電源がオンに制御された前記他のシステム制御装置との間で生存状態を相互に監視する
ことを特徴とする請求項2に記載のシステム制御装置。 - 他の電子装置が有する運用系のシステム制御装置のなかから、生存状態を相互に監視するシステム制御装置を特定する特定部を更に有し、
前記監視部は、前記特定部によって特定されたシステム制御装置と生存状態を相互に監視することを特徴とする請求項1に記載のシステム制御装置。 - 他の電子装置が有する運用系のシステム制御装置から生存状態を相互に監視する要求を受付け、前記要求を発したシステム制御装置との間で生存状態を相互に監視することを許可するか否かを判定する判定部を更に有することを特徴とする請求項4に記載のシステム制御装置。
- 前記特定部は、他の電子装置が有する運用系のシステム制御装置の判定部に生存状態を相互に監視することを要求し、該判定部から生存状態を相互に監視することを許可された場合に、前記他の電子装置が有する運用系のシステム制御装置を、生存状態を相互に監視するシステム制御装置として特定することを特徴とする請求項5に記載のシステム制御装置。
- 自装置が保守モードに設定されたことを受付け、生存状態を相互に監視している運用系のシステム制御装置に自装置を生存状態の監視対象から外すことを要求する保守部を更に有し、
前記電源制御部は、前記保守部によって自装置が保守モードに設定された場合、前記電子装置が有する他のシステム制御装置の電源をオンに制御することを特徴とする請求項1に記載のシステム制御装置。 - ネットワークを介して他の電子装置と接続された電子装置に含まれるシステム制御装置が、
他の電子装置が有する運用系のシステム制御装置と生存状態を相互に監視し、
前記他の電子装置が有する運用系のシステム制御装置の生存状態の監視を開始した場合に、自装置に対して待機系である、前記電子装置が有するシステム制御装置の電源をオフに制御する
処理を実行することを特徴とする電力制御方法。 - 前記システム制御装置が、更に
前記他の電子装置が有する運用系のシステム制御装置の異常を検出した場合、前記他の電子装置が有する待機系システム制御装置の電源をオンに制御し、自装置とネットワークを介して接続される他の電子装置が有する運用系のシステム制御装置のなかから生存状態を相互に監視するシステム制御装置を特定し、
前記監視する処理は、前記特定された他の電子装置のシステム制御装置との間で生存状態を相互に監視する
処理を実行することを特徴とする請求項8に記載の電力制御方法。 - 前記特定する処理によって、生存状態を相互に監視する他の電子装置のシステム制御装置を特定できないと判定された場合、
前記電源を制御する処理は、前記電子装置が有する他のシステム制御装置の電源をオンに制御し、
前記監視する処理は、電源がオンに制御された前記他のシステム制御装置との間で生存状態を相互に監視する
処理を実行することを特徴とする請求項9に記載の電力制御方法。 - 前記システム制御装置が、更に
他の電子装置が有する運用系のシステム制御装置のなかから、生存状態を相互に監視するシステム制御装置を特定し、
前記監視する処理は、前記特定されたシステム制御装置と生存状態を相互に監視する処理を実行することを特徴とする請求項8に記載の電力制御方法。 - 前記システム制御装置が、更に
他の電子装置が有する運用系のシステム制御装置から生存状態を相互に監視する要求を受付け、前記要求を発したシステム制御装置との間で生存状態を相互に監視することを許可するか否かを判定する処理を実行することを特徴とする請求項11に記載の電力制御方法。 - 前記特定する処理は、他の電子装置が有する運用系のシステム制御装置に生存状態を相互に監視することを要求し、生存状態を相互に監視することを許可された場合に、前記他の電子装置が有する運用系のシステム制御装置を、生存状態を相互に監視するシステム制御装置として特定する処理を実行することを特徴とする請求項12に記載の電力制御方法。
- 前記システム制御装置が、更に
自装置が保守モードに設定されたことを受付け、生存状態を相互に監視している運用系のシステム制御装置に自装置を生存状態の監視対象から外すことを要求し、
前記電源を制御する処理は、自装置が保守モードに設定された場合、前記電子装置が有する他のシステム制御装置の電源をオンに制御する処理を実行することを特徴とする請求項8に記載の電力制御方法。 - 運用系と待機系とで冗長化されたシステム制御装置を有する複数の電子装置がネットワークにより接続された電子システムにおいて、
前記電子装置が有するシステム制御装置は、
自装置が運用系に設定された場合に、ネットワークを介して他の電子装置が有する運用系のシステム制御装置との間で生存状態を相互に監視する監視部と、
前記監視部によって前記他の電子装置が有する運用系のシステム制御装置の生存状態の監視が開始された場合に、自装置に対して待機系であるシステム制御装置の電源をオフに制御する電源制御部と
を有する
ことを特徴とする電子システム。 - 前記監視部によって前記他の電子装置が有する運用系のシステム制御装置の異常が検出された場合、前記他の電子装置が有する待機系システム制御装置の電源をオンに制御し、自装置とネットワークを介して接続される他の電子装置が有する運用系のシステム制御装置のなかから生存状態を相互に監視するシステム制御装置を特定する異常処理部を更に有し、
前記監視部は、前記異常処理部によって特定された他の電子装置のシステム制御装置との間で生存状態を相互に監視する
ことを特徴とする請求項15に記載の電子システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013526646A JPWO2013018183A1 (ja) | 2011-07-29 | 2011-07-29 | システム制御装置、電力制御方法及び電子システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013526646A JPWO2013018183A1 (ja) | 2011-07-29 | 2011-07-29 | システム制御装置、電力制御方法及び電子システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2013018183A1 true JPWO2013018183A1 (ja) | 2015-03-02 |
Family
ID=52696001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013526646A Pending JPWO2013018183A1 (ja) | 2011-07-29 | 2011-07-29 | システム制御装置、電力制御方法及び電子システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPWO2013018183A1 (ja) |
-
2011
- 2011-07-29 JP JP2013526646A patent/JPWO2013018183A1/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8713352B2 (en) | Method, system and program for securing redundancy in parallel computing system | |
CN101714109B (zh) | 双cpu系统主板的控制方法及设备 | |
EP3306476B1 (en) | Method and apparatus for hot cpu removal and hot cpu adding during operation | |
CN103324495A (zh) | 数据中心服务器开机管理方法及系统 | |
JP2008310489A (ja) | I/oデバイス切り替え方法 | |
WO2013018183A1 (ja) | システム制御装置、電力制御方法及び電子システム | |
WO2013145325A1 (ja) | 情報処理システム、障害検知方法および情報処理装置 | |
JP6561132B2 (ja) | 燃料電池装置、燃料電池システム、燃料電池システムの制御方法、及びコントローラ | |
CN111585835B (zh) | 一种带外管理系统的控制方法、装置和存储介质 | |
JP5056504B2 (ja) | 制御装置、情報処理システム、情報処理システムの制御方法および情報処理システムの制御プログラム | |
JP5282569B2 (ja) | 管理装置、管理システム、管理方法及び管理プログラム | |
US8560867B2 (en) | Server system and method for processing power off | |
JP2011034161A (ja) | サーバシステム及びサーバシステムの管理方法 | |
TW201729097A (zh) | 機櫃裝置 | |
US20080303692A1 (en) | Method and System for Assigning Identity Addresses to Local Management Modules | |
JP5332257B2 (ja) | サーバシステム、サーバ管理方法、およびそのプログラム | |
WO2017215672A1 (zh) | Poe系统中的供电方法和供电设备 | |
KR20150104435A (ko) | 라우팅 처리기의 동작 모드 천이 방법 | |
JP4806382B2 (ja) | 冗長化システム | |
JPWO2013018183A1 (ja) | システム制御装置、電力制御方法及び電子システム | |
JP2010152742A (ja) | 通信制御装置 | |
KR20160028250A (ko) | 소프트웨어 정의 네트워크에서 컨트롤러의 이중화 제어 시스템 및 그 방법 | |
JP2010244129A (ja) | 計算機システム | |
US11853175B2 (en) | Cluster system and restoration method that performs failover control | |
JP2013156963A (ja) | 制御プログラム、制御方法、情報処理装置、制御システム |