JP5422705B2 - Virtual computer system - Google Patents
Virtual computer system Download PDFInfo
- Publication number
- JP5422705B2 JP5422705B2 JP2012152206A JP2012152206A JP5422705B2 JP 5422705 B2 JP5422705 B2 JP 5422705B2 JP 2012152206 A JP2012152206 A JP 2012152206A JP 2012152206 A JP2012152206 A JP 2012152206A JP 5422705 B2 JP5422705 B2 JP 5422705B2
- Authority
- JP
- Japan
- Prior art keywords
- logical
- logical partition
- physical
- lpar
- configuration information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Description
本発明は、仮想計算機システムに係り、特にある物理計算機上の論理区間に障害が発生した場合に、他の物理計算機に当該論理区間の交代を生成して、当該論理区間の処理を移行する仮想計算機システム及び論理区画の移行制御方法に関する。 The present invention relates to a virtual computer system, and in particular, when a failure occurs in a logical section on a certain physical computer, a virtual section that generates a replacement of the logical section in another physical computer and shifts processing of the logical section. The present invention relates to a computer system and a logical partition migration control method.
1台の物理計算機上に複数の論理計算機又は論理区画(以下、LPAR(Logical Partition)という)を構築し、各論理計算機でそれぞれOS(オペレーティングシステム)を動作させ、これにより複数の論理計算機で複数の固有のOSを動作させることが可能な仮想計算機システムが実用化されている。また、最近では、それぞれの論理計算機に論理的なFC(Fibre Channel)拡張ボード又はFCポートを持せた仮想計算機システムを、RAID装置を含むSAN(ストレージエリアネットワーク)環境で使用する例もある。 A plurality of logical computers or logical partitions (hereinafter referred to as LPAR (Logical Partition)) are constructed on one physical computer, and an OS (operating system) is operated on each logical computer, whereby a plurality of logical computers or logical partitions are operated on each logical computer. A virtual machine system capable of operating a unique OS has been put into practical use. Recently, there is an example in which a virtual computer system in which each logical computer has a logical FC (Fibre Channel) expansion board or FC port is used in a SAN (storage area network) environment including a RAID device.
SAN環境でブートを実現する計算機システムにおいて、OSがインストールされているRAID装置内のロジカルユニットのデータを保護するために、それぞれの計算機からのみアクセスを可能とするセキュリティ機能がRAID装置によって有効となっている。
このセキュリティ機能としては一般的に、それぞれの計算機に搭載されるFCポートに割り当てられた固有のID(World Wide Name)を利用し、OSがインストールされたロジカルユニットと計算機が持つFCポートに割り当てられた固有のID(World Wide Name)を関連付け、当該ID(World Wide Name)を持つFCポートからのアクセスのみを許す方法が用いられている。また、OSを含むソフトウェアには、装置固有のID(World Wide Name)が記録されている場合もある。
In a computer system that implements booting in a SAN environment, in order to protect data of a logical unit in a RAID device in which an OS is installed, a security function that enables access only from each computer becomes effective by the RAID device. ing.
As this security function, a unique ID (World Wide Name) assigned to the FC port installed in each computer is generally used, and assigned to the logical unit in which the OS is installed and the FC port of the computer. A unique ID (World Wide Name) is associated with each other, and only an access from an FC port having the ID (World Wide Name) is used. In addition, a device-specific ID (World Wide Name) may be recorded in software including the OS.
SANからのブートを行う計算機システムの冗長化構成では、現用系計算機と待機系計算機で持つFCポートに割り当てられた固有のID(World Wide Name)が異なるため、現用系計算機から待機系計算機に交代する際、OSを含むソフトウェアイメージをそのまま利用することができず、SAN管理ソフトウェアや人手によるRAID装置側のセキュリティ機能の設定変更が必要となる。これは、現用系計算機と待機系計算機という物理計算機においてだけではなく、LPAR間においても同様である。 In a redundant configuration of a computer system that boots from SAN, the unique ID (World Wide Name) assigned to the FC port of the active computer and the standby computer is different, so the active computer is switched to the standby computer. In this case, the software image including the OS cannot be used as it is, and it is necessary to change the setting of the security function on the RAID device side by SAN management software or manually. This is the same not only in the physical computers such as the active computer and the standby computer, but also between the LPARs.
複数の物理計算機上にそれぞれLPARを構築することができる仮想計算機システムにおいて、ある物理計算機上のLPARから他の物理計算機へLPARに構成情報を移動させて動作を引き継がせる技術に関しては、例えば特許文献1及び特許文献2に開示されている。
In a virtual computer system that can construct an LPAR on each of a plurality of physical computers, for example, a technique for transferring configuration information from an LPAR on one physical computer to another physical computer and taking over the operation is disclosed in, for example,
上記特許文献1及び2には、ある物理計算機又はその上のLPARに障害が発生した場合における、他の物理計算機又はその上に生成されるLPARを予備機として用いるためのPLARの移動については言及されていない。
また、SAN環境下の仮想計算機システムにおいて、あるLPARから他のLPARに交代する場合にも論理ポートに割り当てられた固有のID(World Wide Name)が異なるために、セキュリティ機能の設定変更が必要となるが、上記特許文献にはその点についても言及されていない。
In the
In addition, in a virtual machine system in a SAN environment, when changing from one LPAR to another LPAR, the unique ID (World Wide Name) assigned to the logical port is different, so it is necessary to change the setting of the security function However, the said patent document does not mention the point.
本発明の目的は、物理計算機又はその上のLPARに障害が発生した場合に、他の物理計算機に交代用LPARを設定して、LPARの移行を可能とする仮想計算機システムを提供することにある。 An object of the present invention is to provide a virtual computer system that enables migration of an LPAR by setting a replacement LPAR in another physical computer when a failure occurs in the physical computer or the LPAR on it. .
本発明は、好ましくは、第1及び第2の物理計算機を含む複数の物理計算機と、該複数の物理計算機にネットワークを介して接続される、該物理計算機及び該論理区間を管理する管理装置とを含み、各物理計算機に論理区画を生成してOSを動作させることができる仮想計算機システムにおいて、
該第1の物理計算機は;該第1物理計算機又はそこに形成された第1論理区画に障害が発生したことを検出する障害検出手段と、該第1の物理計算機のバードウェア構成情報及び該第1論理区画に割り当てられた固有の構成情報を管理する第1管理手段と、を有し、
該管理装置は;該障害検出手段からの障害発生の報告を受けて、該第1管理手段から該ハードウェア情報及び該固有の構成情報を受信する手段と、交代先の第2の物理計算機を決定して、該第2の物理計算機へ該ハードウェア情報及び該固有の構成情報を送信する手段と、を有し、
該第2の物理計算機は;該管理装置から送信された該ハードウェア情報及び該固有の構成情報を受信する手段と、該ハードウェア情報及び該固有の構成情報に基づいて、該第2の物理計算機上に第2論理区画を生成することが可能かを判定する手段と、該判定手段によって該第2論理区間の生成が可能と判定された場合、該固有の構成情報に基づいて第2論理区画を生成する手段と、を有する仮想計算機システムとして構成される。
Preferably, the present invention preferably includes a plurality of physical computers including first and second physical computers, and a management device that manages the physical computers and the logical sections connected to the plurality of physical computers via a network. A virtual machine system capable of operating the OS by generating a logical partition in each physical machine,
The first physical computer; failure detection means for detecting that a failure has occurred in the first physical computer or the first logical partition formed therein, the hardware configuration information of the first physical computer, and the First management means for managing unique configuration information assigned to the first logical partition;
The management apparatus; receiving a report of the occurrence of a failure from the failure detection means, receiving means for receiving the hardware information and the specific configuration information from the first management means, and a second physical computer to be replaced Means for determining and transmitting the hardware information and the unique configuration information to the second physical computer,
The second physical computer; means for receiving the hardware information and the unique configuration information transmitted from the management device; and the second physical computer based on the hardware information and the unique configuration information. Means for determining whether the second logical partition can be generated on the computer, and when the determination means determines that the second logical section can be generated, the second logical partition is generated based on the unique configuration information. And a means for generating a partition.
本発明によれば、物理計算機又はその上のLPARに障害が発生した場合に、他の物理計算機に交代用LPARを設定して、LPARを移行することが可能となる。また、管理サーバの制御の下に、移行先のLPARへ移行元LPARの構成情報等を移すので、移行元の物理計算機に障害が発生した場合にも、LPARの移行が可能である。 According to the present invention, when a failure occurs in a physical computer or an LPAR on it, it is possible to set a replacement LPAR in another physical computer and migrate the LPAR. In addition, since the configuration information of the migration source LPAR is transferred to the migration destination LPAR under the control of the management server, the LPAR can be migrated even when a failure occurs in the migration source physical computer.
以下、本発明の実施形態について図面を参照して説明する。
図1を参照するに、本実施例による計算機システムは、1台のサーバシャーシ105に、複数台のサーバモジュール(以下単にサーバという)111、112を搭載することができるブレードサーバの形態をなしている。サーバシャーシ105には、サービスプロセッサ(SVP)106が搭載される。
サーバ111,112は、NIC(Network Interface Card)122を介してネットワークSW(103)経由で管理サーバ101に接続され、またファイバチャネルスイッチ(FC−SW)135を介してストレージ装置137に接続される。
Embodiments of the present invention will be described below with reference to the drawings.
Referring to FIG. 1, the computer system according to the present embodiment is in the form of a blade server in which a plurality of
The
サーバ111及び112は、基本的に同様の構成を有し、それぞれBMC(Base Management Controller)120(130)、FC−HBA(Fibre Channel Host Bus Adapter)121(131)、NIC122(132)を持っている。ハイパーバイザー117(127)は物理的に1台のサーバを論理的に複数のサーバに見せる仮想化機構である。サーバ111では1つのハイパーバイザー117上にシミュレーションされた2台のLPAR(113、114が構築され動作している。ハイパーバイザー117(127)内のHypervisor-Agt(119,129)は、LPARの障害を検知して管理サーバ101へその報告を行うためのエイジェントである。
The
本実施例において、サーバ112には、1台のLPAR123が動作しているが、後にサーバ111のLPAR114の交代LPAR124が設定される。
FC−HBA121,131は、通信を行うためにそのHBAのアドレスとしてFC接続ポート1つに対して1つのWWNを持つ。LPAR113及び114は論理的なHBAを1ポート(115、116)ずつ持ち、それぞれvfcWWN1(115)、vfcWWN2(116)のような、固有のWWN(World Wide Name)が付与される。論理的なHBAも物理的なHBAと同様のWWNを持つ。なお、サーバ112におけるLPAR123も同様に固有のWWNが付与される。
In this embodiment, one LPAR 123 is operating in the
The FC-HBAs 121 and 131 have one WWN for one FC connection port as the HBA address for communication. The
ストレージ装置137は、論理的に規定されたLU(論理ユニット)と呼ばれる多数のDiskユニット138〜140を持っている。何れのLUが何れのサーバに接続されているかを表す接続情報はストレージ装置137内のコントローラによって管理されている。例えば、LU10(138)はvfcWWN1(115)のWWNを持つサーバ113に接続され、LU11(139)はvfcWWN2(116)のWWNを持つサーバ116に接続されている。この接続関係を設定する機能をLUNセキュリティ設定機能と呼ぶ。
The
SVP106はサーバシャーシ内の全てのサーバを管理し、またサーバの電源制御および障害処理を担う。サーバを管理するために、サーバのハードウェア構成情報1101(図11参照)、及びハイパーバイザー構成情報1111(図12参照)をSVP内の不揮発メモリ(図示せず)に記憶して管理する。これらの構成情報1101、1111はサーバ単位に管理され、図示の例ではサーバ111,112に対応して、2面の構成情報108−1,108−2を持つ。また、ハイパーバイザー構成情報1111にはサーバ111及び112のそれぞれのハイパーバイザー117,127に対応した情報が含まれる。
管理サーバ101は、サーバ111,112及びそれに形成されたLPARを管理する。
そのために、サーバの管理情報107(図13参照)をメモリ(図示せず)に記憶して管理する。本実施例ではまた、LPARの移行を管理する機能を有する。
The SVP 106 manages all servers in the server chassis and is responsible for server power control and failure processing. In order to manage the server, the server hardware configuration information 1101 (see FIG. 11) and hypervisor configuration information 1111 (see FIG. 12) are stored and managed in a nonvolatile memory (not shown) in the SVP. These pieces of
The
For this purpose, server management information 107 (see FIG. 13) is stored in a memory (not shown) for management. This embodiment also has a function of managing LPAR migration.
次に、図11〜図13を参照して、各管理情報の内容について説明する。
図11に示すように、サーバのハードウェア構成情報(サーバモジュール・ハードウェア構成情報ということもある)1101は、ブート設定情報1102、HBA-BIOS情報1103、addWWN情報1104、物理サーバのOS種類情報1105、Hyper Treadingの無効指定1106、SVPが保存するハイパーバイザーのIPアドレス1107、アーキテクチャ1108などの物理サーバ情報を保持する。このハードウェア構成情報1101はサーバモジュール(パーティション)ごとに存在する。
Next, the contents of each piece of management information will be described with reference to FIGS.
As shown in FIG. 11, server hardware configuration information (also referred to as server module / hardware configuration information) 1101 includes
図12に示すように、ハイパーバイザー構成情報1111は、パーティションの中のLPAR単位で管理される情報であり、LPAR113,114対応に存在する(1111−1、1111−2)。各ハイパーバイザー構成情報1111は、vfcWWN情報(1112−1)、LPARが稼動中か否かを示すActive/NonActive(1113−1)、CPUの数などを含むCPU情報(1114−1)、メモリ容量(1115−1)、HBAやNICなどを含むI/O構成(1115−1)等の情報を保持する。
上記サーバのハードウェア構成情報1101及びハイパーバイザー構成情報1111は、SVP106で設定されて管理されるが、これらの情報は、各サーバ上で動作しているハイパーバイザーでも保持している。
As shown in FIG. 12, the hypervisor configuration information 1111 is information managed in units of LPARs in the partition, and exists corresponding to
The server
図13に示すように、管理サーバ101で管理されるサーバの管理情報(サーバモジュール管理情報ということもある)107は、サーバモジュール番号1201、ハードウェアのアーキテクチャ種別1202、実装メモリ容量1203、稼動中のLPARの合計メモリ使用量1204、メモリの空き容量1205、実装CPU性能1206、割り当て済みCPU性能の合計1207、空きCPU性能1208、空きNIC数1209、空きHBA数1210、等の情報を保持する。
本実施例によれば、サーバ111のLPARに障害が発生したときに、障害報告を受けつけた管理サーバ101は、サーバ112内に交代用のLPAR124を設定し、そのLPAR124に障害が発生したLPAR固有の構成情報を引き継がせるための制御を行う。
As shown in FIG. 13, server management information (sometimes referred to as server module management information) 107 managed by the
According to this embodiment, when a failure occurs in the LPAR of the
以下、図2及び図3を参照して、サーバ111のLPARに障害が発生した時の交代LPARの設定及びLPAR固有の構成情報の引き継ぎ処理について、詳細に説明する。図示の例は、サーバ111のLPAR2(114)に障害が発生した場合における、管理サーバ101、サーバ111のハイパーバイザー117、サーバモジュール112のハイパーバイザー127が行う処理動作を表す。
Hereinafter, with reference to FIG. 2 and FIG. 3, the setting of the replacement LPAR and the takeover process of the LPAR-specific configuration information when a failure occurs in the LPAR of the
LPAR114に障害が発生し、サーバ111で動作するハイパーバイザー117がその障害を検出すると(S201)、ハイパーバイザー117は管理サーバ101へ障害通知(Hypervisor-Agtアラート)を行う(S202)。管理サーバ101は障害が発生したLPAR2を停止するように停止コマンドを送出する(S203)。ハイパーバイザー117は、LPAR停止コマンドを受信した後、LPAR2の稼動停止(deactivate処理)を行う(S205)。そしてdeactivate処理が完了すると、管理サーバ101に対してHypervisor-Agtアラートを送出して、deactivate完了を伝える(S206)。
When a failure occurs in the
Hypervisor-Agtアラートを受けた管理サーバ101は、管理情報として障害が発生したLPARの停止状態を表示器に表示し(S207)、LPAR2の構成情報読み込みコマンドを送出する(S208)。
そのコマンドを受信したハイパーバイザー117は、自ら保持している、サーバモジュール・ハードウェア構成情報及びLPAR2のハイパーバイザー構成情報を管理サーバ101へ送信する(S209)。
Upon receiving the Hypervisor-Agt alert, the
The
管理サーバ101は、データの受信を完了すると、受信完了を表示する(S210)。
その後、交代先のサーバモジュールを決定する(S301)。例えば交代先のサーバモジュール112上でLPARを生成しようとしているハイパーバイザー127に対して、障害が発生したサーバモジュール111のサーバモジュール・ハードウェア構成情報及びLPAR2のハイパーバイザー構成情報を受信するよう指示する(S302)。
When the
Thereafter, the server module to be replaced is determined (S301). For example, the
ハイパーバイザー 127は、障害が発生したLPAR2に関する構成情報を受信すると(S303)、その構成情報に基づいて、交代先でLPARが生成可能であるか否か判定する(S305)。この判定については後で詳述する。判定の結果、所定の条件を満たしていれば、移行先のサーバ112に移行元のLPAR2に関する構成情報を引き継いだLPARが生成される(S306)。この例では、LPAR124が移行先のLPARとなる。LPAR124の生成が完了すると、ハイパーバイザー127はHypervisor-Agtアラートを送出して、LPARの生成完了を通知する(S307)。
When the
管理サーバ101は、Hypervisor-Agtアラートを受信すると、ハイパーバイザー127に生成されたLPARを起動するように、起動コマンドを送出する(S308)。この起動コマンドを受信したハイパーバイザー127は、生成したLPAR124を起動(activate)する(S309)。そして、Hypervisor-Agtアラートを送出して、LPAR124の起動完了を伝える(S310)。Hypervisor-Agtアラートを受け取った管理サーバ101は、LPAR124の起動状態を表示器に表示する(S311)。
When receiving the Hypervisor-Agt alert, the
次に図4及び図5を参照して、LPAR2(114)に障害が発生した時の管理サーバ101の処理について説明する。
ハイパーバイザー117からLPAR2に障害が発生した旨を伝えるHypervisor-Agtアラートを受けると、管理サーバ101はLPAR障害検出時の処理を始める(S401)。
Next, the processing of the
When receiving a Hypervisor-Agt alert that informs that a failure has occurred in LPAR2 from the
まず、障害が発生したサーバモジュール111のハイパーバイザー117に対して、LPAR2の稼動を停止するための停止コマンドを送出する(S402)。その後、LPAR2の停止処理が完了するまで待ち(S403)、停止処理が正常に完了したら、LPAR2の表示テーブルを「停止状態」とする(S404)。一方、停止処理が正常に完了しなければ、コールドスタンバイ失敗を表示して(S411)、終了する(S412)。
First, a stop command for stopping the operation of LPAR2 is sent to the
LPAR2の表示テーブルが「停止状態」となったら(S404)、LPAR2の構成情報の読み込みコマンドを送出する(S405)。LPAR2の構成情報を受信し(S406)、受信が正常に終了したら(S407)、受信完了を表示する(S408)。一方、受信が正常に終了しなければコールドスタンバイ失敗を表示して(S413)、終了する(S414)。
受信が正常に終了し(S407)、受信完了の表示した(S408)後に、LPAR2の実効CPU性能と、LPAR2を生成するサーバモジュール以外のサーバモジュールの実効CPU性能を計算する。
When the display table of LPAR2 becomes "stopped" (S404), a read command for reading LPAR2 configuration information is sent (S405). When the LPAR2 configuration information is received (S406) and the reception is completed normally (S407), the reception completion is displayed (S408). On the other hand, if reception does not end normally, a cold standby failure is displayed (S413), and the process ends (S414).
After the reception ends normally (S407) and the reception completion is displayed (S408), the effective CPU performance of LPAR2 and the effective CPU performance of the server modules other than the server module that generates LPAR2 are calculated.
ここで、LPAR2の実効CPU性能は、(物理CPUの数)×(移行前のLPARでのサービス率)、として計算する。また、LPAR2を生成するサーバモジュール以外のサーバモジュールの実効CPU性能は、(物理CPUの数)×(100%−(現在稼動している全てのLPARのサービス率))として計算する。 Here, the effective CPU performance of LPAR2 is calculated as (number of physical CPUs) × (service rate in LPAR before migration). Further, the effective CPU performance of server modules other than the server module that generates LPAR2 is calculated as (number of physical CPUs) × (100% − (service rate of all currently operating LPARs)).
次に、管理サーバ101のサーバモジュール管理情報107を用いて、LPAR生成のためのサーバモジュールの条件を判定する(S410)。この条件とは、例えば、以下(a)〜(d)の判定を含む。
(a)LPAR2と同じアーキテクチャのサーバモジュールがあるか。(b)LPAR2以上のメモリが空いているサーバモジュールがあるか。(c)LPAR2の実効CPU性能以上の実効CPU性能を持つサーバモジュールがあるか。(d)LPAR2が使用していた以上のNIC,HBAが空いているサーバモジュールがあるか。
Next, server module conditions for LPAR generation are determined using the server
(A) Is there a server module with the same architecture as LPAR2? (B) Is there a server module in which the memory of LPAR2 or more is free? (C) Is there a server module having an effective CPU performance equal to or higher than the effective CPU performance of LPAR2? (D) Are there any server modules that have more NICs and HBAs than LPAR2 used?
これら4つの条件を全て満たしていれば、条件を満たしているサーバモジュールの中で、実効CPU性能が最高のものを交代先のサーバモジュールとして選択する(S501)。4つの条件のうち1つでも満たしていなければ、コールドスタンバイ失敗を表示して(S415)、終了する(S416)。 If all these four conditions are satisfied, the server module having the highest effective CPU performance is selected as the replacement server module among the server modules satisfying the conditions (S501). If even one of the four conditions is not satisfied, a cold standby failure is displayed (S415), and the process is terminated (S416).
4つの条件が満足する交代先のサーバモジュール(この例ではサーバモジュール112)が選択されると、交代先のサーバモジュール112のハイパーバイザー127に対して、障害が発生したLPAR2に関する構成情報を転送して、LPARを生成するように指示する(S502)。そして、障害発生元サーバモジュール111のハイパーバイザー117から受信したデータ(障害発生LPAR2に関する構成情報)をハイパーバイザー127へ送信する(S503)。このデータの送信が正常に終了すると(S504)、送信完了を表示する(S505)。一方、データ送信が正常に完了しなければ(S504)、コールドスタンバイ失敗を表示して(S511)、終了する(S512)。
When a replacement server module (in this example, server module 112) that satisfies the four conditions is selected, configuration information related to the failed LPAR2 is transferred to the
その後、交代先サーバモジュール112においてLPARが生成されるのを待つ(S506)。生成されるLPARは、障害が発生したLPAR2と同様の構成を持つものである。LPARの生成が正常に終了すると、交代先サーバモジュール112の交代先LPAR124を起動するコマンドを送出する(S507)。一方、LPAR生成が正常に終了しなければ、コールドスタンバイ失敗を表示して(S513)、終了する(S514)。
Thereafter, it waits for the LPAR to be generated in the replacement server module 112 (S506). The generated LPAR has the same configuration as that of the
交代LPAR124の生成が正常に終了し、起動コマンドを送出したら(S507)、交代先LPAR124の起動完了を待つ(S508)。そして正常に起動したら、交代先LPAR(124)の状態表示を「起動状態」として(S509)、終了する(S510)。一方、LPAR124の起動が正常に起動しない場合は、コールドスタンバイ失敗を表示して(S515)、終了する(S516)。
When the generation of the
以上のような制御により、交代先LPAR124が障害発生LPAR114の交代機として起動可能となるのは以下の理由による。ストレージ装置へのアクセスはWWNによって管理される。WWNは物理デバイスのポートごとに割り当てられるが、本実施例では、LPARごとに論理HBAを設け、論理HBAのポートごとにWWNを割り当てている。以下この論理HBAのWWNをvfcWWNと呼ぶ。図1の説明で述べたように、LUNとWWNの接続関係はLUNセキュリティ機能により設定されている。ストレージ装置側からは、論理/物理WWNの区別はつかないので、LPAR単位でのLUへのアクセス権の管理が可能となる。(vfcWWNを用いるときは、ストレージ装置から物理デバイスのWWNが認識されないように設定する。)移行先のLPARは、障害発生時のLPARが使用していたvfcWWNと同一のvfcWWNを使用してブートすることにより、移行前と同一のシステムを立ち上げることができる。
By the control as described above, the
次に図6を参照して、LPAR2に障害が発生した時のハイパーバイザーの処理について説明する。
LPAR2に障害が発生すると、ハイパーバイザー117は、LPAR障害検出処理を開始する(S601)。障害検出処理において、障害発生要因を解析して、回復可能な要因か否かを判断する(S602)。その判断の結果、LPAR障害が回復不可能な要因である場合、Hypervisor-Agt(118)に対してLPAR障害を伝えるために、Hypervisor-Agtアラート送出を要求し(S603)、LPAR障害時のログ取得などの障害処理を実行して(S604)、処理を終了する(S605)。
Next, a hypervisor process when a failure occurs in the
When a failure occurs in LPAR2, the hypervisor 117 starts LPAR failure detection processing (S601). In the failure detection process, the cause of failure is analyzed to determine whether it is a recoverable factor (S602). As a result of the determination, when the LPAR failure is an unrecoverable factor, a Hypervisor-Agt alert is requested to be transmitted to the Hypervisor-Agt (118) to transmit the LPAR failure (S603), and the log at the time of the LPAR failure Failure processing such as acquisition is executed (S604), and the processing is terminated (S605).
一方、LPAR障害が回復可能な要因である場合、回復処理を行い(S606)、終了する(S607)。 On the other hand, if the LPAR failure is a recoverable factor, recovery processing is performed (S606), and the process ends (S607).
次に図7〜図8を参照して、管理サーバ101からのコマンド実行要求に伴うHypervisor-Agt(118)におけるコマンドの処理について説明する。
管理サーバ101から送信されたコマンド実行要求を受けると、Hypervisor-Agt(118)は受信処理を行う(S701)。要求されるコマンドには複数の種類があるので、まずコマンドの種別を解析する(S702)。この例では、LPARの停止を行うLPAR停止( deactivate)コマンドと、LPAR構成情報読み込みコマンドと、LPAR構成情報書き込みコマンドと、LPARの起動を行うLPAR起動( activate)コマンドと、LPAR生成コマンド、の5つのコマンドの処理を行う。
Next, command processing in Hypervisor-Agt (118) accompanying a command execution request from the
When the command execution request transmitted from the
LPAR deactivateコマンドである場合、停止対象LPARは妥当であるかを判定する(S703)。妥当でないと判断した場合にはエラー処理を行い(S707)、終了する(S708)。停止対象LPAR2が妥当であると判断した場合には、停止対象LPAR2の停止処理を行う(S704)。そして、停止処理が成功したか否かを判断する(S705)。停止処理が失敗した場合、エラー処理して(S707)、終了する(S708)。一方、停止処理が成功した場合には、LPAR2の停止完了を伝えるためにHypervisor-Agtアラート送信要求を行って、終了する(S708)。 If the command is an LPAR deactivate command, it is determined whether the stop target LPAR is valid (S703). If it is determined not to be valid, error processing is performed (S707), and the process ends (S708). If it is determined that the stop target LPAR2 is appropriate, stop processing of the stop target LPAR2 is performed (S704). Then, it is determined whether or not the stop process is successful (S705). If the stop process fails, an error process is performed (S707) and the process is terminated (S708). On the other hand, if the stop process is successful, a Hypervisor-Agt alert transmission request is sent to notify the completion of the LPAR2 stop, and the process ends (S708).
LPAR構成情報読み込みコマンドである場合、対象LPAR2の構成情報を管理サーバ101に転送する。その後、データ転送が成功したか否かを判断して(S710)、データ転送が成功したら処理を終了する(S712)。一方、失敗したら、エラー処理して(S711)、終了する(S712)。
LPAR構成情報書き込みコマンドである場合、対象LPAR2の構成情報を管理サーバ101からハイパーバイザー127に転送する。その後、データ転送が成功したか否かを判断して(S714)、データ転送が成功したら処理を終了する(S716)。一方、失敗したら、エラー処理して(S714)、終了する(S716)。
If it is an LPAR configuration information read command, the configuration information of the
If the command is an LPAR configuration information write command, the configuration information of the
次に、LPAR 起動コマンドである場合(図8参照)、起動対象のLPAR2は妥当であるかを判定する(S801)。その結果、妥当でないと判断した場合にはエラー処理を行って(S805)、終了する(S806)。一方、起動対象のLPAR2が妥当であると判断した場合には、起動対象LPAR2の起動処理を行う(S802)。その後、起動が成功したかを判断して(S803)、起動に失敗した場合にはエラー処理を行って(S805)、終了する(S806)。
一方、起動に成功した場合には、LPARのactivate完了を伝えるためにHypervisor-Agtアラート送信要求を行い(S804)、終了する(S806)。
Next, when the command is an LPAR activation command (see FIG. 8), it is determined whether the activation target LPAR2 is valid (S801). As a result, if it is determined to be invalid, error processing is performed (S805), and the process is terminated (S806). On the other hand, when it is determined that the activation target LPAR2 is valid, activation processing of the activation target LPAR2 is performed (S802). Thereafter, it is determined whether the activation has succeeded (S803). If the activation has failed, error processing is performed (S805), and the process ends (S806).
On the other hand, if the activation is successful, a Hypervisor-Agt alert transmission request is sent to notify the completion of LPAR activation (S804), and the process ends (S806).
次に、LPAR生成コマンドである場合、まず移行前及び移行先の実効CPU性能の計算を行う(S807)。移行前の実効CPU性能は、(物理CPUの数)×(移行前のLPARでのサービス率)として計算する。移行先の実効CPU性能は、(物理CPUの数×(100%−(現在起動している全てのLPARのサービス率))として計算する。 Next, when the command is an LPAR generation command, first, the effective CPU performance before and after the migration is calculated (S807). The effective CPU performance before migration is calculated as (number of physical CPUs) × (service rate in LPAR before migration). The effective CPU performance of the migration destination is calculated as (number of physical CPUs × (100% − (service rate of all currently activated LPARs)).
その後、次の3つの条件の判定を行う(S808)。(1)移行前の実効性能と移行先の実効CPU 性能を比較して移行先の実効CPU性能が移行前の実効CPU性能 以上であること。(2)移行先のメモリが空いていること。(3)移行先に移行元のLPARが使用していた数と同数のNIC, HBAがあいていること。
上記3つの条件の1つでも満たしていなければ、LPAR生成は不可能とみなして、エラー処理して(S812)、終了する(S813)。
Thereafter, the following three conditions are determined (S808). (1) The effective performance before migration and the effective CPU performance at the migration destination are compared, and the effective CPU performance at the migration destination is equal to or higher than the effective CPU performance before migration. (2) The migration destination memory is free. (3) The same number of NICs and HBAs as the number used by the migration source LPAR are available at the migration destination.
If even one of the above three conditions is not satisfied, it is considered that LPAR generation is impossible, error processing is performed (S812), and the process is terminated (S813).
一方、3つの条件を全て満たしていれば、対象LPARを生成する(S809)。この例では、LPAR2の交代先としてLPAR124を生成する。
その後、LPARの生成が成功したかを判定し(S810)、成功した場合、LPAR生成完了を伝えるためにHypervisor-Agtアラート送信要求を行って(S811)、終了する(S813)。一方。LPARの生成が失敗した場合には、エラー処理を行って(S812)、終了する(S813)。
On the other hand, if all three conditions are satisfied, the target LPAR is generated (S809). In this example, the
Thereafter, it is determined whether the LPAR generation is successful (S810). If the LPAR generation is successful, a Hypervisor-Agt alert transmission request is sent to notify the completion of the LPAR generation (S811), and the process ends (S813). on the other hand. If LPAR generation fails, error processing is performed (S812), and the process ends (S813).
次に、図9及び図10を参照して、Hypervisor-Agtアラート送信要求があった場合のHypervisor-Agtの送信処理について説明する。
Hypervisor-Agtアラート送信要求があった場合、Hypervisor-Agt(118)はアラートの種別を解析する(S902)。
その結果、アラートの種別がLPAR起動完了である場合には、LPAR起動完了アラートを送信して(S903)、終了する(S906)。
アラートの種別がLPAR 起動失敗である場合には、LPAR 起動失敗アラートを送信して(S904)、終了する(S906)。
アラートの種別がLPAR障害発生である場合には、LPAR障害発生アラートを送信して(S905)、終了する(S906)。
Next, a Hypervisor-Agt transmission process when a Hypervisor-Agt alert transmission request is received will be described with reference to FIGS. 9 and 10.
When there is a Hypervisor-Agt alert transmission request, the Hypervisor-Agt (118) analyzes the type of alert (S902).
As a result, if the alert type is LPAR activation completion, an LPAR activation completion alert is transmitted (S903), and the process is terminated (S906).
If the alert type is LPAR activation failure, an LPAR activation failure alert is transmitted (S904), and the process is terminated (S906).
If the alert type is LPAR failure occurrence, an LPAR failure occurrence alert is transmitted (S905), and the process is terminated (S906).
アラートの種別がLPAR停止完了である場合には、LPAR deactivate完了アラートを送信して(S1001)、終了する(S906)。
アラートの種別がLPAR停止失敗である場合には、LPAR 停止失敗アラートを送信して(S1002)、終了する(S906)。
アラートの種別がLPAR生成完了である場合には、LPAR生成完了アラートを送信して(S1003)、終了する(S906)。
アラートの種別がLPAR生成失敗である場合には、LPAR生成失敗アラートを送信して(S1004)、終了する(S906)。
If the alert type is LPAR stop completion, an LPAR deactivate completion alert is transmitted (S1001), and the process ends (S906).
If the alert type is LPAR stop failure, an LPAR stop failure alert is transmitted (S1002), and the process ends (S906).
If the type of alert is LPAR generation completion, an LPAR generation completion alert is transmitted (S1003), and the process ends (S906).
If the alert type is LPAR generation failure, an LPAR generation failure alert is transmitted (S1004), and the process ends (S906).
上記した例は、サーバ111のLPARに障害が発生した時に、管理サーバ101の制御の下、移行元及び移行先のハイパーバイザー間で種々の情報をやり取りして、LPARの移行制御を行うものである。
また、サーバ障害時の検出はSVPからも行うことができる。これによりハードウェア障害時にもその上で動作していたLPARを別々の物理マシンに移行させることができる。
In the above example, when a failure occurs in the LPAR of the
Further, detection at the time of a server failure can also be performed from the SVP. As a result, the LPAR operating on the hardware failure can be transferred to a separate physical machine.
以上のように、本実施例によれば、仮想計算機システムのLPAR障害時に、LPAR単位のきめ細かい交代を実現できるので、効率を要求される仮想計算機システムの利用業務に適用することができる。また、複数の物理計算機間に性能上のばらつきがある場合、特定のLPARの物理計算機間の移動が容易に可能となる。 As described above, according to the present embodiment, a fine alternation of LPAR units can be realized at the time of a LPAR failure of the virtual computer system, so that it can be applied to a virtual computer system utilization job that requires efficiency. Further, when there is a variation in performance among a plurality of physical computers, it is possible to easily move between physical computers of a specific LPAR.
101:管理サーバ 103:ネットワークスイッチ
105:サーバシャーシ 106:サービスプロセッサ
107:サーバモジュール管理情報 111、112:サーバ
113、114、123、124:LPAR
117、127:ハイパーバイザー
118、128:Hypervisor-Agt
120、130:BMC 121、131:FC−HBA
122、132:NIC 135:ファイバチャネルスイッチ
137:ストレージ装置
1101:サーバモジュール・ハードウェア構成情報
1111:ハイパーバイザー構成情報
101: Management server 103: Network switch
105: Server chassis 106: Service processor
107: Server
113, 114, 123, 124: LPAR
117, 127:
120, 130:
122, 132: NIC 135: Fiber Channel switch 137: Storage device 1101: Server module / hardware configuration information 1111: Hypervisor configuration information
Claims (5)
前記第1の物理計算機は:
前記論理区画と通信を行うための第1の物理アダプタと、
前記第1の物理計算機上に第1論理区画を生成し、前記第1論理区画の構成情報及び前記第1論理区画に設けられた論理アダプタに割り当てられた識別子である仮想識別子を管理する第1のハイパーバイザと、を有し、
前記管理システムは:
前記物理計算機の管理情報を管理する第1の管理手段と、
前記第1の物理計算機上の前記第1論理区画の構成情報及び前記第1論理区画の論理アダプタに割り当てられた前記仮想識別子を管理する第2の管理手段と、
前記第1の物理計算機又は前記第1の物理計算機上に生成された前記第1論理区画に状態変化が発生したことを検出する状態検出手段と、
前記状態検出手段による状態変化の検出により、前記管理情報に基づいて交代先の第2論理区画を生成することが可能な物理計算機かを判定し、交代先の第2の物理計算機を決定する決定手段と、
前記第1論理区画の構成情報及び前記第1論理区画の論理アダプタに割り当てられた前記仮想識別子を、前記決定した第2の物理計算機へ送信する送信手段と、を有し、
前記第2の物理計算機は:
前記論理区画と通信を行うための第2の物理アダプタと、
前記管理システムから送信された前記第1論理区画の構成情報及び前記第1論理区画の前記論理アダプタに割り当てられた前記仮想識別子を受信する受信手段と、
前記受信した第1論理区画の構成情報に基づいて、前記第2の物理計算機上に前記交代先の前記第2論理区画を生成し、前記第2論理区画の構成情報及び前記第2論理区画に設けられた論理アダプタに割り当てられた識別子である仮想識別子を管理する第2のハイパーバイザと、を有し、
前記第1論理区画の構成情報は、前記第1の物理アダプタの情報を含み、
前記第2のハイパーバイザは、前記生成した第2論理区画に前記論理アダプタを設け、前記第2論理区画に設けられた論理アダプタに、前記受信した仮想識別子を割り当てることを特徴とする仮想計算機システム。 A plurality of physical computers including first and second physical computers, and a management system that manages the physical computers and logical partitions connected to the plurality of physical computers via a network; In a virtual machine system capable of generating a partition and operating an OS,
The first physical computer is:
A first physical adapter for communicating with the logical partition;
A first logical partition is generated on the first physical computer, and the configuration information of the first logical partition and a virtual identifier that is an identifier assigned to a logical adapter provided in the first logical partition are managed. A hypervisor, and
The management system is:
First management means for managing management information of the physical computer;
Second management means for managing configuration information of the first logical partition on the first physical computer and the virtual identifier assigned to the logical adapter of the first logical partition;
State detection means for detecting that a state change has occurred in the first logical computer generated on the first physical computer or the first physical computer;
A determination to determine whether a replacement-target second physical computer can be generated based on the management information based on detection of a state change by the state detection means, and to determine a replacement-target second physical computer Means,
Transmitting means for transmitting the configuration information of the first logical partition and the virtual identifier assigned to the logical adapter of the first logical partition to the determined second physical computer;
The second physical computer is:
A second physical adapter for communicating with the logical partition;
Receiving means for receiving the configuration information of the first logical partition transmitted from the management system and the virtual identifier assigned to the logical adapter of the first logical partition;
Based on the received configuration information of the first logical partition, the second logical partition of the replacement destination is generated on the second physical computer, and the configuration information of the second logical partition and the second logical partition are generated. A second hypervisor that manages a virtual identifier that is an identifier assigned to the provided logical adapter;
The configuration information of the first logical partition includes information of the first physical adapter,
The second hypervisor provides the logical adapter in the generated second logical partition, and assigns the received virtual identifier to the logical adapter provided in the second logical partition. .
前記監視装置は、前記第2の管理手段と前記状態検出手段とを備えることを特徴とする請求項2記載の仮想計算機システム。 The management device includes the first management unit, the determination unit, and the transmission unit,
The virtual computer system according to claim 2, wherein the monitoring device includes the second management unit and the state detection unit.
前記管理装置の前記送信手段により、前記第2の管理手段から受信した前記第1論理区画の構成情報及び前記仮想識別子を、交代先となる前記第2の物理計算機へ送信することを特徴とする請求項2記載の仮想計算機システム。 The management device receives the configuration information of the first logical partition and the virtual identifier assigned to the logical adapter of the first logical partition from the second management unit of the monitoring device;
The transmission unit of the management apparatus transmits the configuration information and the virtual identifier of the first logical partition received from the second management unit to the second physical computer serving as a replacement destination. The virtual computer system according to claim 2.
前記管理装置の前記送信手段により、前記第1のハイパーバイザから受信した前記第1論理区画の構成情報及び前記仮想識別子を、交代先となる前記第2の物理計算機へ送信することを特徴とする請求項2記載の仮想計算機システム。 The management device receives the configuration information of the first logical partition and the virtual identifier assigned to the logical adapter of the first logical partition from the first hypervisor of the first physical computer,
The transmission unit of the management device transmits the configuration information and the virtual identifier of the first logical partition received from the first hypervisor to the second physical computer that is the replacement destination. The virtual computer system according to claim 2.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012152206A JP5422705B2 (en) | 2012-07-06 | 2012-07-06 | Virtual computer system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012152206A JP5422705B2 (en) | 2012-07-06 | 2012-07-06 | Virtual computer system |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011012591A Division JP5147955B2 (en) | 2011-01-25 | 2011-01-25 | Virtual computer system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012195005A JP2012195005A (en) | 2012-10-11 |
JP5422705B2 true JP5422705B2 (en) | 2014-02-19 |
Family
ID=47086772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012152206A Expired - Fee Related JP5422705B2 (en) | 2012-07-06 | 2012-07-06 | Virtual computer system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5422705B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6070282B2 (en) * | 2013-03-04 | 2017-02-01 | 富士通株式会社 | Virtual machine management apparatus, method and program |
WO2015052836A1 (en) | 2013-10-11 | 2015-04-16 | 株式会社日立製作所 | Storage device and failover method |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0816505A (en) * | 1994-07-04 | 1996-01-19 | Hitachi Ltd | Channel processor |
JP3653159B2 (en) * | 1997-04-01 | 2005-05-25 | 株式会社日立製作所 | Virtual computer migration control method between virtual computer systems |
JP4202709B2 (en) * | 2002-10-07 | 2008-12-24 | 株式会社日立製作所 | Volume and failure management method in a network having a storage device |
US8156490B2 (en) * | 2004-05-08 | 2012-04-10 | International Business Machines Corporation | Dynamic migration of virtual machine computer programs upon satisfaction of conditions |
JP2006072591A (en) * | 2004-09-01 | 2006-03-16 | Hitachi Ltd | Virtual computer control method |
JP4462024B2 (en) * | 2004-12-09 | 2010-05-12 | 株式会社日立製作所 | Failover method by disk takeover |
JP4733399B2 (en) * | 2005-01-28 | 2011-07-27 | 株式会社日立製作所 | Computer system, computer, storage device and management terminal |
-
2012
- 2012-07-06 JP JP2012152206A patent/JP5422705B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012195005A (en) | 2012-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4744480B2 (en) | Virtual computer system | |
JP5463267B2 (en) | Virtual computer system and virtual computer migration method | |
JP5542788B2 (en) | Virtual computer system and virtual computer migration control method | |
JP5959733B2 (en) | Storage system and storage system failure management method | |
US20140122816A1 (en) | Switching between mirrored volumes | |
WO2015162663A1 (en) | Storage system | |
JP5561622B2 (en) | Multiplexing system, data communication card, state abnormality detection method, and program | |
KR20180071941A (en) | A management controller and an operating method of chassis comprising the management controller | |
JP2008112399A (en) | Storage virtualization switch and computer system | |
KR20100095519A (en) | Apparatus and method for managing storage copy services systems | |
JP5422705B2 (en) | Virtual computer system | |
JP2006227856A (en) | Access controller and interface mounted on the same | |
JP6674101B2 (en) | Control device and information processing system | |
JP5422706B2 (en) | Management system | |
JP5147955B2 (en) | Virtual computer system | |
US11416147B2 (en) | Rack-power-controller-initiated data protection | |
JP5884801B2 (en) | Path switching device, path switching method, and path switching program | |
JP5423855B2 (en) | How to change the boot configuration | |
US11550676B2 (en) | Hardware-management-console-initiated data protection | |
JP2010033379A (en) | Virtualization system and restoration method for virtualization | |
JP2014179113A (en) | Virtual computer system and migration control method of virtual computer | |
WO2021174063A1 (en) | Cloud defined storage | |
JP2015207269A (en) | storage system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120706 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131016 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131125 |
|
LAPS | Cancellation because of no payment of annual fees |