JP2006309439A - Flexible cluster system - Google Patents

Flexible cluster system Download PDF

Info

Publication number
JP2006309439A
JP2006309439A JP2005130074A JP2005130074A JP2006309439A JP 2006309439 A JP2006309439 A JP 2006309439A JP 2005130074 A JP2005130074 A JP 2005130074A JP 2005130074 A JP2005130074 A JP 2005130074A JP 2006309439 A JP2006309439 A JP 2006309439A
Authority
JP
Japan
Prior art keywords
server
cluster
information
alternative
flexible
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005130074A
Other languages
Japanese (ja)
Inventor
Takashi Kojima
孝 小島
Akira Nagasawa
彰 長澤
Tsutomu Miyagaki
努 宮垣
Tomohiro Muramoto
智宏 村本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005130074A priority Critical patent/JP2006309439A/en
Publication of JP2006309439A publication Critical patent/JP2006309439A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a flexible cluster system, capable of freely changing the role of a server device which belongs to each cluster. <P>SOLUTION: The flexible cluster system comprises a shared disk device including a server resource storage means storing server resource information for providing individual functions and a system information storage means storing system cluster information for managing each server device, and a plurality of server devices, each including a start means starting a part of a cluster corresponding to an assigned function according to the system cluster information, a failure report means reporting information related to a failure detected for a function under providing to other server devices, a collection means collecting the failure information, a determination means determining whether the function to be performed by the own device should be changed or not based on the collected failure information and the system cluster information, and a restart means acquiring, according to the determination result that the function is to be changed, server resource information corresponding to the function of a changing destination from the server resource storage means of the shared disk device and restarting it. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、ATM、広域イーサネット(登録商標)等のネットワーク用のオペレーションシステムや金融機関のオンラインシステムのように、さまざまな機能をそれぞれ提供する複数のクラスタから構成され、無停止で運用を維持するための高可用性が要求されるクラスタシステムに関し、特に、システムを構成する複数のサーバ装置にかかわる多重障害が発生した場合における運用性の確実な維持を図る技術に関する。   The present invention is composed of a plurality of clusters each providing various functions such as an operation system for networks such as ATM and wide area Ethernet (registered trademark) and an online system of a financial institution, and maintains operation without interruption. In particular, the present invention relates to a technique for reliably maintaining operability in the case where a multiple failure relating to a plurality of server apparatuses constituting the system occurs.

ネットワーク用のオペレーションシステムなどにおいて必要とされる高可用性を実現するために、従来は、一般に、運用待機構成あるいはスケーラブル構成が用いられている。
運用待機構成は、同等の機能を果たすシステムを複数系統用意し、そのうち一系統を予備系として待機させる一方、他の系統を運用系として運用する構成であり、スケーラブル構成は、障害発生時の縮退運用において必要最小限の性能を提供できるように予め余裕を見込んだ数のサーバを用意する構成である。
Conventionally, an operation standby configuration or a scalable configuration is generally used in order to realize high availability required in a network operation system or the like.
The standby configuration is a configuration in which multiple systems that perform the same function are prepared, one of which is set as a standby system, while the other system is operated as an active system. The scalable configuration is a degraded configuration when a failure occurs. In this configuration, a sufficient number of servers are prepared in advance so as to provide the minimum performance necessary for operation.

図8に、従来のネットワーク用のオペレーションシステムの構成例を示す。
図8に示したネットワーク用のオペレーションシステムは、WEBクラスタ410、データベースクラスタ420、アプリケーションクラスタ430および装置クラスタ440、450,460を、端末装置が属するWAN401と伝送装置が属するWAN402との双方にLAN403を介して接続して構成されている。
FIG. 8 shows a configuration example of a conventional network operation system.
The network operation system shown in FIG. 8 includes a WEB cluster 410, a database cluster 420, an application cluster 430, and device clusters 440, 450, and 460. A LAN 403 is connected to both the WAN 401 to which the terminal device belongs and the WAN 402 to which the transmission device belongs. Connected through the network.

図8に示したWEBクラスタ410は、3台のWEBサーバ411a、411b、411cから構成され、3台中2台までの停止を想定したスケーラブル構成により、WEBを介して端末装置から入力されるサービス要求に関する受付処理機能を果たしている。また、図8に示したデータベースクラスタ420は、2台のデータベース(DB)サーバ421a、421bから構成され、これらのDBサーバ421a、421bのいずれか一方の停止を想定したスケーラブル構成により、システム運用にかかわるデータベースの維持管理処理機能を果たしている。   The WEB cluster 410 shown in FIG. 8 is composed of three WEB servers 411a, 411b, and 411c, and a service request input from a terminal device via the WEB with a scalable configuration that assumes a stop of up to two of the three servers. Plays a reception processing function. In addition, the database cluster 420 shown in FIG. 8 includes two database (DB) servers 421a and 421b, and a scalable configuration assuming that one of these DB servers 421a and 421b is stopped enables system operation. It performs the maintenance management function of the database concerned.

一方、図8に示したアプリケーションクラスタ430は、3台のアプリケーション(AP)サーバ431a、431b、431cから構成され、例えば、APサーバ431a、431bを運用系とし、APサーバ431cを待機系とした2:1運用待機構成により、サービス要求で要求されたサービスを提供するための経路選択処理などのアプリケーション処理機能を果たしている。また、図8に示した各装置クラスタ440、450、460は、それぞれ2台の装置サーバ441a(451a、461a)、441b(451b、461b)から構成され、いずれか一方が運用系となる運用待機構成により、選択された経路を伝送装置の機能を利用して設定するための装置設定処理機能をそれぞれ果たしている。   On the other hand, the application cluster 430 illustrated in FIG. 8 includes three application (AP) servers 431a, 431b, and 431c. For example, the AP servers 431a and 431b are the active system and the AP server 431c is the standby system 2 The application processing function such as the route selection process for providing the service requested by the service request is fulfilled by the 1: standby configuration. Further, each of the device clusters 440, 450, and 460 shown in FIG. 8 includes two device servers 441a (451a and 461a) and 441b (451b and 461b), respectively, and one of them becomes an operation standby. According to the configuration, each of the device setting processing functions for setting the selected route using the function of the transmission device is achieved.

図8に示したネットワーク用のオペレーションシステムにおいて、例えば、WEBクラスタ410に備えられた各WEBサーバ411a、411b、411cには、UNIX(登録商標)やLINUXなどの汎用のオペレーティングシステムとともに、スケーラブル構成を実現するためのクラスタソフトウェア、サービス要求の受付処理を実現するためのアプリケーションソフトウェアおよびアプリケーションソフトウェアの実行に必要なミドルウェアが組み込まれている。   In the network operation system shown in FIG. 8, for example, each WEB server 411a, 411b, 411c provided in the WEB cluster 410 has a scalable configuration together with a general-purpose operating system such as UNIX (registered trademark) or LINUX. Cluster software for realizing, application software for realizing service request reception processing, and middleware necessary for executing the application software are incorporated.

同様に、図8に示した装置クラスタ440に備えられた各装置サーバ441a、441bには、上述したオペレーティングシステムとともに、運用待機構成を実現するためのクラスタソフトウェア、装置制御のためのアプリケーションソフトウェアおよびミドルウェアが組み込まれている。
このような複数のサーバ装置から構成される複合計算機システムにおいて、各サーバ装置へのソフトウェアの組み込みや起動処理を効率化する手法として、複合計算機システムに属する全てのサーバが共通にアクセス可能な共用ファイルにシステム構成定義テーブルとシステム制御プログラムを配置しておき、このシステム構成定義テーブルに基づいて、各サーバ装置が必要なシステム制御プログラムを動作させる手法が提案されている(特許文献1参照)。
特開平7−325708号公報
Similarly, each of the device servers 441a and 441b provided in the device cluster 440 shown in FIG. 8 includes, in addition to the operating system described above, cluster software for realizing an operation standby configuration, application software for controlling the device, and middleware. Is incorporated.
In such a compound computer system composed of a plurality of server devices, a shared file that can be commonly accessed by all the servers belonging to the compound computer system is a method for improving the efficiency of software installation and activation processing in each server device. A method has been proposed in which a system configuration definition table and a system control program are arranged in the server, and each server device operates a necessary system control program based on the system configuration definition table (see Patent Document 1).
JP 7-325708 A

図8に示したような複数のクラスタから構成されるクラスタシステムでは、各クラスタを構成する複数のサーバ装置の運用中における役割は、クラスタ内部においてもまたクラスタシステム全体としても固定されている。つまり、図8に示したネットワーク用のオペレーションシステムにおいて、WEBサーバとして起動したサーバ装置は、WEBサーバとしての役割に固定されている。   In the cluster system composed of a plurality of clusters as shown in FIG. 8, the roles during operation of the plurality of server devices constituting each cluster are fixed both within the cluster and as a whole cluster system. That is, in the network operation system shown in FIG. 8, the server device activated as the WEB server is fixed to the role as the WEB server.

このため、高可用性が必要なシステムを構築するためには、クラスタごとに運用待機構成あるいはスケーラブル構成が採用されており、全体として、システムの正常な運用を維持するために十分な数を超えて過剰なほどの数のサーバを用意する必要があった。
なお、特許文献1に記載の技法でも、例えば、システム構成定義テーブルを変更することにより、複合計算機システム内における各サーバ装置の役割を起動ごとに変更することを可能とするに留まっている。したがって、運用中の各サーバ装置の役割は、図8に示したクラスタシステムと同様に固定されているので、高可用性が必要なシステムを構築するために、全体として過剰な数のサーバ装置を用意する必要がある点では同様である。
For this reason, in order to build a system that requires high availability, an active / standby configuration or a scalable configuration is adopted for each cluster, and as a whole, the number exceeds a sufficient number to maintain the normal operation of the system. It was necessary to prepare an excessive number of servers.
Note that even the technique described in Patent Document 1 only allows the role of each server device in the compound computer system to be changed at each activation by changing the system configuration definition table, for example. Therefore, the role of each server device in operation is fixed in the same way as in the cluster system shown in FIG. 8, so that an excessive number of server devices are prepared as a whole to build a system that requires high availability. It is similar in that it needs to be done.

ところで、個々のサーバ装置に関する実装技術の進歩により、各クラスタを構成するサーバそれぞれに障害が発生する確率は、無視できるほどではないにしてもかなり低くなっている。その一方、ネットワーク用のオペレーションシステムのような民生用のシステムでは、高可用性が必要とされるとはいえ、システム全体の構築に要するコストおよび構築されたシステムの運用、保守および管理に要するコストを含む所有にかかわる総コスト、いわゆるTCO(Total Cost of Ownership)の圧縮が強く要望されている。   By the way, due to advances in mounting technology related to individual server devices, the probability that a failure will occur in each server constituting each cluster is considerably low if not negligible. On the other hand, in consumer systems such as network operation systems, although high availability is required, the cost required to build the entire system and the cost required to operate, maintain and manage the built system There is a strong demand to reduce the total cost of ownership including so-called TCO (Total Cost of Ownership).

これらのことから、サーバ装置などのハードウェア資源の冗長性を必要最小限に抑えながら、システム内で起こり得る様々な障害に柔軟に対応して高可用性を実現するクラスタシステムを構築するための技術が必要とされている。
本発明は、複数のクラスタからなるクラスタシステムにおいて、各クラスタに属するサーバ装置の役割を自在に変更可能なフレキシブルクラスタシステムを提供することを目的とする。
From these facts, a technology for constructing a cluster system that realizes high availability by flexibly responding to various failures that can occur in the system while minimizing the redundancy of hardware resources such as server devices. Is needed.
An object of the present invention is to provide a flexible cluster system capable of freely changing the roles of server devices belonging to each cluster in a cluster system composed of a plurality of clusters.

本発明にかかわる第1のフレキシブルクラスタシステムは、サーバ資源情報格納手段と、システム情報格納手段とを有する共有ディスク装置と、起動手段と、障害通知手段と、収集手段と、判定手段と、障害通知手段と、収集手段と、判定手段と、再起動手段とを有する複数のサーバ装置とから構成される。
本発明にかかわる第1のフレキシブルクラスタシステムの原理は、以下の通りである。
A first flexible cluster system according to the present invention includes a shared disk device having server resource information storage means and system information storage means, startup means, failure notification means, collection means, determination means, and failure notification. It comprises a plurality of server devices having means, collection means, determination means, and restart means.
The principle of the first flexible cluster system according to the present invention is as follows.

複数のサーバ装置とこれらのサーバ装置によって共有される共有ディスク装置とを備えたフレキシブルクラスタシステムに備えられる共有ディスク装置において、サーバ資源格納手段は、複数のサーバ装置それぞれが個々の機能提供を行なうために必要となるミドルウェア、アプリケーションプログラムおよび論理IPアドレスを含むサーバ資源情報を個々の機能に対応して格納する。システム情報格納手段は、フレキシブルクラスタシステム内における複数のサーバ装置それぞれの状態および各サーバ資源情報の各サーバ装置への割当を管理するためのシステムクラスタ情報を格納する。複数のサーバ装置それぞれにおいて、起動手段は、システムクラスタ情報に従って、割り当てられた機能に対応するサーバ資源情報を獲得し、機能に対応するクラスタの一部として起動する。障害通知手段は、提供中の機能に関する障害を検出し、検出した障害に関する情報を障害情報の一部として他のサーバ装置に通知する。収集手段は、検出した障害に関する情報とともに、他のサーバ装置における障害に関する障害情報を収集する。判定手段は、収集した障害情報とシステムクラスタ情報とに基づいて、フレキシブルクラスタシステムにおいて自装置が果たすべき機能を変更すべきか否かを判定する。再起動手段は、機能を変更する旨の判定結果に応じて、共有ディスク装置のサーバ資源格納手段から変更先の機能に対応するサーバ資源情報を獲得し、変更先の機能に対応するクラスタの一部として再起動する。   In a shared disk device provided in a flexible cluster system provided with a plurality of server devices and a shared disk device shared by these server devices, the server resource storage means each of the plurality of server devices provides individual functions. Server resource information including middleware, application programs, and logical IP addresses necessary for the storage is stored corresponding to each function. The system information storage means stores system cluster information for managing the status of each of a plurality of server devices in the flexible cluster system and the allocation of each server resource information to each server device. In each of the plurality of server apparatuses, the activation unit acquires server resource information corresponding to the assigned function according to the system cluster information, and activates it as a part of the cluster corresponding to the function. The failure notification means detects a failure related to the function being provided, and notifies other server devices of information related to the detected failure as part of the failure information. The collection unit collects failure information related to a failure in another server device together with information related to the detected failure. Based on the collected failure information and system cluster information, the determination means determines whether or not the function to be performed by the own device in the flexible cluster system should be changed. The restarting means obtains server resource information corresponding to the function of the change destination from the server resource storage means of the shared disk device according to the determination result indicating that the function is changed, and obtains one of the clusters corresponding to the function of the change destination. Restart as part.

このように構成された第1のフレキシブルクラスタシステムの動作は、下記の通りである。
フレキシブルクラスタシステムに属する各サーバ装置は、例えば、システムクラスタ情報に含まれる基本的な割当に従って、それぞれの起動手段が共用ディスク装置のサーバ資源格納手段から獲得したサーバ資源情報を用いて、上述した基本的な割当で示された機能を提供するクラスタの一部として起動する。その後に、いずれかのサーバ装置において障害が発生すると、そのサーバ装置に備えられた障害通知手段により、その旨を示す障害情報が他の各サーバ装置に通知され、収集手段によって収集される。このときに、各サーバ装置に備えられた判定手段は、例えば、自身が障害によってダウンしたサーバ装置の代わりにその役割を果たすべきか否かを判定し、この判定結果に応じて、再起動手段による再起動処理が行われる。
The operation of the first flexible cluster system configured as described above is as follows.
Each server device belonging to the flexible cluster system uses the server resource information acquired from the server resource storage unit of the shared disk device by each activation unit according to the basic allocation included in the system cluster information, for example. Start as part of a cluster that provides the functionality indicated by the dynamic allocation. After that, when a failure occurs in any of the server devices, failure information indicating that fact is notified to the other server devices by the failure notification means provided in the server device, and is collected by the collecting means. At this time, the determination means provided in each server device determines, for example, whether or not it should play its role instead of the server device that has gone down due to a failure, and the restarting means is determined according to the determination result. The restart process is performed.

このようにして、フレキシブルクラスタシステムを構成するサーバ装置のいずれかに障害が発生したときに、システム内の各サーバ装置がそれぞれ自律的に役割分担を変更することにより、様々な機能提供を維持してシステム全体の運用を確実に継続することができる。このように構成されたクラスタシステムでは、各機能に対応する複数のクラスタからなるシステム構成をとりながら、これらのクラスタ間で余剰のサーバ装置を共用することができる。   In this way, when a failure occurs in any of the server devices that make up the flexible cluster system, each server device in the system autonomously changes its role assignment to maintain the provision of various functions. Thus, the operation of the entire system can be reliably continued. In the cluster system configured as described above, a surplus server device can be shared between these clusters while taking a system configuration including a plurality of clusters corresponding to each function.

本発明にかかわる第2のフレキシブルクラスタシステムは、上述した第1のフレキシブルクラスタシステムの判定手段に、代替判定手段と、サーバ選択手段とを備えて構成される。
本発明にかかわる第2のフレキシブルクラスタシステムの原理は、以下の通りである。
上述した第1のフレキシブルクラスタシステムに備えられる判定手段において、代替判定手段は、収集した障害情報によってフレキシブルクラスタシステムを構成する複数のサーバ装置のいずれかに障害が発生したことが示されたときに、システムクラスタ情報に基づいて、障害が発生したサーバ装置の役割分担を他のサーバ装置によって代替する必要があるか否かを判定する。サーバ選択手段は、代替する旨の判定結果に応じて、システムクラスタ情報に基づいて、障害が発生したサーバ装置に代わる代替サーバを選択し、代替サーバが自装置である場合に機能を変更する旨の判定結果を出力する。
A second flexible cluster system according to the present invention is configured by including an alternative determination unit and a server selection unit in the determination unit of the first flexible cluster system described above.
The principle of the second flexible cluster system according to the present invention is as follows.
In the determination means provided in the first flexible cluster system described above, the alternative determination means indicates that a failure has occurred in any of a plurality of server devices constituting the flexible cluster system based on the collected failure information. Based on the system cluster information, it is determined whether or not the role sharing of the server device in which the failure has occurred needs to be replaced by another server device. The server selection means selects an alternative server to replace the failed server device based on the system cluster information according to the determination result of the replacement, and changes the function when the alternative server is the own device. The judgment result of is output.

このように構成された第2のフレキシブルクラスタシステムの動作は、下記の通りである。
例えば、余剰能力の少ないクラスタに属するサーバ装置に障害が発生した場合などに、該当するクラスタに属する稼働可能なサーバ装置によって実現できるパフォーマンスがシステム全体の運用状態を維持するために必要な能力を下回る可能性がある。このような場合に、各サーバ装置の判定手段に備えられた代替判定手段は、例えば、サーバ装置の障害によって変化したクラスタの構成がシステムクラスタ情報で示される該当するクラスタの最小構成に関する情報を下回るか否かに基づいて、代替サーバの必要性を判定する。そして、代替が必要であるとされた場合に、各サーバ装置の判定手段に備えられたサーバ選択手段により、システムクラスタ情報に基づいて代替サーバが選択され、選択された代替サーバが自装置である場合に、再起動手段による再起動が行われる。
The operation of the second flexible cluster system configured as described above is as follows.
For example, when a failure occurs in a server device that belongs to a cluster with a small surplus capacity, the performance that can be achieved by an operational server device that belongs to the relevant cluster is lower than the capacity required to maintain the operational status of the entire system. there is a possibility. In such a case, for example, the alternative determination unit included in the determination unit of each server device is less than the information about the minimum configuration of the corresponding cluster indicated by the system cluster information in which the cluster configuration changed due to the failure of the server device. Based on whether or not, the necessity of the alternative server is determined. When it is determined that a replacement is necessary, the server selection unit provided in the determination unit of each server device selects the replacement server based on the system cluster information, and the selected replacement server is the own device. In such a case, restart by the restarting means is performed.

ここで、各サーバ装置に備えられた代替判定手段およびサーバ選択手段は、共用ディスク装置のシステム情報格納手段に格納された同一のシステムクラスタ情報を参照してそれぞれの判定処理および選択処理を行うので、それぞれのサーバ装置において自律的に行われる処理結果は同一の結論に到達し、適切なサーバ装置が代替サーバとして再起動する。
本発明にかかわる第3のフレキシブルクラスタシステムは、上述した第2のフレキシブルクラスタシステムに備えられる代替判定手段に、比較手段と、余力検出手段と、不均衡検出手段と、判断手段とを備えて構成される。
Here, the substitution determination means and server selection means provided in each server device perform the respective determination processing and selection processing with reference to the same system cluster information stored in the system information storage means of the shared disk device. The processing results autonomously performed in each server device reach the same conclusion, and an appropriate server device is restarted as an alternative server.
A third flexible cluster system according to the present invention comprises a substitute means provided in the second flexible cluster system described above, comprising comparison means, remaining power detection means, imbalance detection means, and determination means. Is done.

本発明にかかわる第3のフレキシブルクラスタシステムの原理は、以下の通りである。
上述した第2のフレキシブルクラスタシステムに備えられる代替判定手段において、比較手段は、障害が発生したサーバ装置が属するクラスタについてシステムクラスタ情報で示された最小サーバ数と、クラスタに属する稼働可能なサーバ装置の数とを比較する。余力検出手段は、クラスタに属する稼働可能なサーバ装置の数が最小サーバ数と等しいとされた場合に、他のクラスタであって、システムクラスタ情報で示された最小サーバ数よりも稼働可能なサーバ装置の数が所定数以上多いクラスタを検出する。不均衡検出手段は、システムクラスタ情報で示される各クラスタにかかる負荷に関する情報と、各クラスタに属する稼働可能なサーバ装置の数とに基づいて、クラスタごとの能力の不均衡を検出する。判断手段は、比較手段による比較結果と余力検出手段および不均衡検出手段による検出結果とに基づいて、障害が発生したサーバ装置について代替サーバの割り当ての要否を判断する。
The principle of the third flexible cluster system according to the present invention is as follows.
In the alternative determination means provided in the second flexible cluster system described above, the comparison means includes the minimum number of servers indicated by the system cluster information for the cluster to which the failed server apparatus belongs, and an operable server apparatus belonging to the cluster. Compare the number of. When the number of operable server devices belonging to the cluster is equal to the minimum number of servers, the surplus power detection means is a server that can operate more than the minimum number of servers indicated in the system cluster information in another cluster. A cluster having more than a predetermined number of devices is detected. The imbalance detection means detects an imbalance in capacity for each cluster based on information regarding the load applied to each cluster indicated by the system cluster information and the number of operable server devices belonging to each cluster. The determining means determines whether or not it is necessary to assign an alternative server for the server device in which the failure has occurred, based on the comparison result by the comparing means and the detection results by the remaining power detecting means and the imbalance detecting means.

このように構成された第3のフレキシブルクラスタシステムの動作は、下記の通りである。
代替判定手段において、判断手段は、例えば、比較手段により、障害が発生したサーバ装置が属するクラスタにおいて稼働しているサーバ装置の数が最小サーバ数を下回った場合に、クラスタに対応する機能提供が停止すると判断して代替サーバが必要である旨の判定結果を出力する。また、判断手段は、例えば、不均衡検出手段によってクラスタ間に負荷の不均衡が検出され、また、余力検出手段により、負荷が集中しているクラスタ以外のクラスタが余力を多く持っているクラスタとして検出された場合などに、代替サーバが必要である旨の判定結果を出力する。
The operation of the third flexible cluster system configured as described above is as follows.
In the alternative determination means, the determination means provides a function corresponding to the cluster when, for example, the comparison means causes the number of server apparatuses operating in the cluster to which the failed server apparatus belongs to be less than the minimum number of servers. It judges that it stops, and outputs the judgment result to the effect that an alternative server is necessary. In addition, for example, the judgment means detects a load imbalance between the clusters by the imbalance detection means, and the cluster other than the cluster where the load is concentrated has a lot of remaining power by the remaining power detection means. When it is detected, a determination result indicating that an alternative server is necessary is output.

このようにして、障害が発生したサーバ装置が属するクラスタによる機能提供が停止の危機に曝されている場合はもちろん、障害の発生によって負荷の不均衡や極端な性能の不均衡が生じた場合にも、代替サーバの割当を行って、システム全体としての円滑な運用継続を図ることができる。
本発明にかかわる第4のフレキシブルクラスタシステムは、上述した第2のフレキシブルクラスタシステムに備えられるサーバ選択手段に、待機検出手段と、クラスタ判別手段と、候補抽出手段と、決定手段とを備えて構成される。
In this way, not only when the function provision by the cluster to which the failed server device belongs is exposed to a crisis of stoppage, but also when a load imbalance or extreme performance imbalance occurs due to the occurrence of the failure In addition, by allocating alternative servers, it is possible to continue the smooth operation of the entire system.
A fourth flexible cluster system according to the present invention comprises a server selection means provided in the second flexible cluster system described above, comprising standby detection means, cluster discrimination means, candidate extraction means, and determination means. Is done.

本発明にかかわる第4のフレキシブルクラスタシステムの原理は、以下の通りである。
上述した第2のフレキシブルクラスタシステムに備えられるサーバ選択手段において、待機検出手段は、システムクラスタ情報に基づいて、稼働状態が待機中であるサーバ装置を検出する。クラスタ判別手段は、各クラスタにおいて稼働しているサーバ装置数からシステムクラスタ情報で示される最小サーバ数を差し引いて得られる余剰サーバ数に基づいて、余力の大きいクラスタを判別する。候補抽出手段は、余力が大きいとされたクラスタからシステムクラスタ情報で示される優先順位に従っていずれか一つを選択し、選択したクラスタに属するサーバ装置を代替サーバ候補として抽出する。決定手段は、検出された待機サーバあるいは代替サーバ候補から選択したサーバ装置を代替サーバとして決定する。
The principle of the fourth flexible cluster system according to the present invention is as follows.
In the server selection means provided in the second flexible cluster system described above, the standby detection means detects a server device whose operation state is standby based on the system cluster information. The cluster discriminating unit discriminates a cluster having a large surplus capacity based on the number of surplus servers obtained by subtracting the minimum number of servers indicated by the system cluster information from the number of server devices operating in each cluster. The candidate extraction means selects one of the clusters having a large surplus capacity according to the priority order indicated by the system cluster information, and extracts server devices belonging to the selected cluster as alternative server candidates. The determining means determines a server device selected from the detected standby server or alternative server candidate as the alternative server.

このように構成された第4のフレキシブルクラスタシステムの動作は、下記の通りである。
サーバ選択手段において、決定手段は、まず、待機検出手段によって検出された待機中のサーバ装置を代替サーバとする。一方、待機中のサーバ装置が存在しない場合に、決定手段は、クラスタ判別手段によって判別された余力が大きいクラスタの中から候補抽出手段が選択したクラスタに属する代替サーバ候補から一つを選択して代替サーバとする。
The operation of the fourth flexible cluster system configured as described above is as follows.
In the server selection means, the determination means first sets the server device in standby detected by the standby detection means as an alternative server. On the other hand, when there is no waiting server device, the determination unit selects one of the alternative server candidates belonging to the cluster selected by the candidate extraction unit from the clusters having a large remaining capacity determined by the cluster determination unit. Use an alternative server.

本発明にかかわる第5のフレキシブルクラスタシステムは、上述した第4のフレキシブルクラスタシステムに備えられる決定手段に、負荷算出手段と、選択決定手段とを備えて構成される。
本発明にかかわる第5のフレキシブルクラスタシステムの原理は、以下の通りである。
上述した第4のフレキシブルクラスタシステムに備えられる決定手段において、負荷算出手段は、代替サーバ候補それぞれについて、代替サーバとして割り当てた際に、少なくとも割当先のクラスタと割当元のクラスタとにおける負荷を示す指標をそれぞれ求める。選択決定手段は、検出された待機サーバを優先的に代替サーバとして選択し、待機サーバが検出されない場合に、負荷算出手段で得られた指標に基づいて代替サーバ候補の一つを代替サーバとして選択する。
A fifth flexible cluster system according to the present invention is configured by including a load calculation unit and a selection determination unit in the determination unit provided in the above-described fourth flexible cluster system.
The principle of the fifth flexible cluster system according to the present invention is as follows.
In the determining means provided in the fourth flexible cluster system described above, the load calculating means, when allocating each of the alternative server candidates as an alternative server, indicates an index indicating at least the load in the allocation destination cluster and the allocation source cluster. For each. The selection determining means preferentially selects the detected standby server as an alternative server, and when no standby server is detected, selects one of the alternative server candidates as an alternative server based on the index obtained by the load calculation means To do.

このように構成された第5のフレキシブルクラスタシステムの動作は、下記の通りである。
待機サーバが検出されなかった場合には、余力の大きいクラスタに属するサーバ装置の一つを大体クラスタとして割り当てるので、当然ながら、代替サーバを差し出すクラスタに残された他のサーバ装置にかかる負荷は増大する。また、これに伴って、代替サーバを差し出したクラスタおよびこれを割り当てられたクラスタ以外の他のクラスタにかかる負荷も影響を受ける可能性がある。
The operation of the fifth flexible cluster system configured as described above is as follows.
If no standby server is detected, one of the server devices belonging to the cluster with a large surplus capacity is assigned as a cluster, so naturally the load on the other server devices left in the cluster from which the alternative server is sent increases. To do. Along with this, the load applied to the cluster other than the cluster from which the alternative server is sent and the cluster to which this server is assigned may be affected.

このような負荷にかかわる影響の度合いを示す指標を負荷算出手段によって各代替サーバ候補について求め、これらの指標に基づいて、選択決定手段が代替サーバを選択することにより、フレキシブルクラスタシステム全体の円滑な運用を維持する上で最適のサーバ装置を代替サーバ装置として選択することができる。   An index indicating the degree of the influence on the load is obtained for each alternative server candidate by the load calculating means, and the selection determining means selects the alternative server based on these indices, so that the entire flexible cluster system can be smoothly operated. It is possible to select an optimal server device as an alternative server device in maintaining operation.

本発明にかかわるフレキシブルクラスタシステムでは、障害の発生などの事態に対応して、システムに属する各サーバ装置の役割を柔軟に変更可能であるので、複数の機能を提供するクラスタからなるクラスタシステムの高可用性の実現と、クラスタシステムを構成するハードウェア資源に関する余剰の削減とを両立させることが可能である。
これにより、ネットワーク用のオペレーションシステムのような民生用のシステムを、提供すべき各機能に対応するクラスタごとに冗長構成を採用した場合に比べて格段に少ないサーバ数で実現することができるので、リーズナブルなコストで様々なサービスを無停止で提供するために十分な高可用性を実現することができる。
In the flexible cluster system according to the present invention, the role of each server device belonging to the system can be flexibly changed in response to a situation such as the occurrence of a failure. It is possible to achieve both the realization of availability and the excessive reduction of hardware resources constituting the cluster system.
As a result, a consumer system such as a network operation system can be realized with a significantly smaller number of servers than when a redundant configuration is adopted for each cluster corresponding to each function to be provided. Sufficient high availability can be achieved to provide various services without interruption at a reasonable cost.

特に、システム全体を集中して管理する思想を廃し、フレキシブルクラスタシステムを構成する各サーバ装置が、それぞれ自律的に障害に関する情報を収集分析して、代替サーバの割当の要否やその候補を選択する構成を採用したことにより、システム全体としてのフレキシビリティを格段に向上し、極めて高いレベルの高可用性を実現することができる。   In particular, the idea of centrally managing the entire system is abolished, and each server device constituting the flexible cluster system autonomously collects and analyzes information on failures, and selects whether or not to allocate an alternative server and its candidates. By adopting the configuration, the flexibility of the entire system can be remarkably improved and a very high level of high availability can be realized.

また、代替サーバ候補の選択や代替サーバの決定の過程において、個々のクラスタが提供する機能に関する優先順位やそれぞれのクラスタにかかる負荷の大きさおよびクラスタ間での負荷の偏りを分析し、これらの分析結果に基づいて代替サーバを決定することにより、フレキシブルクラスタシステムの円滑な運用を確実に維持することができる。   In addition, in the process of selecting alternative servers and determining alternative servers, we analyze the priorities of functions provided by individual clusters, the magnitude of load on each cluster, and the load imbalance among clusters. By determining an alternative server based on the analysis result, smooth operation of the flexible cluster system can be reliably maintained.

以下、図面に基づいて、本発明の実施形態について詳細に説明する。
図1に、本発明にかかわるフレキシブルクラスタシステムの実施形態を示す。
なお、図1に示す構成要素のうち、図8に示した各部と同等のものについては、図8に示した符号を付して示し、その説明を省略する。
図1に示したフレキシブルクラスタシステムは、利用者の端末装置が属する広域ネットワーク(WAN)401と、伝送装置が属するWAN402との双方に接続されており、これらの伝送装置によって設定される伝送経路を介して、各利用者の端末装置に映像コンテンツを配信するネットワーク用のオペレーションシステムを実現している。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 shows an embodiment of a flexible cluster system according to the present invention.
1 that are the same as those shown in FIG. 8 are denoted by the same reference numerals as those shown in FIG. 8 and description thereof is omitted.
The flexible cluster system shown in FIG. 1 is connected to both a wide area network (WAN) 401 to which a user terminal device belongs and a WAN 402 to which a transmission device belongs, and transmission paths set by these transmission devices are Thus, an operation system for a network that distributes video content to each user terminal device is realized.

図1に示したフレキシブルクラスタシステムにおいて、各サーバ装置S1〜S12は、インターコネクト(図示せず)を介して互いに接続されるとともに、LAN403を介して上述したWAN401、402に接続されている。また、図1に示したフレキシブルクラスタシステムにおいて、共用ディスク装置は、例えば、ストレージエリアネットワーク(SAN)201によって形成されており、ファイバーチャネル202などの高速LANを介して上述した各サーバ装置S1〜S12に接続されている。   In the flexible cluster system shown in FIG. 1, the server apparatuses S <b> 1 to S <b> 12 are connected to each other via an interconnect (not shown) and are connected to the above-described WANs 401 and 402 via a LAN 403. In the flexible cluster system shown in FIG. 1, the shared disk device is formed by, for example, a storage area network (SAN) 201, and each of the server devices S1 to S12 described above via a high-speed LAN such as the fiber channel 202. It is connected to the.

図1に示したストレージエリアネットワーク201は、後述するシステムクラスタ情報とともに、上述した各サーバ装置を図8に示したWEBサーバ、アプリケーションサーバ、データベース管理サーバおよび装置サーバとしてそれぞれ動作させるために必要なWEBサーバ資源情報(WEB1,WEB2,WEB3)、アプリケーション(AP)サーバ資源情報(AP1,AP2)、データベース(DB)サーバ資源情報(DB1,DB2)および装置サーバ資源情報(装置1、装置2、装置3)を格納している。   The storage area network 201 shown in FIG. 1 includes WEB necessary for operating each of the server devices described above as the WEB server, application server, database management server, and device server shown in FIG. Server resource information (WEB1, WEB2, WEB3), application (AP) server resource information (AP1, AP2), database (DB) server resource information (DB1, DB2) and device server resource information (device 1, device 2, device 3) ) Is stored.

これらのサーバ資源情報には、それぞれ対応する機能を提供するためのアプリケーションプログラムおよびミドルウェアに加えて、これらの動作およびサーバ装置のハードウェアの動作を監視するための監視手段や、アプリケーションプログラムおよびミドルウェアの起動/停止に必要な起動/停止コマンドおよび割り当てられるべき論理IPアドレスなどの情報が含まれている。   These server resource information includes, in addition to application programs and middleware for providing corresponding functions, monitoring means for monitoring these operations and hardware operations of the server device, application programs and middleware Information such as a start / stop command required for start / stop and a logical IP address to be assigned is included.

また、ストレージエリアネットワーク201に格納されるシステムクラスタ情報には、フレキシブルクラスタシステムにおける各サーバ装置S1〜S12の状態を示すサーバ状態テーブルと、各サーバ装置S1〜S12への基本的な機能割り当てを示す基本割当テーブルと、各機能種別と各サーバ資源情報と各サーバ装置S1〜S12との対応関係を示すサーバ対応テーブルと、機能割り当てを変更する際に判断材料となる参照情報とが含まれている。   The system cluster information stored in the storage area network 201 indicates a server status table indicating the status of each of the server devices S1 to S12 in the flexible cluster system and a basic function assignment to each of the server devices S1 to S12. It includes a basic allocation table, a server correspondence table indicating the correspondence between each function type, each server resource information, and each server device S1 to S12, and reference information that is used as a judgment material when changing the function assignment. .

一方、図1に示した各サーバ装置S1〜S12には、予め、UNIX(登録商標)やLINUXなどの汎用オペレーティングシステムと、これらのサーバ装置S1〜S12をそれぞれフレキシブルクラスタシステムの一部として動作させるためのクラスタソフトウェアが組み込まれている。そして、このクラスタソフトウェアが、上述したシステムクラスタ情報に基づいて、適切なサーバ資源情報を獲得して組み込むことにより、図2に示すように、各サーバ装置Siにおいて、組み込まれたサーバ資源情報に対応する機能提供を行う機能提供処理部211およびこの機能提供処理部211に属する監視対象のプロセスおよびハードウェアをそれぞれ監視する機能監視部212〜212が形成され、また、クラスタソフトウェアにより、サーバ管理処理部213が形成される。 On the other hand, in each of the server apparatuses S1 to S12 shown in FIG. 1, a general-purpose operating system such as UNIX (registered trademark) or LINUX and these server apparatuses S1 to S12 are operated as a part of the flexible cluster system. Built-in cluster software. The cluster software acquires and incorporates appropriate server resource information based on the above-described system cluster information, so that each server device Si can handle the incorporated server resource information as shown in FIG. A function providing processing unit 211 that provides the function to be performed, and function monitoring units 212 1 to 212 n that respectively monitor the monitoring target process and hardware belonging to the function providing processing unit 211, and server management is performed by the cluster software. A processing unit 213 is formed.

例えば、図3(b)に示すように、システムクラスタ情報の基本割当テーブルで示された割り当てに従って、図1に示したサーバ装置S1〜S3はWEBサーバ資源情報、サーバ装置S4、S5はDBサーバ資源情報を、サーバ装置S6、S7はAPサーバ資源情報を、サーバ装置S8〜S10は装置サーバ資源情報をそれぞれ獲得する。これらのサーバ装置S8〜S10がそれぞれ獲得したサーバ資源情報を組み込むことにより、組み込まれたサーバ資源情報の種別に対応する機能を果たす機能提供処理部211が形成される(図2参照)。このようにして、図1に示したサーバ装置S1〜S10は、それぞれの機能に対応するクラスタの一部として起動する。   For example, as shown in FIG. 3B, according to the assignment shown in the basic assignment table of the system cluster information, the server devices S1 to S3 shown in FIG. 1 are WEB server resource information, and the server devices S4 and S5 are DB servers. The server apparatuses S6 and S7 acquire AP server resource information, and the server apparatuses S8 to S10 acquire apparatus server resource information. By incorporating the server resource information acquired by each of these server apparatuses S8 to S10, a function provision processing unit 211 that performs a function corresponding to the type of the incorporated server resource information is formed (see FIG. 2). In this manner, the server apparatuses S1 to S10 illustrated in FIG. 1 are activated as part of the cluster corresponding to each function.

このとき、これらのサーバ装置S1〜S10のサーバ管理処理部213により、システムクラスタ情報のサーバ状態テーブルにそれぞれが稼動中である旨の情報とともに、各サーバ装置S1〜S10の性能の高さを相対的に示す性能指数が書き込まれる(図3(a)参照)。一方、サーバ装置S11、S12については、割当対象のサーバ資源情報が示されていないので、これらのサーバ装置は待機サーバとなり、サーバ状態テーブルにその旨を示す情報が書き込まれる(図3(a)参照)。   At this time, the server management processing unit 213 of these server apparatuses S1 to S10 sets the relative performance level of each server apparatus S1 to S10 together with information indicating that each is operating in the server status table of the system cluster information. The figure of merit shown is written (see FIG. 3 (a)). On the other hand, since the server resource information to be allocated is not shown for the server devices S11 and S12, these server devices become standby servers, and information indicating that is written in the server status table (FIG. 3A). reference).

なお、上述した性能指数は、例えば、各サーバ装置S1〜S12に形成されるサーバ管理処理部213により(図2参照)、フレキシブルクラスタシステムにおいて統一された手法に基づく測定を行い、この測定結果に従って決定することができる。図3(a)においては、上述した測定により、最も性能が低いとされたサーバ装置の能力を数値「1」として、他のサーバ装置の性能を正規化した値を示している。   The above-mentioned performance index is measured based on a method unified in the flexible cluster system by the server management processing unit 213 formed in each of the server devices S1 to S12 (see FIG. 2), for example, and according to the measurement result. Can be determined. FIG. 3A shows a value obtained by normalizing the performance of other server devices, with the performance of the server device having the lowest performance as a numerical value “1” by the above-described measurement.

また、上述したようにしてサーバ資源情報を獲得した各サーバ装置S1〜S10は、図3(c)に示すように、それぞれが獲得したサーバ資源情報に対応して、自身を示すサーバ名をサーバ対応テーブルに書き込んで、各サーバ装置S1〜S10とそれぞれが属するクラスタとの対応関係を示す。
このようにして、サーバ装置S1〜S12からなるフレキシブルクラスタシステムを、WEBクラスタ、データベースクラスタ、アプリケーションクラスタおよび装置クラスタからなるクラスタシステムとして起動させ、しかも、2台のサーバ装置S11、S12を上述したいずれのクラスタにも割当可能な待機サーバとして確保することができる。
Further, as shown in FIG. 3C, each of the server apparatuses S1 to S10 that have acquired the server resource information as described above assigns a server name indicating itself to the server corresponding to the acquired server resource information. It is written in the correspondence table, and shows the correspondence between each server device S1 to S10 and the cluster to which each belongs.
In this way, the flexible cluster system including the server apparatuses S1 to S12 is started as a cluster system including the WEB cluster, the database cluster, the application cluster, and the apparatus cluster, and the two server apparatuses S11 and S12 are It can be secured as a standby server that can be assigned to other clusters.

次に、上述したようにしてクラスタシステムの一部として起動されたサーバ装置の運用にかかわる構成について説明する。
図2に示したサーバ管理処理部213において監視情報収集部214は、上述した各機能監視部212によって得られた監視情報を収集し、収集した監視情報に基づいて機能提供処理部211の動作状態の障害を検出したときに、障害通知部215を介して検出した障害に関する情報をストレージエリアネットワーク201に格納されたシステムクラスタ情報に反映する。また、図2に示したサーバ監視部216は、インターコネクトを経由して行われる他の各サーバ装置との間のメッセージ交換の停止によって、メッセージ交換相手のサーバ装置の障害を検出し、障害通知部215を介してシステムクラスタ情報に検出した障害に関する情報を反映する。このとき、障害通知部215は、図4(a)に示すように、システムクラスタ情報に含まれるサーバ状態テーブルに、該当するサーバ装置に対応して、障害を検出した旨の状態情報を書き込むとともに、図4(b)に示すサーバ対応テーブルにおいて、該当するサーバ装置に関するサーバ資源情報の対応付けを示す情報をクリアすることにより、検出した障害に関する情報を反映する。なお、図4においては、サーバ装置S4に障害が検出された場合を示している。
Next, a configuration related to the operation of the server apparatus activated as part of the cluster system as described above will be described.
In the server management processing unit 213 illustrated in FIG. 2, the monitoring information collection unit 214 collects the monitoring information obtained by each of the function monitoring units 212 described above, and the operation status of the function provision processing unit 211 based on the collected monitoring information. When a failure is detected, information relating to the failure detected via the failure notification unit 215 is reflected in the system cluster information stored in the storage area network 201. Further, the server monitoring unit 216 shown in FIG. 2 detects a failure of the message exchange partner server device by stopping the message exchange with other server devices performed via the interconnect, and a failure notification unit. Information about the detected failure is reflected in the system cluster information via H.215. At this time, as shown in FIG. 4A, the failure notification unit 215 writes status information indicating that a failure has been detected in the server status table included in the system cluster information, corresponding to the corresponding server device. In the server correspondence table shown in FIG. 4B, the information about the detected failure is reflected by clearing the information indicating the association of the server resource information regarding the corresponding server device. FIG. 4 shows a case where a failure is detected in the server device S4.

一方、図2に示した自律管理部217は、上述したようにして障害情報が反映されたシステムクラスタ情報に基づいて、フレキシブルクラスタシステムに属するサーバ装置の役割を自律的に管理するための処理を行う。
図2に示した自律管理部217において、変更条件判定部221は、システムクラスタ情報に含まれるサーバ状態情報を定期的に参照し、新たな障害に関する情報が示されるごとに、サーバ対応テーブルに示されるクラスタシステムの現在の状態を示す情報と参照情報で示される判定条件とに基づいて、代替サーバの割当の要否を判定する。この変更条件判定部221により、代替サーバの割当が必要である旨の判定結果が得られた場合に、代替候補抽出部222は、サーバ状態テーブルおよびサーバ対応テーブルによって示されるクラスタシステムの現状に関する情報と参照情報で示される選択条件とに基づいて、フレキシブルクラスタシステムに属する12個のサーバ装置S1〜S12の中から代替サーバ候補を抽出する。このようにして抽出された代替サーバ候補それぞれについて、負荷指標算出部223により、各代替サーバ候補を代替サーバとした場合に各クラスタにかかる負荷を示す負荷指標が算出され、この負荷指標に基づいて、代替サーバ決定部224により、最終的な代替サーバが決定される。そして、決定した代替サーバが自装置である場合に、代替サーバ決定部224は、再起動処理部225に、障害が発生したサーバ装置が属していたクラスタの一部として自装置を再起動する旨を指示する。これに応じて、再起動処理部225は、障害が発生したサーバ装置から代替サーバへの切り替えをサーバ対応テーブルに反映するとともに、機能提供処理部211に取得中のサーバ資源情報の解放を指示し、その後、指定されたクラスタに対応するサーバ資源情報を新たに獲得して、このサーバ資源情報に対応する機能提供処理部211を新たに形成する。
On the other hand, the autonomous management unit 217 shown in FIG. 2 performs processing for autonomously managing the roles of the server devices belonging to the flexible cluster system based on the system cluster information in which the failure information is reflected as described above. Do.
In the autonomous management unit 217 illustrated in FIG. 2, the change condition determination unit 221 periodically refers to the server status information included in the system cluster information, and each time information about a new failure is indicated, the change condition determination unit 221 indicates the server correspondence table. On the basis of the information indicating the current state of the cluster system and the determination condition indicated by the reference information. When the change condition determining unit 221 obtains a determination result indicating that an alternative server needs to be allocated, the alternative candidate extracting unit 222 provides information on the current state of the cluster system indicated by the server state table and the server correspondence table. And alternative server candidates are extracted from the twelve server devices S1 to S12 belonging to the flexible cluster system based on the selection conditions indicated by the reference information. For each alternative server candidate extracted in this way, the load index calculation unit 223 calculates a load index indicating the load applied to each cluster when each alternative server candidate is an alternative server. Based on the load index, The alternative server determination unit 224 determines the final alternative server. When the determined alternative server is the own device, the alternative server determining unit 224 causes the restart processing unit 225 to restart the own device as a part of the cluster to which the failed server device belongs. Instruct. In response to this, the restart processing unit 225 reflects the switch from the failed server device to the alternative server in the server correspondence table and instructs the function providing processing unit 211 to release the server resource information being acquired. Thereafter, server resource information corresponding to the designated cluster is newly acquired, and a function providing processing unit 211 corresponding to the server resource information is newly formed.

以下、上述した自律管理部217の動作を具体的な例に基づいて詳細に説明する。
例えば、APサーバ資源情報(AP1)を獲得してアプリケーションサーバとして動作していたサーバ装置S4に障害が発生したことがサーバ状態テーブルによって示されたときに、変更条件判定部221は、図5に示すような手順に従って、代替サーバの割当を実行すべきか否かを判定する。
Hereinafter, the operation of the above-described autonomous management unit 217 will be described in detail based on a specific example.
For example, when the server status table indicates that a failure has occurred in the server device S4 that has been operating as an application server by acquiring the AP server resource information (AP1), the change condition determination unit 221 displays It is determined whether or not the allocation of the alternative server should be executed according to the procedure as shown.

変更条件判定部221は、まず、サーバ対応テーブルを参照して各クラスタに属するサーバ装置の数を取得し、これを参照情報で示されたクラスタシステムの最小構成を示すサーバ数と比較する(図5のステップ301)。例えば、クラスタシステムの最小構成としては、クラスタシステムが運用を継続するために、各クラスタに必然的に所属すべきサーバ装置の数を予め求めておき、図3(d)に示すように、各クラスタに対応するサーバ装置の最小値を格納しておくことができる。なお、図3(d)の例では、WEBクラスタ、アプリケーションクラスタおよびデータベースクラスタの最小サーバ数が1であり、装置クラスタの最小サーバ数が2であることが示されている。   The change condition determination unit 221 first obtains the number of server devices belonging to each cluster by referring to the server correspondence table, and compares this with the number of servers indicating the minimum configuration of the cluster system indicated by the reference information (see FIG. Step 301 of 5). For example, as the minimum configuration of the cluster system, in order for the cluster system to continue operation, the number of server devices that should inevitably belong to each cluster is obtained in advance, and as shown in FIG. The minimum value of the server device corresponding to the cluster can be stored. In the example of FIG. 3D, it is indicated that the minimum number of servers in the WEB cluster, the application cluster, and the database cluster is 1, and the minimum number of servers in the device cluster is 2.

上述したサーバ装置S4のみに障害が発生している場合は、図4(b)からわかるように、各クラスタに割り当てられているサーバ装置の数はいずれも上述した最小構成で示されたサーバ装置の数以上であるので、図5に示したステップ302の否定判定となる。この場合に、変更条件判定部221は、上述した比較結果に基づいて、最小構成となっているクラスタが存在するか否かを判定する(ステップ304)。   When a failure occurs only in the server device S4 described above, as can be seen from FIG. 4B, the number of server devices assigned to each cluster is the server device indicated by the minimum configuration described above. Therefore, the determination in step 302 shown in FIG. 5 is negative. In this case, the change condition determination unit 221 determines whether or not there is a cluster having the minimum configuration based on the comparison result described above (step 304).

上述したサーバ装置S4のみに障害が発生している場合は、アプリケーションクラスタに属するサーバ装置の数と最小構成で示されたサーバ数とが一致するので、変更条件判定部221は、ステップ303の肯定判定としてステップ304に進み、最小構成よりも所定数(例えば、2)以上多いサーバ装置が割り当てられているクラスタが存在するか否かを判定する(ステップ304)。   When a failure has occurred only in the server device S4 described above, the number of server devices belonging to the application cluster matches the number of servers indicated in the minimum configuration. As a determination, the process proceeds to step 304, and it is determined whether or not there is a cluster to which a predetermined number (for example, 2) more server devices than the minimum configuration are allocated (step 304).

上述した例では、WEBクラスタに最小構成で示されるサーバ数よりも十分に多い数のサーバ装置が割り当てられているので、変更条件判定部221は、余剰サーバがあると判断して(ステップ304の肯定判定)、クラスタシステムの安定した運用を維持するためには代替サーバの割当が必要である旨の判定結果を出力して(ステップ307)、処理を終了する。   In the example described above, since a sufficiently larger number of server devices than the number of servers indicated in the minimum configuration are allocated to the WEB cluster, the change condition determination unit 221 determines that there is a surplus server (in step 304). An affirmative determination) outputs a determination result indicating that an alternative server needs to be allocated in order to maintain stable operation of the cluster system (step 307), and ends the process.

一方、装置クラスタに属するサーバ装置S8、S9に障害が同時に発生した場合のように、サーバ対応テーブルで示された各クラスタに属するサーバ数の少なくとも一つが最小構成で示されたサーバ数未満となった場合に(ステップ302の肯定判定)、変更条件判定部221は、代替サーバの割り当てなくしてはクラスタシステムの運用継続が困難であると判断し、代替サーバの割り当てが必要である旨の判定結果を出力して(ステップ307)、判定処理を終了する。   On the other hand, at least one of the servers belonging to each cluster indicated in the server correspondence table is less than the number of servers indicated in the minimum configuration, as in the case where a failure occurs simultaneously in the server devices S8 and S9 belonging to the device cluster. If it is determined (Yes in Step 302), the change condition determination unit 221 determines that it is difficult to continue the operation of the cluster system without assigning an alternative server, and a determination result indicating that an alternative server needs to be assigned. Is output (step 307), and the determination process is terminated.

また一方、WEBクラスタ、アプリケーションクラスタおよび装置クラスタにそれぞれ属するサーバ装置S1、S4およびS8に障害が同時に発生した場合のように、装置クラスタに属するサーバ装置の数が最小サーバ数と一致しており、かつ、いずれのクラスタにも余剰のサーバが存在しない場合が考えられる。
このような場合に、変更条件判定部221は、例えば、サーバ状態テーブルに示された各サーバ装置の性能指数に基づいて、各クラスタにかかる負荷をそれぞれ評価し(ステップ305)、この評価結果に基づいて、負荷の不均衡のために他のクラスタにおける処理の流れに比べて処理が遅滞するボトルネックとなるようなクラスタが存在するか否かを判定する(ステップ306)。ボトルネックとなるクラスタが存在する場合に、変更条件判定部221は、無視できない負荷の不均衡が存在すると判断して(ステップ306の肯定判定)、ステップ307に進み、代替サーバの割り当てが必要である旨の判定結果を出力して処理を終了する。
On the other hand, the number of server devices belonging to the device cluster coincides with the minimum number of servers, as in the case where failures occur simultaneously in the server devices S1, S4 and S8 respectively belonging to the WEB cluster, application cluster, and device cluster, In addition, there may be a case where no surplus server exists in any cluster.
In such a case, the change condition determination unit 221 evaluates the load applied to each cluster based on, for example, the performance index of each server device indicated in the server state table (step 305), and the evaluation result On the basis of this, it is determined whether or not there is a cluster that becomes a bottleneck in which processing is delayed compared to the processing flow in other clusters due to load imbalance (step 306). When there is a cluster that becomes a bottleneck, the change condition determination unit 221 determines that there is a load imbalance that cannot be ignored (affirmative determination in step 306), and proceeds to step 307, where an alternative server needs to be allocated. A determination result to the effect is output and the process is terminated.

一方、ボトルネックとなるクラスタが存在しない場合に、変更条件判定部221は、負荷の不均衡は無視できる程度であると判断して(ステップ306の否定判定)、代替サーバの割り当ては不要である旨の判定結果を出力して処理を終了する。
なお、WEBクラスタに属するサーバ装置S1に障害が発生した場合のように、障害が発生したサーバ装置を除いてなお最小サーバ数に対して余裕がある場合に、変更条件判定部221は、ステップ304をスキップしてステップ305に進み、負荷の不均衡に関する評価結果に応じて、代替サーバ割り当ての必要性を判定する。
On the other hand, when there is no bottleneck cluster, the change condition determination unit 221 determines that the load imbalance is negligible (negative determination in step 306), and the allocation of the alternative server is unnecessary. A determination result to that effect is output and the process is terminated.
Note that when there is a margin with respect to the minimum number of servers except for the server device in which the failure has occurred, such as when a failure has occurred in the server device S1 belonging to the WEB cluster, the change condition determination unit 221 performs step 304. Is skipped and the process proceeds to step 305 to determine the necessity of the alternative server allocation according to the evaluation result regarding the load imbalance.

このように、変更条件判定部221が、システムクラスタ情報に含まれる情報に基づいて上述した手順を実行することにより、様々な場合に柔軟に対応して、障害が発生したサーバ装置の代わりに代替サーバを割り当てるべきか否かを判定することができる。
そして、代替サーバを割り当てるべきである旨の判定結果に応じて、図2に示した代替候補抽出部222は、以下に述べる手順によって、フレキシブルクラスタシステムに属するサーバ装置の中から代替サーバ候補を抽出する。
As described above, the change condition determination unit 221 executes the above-described procedure based on the information included in the system cluster information, so that it can flexibly cope with various cases and replace the failed server device. It can be determined whether a server should be allocated.
Then, according to the determination result that the alternative server should be assigned, the alternative candidate extraction unit 222 shown in FIG. 2 extracts the alternative server candidate from the server devices belonging to the flexible cluster system according to the procedure described below. To do.

図6に、代替サーバ候補を抽出する動作を表す流れ図を示す。
代替候補抽出部222は、まず、サーバ状態テーブルを参照して(ステップ311)、待機状態のサーバ装置が存在するか否かを判定する(ステップ312)。
サーバ装置S4にのみ障害が発生している状態では、図4(a)に示したように、サーバ装置S11、S12は待機状態であるので(ステップ312の肯定判定)、代替候補抽出部222は、これらの待機サーバ(サーバ装置S11、S12)を代替サーバ候補として選択して(ステップ313)、処理を終了する。
FIG. 6 is a flowchart showing the operation of extracting alternative server candidates.
First, the alternative candidate extraction unit 222 refers to the server state table (step 311) and determines whether or not there is a standby server device (step 312).
In a state where only the server device S4 has a failure, as shown in FIG. 4A, the server devices S11 and S12 are in a standby state (affirmative determination in step 312). These standby servers (server devices S11 and S12) are selected as alternative server candidates (step 313), and the process is terminated.

一方、既に待機サーバがいずれかのクラスタの代替サーバとして割り当てられてしまっているときには、ステップ312の否定判定となり、代替サーバ抽出部222は、上述したステップ301と同様にして、各クラスタに属するサーバ装置の数とクラスタシステムの最小構成を示すサーバ数とを比較し(ステップ314)、上述したステップ304と同様にして、余剰なサーバ装置が割り当てられているクラスタが存在するか否かを判定する(ステップ315)。   On the other hand, when the standby server has already been assigned as an alternative server of any cluster, a negative determination is made in step 312 and the alternative server extraction unit 222 performs the server belonging to each cluster in the same manner as in step 301 described above. The number of devices is compared with the number of servers indicating the minimum configuration of the cluster system (step 314), and it is determined whether there is a cluster to which an excess server device is allocated in the same manner as in step 304 described above. (Step 315).

例えば、図4(b)に示した例のように、WEBクラスタに最小構成で示されるサーバ数よりも十分に多い数のサーバ装置が割り当てられていれば、代替候補抽出部222は、これらのクラスタに余剰サーバがあると判断する(ステップ315の肯定判定)。この場合に、代替候補抽出部222は、余剰サーバを含むクラスタ(例えば、WEBクラスタ)に属する全てのサーバ装置を代替サーバ候補として選択し(ステップ316)、処理を終了する。   For example, as in the example shown in FIG. 4B, if the number of server devices sufficiently larger than the number of servers shown in the minimum configuration is assigned to the WEB cluster, the alternative candidate extracting unit 222 It is determined that there is a surplus server in the cluster (affirmative determination in step 315). In this case, the alternative candidate extraction unit 222 selects all server devices belonging to a cluster including the surplus server (for example, a WEB cluster) as alternative server candidates (step 316), and ends the process.

一方、ステップ315の否定判定の場合に、代替候補抽出部222は、上述した比較結果に基づいて、最小構成で示されたサーバ数よりも多くのサーバ装置が属しているクラスタを検出し(ステップ317)、参照情報の一部として含まれる優先順位テーブルで示されるクラスタシステムの機能維持に関する優先順位に従って、最も優先順位の低いクラスタに属するサーバ装置を代替サーバ候補として選択し(ステップ318)、処理を終了する。   On the other hand, in the case of a negative determination in step 315, the alternative candidate extraction unit 222 detects a cluster to which more server devices than the number of servers indicated in the minimum configuration belong based on the comparison result described above (step 315). 317), the server apparatus belonging to the cluster with the lowest priority is selected as an alternative server candidate according to the priority for maintaining the function of the cluster system shown in the priority table included as part of the reference information (step 318), and the processing Exit.

このように、代替候補抽出部222が、システムクラスタ情報に含まれる情報に基づいて上述した手順を実行することにより、代替サーバの割り当てが必要とされたときのクラスタシステムの状態に合わせて、適切な代替サーバ候補を抽出することができる。
このようにして待機サーバ以外のサーバ装置が代替サーバ候補として抽出された場合に、抽出されたN個の代替サーバ候補(C〜C)について、負荷指標算出部223は、その代替サーバ候補を差し出すクラスタに関する負荷指標X(i=1〜N)と、代替サーバとして割り当てを受けるクラスタに関する負荷指標Y(i=1〜N)と、その他のQ個のクラスタに関する負荷指標Zij(i=1〜N、j=1〜Q)とを、それぞれ式(1)〜式(3)に従って算出する。
As described above, the alternative candidate extraction unit 222 executes the above-described procedure based on the information included in the system cluster information, so that the alternative candidate extraction unit 222 can be appropriately adapted to the state of the cluster system when allocation of the alternative server is required. Alternative server candidates can be extracted.
When a server device other than the standby server is extracted as an alternative server candidate in this way, the load index calculation unit 223 performs the alternative server candidate for the extracted N alternative server candidates (C 1 to C N ). Load index X i (i = 1 to N) related to the cluster from which the data is sent, load index Y i (i = 1 to N) related to the cluster assigned as an alternative server, and load index Z ij (related to other Q clusters) i = 1 to N and j = 1 to Q) are calculated according to the equations (1) to (3), respectively.

Figure 2006309439
Figure 2006309439

式(1)〜式(3)において、計算対象のクラスタKの負荷指標は、そのクラスタに属するサーバ装置Sj1〜SjMの性能Pj1〜PjMと、これらのサーバ装置Sj1〜SjMにかかる負荷Lj1〜LjMと、代替サーバ候補の性能Pおよび障害が発生したサーバ装置の性能Pとを用いて表される。なお、式(1)の総和には代替サーバ候補の性能および負荷が含まれており、また、式(2)の総和には障害が発生したサーバ装置の性能および負荷が含まれている。 In the expressions (1) to (3), the load index of the cluster K j to be calculated is the performances P j1 to P jM of the server apparatuses S j1 to S jM belonging to the cluster, and these server apparatuses S j1 to S j. It is expressed using the loads L j1 to L jM applied to jM , the performance P r of the alternative server candidate, and the performance P d of the server device in which the failure has occurred. Note that the sum of Expression (1) includes the performance and load of the alternative server candidate, and the sum of Expression (2) includes the performance and load of the server apparatus in which the failure has occurred.

一方、待機サーバが代替サーバ候補として抽出された場合に、負荷指標算出部223は、式(2)および式(3)に従って、代替サーバの割り当てを受けるクラスタ(例えば、アプリケーションクラスタ)に関する負荷指標Yおよびその他のクラスタ(例えば、WEB、DBおよび装置の各クラスタ)に関する負荷指標Zを算出し、これらの負荷指標を代替サーバ決定部224の処理に供する。   On the other hand, when the standby server is extracted as an alternative server candidate, the load index calculation unit 223 loads the load index Y related to the cluster (for example, application cluster) that receives the allocation of the alternative server according to the equations (2) and (3). And load indexes Z relating to other clusters (for example, WEB, DB, and each cluster of the apparatus) are calculated, and these load indexes are provided to the processing of the alternative server determination unit 224.

このようにして各代替サーバ候補Cについて得られた負荷指標X、Y、Zに基づいて、代替サーバ決定部224は、それぞれの代替サーバ候補を割り当てた際にクラスタ間の負荷の均衡が実現される度合いを評価し、この評価結果に基づいて、代替サーバを決定する。このとき、代替サーバ決定部224は、例えば、図3(d)に示した基本割当テーブルで示されたシステム構成において実現されていた各クラスタの負荷指標と、各代替サーバ候補に対応して得られた負荷指標とを対比し、そのずれの大きさに基づいて負荷の均衡が実現される度合いを評価することができる。 Based on the load indexes X i , Y i , and Z i obtained for each alternative server candidate C i in this way, the alternative server determination unit 224 determines the load between clusters when assigning each alternative server candidate. The degree to which the balance is realized is evaluated, and an alternative server is determined based on the evaluation result. At this time, for example, the alternative server determination unit 224 obtains the load index of each cluster realized in the system configuration shown in the basic allocation table shown in FIG. It is possible to compare the obtained load index and evaluate the degree of load balance based on the magnitude of the deviation.

上述した処理を障害が発生したサーバ装置を除く全てのサーバ装置に備えられた自律管理部217の各部が実行することにより、各サーバ装置の代替サーバ決定部224により、同一のサーバ装置が、その時点のクラスタシステムの稼働状態において最も適切な代替サーバとして決定される。
例えば、図4(a)に示した例では、性能指数2.0のサーバ装置S4に障害が発生しているので、2台の待機中のサーバ装置S11、S12のうち、サーバ装置S12を代替サーバとする旨の決定がサーバ装置S4を除く各サーバ装置の代替サーバ決定部224によってなされる(図2参照)。この決定に応じて、サーバ装置S12の自律管理部217に備えられた再起動処理部225は(図2参照)、図4(c)に示すように、システムクラスタ情報に含まれるサーバ状態テーブルに、サーバ装置S12が稼動中である旨の情報を書き込むとともに、図4(d)に示すように、サーバ対応テーブルにサーバ装置S12とAPサーバ資源情報(AP1)との対応関係を示す情報を書き込んで、システムクラスいた情報にクラスタ構成の変更を反映する。次いで、再起動処理部225は、図1に示したストレージエリアネットワーク201に格納されたAPサーバ資源情報(AP1)を獲得し、アプリケーションサーバとしての機能を提供する機能提供処理部211および対応する機能監視部212を形成し、アプリケーションクラスタの一部としてサーバ装置S12を再起動する。
By executing the above-described processing by each unit of the autonomous management unit 217 provided in all the server devices except the server device in which the failure has occurred, the alternative server determination unit 224 of each server device causes the same server device to It is determined as the most suitable alternative server in the operating state of the cluster system at the time.
For example, in the example shown in FIG. 4A, since a failure has occurred in the server device S4 having a performance index of 2.0, the server device S12 is replaced among the two standby server devices S11 and S12. The server server 4 determines that it is a server by the alternative server determination unit 224 of each server device except the server device S4 (see FIG. 2). In response to this determination, the restart processing unit 225 provided in the autonomous management unit 217 of the server device S12 (see FIG. 2) displays the server status table included in the system cluster information as shown in FIG. In addition, information indicating that the server device S12 is in operation is written, and information indicating the correspondence between the server device S12 and the AP server resource information (AP1) is written in the server correspondence table as shown in FIG. Then, change the cluster configuration to the system class information. Next, the restart processing unit 225 acquires the AP server resource information (AP1) stored in the storage area network 201 illustrated in FIG. 1, and provides a function providing processing unit 211 that provides a function as an application server and corresponding functions. A monitoring unit 212 is formed, and the server apparatus S12 is restarted as a part of the application cluster.

このようにして、複数のクラスタで待機サーバを共有することにより、障害が発生したサーバ装置が属するクラスタにかかわらず、共有されている待機サーバを代替サーバとして利用することができる。これにより、クラスタシステムとしての高可用性を維持しつつ、フレキシブルクラスタシステムに備える待機サーバの数を削減して、クラスタシステムの構築に要するコストを大幅に低減することができる。   In this way, by sharing the standby server among a plurality of clusters, the shared standby server can be used as an alternative server regardless of the cluster to which the failed server device belongs. Thereby, while maintaining high availability as a cluster system, the number of standby servers provided in the flexible cluster system can be reduced, and the cost required for constructing the cluster system can be greatly reduced.

一方、負荷の均衡が実現される度合いに関する評価結果として、負荷の均衡が大きく失われることを示す評価結果を得た場合に、代替サーバ決定部224は、代替サーバの割当目的に応じて最終的な代替サーバを決定しない判断を下すこともできる。
例えば、図2に示した変更条件判定部221から代替サーバの割り当てが必要であるとされた理由を示す情報を受け取り、この理由を示す情報と上述した評価結果に基づいて、代替サーバ決定部224は、最終的な代替サーバを決定するか否かを判定する。つまり、代替サーバの割当目的が「サービス提供の維持」あるいは「高可用性の維持」であることが示された場合に、代替サーバ決定部224は、上述した評価結果の最良のものでも著しい負荷の不均衡を示していても最終的な代替サーバを決定し、一方、割当目的が上述した目的以外であった場合には、評価結果の最良のものが著しい負荷の不均衡を示す場合には最終的な代替サーバを決定しないで処理を終了する。
On the other hand, when an evaluation result indicating that the load balance is largely lost is obtained as an evaluation result regarding the degree of load balance, the substitute server determination unit 224 determines the final result according to the assignment purpose of the substitute server. It is also possible to make a decision not to determine an alternative server.
For example, information indicating the reason why it is necessary to assign an alternative server is received from the change condition determining unit 221 illustrated in FIG. 2, and the alternative server determining unit 224 is based on the information indicating the reason and the evaluation result described above. Determines whether to determine a final alternative server. In other words, when it is indicated that the purpose of allocation of the alternative server is “maintenance of service provision” or “maintenance of high availability”, the alternative server determination unit 224 has a significant load even with the best evaluation result described above. Even if it shows an imbalance, the final alternative server is determined. On the other hand, if the allocation purpose is other than the above-mentioned purpose, the final evaluation result will be the final one if the best evaluation result indicates a significant load imbalance. The process ends without determining a specific alternative server.

更に、上述したフレキシブルクラスタシステムでは、待機サーバの数を超える数のサーバ装置に障害が発生した場合にも、柔軟に対応して各クラスタによる機能提供の維持を図ることができる。
以下に、図7(a)、(b)に示すサーバ状態テーブルおよびサーバ対応テーブルによって示されるように、サーバ装置S4およびサーバ装置S6の機能を待機サーバS11、S12が代替している状態で、更に、サーバ装置S8、S10に障害が発生した四重障害の場合を例にとって、クラスタの境界を越えて自律的に役割分担を変更する動作について説明する。
Furthermore, in the above-described flexible cluster system, even when a failure occurs in the number of server devices exceeding the number of standby servers, it is possible to flexibly cope with the maintenance of function provision by each cluster.
Hereinafter, as shown by the server status table and the server correspondence table shown in FIGS. 7A and 7B, the functions of the server device S4 and the server device S6 are replaced by the standby servers S11 and S12. Furthermore, an operation for autonomously changing the role assignment across the boundaries of the cluster will be described by taking as an example the case of a quadruple failure in which a failure has occurred in the server devices S8 and S10.

この例では、装置クラスタが最小構成となるのに対して、WEBクラスタは最小構成で示されたサーバ数「1」よりも多い余剰サーバが割り当てられている。
このことから、稼働中の各サーバ装置に備えられた自律管理部217において、変更条件判定部221は、代替サーバの割り当てが必要であると判断し(図5のステップ304)、この判断結果に応じて、代替候補抽出部222は、余剰サーバが割り当てられているWEBクラスタに属するサーバ装置S1〜S3を代替サーバ候補として抽出する。そして、これらのサーバ装置S1〜S3について、図2に示した負荷指標算出部223によって得られた負荷指標に基づいて、代替サーバ決定部224により、例えば、サーバ装置S3が代替サーバとして決定され、これに応じて、サーバ装置S3の自律管理部217に備えられた再起動処理部225により、サーバ装置S3の役割をWEBサーバから装置サーバに変更する処理が行われる。
In this example, the device cluster has the minimum configuration, whereas the WEB cluster has more surplus servers allocated than the number of servers “1” indicated in the minimum configuration.
From this, in the autonomous management unit 217 provided in each operating server device, the change condition determination unit 221 determines that an alternative server needs to be allocated (step 304 in FIG. 5). Accordingly, the alternative candidate extraction unit 222 extracts server devices S1 to S3 belonging to the WEB cluster to which the surplus server is assigned as alternative server candidates. And about these server apparatuses S1-S3, based on the load parameter | index obtained by the load parameter | index calculation part 223 shown in FIG. 2, for example, server apparatus S3 is determined as an alternative server by the alternative server determination part 224, In response to this, the restart processing unit 225 provided in the autonomous management unit 217 of the server device S3 performs a process of changing the role of the server device S3 from the WEB server to the device server.

このとき、再起動処理部225は、まず、WEBサーバとしての機能を提供するための機能提供処理部211および機能監視部212を終了させた後に、WEBサーバ資源情報(WEB3)を解放するとともにサーバ対応テーブルにおけるWEBサーバ資源情報(WEB3)とサーバ装置S3との対応関係をクリアする。その後、再起動処理部225は、新たに、ストレージエリアネットワーク201から装置サーバ資源情報(装置1)(あるいは装置サーバ資源情報(装置3))を獲得し、この装置サーバ資源情報(装置1)に基づいて、装置サーバとしての機能を果たすための機能提供処理部211および機能監視部212を形成して、サーバ装置S3を装置クラスタに属する装置サーバとして再起動する(図1、図2参照)。   At this time, the restart processing unit 225 first terminates the function providing processing unit 211 and the function monitoring unit 212 for providing a function as a WEB server, and then releases the WEB server resource information (WEB3) and the server. The correspondence relationship between the WEB server resource information (WEB3) and the server device S3 in the correspondence table is cleared. Thereafter, the restart processing unit 225 newly acquires device server resource information (device 1) (or device server resource information (device 3)) from the storage area network 201, and stores this device server resource information (device 1). Based on this, a function providing processing unit 211 and a function monitoring unit 212 for performing the function as the device server are formed, and the server device S3 is restarted as a device server belonging to the device cluster (see FIGS. 1 and 2).

このようにして、上述したような多重障害が発生した場合にも、クラスタ間でサーバ装置を融通し合うことにより、極めて高い可用性を実現することができる。
なお、上述した負荷指標算出部223によって得られた負荷指標に基づいて代替サーバ決定部224が求めた負荷の均衡の度合いが複数の代替サーバ候補で同等であった場合に、代替サーバ決定部224は、例えば、予め各サーバ装置S1からS12に与えた優先順位などに基づいていずれか一つを選択することができる。また、このような場合に、該当する複数のサーバ装置のうち先に再起動した方を代替サーバとして割り当てることも可能である。
In this way, even when multiple failures as described above occur, extremely high availability can be realized by interchanging server devices between clusters.
Note that, when the degree of load balance obtained by the alternative server determination unit 224 based on the load index obtained by the load index calculation unit 223 described above is equivalent among a plurality of alternative server candidates, the alternative server determination unit 224 Can select any one based on, for example, the priorities given in advance to each of the server apparatuses S1 to S12. In such a case, it is also possible to assign the one that has been restarted first among the plurality of corresponding server devices as an alternative server.

また、フレキシブルクラスタシステムが正常に運用されている状態において、各クラスタに属するサーバ装置にかかる負荷を示す統計情報を求めてシステムクラスタ情報を構成する参照情報の一部として、図1に示したストレージエリアネットワーク201に格納しておき、負荷指標算出部223における処理に用いられるサーバ装置S1〜S12にかかる負荷Lの値を、上述した統計情報に基づいて決定することもできる。 Further, when the flexible cluster system is normally operated, the storage shown in FIG. 1 is obtained as a part of the reference information constituting the system cluster information by obtaining statistical information indicating the load applied to the server device belonging to each cluster. may be stored in area network 201, the value of the load L i in accordance with the server apparatus S1~S12 used for processing in the load index calculation unit 223 may be determined based on the above statistical information.

このように、フレキシブルクラスタシステムの運用状態において統計的に求められた負荷に基づいて、代替サーバの決定処理に供される負荷指標を求めることにより、フレキシブルクラスタシステムにおける負荷の分布を代替サーバの決定処理に反映し、フレキシブルクラスタシステムの現状に最も適した代替サーバを割り当てることができる。
また、上述したようにして蓄積した統計情報は、図3(b)に示した基本割り当てやクラスタシステムの最小構成を最適化する際の指標やフレキシブルクラスタシステムにサーバ装置を増設したりする際の指針として用いることも可能である。
In this way, the load distribution in the flexible cluster system is determined by determining the load index used for the alternative server determination process based on the statistically determined load in the operation state of the flexible cluster system. It is possible to assign an alternative server that reflects the processing and is most suitable for the current state of the flexible cluster system.
In addition, the statistical information accumulated as described above is the index used when optimizing the basic allocation and the minimum configuration of the cluster system shown in FIG. 3B, and when the server device is added to the flexible cluster system. It can also be used as a guide.

上述したように、本発明にかかわるフレキシブルクラスタシステムは、最小限のハードウェアを有効に利用して、極めて高い可用性を実現し、システムの構築に要するコストを抑えつつ、24時間365日に渡る連続運用が可能なシステムを実現することができる。
このような特徴は、例えば、ネットワーク用のオペレーションシステムや金融機関のオンラインシステムを含む様々な民生用のシステムにおいて極めて有用であり、システム構築やシステム設計に要する費用およびシステムの維持管理に要する費用を含めた総コスト(TCO:Total Cost of Ownership)の低減を図ることができる。
As described above, the flexible cluster system according to the present invention continuously uses 24 hours and 365 days while effectively using a minimum amount of hardware, realizing extremely high availability, and reducing the cost required for system construction. A system that can be operated can be realized.
Such a feature is extremely useful in various consumer systems including, for example, an operation system for a network and an online system of a financial institution, and reduces the cost required for system construction and system design and the maintenance cost of the system. It is possible to reduce the total cost of ownership (TCO).

これにより、ディジタルテレビ中継サービスや金融サービスなど、無停止で運用することが望まれる様々なサービスを開設する際に必要となるコストを大幅に低減することができるので、放送事業や金融サービス業に限らず、様々な事業への新規参入を促し、多種多様な事業分野の活性化を図ることができる。   This can greatly reduce the cost required to open various services that are desired to operate without interruption, such as digital TV relay services and financial services, so it can be used in the broadcasting and financial services industries. Not limited to this, it is possible to promote new entry into various businesses and to activate various business fields.

本発明にかかわるフレキシブルクラスタシステムの実施形態を示す図である。It is a figure which shows embodiment of the flexible cluster system concerning this invention. 起動されたサーバ装置の詳細構成を示す図である。It is a figure which shows the detailed structure of the started server apparatus. システムクラスタ情報に含まれる各テーブルの例を示す図である。It is a figure which shows the example of each table contained in system cluster information. システムクラスタ情報を説明する図である。It is a figure explaining system cluster information. 代替サーバ割当の要否を判定する動作を表す流れ図である。It is a flowchart showing the operation | movement which determines the necessity of alternative server allocation. 代替サーバ候補を抽出する動作を表す流れ図である。It is a flowchart showing the operation | movement which extracts an alternative server candidate. システムクラスタ情報を説明する図である。It is a figure explaining system cluster information. 従来のネットワーク用のオペレーションシステムの構成例を示す図である。It is a figure which shows the structural example of the operation system for the conventional networks.

符号の説明Explanation of symbols

S1〜S12 サーバ装置
201 ストレージエリアネットワーク
202 ファイバーチャネル
211 機能提供処理部
212 機能監視部
213 サーバ管理処理部
214 監視情報収集部
215 障害通知部
216 サーバ監視部
217 自律管理部
221 変更条件判定部
222 代替候補抽出部
223 負荷指標算出部
224 代替サーバ決定部
225 再起動処理部
401、402 WAN
403 LAN
410 WEBクラスタ
411 WEBサーバ
420 データベースクラスタ
421 データベース(DB)サーバ
430 アプリケーションクラスタ
431 アプリケーション(AP)サーバ
440、450,460 装置クラスタ
441、451,461 装置サーバ
S1 to S12 Server apparatus 201 Storage area network 202 Fiber channel 211 Function provision processing unit 212 Function monitoring unit 213 Server management processing unit 214 Monitoring information collection unit 215 Failure notification unit 216 Server monitoring unit 217 Autonomous management unit 221 Change condition determination unit 222 Alternative Candidate extraction unit 223 Load index calculation unit 224 Alternative server determination unit 225 Restart processing unit 401, 402 WAN
403 LAN
410 WEB cluster 411 WEB server 420 database cluster 421 database (DB) server 430 application cluster 431 application (AP) server 440, 450, 460 device cluster 441, 451, 461 device server

Claims (5)

複数のサーバ装置とこれらのサーバ装置によって共有される共有ディスク装置とを備えたフレキシブルクラスタシステムにおいて、
前記共有ディスク装置は、
前記複数のサーバ装置それぞれが個々の機能提供を行なうために必要となるミドルウェア、アプリケーションプログラムおよび論理IPアドレスを含むサーバ資源情報を前記個々の機能に対応して格納するサーバ資源格納手段と、
前記フレキシブルクラスタシステム内における前記複数のサーバ装置それぞれの状態および前記各サーバ資源情報の前記各サーバ装置への割当を管理するためのシステムクラスタ情報を格納するシステム情報格納手段とを備え、
前記複数のサーバ装置それぞれは、
前記システムクラスタ情報に従って、割り当てられた機能に対応するサーバ資源情報を獲得し、前記機能に対応するクラスタの一部として起動する起動手段と、
提供中の機能に関する障害を検出し、検出した障害に関する情報を障害情報の一部として他のサーバ装置に通知する障害通知手段と、
前記検出した障害に関する情報とともに、前記他のサーバ装置における障害に関する障害情報を収集する収集手段と、
収集した障害情報と前記システムクラスタ情報とに基づいて、前記フレキシブルクラスタシステムにおいて自装置が果たすべき機能を変更すべきか否かを判定する判定手段と、
機能を変更する旨の判定結果に応じて、前記共有ディスク装置のサーバ資源格納手段から変更先の機能に対応するサーバ資源情報を獲得し、前記変更先の機能に対応するクラスタの一部として再起動する再起動手段とを備えた
ことを特徴とするフレキシブルクラスタシステム。
In a flexible cluster system comprising a plurality of server devices and a shared disk device shared by these server devices,
The shared disk device is
Server resource storage means for storing server resource information including middleware, application programs and logical IP addresses necessary for each of the plurality of server devices to provide individual functions, corresponding to the individual functions;
System information storage means for storing system cluster information for managing the status of each of the plurality of server devices in the flexible cluster system and the allocation of the server resource information to the server devices;
Each of the plurality of server devices includes:
In accordance with the system cluster information, acquiring server resource information corresponding to the allocated function, and starting means for starting as part of the cluster corresponding to the function;
A failure notification means for detecting a failure related to the function being provided and notifying other server devices of information related to the detected failure as part of the failure information;
Collecting means for collecting failure information related to a failure in the other server device together with information related to the detected failure;
Based on the collected failure information and the system cluster information, determination means for determining whether or not the function to be performed by the device itself in the flexible cluster system should be changed,
In response to the determination result indicating that the function is to be changed, server resource information corresponding to the change destination function is obtained from the server resource storage unit of the shared disk device, and is re-created as a part of the cluster corresponding to the change destination function. A flexible cluster system comprising a restarting means for starting.
請求項1に記載のフレキシブルクラスタシステムにおいて、
前記判定手段は、
収集した障害情報によって前記フレキシブルクラスタシステムを構成する複数のサーバ装置のいずれかに障害が発生したことが示されたときに、前記システムクラスタ情報に基づいて、障害が発生したサーバ装置の役割分担を他のサーバ装置によって代替する必要があるか否かを判定する代替判定手段と、
代替する旨の判定結果に応じて、前記システムクラスタ情報に基づいて、前記障害が発生したサーバ装置に代わる代替サーバを選択し、前記代替サーバが自装置である場合に機能を変更する旨の判定結果を出力するサーバ選択手段とを備えた
ことを特徴とするフレキシブルクラスタシステム。
The flexible cluster system according to claim 1,
The determination means includes
When the collected failure information indicates that a failure has occurred in any of the plurality of server devices constituting the flexible cluster system, the role sharing of the failed server device is assigned based on the system cluster information. Substitution determination means for determining whether or not substitution by another server device is necessary;
Based on the system cluster information, a replacement server that replaces the failed server device is selected based on the system cluster information, and a determination is made that the function is changed when the replacement server is its own device. A flexible cluster system comprising server selection means for outputting results.
請求項2に記載のフレキシブルクラスタシステムにおいて、
前記代替判定手段は、
障害が発生したサーバ装置が属するクラスタについて前記システムクラスタ情報で示された最小サーバ数と、前記クラスタに属する稼働可能なサーバ装置の数とを比較する比較手段と、
前記クラスタに属する稼働可能なサーバ装置の数が最小サーバ数と等しいとされた場合に、他のクラスタであって、前記システムクラスタ情報で示された最小サーバ数よりも稼働可能なサーバ装置の数が所定数以上多いクラスタを検出する余力検出手段と、
前記システムクラスタ情報で示される各クラスタにかかる負荷に関する情報と、前記各クラスタに属する稼働可能なサーバ装置の数とに基づいて、クラスタごとの能力の不均衡を検出する不均衡検出手段と、
前記比較手段による比較結果と前記余力検出手段および前記不均衡検出手段による検出結果とに基づいて、前記障害が発生したサーバ装置について代替サーバの割り当ての要否を判断する判断手段とを備えた
ことを特徴とするフレキシブルクラスタシステム。
The flexible cluster system according to claim 2,
The alternative determination means includes
Comparing means for comparing the minimum number of servers indicated by the system cluster information for the cluster to which the failed server device belongs, and the number of operable server devices belonging to the cluster;
When the number of operable server devices belonging to the cluster is equal to the minimum number of servers, the number of server devices that are other clusters and operable than the minimum number of servers indicated in the system cluster information A surplus power detecting means for detecting a cluster having a predetermined number or more,
An imbalance detection means for detecting an imbalance in capacity for each cluster based on information on the load applied to each cluster indicated by the system cluster information and the number of operable server devices belonging to each cluster;
Judgment means for judging whether or not it is necessary to allocate an alternative server for the server device in which the failure has occurred based on the comparison result by the comparison means and the detection results by the remaining power detection means and the imbalance detection means. A flexible cluster system characterized by
請求項2に記載のフレキシブルクラスタシステムにおいて、
前記サーバ選択手段は、
前記システムクラスタ情報に基づいて、稼働状態が待機中であるサーバ装置を検出する待機検出手段と、
前記各クラスタにおいて稼働しているサーバ装置数から前記システムクラスタ情報で示される最小サーバ数を差し引いて得られる余剰サーバ数に基づいて、余力の大きいクラスタを判別するクラスタ判別手段と、
余力が大きいとされたクラスタから前記システムクラスタ情報で示される優先順位に従っていずれか一つを選択し、選択したクラスタに属するサーバ装置を代替サーバ候補として抽出する候補抽出手段と、
検出された待機サーバあるいは代替サーバ候補から選択したサーバ装置を代替サーバとして決定する決定手段とを備えた
ことを特徴とするフレキシブルクラスタシステム。
The flexible cluster system according to claim 2,
The server selection means includes
Based on the system cluster information, standby detection means for detecting a server device whose operating state is standby;
Cluster discrimination means for discriminating a cluster with a large surplus capacity based on the number of surplus servers obtained by subtracting the minimum number of servers indicated by the system cluster information from the number of server devices operating in each cluster;
Candidate extraction means for selecting any one of the clusters determined to have a large surplus power according to the priority order indicated by the system cluster information and extracting server devices belonging to the selected cluster as alternative server candidates;
A flexible cluster system, comprising: a determination unit that determines a server device selected from the detected standby server or alternative server candidate as an alternative server.
請求項4に記載のフレキシブルクラスタシステムにおいて、
前記決定手段は、
前記代替サーバ候補それぞれについて、代替サーバとして割り当てた際に、少なくとも割当先のクラスタと割当元のクラスタとにおける負荷を示す指標をそれぞれ求める負荷算出手段と、
検出された待機サーバを優先的に代替サーバとして選択し、待機サーバが検出されない場合に、前記負荷算出手段で得られた指標に基づいて代替サーバ候補の一つを代替サーバとして選択する選択決定手段とを備えた
ことを特徴とするフレキシブルクラスタシステム。
The flexible cluster system according to claim 4,
The determining means includes
For each of the alternative server candidates, when assigning as an alternative server, load calculation means for obtaining an index indicating the load in at least the allocation destination cluster and the allocation source cluster, respectively;
Selection determining means for preferentially selecting the detected standby server as an alternative server, and selecting one of the alternative server candidates as an alternative server based on the index obtained by the load calculating means when no standby server is detected And a flexible cluster system.
JP2005130074A 2005-04-27 2005-04-27 Flexible cluster system Pending JP2006309439A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005130074A JP2006309439A (en) 2005-04-27 2005-04-27 Flexible cluster system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005130074A JP2006309439A (en) 2005-04-27 2005-04-27 Flexible cluster system

Publications (1)

Publication Number Publication Date
JP2006309439A true JP2006309439A (en) 2006-11-09

Family

ID=37476264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005130074A Pending JP2006309439A (en) 2005-04-27 2005-04-27 Flexible cluster system

Country Status (1)

Country Link
JP (1) JP2006309439A (en)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165781A (en) * 2006-12-27 2008-07-17 Internatl Business Mach Corp <Ibm> Method, system and program for failover of computer device assigned to storage volume of storage area network (san)
JP2009223368A (en) * 2008-03-13 2009-10-01 Fujitsu Ltd Cluster control apparatus, control system, control method, and control program
JP2009277120A (en) * 2008-05-16 2009-11-26 Fujitsu Ltd Server system
WO2011034017A1 (en) * 2009-09-18 2011-03-24 日本電気株式会社 Data center system, reconfigurable node, reconfigurable node control method, reconfigurable node control program
JP2011511360A (en) * 2008-01-31 2011-04-07 アダプティブ コンピューティング エンタープライジズ インク System and method for managing a hybrid computing environment
JP2013508839A (en) * 2009-10-26 2013-03-07 インターナショナル・ビジネス・マシーンズ・コーポレーション Dealing with node failures
US8863143B2 (en) 2006-03-16 2014-10-14 Adaptive Computing Enterprises, Inc. System and method for managing a hybrid compute environment
CN108664346A (en) * 2017-03-27 2018-10-16 中国移动通信集团福建有限公司 The localization method of the node exception of distributed memory system, device and system
JP2019179964A (en) * 2018-03-30 2019-10-17 株式会社Subaru aircraft
US11232007B2 (en) 2018-04-10 2022-01-25 Fujitsu Limited Server system and method of switching server
US11467883B2 (en) 2004-03-13 2022-10-11 Iii Holdings 12, Llc Co-allocating a reservation spanning different compute resources types
US11496415B2 (en) 2005-04-07 2022-11-08 Iii Holdings 12, Llc On-demand access to compute resources
US11494235B2 (en) 2004-11-08 2022-11-08 Iii Holdings 12, Llc System and method of providing system jobs within a compute environment
US11522952B2 (en) 2007-09-24 2022-12-06 The Research Foundation For The State University Of New York Automatic clustering for self-organizing grids
US11526304B2 (en) 2009-10-30 2022-12-13 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US11630704B2 (en) 2004-08-20 2023-04-18 Iii Holdings 12, Llc System and method for a workload management and scheduling module to manage access to a compute environment according to local and non-local user identity information
US11652706B2 (en) 2004-06-18 2023-05-16 Iii Holdings 12, Llc System and method for providing dynamic provisioning within a compute environment
US11658916B2 (en) 2005-03-16 2023-05-23 Iii Holdings 12, Llc Simple integration of an on-demand compute environment
US11720290B2 (en) 2009-10-30 2023-08-08 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US11960937B2 (en) 2004-03-13 2024-04-16 Iii Holdings 12, Llc System and method for an optimizing reservation in time of compute resources based on prioritization function and reservation policy parameter
US12120040B2 (en) 2005-03-16 2024-10-15 Iii Holdings 12, Llc On-demand compute environment

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11960937B2 (en) 2004-03-13 2024-04-16 Iii Holdings 12, Llc System and method for an optimizing reservation in time of compute resources based on prioritization function and reservation policy parameter
US12124878B2 (en) 2004-03-13 2024-10-22 Iii Holdings 12, Llc System and method for scheduling resources within a compute environment using a scheduler process with reservation mask function
US11467883B2 (en) 2004-03-13 2022-10-11 Iii Holdings 12, Llc Co-allocating a reservation spanning different compute resources types
US12009996B2 (en) 2004-06-18 2024-06-11 Iii Holdings 12, Llc System and method for providing dynamic provisioning within a compute environment
US11652706B2 (en) 2004-06-18 2023-05-16 Iii Holdings 12, Llc System and method for providing dynamic provisioning within a compute environment
US11630704B2 (en) 2004-08-20 2023-04-18 Iii Holdings 12, Llc System and method for a workload management and scheduling module to manage access to a compute environment according to local and non-local user identity information
US11709709B2 (en) 2004-11-08 2023-07-25 Iii Holdings 12, Llc System and method of providing system jobs within a compute environment
US12039370B2 (en) 2004-11-08 2024-07-16 Iii Holdings 12, Llc System and method of providing system jobs within a compute environment
US11861404B2 (en) 2004-11-08 2024-01-02 Iii Holdings 12, Llc System and method of providing system jobs within a compute environment
US11537435B2 (en) 2004-11-08 2022-12-27 Iii Holdings 12, Llc System and method of providing system jobs within a compute environment
US11537434B2 (en) 2004-11-08 2022-12-27 Iii Holdings 12, Llc System and method of providing system jobs within a compute environment
US11762694B2 (en) 2004-11-08 2023-09-19 Iii Holdings 12, Llc System and method of providing system jobs within a compute environment
US12008405B2 (en) 2004-11-08 2024-06-11 Iii Holdings 12, Llc System and method of providing system jobs within a compute environment
US11886915B2 (en) 2004-11-08 2024-01-30 Iii Holdings 12, Llc System and method of providing system jobs within a compute environment
US11656907B2 (en) 2004-11-08 2023-05-23 Iii Holdings 12, Llc System and method of providing system jobs within a compute environment
US11494235B2 (en) 2004-11-08 2022-11-08 Iii Holdings 12, Llc System and method of providing system jobs within a compute environment
US12120040B2 (en) 2005-03-16 2024-10-15 Iii Holdings 12, Llc On-demand compute environment
US11658916B2 (en) 2005-03-16 2023-05-23 Iii Holdings 12, Llc Simple integration of an on-demand compute environment
US11496415B2 (en) 2005-04-07 2022-11-08 Iii Holdings 12, Llc On-demand access to compute resources
US11522811B2 (en) 2005-04-07 2022-12-06 Iii Holdings 12, Llc On-demand access to compute resources
US11765101B2 (en) 2005-04-07 2023-09-19 Iii Holdings 12, Llc On-demand access to compute resources
US11533274B2 (en) 2005-04-07 2022-12-20 Iii Holdings 12, Llc On-demand access to compute resources
US11831564B2 (en) 2005-04-07 2023-11-28 Iii Holdings 12, Llc On-demand access to compute resources
US9619296B2 (en) 2006-03-16 2017-04-11 Iii Holdings 12, Llc System and method for managing a hybrid compute environment
US10977090B2 (en) 2006-03-16 2021-04-13 Iii Holdings 12, Llc System and method for managing a hybrid compute environment
US8863143B2 (en) 2006-03-16 2014-10-14 Adaptive Computing Enterprises, Inc. System and method for managing a hybrid compute environment
US11650857B2 (en) 2006-03-16 2023-05-16 Iii Holdings 12, Llc System and method for managing a hybrid computer environment
US9116755B2 (en) 2006-03-16 2015-08-25 Adaptive Computing Enterprises, Inc. System and method for managing a hybrid compute environment
JP2008165781A (en) * 2006-12-27 2008-07-17 Internatl Business Mach Corp <Ibm> Method, system and program for failover of computer device assigned to storage volume of storage area network (san)
US11522952B2 (en) 2007-09-24 2022-12-06 The Research Foundation For The State University Of New York Automatic clustering for self-organizing grids
JP2011511360A (en) * 2008-01-31 2011-04-07 アダプティブ コンピューティング エンタープライジズ インク System and method for managing a hybrid computing environment
JP2009223368A (en) * 2008-03-13 2009-10-01 Fujitsu Ltd Cluster control apparatus, control system, control method, and control program
US8499080B2 (en) 2008-03-13 2013-07-30 Fujitsu Limited Cluster control apparatus, control system, control method, and control program
JP2009277120A (en) * 2008-05-16 2009-11-26 Fujitsu Ltd Server system
WO2011034017A1 (en) * 2009-09-18 2011-03-24 日本電気株式会社 Data center system, reconfigurable node, reconfigurable node control method, reconfigurable node control program
JP5533877B2 (en) * 2009-09-18 2014-06-25 日本電気株式会社 Data center system, reconfigurable node, reconfigurable node control method, reconfigurable node control program
JP2013508839A (en) * 2009-10-26 2013-03-07 インターナショナル・ビジネス・マシーンズ・コーポレーション Dealing with node failures
US11720290B2 (en) 2009-10-30 2023-08-08 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US11526304B2 (en) 2009-10-30 2022-12-13 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
CN108664346A (en) * 2017-03-27 2018-10-16 中国移动通信集团福建有限公司 The localization method of the node exception of distributed memory system, device and system
JP2019179964A (en) * 2018-03-30 2019-10-17 株式会社Subaru aircraft
US11643188B2 (en) 2018-03-30 2023-05-09 Subaru Corporation Aircraft
US11232007B2 (en) 2018-04-10 2022-01-25 Fujitsu Limited Server system and method of switching server

Similar Documents

Publication Publication Date Title
JP2006309439A (en) Flexible cluster system
US11032359B2 (en) Multi-priority service instance allocation within cloud computing platforms
US7287179B2 (en) Autonomic failover of grid-based services
KR101758884B1 (en) Large scale storage system
JP4469306B2 (en) Computer system, management server
EP3806432A1 (en) Method for changing service on device and service changing system
US20060015773A1 (en) System and method for failure recovery and load balancing in a cluster network
JP6079226B2 (en) Information processing apparatus, server management method, and server management program
US20140215076A1 (en) Allocation of Virtual Machines in Datacenters
JP2015522876A (en) Method and apparatus for eliminating single points of failure in cloud-based applications
US7584292B2 (en) Hierarchical system configuration method and integrated scheduling method to provide multimedia streaming service on two-level double cluster system
CN113608871A (en) Service processing method and device
US20210065083A1 (en) Method for changing device business and business change system
US20230283656A1 (en) Utilizing network analytics for service provisioning
KR20200080458A (en) Cloud multi-cluster apparatus
CN107566466A (en) Load-balancing method and device
US9654333B2 (en) Application allocation in datacenters
CN117492944A (en) Task scheduling method and device, electronic equipment and readable storage medium
JP2002108817A (en) Method for monitoring availability with shared database
US10909094B1 (en) Migration scheduling for fast-mutating metadata records
US11824922B2 (en) Operating cloud-managed remote edge sites at reduced disk capacity
US8984522B2 (en) Relay apparatus and relay management apparatus
EP3685567A1 (en) Load shedding of traffic based on current load state of target capacity
JP5594668B2 (en) Node, clustering system, clustering system control method, and program
JPH09106381A (en) Communication server load distribution processing system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080408

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080805