JP2002229811A - Control method of logical partition system - Google Patents

Control method of logical partition system

Info

Publication number
JP2002229811A
JP2002229811A JP2001027757A JP2001027757A JP2002229811A JP 2002229811 A JP2002229811 A JP 2002229811A JP 2001027757 A JP2001027757 A JP 2001027757A JP 2001027757 A JP2001027757 A JP 2001027757A JP 2002229811 A JP2002229811 A JP 2002229811A
Authority
JP
Japan
Prior art keywords
processor
failure
stop
partition
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001027757A
Other languages
Japanese (ja)
Other versions
JP3746957B2 (en
Inventor
Takeshi Koike
毅 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Engineering Ltd
Original Assignee
NEC Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Engineering Ltd filed Critical NEC Engineering Ltd
Priority to JP2001027757A priority Critical patent/JP3746957B2/en
Publication of JP2002229811A publication Critical patent/JP2002229811A/en
Application granted granted Critical
Publication of JP3746957B2 publication Critical patent/JP3746957B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

PROBLEM TO BE SOLVED: To solve the problem that fault-stop signal wires to the number of the maximum blocks are required when a method by connection with the fault- stop signal wires is used, though it is preferable that a fault in each logical block is not spread to other blocks, if possible, in logical partition. SOLUTION: A block number housing resistor 201 is provided instead of the fault-stop signal wire 102. When a fault is generated in a processor 210 and an operating system operating as a system on a block 1 is required to be blocked, the processor 210 issues a fault-stop instruction of the block 1 to which the processor itself belongs through an inter-processor bus 100.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、情報処理装置の障
害処理に関し、特に密結合接続における論理分割システ
ムの制御方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to fault processing for an information processing apparatus, and more particularly to a method for controlling a logical partitioning system in a tightly coupled connection.

【0002】[0002]

【従来の技術】情報処理装置が障害となった場合、障害
の程度によってシステム運用を停止させる必要が発生す
る。システム運用を停止する要因は大別すると2つあ
り、1つはソフトウェア的な要因によるもので、多くの
場合特定のプロセスやジョブで異常を検出し、このプロ
セスまたはジョブがシステムコアとなる処理であった場
合にシステム停止を要するものである。このような障害
はハードウェア故障によるものではないので、障害要因
をソフトウェア的な観点から見直し、システムの再立ち
上げを実行することによって救済される。
2. Description of the Related Art When an information processing apparatus fails, it is necessary to stop the system operation depending on the degree of the failure. There are two main factors that halt system operation. One is due to software factors. In many cases, an abnormality is detected in a specific process or job, and this process or job becomes a system core. If there is, the system needs to be stopped. Since such a failure is not caused by a hardware failure, the failure can be remedied by reviewing the cause of the failure from a software viewpoint and executing a system restart.

【0003】もう1つの障害はハードウェア的な要因に
よるもので、システムコアとなるプロセッサ等の故障に
よって発生し、故障発生装置の修理を行うか、障害部位
の縮退を行った後にシステムの再立ち上げを実施する。
Another fault is caused by a hardware factor, and is caused by a fault of a processor or the like serving as a system core, and after the faulty device is repaired or the faulty part is degenerated, the system is restarted. Carry out raising.

【0004】汎用コンピュータのような大規模情報処理
装置では、障害発生から障害内容の解析、被疑部品の特
定を容易に行うために、上述のソフトウェア/ハードウ
ェア障害の対策としてログ機能を具備している。ハード
ウェア障害対策のログ機能にはレジスタのダンプ機能や
実行トレース機能等が存在する。
A large-scale information processing apparatus such as a general-purpose computer is provided with a log function as a measure against the above-mentioned software / hardware failure in order to easily analyze the content of the failure from the occurrence of the failure and specify the suspected component. I have. The log function for hardware failure countermeasures includes a register dump function and an execution trace function.

【0005】このようなハードウェアログ採取は障害発
生時点からなるべく早急に行われる方が望ましい。その
理由は前記レジスタダンプ情報やトレース情報の内容が
障害発生時点から時間が経過すればするほど状態の変化
が進行し、ログとしての確度が失われるためである。最
も簡単かつ効果的に情報処理装置を障害・停止状態に遷
移させるための方法は、ログ採取対象とするプロセッサ
間をハードウェア・ワイヤードの障害・停止用信号線で
結線し、何れかのプロセッサで異常を検出した際に本信
号線を活性化させる事によって、情報処理装置全体を障
害・停止状態に移行させるものである。
It is desirable that such hardware log collection be performed as soon as possible from the time of occurrence of a failure. The reason is that as the contents of the register dump information and the trace information elapse from the point of occurrence of the failure, the state change progresses and the accuracy as a log is lost. The simplest and most effective method for transitioning the information processing device to the failure / stop state is to connect the processors to be logged with hardware / wired failure / stop signal lines, and use any of the processors. By activating this signal line when an abnormality is detected, the entire information processing apparatus is shifted to a failure / stop state.

【0006】近年のマルチプロセッサ技術の発展によ
り、密結合装置においても主記憶に対して数十台〜数百
台のプロセッサを接続してシステム運用を行う情報処理
装置が登場するに至った。この種の情報処理装置では、
業務の処理量に応じて必要な数ごとにプロセッサ群を分
割し、このプロセッサ群ごとに1つのオペレーティング
システムを稼働させる論理分割システムが採用されてい
る。論理分割はIBM(インターナショナル・ビジネス
・マシン)社の商標であるPR/SMが著名である。
With the development of multiprocessor technology in recent years, even in a tightly coupled device, an information processing device for operating a system by connecting tens to hundreds of processors to a main memory has appeared. In this type of information processing device,
A logical partitioning system that divides a processor group into necessary numbers according to the processing amount of business and operates one operating system for each processor group is employed. PR / SM, a trademark of IBM (International Business Machines), is famous for logical division.

【0007】論理分割システムにおいて、単一の障害・
停止用信号線でプロセッサ間を結線した場合、障害の程
度によっては本来閉塞する必要のない、健全運用されて
いる論理区画まで閉塞してしまう。そのため、通常論理
分割システムで耐故障性能を向上させる場合には、複数
の情報処理装置をホットスタンバイ構成とするように構
成し、運用系全体に障害が波及した場合でも待機系でシ
ステム運用を継続する様にしている。しかし情報技術の
普及と共にコンピュータで扱う業務も多様化し、単一情
報処理装置で構成した小規模システムにおいても複数の
オペレーティングシステムを稼働させたいというニーズ
は増加している。またその一方で24時間運転を初めと
する基幹業務サーバとしてのコンピュータの信頼性向上
も急務であり、こうした意味でも単にホットスタンバイ
構成にしただけの信頼性向上ではなく、情報処理装置単
体としての信頼性向上技術が重要視されている。図7
は、従来技術によるバス制御部の詳細構成を表したブロ
ック図である。アドレスデータレジスタ202は、プロ
セッサ間バス100中のアドレスデータバス101と接
続され、他プロセッサ群および主記憶装置400との間
でデータの交換を行う。コマンドレジスタ203は、プ
ロセッサ間バス100中のアドレスデータバス101と
接続され、他プロセッサおよび主記憶装置400との間
でデータの交換を行う際の主記憶トランザクションの属
性を格納する。コマンドデコーダ204は、コマンドレ
ジスタ203およびアドレスデータレジスタ202の一
部のビットフィールドと接続され、主記憶トランザクシ
ョンをデコードし、リード命令/ライト命令やその他の
制御命令によるバス制御装置の各種動作を指示する。ロ
ード/ストア制御回路206は、演算や入出力を行うプ
ロセッサの他の機能部とプロセッサアドレスデータ信号
線208で接続され、プロセッサが使用する命令やデー
タのプリフェッチ制御、読み出し/書き込みの順序制
御、キャッシュ制御等を行う。割り込み制御回路205
は、プロセッサ間バス100中の障害・停止信号線10
2を介して他プロセッサおよび主記憶装置400と接続
され、自プロセッサが障害を検出した時には障害・停止
信号線102を活性化する。また他プロセッサで障害が
発生した時には、障害・停止信号線102の活性化を検
出することにより、自プロセッサを障害・停止状態に移
行させる機能を備える。バス制御部およびプロセッサの
他の機能部は、停止指示信号線207が割り込み制御回
路205によって活性化されることにより機能を停止す
る。
In a logical partitioning system, a single fault
When the processors are connected by the stop signal line, depending on the degree of the failure, the logical partitions that are not required to be shut down and are normally operated are shut down. Therefore, when improving fault-tolerant performance in a normal logical partitioning system, a plurality of information processing devices are configured to have a hot standby configuration, and system operation is continued in a standby system even if a failure spreads to the entire active system. I am doing it. However, with the spread of information technology, the tasks handled by computers have become diversified, and there is an increasing need to operate a plurality of operating systems even in a small system configured with a single information processing device. On the other hand, there is an urgent need to improve the reliability of computers as mission-critical servers, such as 24-hour operation. In this sense, it is not just a hot-standby configuration that enhances the reliability of the information processing device itself. Emphasis has been placed on technology for improving the performance. FIG.
FIG. 2 is a block diagram illustrating a detailed configuration of a bus control unit according to the related art. The address data register 202 is connected to the address data bus 101 in the inter-processor bus 100, and exchanges data with another processor group and the main storage device 400. The command register 203 is connected to the address data bus 101 in the inter-processor bus 100, and stores an attribute of a main storage transaction when data is exchanged between another processor and the main storage device 400. The command decoder 204 is connected to some bit fields of the command register 203 and the address data register 202, decodes a main storage transaction, and instructs various operations of the bus control device according to a read instruction / write instruction and other control instructions. . The load / store control circuit 206 is connected to other functional units of the processor that perform operations and input / output via a processor address data signal line 208, and controls prefetch of instructions and data used by the processor, read / write order control, and cache. Perform control and the like. Interrupt control circuit 205
Is the fault / stop signal line 10 in the inter-processor bus 100.
2, and activates the failure / stop signal line 102 when the own processor detects a failure. Also, when a failure occurs in another processor, a function is provided for detecting the activation of the failure / stop signal line 102 to shift the own processor to the failure / stop state. The bus control unit and other functional units of the processor stop functioning when the stop instruction signal line 207 is activated by the interrupt control circuit 205.

【0008】[0008]

【発明が解決しようとする課題】上述の通り、論理分割
下では各論理区画の障害はなるべく他区画に波及しない
方が望ましい。しかしながら、障害・停止用信号線で結
線する方法を論理分割システムに適用すると、最大区画
数分の障害・停止用信号線が必要となる。近年LSIの
高集積化により、LSI内に取り込めるゲート量は加速
度的に増大してはいる。しかしながらLSIと基板間、
あるいはプロセッサとプロセッサを結ぶ信号線数は、物
理的な実装制約からLSIの論理増加に付いていけない
のが実状である。この点からも障害・停止用信号線の様
な通常論理に関係のない信号線数は削減する必要があ
る。
As described above, it is desirable that a failure in each logical partition does not spread to other partitions as much as possible under logical partitioning. However, if the method of connecting with the failure / stop signal lines is applied to the logical partitioning system, the failure / stop signal lines for the maximum number of partitions are required. In recent years, as the degree of integration of LSIs has increased, the amount of gates that can be incorporated in LSIs has been increasing at an accelerating rate. However, between the LSI and the board,
Or, in reality, the number of signal lines connecting the processors cannot keep up with the logical increase of the LSI due to physical mounting restrictions. From this point as well, it is necessary to reduce the number of signal lines that are not related to the normal logic, such as the signal lines for failure and stop.

【0009】本発明の目的は、主記憶装置に対して複数
のプロセッサを密結合で接続し、このプロセッサ群を予
め複数の論理区画に分割し、前記の論理区画ごとにオペ
レーティングシステムを割り付けて運用する論理分割シ
ステムにおいて、障害発生時に特定の論理区画のみを選
択的に障害・停止状態に遷移させるための制御を、専用
の信号線を使用することなく実現することにある。
An object of the present invention is to connect a plurality of processors to a main storage device by tight coupling, divide this processor group into a plurality of logical partitions in advance, and allocate an operating system to each logical partition for operation. An object of the present invention is to realize control for selectively transiting only a specific logical partition to a failure / stop state when a failure occurs without using a dedicated signal line.

【0010】[0010]

【課題を解決するための手段】本発明の論理分割システ
ムの制御方法は、主記憶装置に対して複数のプロセッサ
を密結合で接続し、このプロセッサ群をあらかじめ複数
の論理区画に分割し、前記論理区画ごとにオペレーティ
ングシステムを割り付けて運用する論理分割システムに
おいて、前記主記憶装置のトランザクションを受信する
ステップと、該トランザクションの1つとして定義され
る障害停止命令中に設けた停止対象区画番号とプロセッ
サごとにあらかじめ設定された自らの所属する区画番号
を比較するステップと、比較結果が一致した場合に前記
トランザクションを異区画で正常動作しているプロセッ
サに影響を与えない状態まで処理するステップと、自プ
ロセッサを障害・停止状態に遷移させるステップとから
なることを特徴としている。
According to a control method of a logical partitioning system of the present invention, a plurality of processors are tightly coupled to a main storage device, and this processor group is divided into a plurality of logical partitions in advance. In a logical partitioning system that operates by allocating an operating system for each logical partition, a step of receiving a transaction in the main storage device, a partition number to be stopped and a processor provided in a failure stop command defined as one of the transactions A step of comparing the partition number to which it belongs in advance for each of them, and a step of processing the transaction until it does not affect a processor normally operating in a different partition when the comparison results match. Transitioning the processor to a fault / stop state. To have.

【0011】さらに本発明の論理分割システムの制御方
法は、前記障害停止命令中に設けた停止対象とすべき区
画番号に、全区画指定に対応する同報区画番号を定義す
るステップと、前記同報区画番号が設定された障害停止
命令を受信した場合に、各プロセッサはその時点のバス
動作状態に依らず即座に自らを障害停止状態に遷移させ
るステップからなることを特徴としている。
Further, in the control method of the logical partitioning system according to the present invention, the step of defining a broadcast partition number corresponding to all partition designations in the partition number to be stopped provided in the failure stop command, Each processor is characterized by comprising a step of, upon receiving a failure stop command in which a report section number is set, immediately transiting itself to the failure stop state regardless of the bus operation state at that time.

【0012】[0012]

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。
Next, embodiments of the present invention will be described in detail with reference to the drawings.

【0013】図1に示すように本発明は、演算プロセッ
サ200〜240および入出力プロセッサ300〜32
0が、プロセッサ間バス100を介して主記憶装置40
0と密結合で相互に接続されている。
As shown in FIG. 1, the present invention relates to arithmetic processors 200 to 240 and input / output processors 300 to 32.
0 is stored in the main storage device 40 via the inter-processor bus 100.
0 and are closely connected to each other.

【0014】演算プロセッサ200、210、220お
よび入出力プロセッサ300は区画1という一つのプロ
セッサ群を構成し、これに対して1つのオペレーティン
グシステムを運用する。また、演算プロセッサ230と
入出力プロセッサ310で1つのプロセッサ群を構成
し、これを区画2として区画1とは別のオペレーティン
グシステムを運用する。同様に、演算プロセッサ240
と入出力プロセッサ320で1つのプロセッサ群を構成
し、この区画3にも別のオペレーティングシステムを運
用する。主記憶装置400は情報処理装置内の全ての演
算プロセッサ及び入出力プロセッサから参照される区画
共有装置である。
The arithmetic processors 200, 210, 220 and the input / output processor 300 constitute one processor group called partition 1, and operate one operating system for this. The processor 230 and the input / output processor 310 constitute one processor group, and this is used as a partition 2 to operate an operating system different from that of the partition 1. Similarly, the arithmetic processor 240
And the input / output processor 320 constitute one processor group, and another operating system is operated in the partition 3. The main storage device 400 is a partition sharing device that is referred to by all arithmetic processors and input / output processors in the information processing device.

【0015】次に図2を用いて、演算プロセッサ200
〜240や入出力プロセッサ300〜320に内蔵され
るバス制御部の詳細構成を説明する。なお、従来技術と
同様の処理を行う部分については説明を省略する。
Next, referring to FIG.
The detailed configuration of the bus control unit incorporated in the input / output processors 300 to 320 and the input / output processors 300 to 320 will be described. Note that a description of a portion performing the same processing as that of the related art will be omitted.

【0016】区画番号格納レジスタ201は、演算プロ
セッサ200〜240および入出力プロセッサ300〜
320が所属する区画番号を保持するレジスタである。
コマンドデコーダ204はコマンドレジスタ203およ
びアドレスデータレジスタ202の一部のビットフィー
ルドと接続され、主記憶トランザクションをデコードし
リード命令/ライト命令やその他の制御命令によるバス
制御装置の各種動作を指示する。ロード/ストア制御回
路206は演算や入出力を行うプロセッサの他の機能部
とプロセッサアドレスデータ信号線208で接続され、
プロセッサが使用する命令やデータのプリフェッチ制
御、読み出し/書き込みの順序制御、キャッシュ制御等
を行う。割り込み制御回路205はコマンドデコーダ2
04からの指示で、自プロセッサを障害・停止状態に移
行させるための制御を行う。
The partition number storage register 201 includes arithmetic processors 200 to 240 and input / output processors 300 to
Reference numeral 320 denotes a register for holding a section number to which the section belongs.
The command decoder 204 is connected to some bit fields of the command register 203 and the address data register 202, decodes a main storage transaction, and instructs various operations of the bus control device according to a read command / write command and other control commands. The load / store control circuit 206 is connected to other functional units of the processor for performing calculations and input / output via a processor address data signal line 208,
It performs prefetch control of instructions and data used by the processor, read / write order control, cache control, and the like. The interrupt control circuit 205 is a command decoder 2
In response to an instruction from the CPU 04, control is performed to shift the own processor to a failure / stop state.

【0017】以下演算プロセッサ210で障害を検出
し、他の演算プロセッサ200および220〜240と
入出力プロセッサ300〜320と主記憶装置400を
障害・停止状態とする場合の動作を例に挙げて説明す
る。
The operation in the case where a fault is detected by the arithmetic processor 210 and the other arithmetic processors 200 and 220 to 240, the input / output processors 300 to 320, and the main storage device 400 are set in the fault / stop state will be described as an example. I do.

【0018】論理分割方式を使用しない情報処理装置の
場合、最も簡単な方法で情報処理装置全体を障害・停止
状態に移行させるためには障害・停止信号線102を使
用する。
In the case of an information processing apparatus that does not use the logical partitioning method, the fault / stop signal line 102 is used to shift the entire information processing apparatus to the fault / stop state by the simplest method.

【0019】従来技術においては、障害を検出した演算
プロセッサ210の割り込み制御回路205が障害・停
止信号線102を使用して情報処理装置の緊急停止を指
示し、他のプロセッサおよび主記憶装置の割り込み制御
回路205が前記の信号を受信。停止指示信号線207
を使用してプロセッサ機能を停止させるというのが基本
的動作であった。
In the prior art, the interrupt control circuit 205 of the arithmetic processor 210 that has detected a fault instructs an emergency stop of the information processing device using the fault / stop signal line 102, and interrupts the other processors and the main storage device. The control circuit 205 receives the signal. Stop instruction signal line 207
The basic operation was to stop the processor function using.

【0020】しかし論理分割方式でこのようは制御を行
った場合、例えば図1の演算プロセッサ200〜220
と入出力プロセッサ300で構成する区画1において演
算プロセッサ210の障害波及範囲が区画1内に閉じて
いる場合は、本来停止させる必要のない区画2の演算プ
ロセッサ230および入出力プロセッサ310、区画3
の演算プロセッサ240および入出力プロセッサ320
までも停止させてしまうことになる。
However, when such control is performed by the logical division method, for example, the arithmetic processors 200 to 220 shown in FIG.
And the input / output processor 300 and the input / output processor 300, when the fault propagation range of the arithmetic processor 210 is closed within the partition 1, the input / output processor 310, the input processor 310, and the input processor 310 of the partition 2 which need not be stopped originally
Arithmetic processor 240 and input / output processor 320
Will be stopped.

【0021】そこで本発明では、障害・停止信号線10
2に替わって区画番号格納レジスタ201を設けてい
る。プロセッサ210で障害が発生し、システムとして
区画1上で動作しているオペレーティングシステムを閉
塞する必要が発生した場合に、プロセッサ210はプロ
セッサ間バス100を介して、自プロセッサが所属する
区画1の障害・停止命令を発行する。障害・停止命令は
メモリリード命令やメモリライト命令等の主記憶トラン
ザクションの1つとして定義され、アドレスデータバス
101を介して転送される。障害・停止命令は引数とし
て区画番号をアドレス/データ部のビットフィールドの
一部に持つ。区画1を閉塞する必要があるプロセッサ2
10は、コマンドレジスタ203に障害・停止命令に対
応するコマンドコードを、アドレスデータレジスタ20
2に区画1に対応する区画番号をそれぞれ設定し、アド
レスデータバス101にデータを送出することによって
区画1配下の全プロセッサに障害・停止命令を通知す
る。プロセッサ間バス100に送出されたデータは情報
処理装置内の全てのプロセッサと主記憶装置400にも
伝搬する。
Therefore, in the present invention, the fault / stop signal line 10
2, a section number storage register 201 is provided. When a failure occurs in the processor 210 and it becomes necessary to shut down the operating system operating on the partition 1 as a system, the processor 210 transmits the failure of the partition 1 to which the own processor belongs via the inter-processor bus 100.・ Issue a stop command. The fault / stop command is defined as one of main storage transactions such as a memory read command and a memory write command, and is transferred via the address data bus 101. The fault / stop command has a partition number as an argument in a part of the bit field of the address / data section. Processor 2 that needs to block partition 1
Reference numeral 10 denotes a command code corresponding to the fault / stop instruction stored in the command register 203 in the address data register 20.
The block numbers corresponding to the block 1 are set in the block 2 respectively, and data is transmitted to the address data bus 101 to notify all the processors under the block 1 of the fault / stop command. The data transmitted to the inter-processor bus 100 also propagates to all processors in the information processing device and the main storage device 400.

【0022】同一区画1に所属する演算プロセッサ20
0では、バス制御部に内蔵するコマンドレジスタ203
によってデータを取り込みコマンドデコーダ204に転
送する。コマンドデコーダ204はデコードした主記憶
トランザクションが障害・停止命令であった場合は、ア
ドレスデータレジスタ202に取り込まれているアドレ
スデータバス101の一部のビットフィールドデータ
と、区画番号格納レジスタ201に予め保持されてい
る、自プロセッサの所属する区画番号とを比較し、一致
する場合には割り込み制御回路205に指示して、停止
指示信号線207によってプロセッサの機能を停止させ
る。
An arithmetic processor 20 belonging to the same section 1
At 0, the command register 203 built in the bus control unit is set.
And the data is transferred to the command decoder 204. When the decoded main storage transaction is a failure / stop command, the command decoder 204 previously stores a part of the bit field data of the address data bus 101 taken into the address data register 202 and the partition number storage register 201. The interrupt control circuit 205 is compared with the section number to which the own processor belongs, and if they match, the interrupt control circuit 205 is instructed to stop the function of the processor by the stop instruction signal line 207.

【0023】この時注目すべきは、演算プロセッサ20
0のバス制御部以外の機能が障害・停止状態となり動作
を停止しても、バス制御部自身はすぐには機能停止しな
い点である。演算プロセッサ200のバス制御部は、シ
ステム上で正常に運用されている他の区画2および区画
3に影響を与えない様に、プロセッサ間バス100への
アクセスをバス動作が正常な状態で終了するまで動作さ
せた後、初めて障害・停止状態となる。具体的には、ロ
ード/ストア制御回路206が他区画にも影響のある書
き込み動作を完了していなかった場合には書き込み動作
を継続させる動作や、プロセッサに内蔵するキャッシュ
がストアイン方式(ライトバック方式とも言う)である
様な場合には、主記憶のデータの写しをキャッシュ内に
保持している可能性があるので、キャッシュ内容の主記
憶への掃き出し動作を行う動作等がこれに該当する。
At this time, it should be noted that the arithmetic processor 20
The point is that even if a function other than the bus control unit 0 is in a failure / stop state and stops operating, the bus control unit itself does not stop functioning immediately. The bus control unit of the arithmetic processor 200 terminates the access to the inter-processor bus 100 in a state where the bus operation is normal so as not to affect the other sections 2 and 3 that are operating normally on the system. After operating up to the point, it will be in the fault / stop state for the first time. More specifically, if the load / store control circuit 206 has not completed a write operation that affects other partitions, the load / store control circuit 206 continues the write operation, or a cache built into the processor uses a store-in method (write-back). In this case, a copy of the data in the main memory may be held in the cache, and an operation of flushing the contents of the cache to the main memory corresponds to this. .

【0024】一方、演算プロセッサ210から発行され
た障害・停止命令は、プロセッサ間バス100を介して
区画2や区画3に属するプロセッサにも通知される。し
かしこれらのプロセッサでは、区画番号格納レジスタ2
01に設定されている区画番号と、コマンドデコーダ2
04がデコードした障害・停止命令で示されるアドレス
データレジスタ202中の区画番号が不一致となるの
で、本障害・停止命令に対しては何も機能せずに以後の
動作を継続する。
On the other hand, the fault / stop instruction issued from the arithmetic processor 210 is also notified to the processors belonging to the sections 2 and 3 via the inter-processor bus 100. However, in these processors, the partition number storage register 2
01 and the command decoder 2
Since the partition numbers in the address data register 202 indicated by the failure / stop instruction decoded by the address 04 do not match, the subsequent operation is continued without performing any function with respect to the failure / stop instruction.

【0025】以上に示す動作によって、区画1に属する
演算プロセッサ200、210、220と入出力プロセ
ッサ300は、区画2に属する演算プロセッサ230と
入出力プロセッサ310、および区画3に属する演算プ
ロセッサ240と入出力プロセッサ320の動作に擾乱
を与えることなく、選択的に区画1のみを障害・停止状
態とすることが可能となる。
By the operations described above, the arithmetic processors 200, 210, 220 and the input / output processor 300 belonging to the partition 1 enter the arithmetic processor 230 and the input / output processor 310 belonging to the partition 2 and the arithmetic processor 240 belonging to the partition 3. Without disturbing the operation of the output processor 320, only the partition 1 can be selectively put into the failure / stop state.

【0026】また本発明は、情報処理装置内の全てのプ
ロセッサを包括して障害・停止状態とするための同報通
信機能を備えている。
Further, the present invention has a broadcast communication function for covering all the processors in the information processing apparatus into a failure / stop state.

【0027】これは前記の障害・停止命令中の引数で指
定されるアドレス/データ部の論理区画番号を表すビッ
トフィールドの値として全区画に対応する同報区画番号
を定義し、各プロセッサが同報区画番号を設定された障
害・停止命令を受信した場合に、プロセッサ間バス10
0の動作状態に関係なく自プロセッサを即座に障害・停
止状態にすべく緊急停止させることを特徴とする。
This defines a broadcast partition number corresponding to all partitions as a value of a bit field representing a logical partition number of an address / data part specified by an argument in the failure / stop instruction. When a fault / stop command to which a report section number is set is received, the inter-processor bus 10
The present invention is characterized in that an emergency stop is performed to immediately bring the own processor into a failure / stop state irrespective of the operation state of 0.

【0028】前記の一区画に限定した障害・停止状態へ
の遷移手段との違いは、各プロセッサに内蔵するバス制
御部のコマンドデコーダ204で障害・停止命令をデコ
ードし、アドレスデータレジスタ202に取り込んだア
ドレスデータバス101のデータが全区画に対応する同
報区画番号であった場合は、論理区画番号格納レジスタ
201の値の如何に拘わらす、割り込み制御回路205
に指示して停止指示信号線207によってプロセッサの
停止を指示した後、バス制御部自身も以後のバス制御動
作を停止する点にある。具体的には、ロード/ストア制
御回路206の動作をその時点で停止し、読み込み途中
あるいは書き込み途中のデータがロード/ストア制御回
路206内に残った状態でも強制停止するという動作が
これに当たる。
The difference from the transition means to the failure / stop state limited to one section is that the failure / stop instruction is decoded by the command decoder 204 of the bus control unit incorporated in each processor and is taken into the address data register 202. If the data on the address data bus 101 is a broadcast section number corresponding to all the sections, the interrupt control circuit 205 does not care what the value of the logical section number storage register 201 is.
And instructs the processor to stop by the stop instruction signal line 207, the bus control unit itself stops the subsequent bus control operation. Specifically, this corresponds to an operation in which the operation of the load / store control circuit 206 is stopped at that point, and the operation is forcibly stopped even when data being read or being written remains in the load / store control circuit 206.

【0029】同報区画番号を定義しバス制御部自身も緊
急停止させるのは、障害が情報処理装置全体に関わる問
題の場合、バス制御部自身にも障害が存在する可能性が
あるためである。
The reason why the broadcast section number is defined and the bus control unit itself is also stopped urgently is that if the failure is a problem relating to the entire information processing apparatus, the bus control unit itself may have a failure. .

【0030】図2中のバス制御部は、主記憶トランザク
ションとして図3に示す4つのコマンドコードを使用す
るものとする。即ちメモリリード命令(コマンドコード
0)、メモリライト命令(コマンドコード1)、ロック
命令(コマンドコード2)、障害・停止命令(コマンド
コード3)である。メモリライト命令は、演算プロセッ
サ200〜240および入出力プロセッサ300〜32
0が主記憶装置400に対してデータを書き込む場合に
使用する命令である。メモリリード命令は、演算プロセ
ッサ200〜240および入出力プロセッサ300〜3
20に対して主記憶装置400からデータを読み込む場
合に使用する命令である。ロック命令は、演算プロセッ
サ200〜240間で排他制御が必要な場合に使用する
命令である。障害・停止命令は、本発明に関わる命令で
演算プロセッサ200〜240および入出力プロセッサ
300〜320が自プロセッサの所属する区画または情
報処理装置全体を障害・停止状態とする場合に使用する
命令である。
The bus control unit in FIG. 2 uses the four command codes shown in FIG. 3 as main storage transactions. That is, a memory read instruction (command code 0), a memory write instruction (command code 1), a lock instruction (command code 2), and a failure / stop instruction (command code 3). The memory write instruction is transmitted to the arithmetic processors 200 to 240 and the input / output processors 300 to 32.
0 is an instruction used when writing data to the main storage device 400. The memory read instruction is executed by the arithmetic processors 200 to 240 and the input / output processors 300 to 3
20 is an instruction to be used when data is read from the main storage device 400 to the storage device 20. The lock instruction is an instruction used when exclusive control is required between the arithmetic processors 200 to 240. The failure / stop instruction is an instruction related to the present invention, and is used when the arithmetic processors 200 to 240 and the input / output processors 300 to 320 place the partition to which the own processor belongs or the entire information processing apparatus in the failure / stop state. .

【0031】コマンドコードは4ビットで構成されてお
り、アドレスデータバス101の内4本の信号線を使用
する。コマンドコードはコマンドレジスタ203でアド
レスデータバス101から取り出される。
The command code is composed of four bits and uses four signal lines of the address data bus 101. The command code is extracted from the address data bus 101 by the command register 203.

【0032】図3において、主記憶トランザクション
は、コマンドが要求される際にコマンドコードに対応す
る引数として、アドレスデータバス101の内32本の
信号線を使用する。この引数は、アドレスデータレジス
タ202によってアドレスデータバス101から取り出
される。引数に使用される32本の信号線はメモリリー
ド命令およびメモリライト命令ではアドレスの送出やデ
ータの送受信にも兼用される。
In FIG. 3, the main storage transaction uses 32 signal lines of the address data bus 101 as arguments corresponding to a command code when a command is requested. This argument is taken out of the address data bus 101 by the address data register 202. The 32 signal lines used as arguments are also used for sending addresses and transmitting / receiving data in memory read and memory write instructions.

【0033】全ての命令は、アドレスデータレジスタ2
02で示される引数のビット0〜7に命令の送信元プロ
セッサの識別番号が格納される。また、命令がロック命
令の場合は引数のビット8〜15はロック種別を表し、
障害・停止命令の場合には引数のビット8〜15は障害
・停止状態とすべき区画番号が設定される。
All instructions are stored in the address data register 2
The identification number of the processor that has transmitted the instruction is stored in bits 0 to 7 of the argument indicated by 02. When the instruction is a lock instruction, bits 8 to 15 of the argument indicate a lock type,
In the case of a failure / stop command, the partition numbers to be in the failure / stop state are set in bits 8 to 15 of the argument.

【0034】障害・停止命令で使用される前記引数の区
画番号設定フィールド(ビット8〜15)に停止させる
べき区画の区画番号が設定される。図1の構成の場合、
その手順は、演算プロセッサ200〜220と入出力プ
ロセッサ300のバス制御部に内蔵する区画番号格納レ
ジスタ201には事前に区画1を表す01(16進数、
以下H)が設定されている。同様に、区画2に属する演
算プロセッサ230と入出力プロセッサ310の区画番
号格納レジスタ201には、02(H)が、区画3に属
する演算プロセッサ240と入出力プロセッサ320の
区画番号格納レジスタ201には03(H)が設定され
ている。
The section number of the section to be stopped is set in the section number setting field (bits 8 to 15) of the argument used in the fault / stop instruction. In the case of the configuration of FIG.
The procedure is as follows. The partition number storage register 201 incorporated in the bus control unit of the arithmetic processors 200 to 220 and the input / output processor 300 stores 01 (hexadecimal,
The following H) is set. Similarly, 02 (H) is stored in the partition number storage registers 201 of the arithmetic processors 230 and the input / output processors 310 belonging to the partition 2, and is stored in the partition number storage registers 201 of the arithmetic processors 240 and the input / output processors 320 belonging to the partition 3. 03 (H) is set.

【0035】何れかの区画で当該区画に所属するプロセ
ッサが障害となり、同一区画に所属する他のプロセッサ
を障害・停止状態とする時には、コマンドレジスタ20
3に障害・停止命令のコマンドコードである3(H)を
設定すると共に、アドレスデータレジスタ202のビッ
ト0〜7に自プロセッサ固有の識別番号を、ビット8〜
15に、区画番号格納レジスタ201に予め設定してあ
る自己の所属する区画の値を設定した後、アドレスデー
タバス101に主記憶トランザクションを送信する。ま
た各プロセッサはアドレスデータバス101を流れる主
記憶トランザクションをコマンドレジスタ203で受信
し、コマンドデコーダ204で命令をデコードした際
に、障害・停止命令のコマンドコードである3(H)で
あった場合は、アドレスデータレジスタ202のビット
8〜15で与えられる停止対象とする区画番号と自プロ
セッサの区画番号設定レジスタ201の値を比較する。
この両者が一致した場合に、障害・停止命令を受信した
プロセッサは自分自身を障害・停止状態に移行させる。
When a processor belonging to a partition in one of the partitions fails, and another processor belonging to the same partition enters a failure / stop state, the command register 20
3 is set to 3 (H), which is the command code of the fault / stop instruction, and bits 0 to 7 of the address data register 202 are provided with an identification number unique to the own processor, and bits 8 to
After setting the value of the section to which the self belongs in advance in the section number storage register 201 in 15, the main storage transaction is transmitted to the address data bus 101. Each processor receives the main storage transaction flowing through the address data bus 101 by the command register 203 and decodes the instruction by the command decoder 204. If the command code is 3 (H), which is the command code of the failure / stop instruction, Then, the partition number to be stopped given by bits 8 to 15 of the address data register 202 is compared with the value of the partition number setting register 201 of the own processor.
When the two match, the processor that has received the fault / stop instruction shifts itself to the fault / stop state.

【0036】一方、各区画から共通に使用される主記憶
装置400は、メモリリード命令とメモリライト命令の
みをデコードする。したがって主記憶装置400のバス
制御部で障害・停止命令を受信しても、区画共有装置で
ある主記憶装置400は障害・停止状態とはならない。
On the other hand, the main storage device 400 used in common by each section decodes only a memory read instruction and a memory write instruction. Therefore, even if a failure / stop command is received by the bus control unit of the main storage device 400, the main storage device 400, which is a partition sharing device, does not enter the failure / stop state.

【0037】次に本発明の障害・停止状態への移行処理
について説明する。図4は本発明を説明するに当たって
使用する一バスプロトコルのタイミング図である。本バ
スプロトコルでは1つの主記憶トランザクションは8つ
のステージ(段階)で構成されている。即ちバスの獲得
要求ステージREQ(request)、バスの調停ス
テージARB(arbitration)、バスの同期
ステージSYN(syncronize)アドレス送出
ステージADR(address)、トランザクション
の取消ステージCAN(cancel)、データの前半
1/2の送出ステージDT0(data0)、データの
後半1/2の送出ステージDT1(data1)、パリ
ティエラー等の検出報告ステージCHK(chec
k)、の8つである。
Next, the transition processing to the failure / stop state according to the present invention will be described. FIG. 4 is a timing diagram of one bus protocol used in describing the present invention. In this bus protocol, one main storage transaction is composed of eight stages. That is, a bus acquisition request stage REQ (request), a bus arbitration stage ARB (arbitration), a bus synchronization stage SYN (syncronize), an address transmission stage ADR (address), a transaction cancellation stage CAN (cancel), and the first half of data. 2 transmission stage DT0 (data0), data transmission stage DT1 (data1) of the latter half of data, detection report stage CHK (check
k).

【0038】これらのステージ同士は場合によって同一
のハードウェア資源を共用しても動作上問題とならない
ので、1つの主記憶トランザクションの途中から次のト
ランザクションを実行することが可能である(パイプラ
イン構造)。例えばステージ1のバスの獲得要求REQ
では図2のアドレスデータレジスタ202に引数が格納
されるが、ステージ4のアドレス送出ADRではアドレ
スデータレジスタ202に主記憶アクセスのためのアド
レス情報が格納される。また前記のアドレス情報に対し
て主記憶装置400が書き込みまたは読み込みデータを
準備するまでの間に時間差があるため、2ステージ後の
ステージ6データ送出DT0で書き込み/読み込みデー
タの前半1/2が、続くステージ7データ送出DT1で
書き込み/読み込みデータの後半1/2がアドレスデー
タレジスタ202に格納される。
Even if these stages share the same hardware resource in some cases, there is no operational problem, so that the next transaction can be executed from the middle of one main storage transaction (pipeline structure). ). For example, a request REQ for acquiring a bus of stage 1
In FIG. 2, an argument is stored in the address data register 202 of FIG. 2. However, in the address transmission ADR of stage 4, address information for main memory access is stored in the address data register 202. In addition, since there is a time difference before the main storage device 400 prepares the write or read data for the address information, the first half of the write / read data in the stage 6 data transmission DT0 after two stages is: In the subsequent stage 7 data transmission DT1, the latter half of the write / read data is stored in the address data register 202.

【0039】この時ステージ1〜4とステージ5〜8を
重ね合わせて実行しても、アドレスデータレジスタ20
2に格納されるステージ1の引数、ステージ4のアドレ
ス、ステージ6、7のデータは同一のタイミングでアド
レスデータレジスタ202を使用することがないので、
ステージ1〜4が終了した時点で次の主記憶トランザク
ションを実行し始めても支障はない。この様に重ね合わ
せが可能なステージをステート(状態)と呼び、ステー
トの繰り返しの単位をサイクルと呼ぶ。
At this time, even if the stages 1 to 4 and the stages 5 to 8 are overlapped and executed, the address data register 20
2 does not use the address data register 202 at the same timing, the argument of stage 1, the address of stage 4, and the data of stages 6 and 7 are not used.
There is no problem if the next main storage transaction starts to be executed when the stages 1 to 4 are completed. Stages that can be superimposed in this way are called states, and the unit of state repetition is called a cycle.

【0040】図4に示すバスプロトコルの場合、ステー
トAはステージ1のREQとステージ5のCANで、ス
テートBはステージ2のARBとステージ6のDT0
で、ステートCはステージ3のSYNとステージ7のD
T1で、ステートDはステージ4のADRとステージ8
のCHKで構成されており、ステートA〜Dの4ステー
トで1バスサイクルを形成している。
In the case of the bus protocol shown in FIG. 4, state A is the REQ of stage 1 and CAN of stage 5, and state B is the ARB of stage 2 and DT0 of stage 6.
And state C is SYN of stage 3 and D of stage 7
At T1, state D is ADR of stage 4 and stage 8
CHK, and four states A to D form one bus cycle.

【0041】図5は区画1に所属する演算プロセッサ2
10で障害を検出し、同じ区画1に所属する演算プロセ
ッサ200が障害・停止状態へ移行するまでのバス動作
を表したタイミング図である。
FIG. 5 shows an arithmetic processor 2 belonging to the section 1.
FIG. 10 is a timing chart showing a bus operation from when a failure is detected at 10 to when an arithmetic processor 200 belonging to the same partition 1 shifts to a failure / stop state.

【0042】演算プロセッサ200はトランザクション
1に従って主記憶装置400へのメモリライト命令を実
行中であり。この時ステージ1〜4の間に演算プロセッ
サ210が障害を検出し、区画1を障害・停止状態に移
行させる必要が生じたものとする。演算プロセッサ21
0はステージ5から始まるトランザクション2で障害・
停止命令を実行する。
The arithmetic processor 200 is executing a memory write instruction to the main storage device 400 in accordance with the transaction 1. At this time, it is assumed that the arithmetic processor 210 detects a failure during the stages 1 to 4 and the partition 1 needs to be shifted to the failure / stop state. Arithmetic processor 21
0 indicates a failure in transaction 2 starting from stage 5.
Execute the stop instruction.

【0043】演算プロセッサ210はステージ5でバス
の獲得要求を行う際に、アドレスデータバス101に対
して障害・停止命令のコマンドコードと停止させるべき
区画番号を送出する。同一区画に所属する演算プロセッ
サ200では、プロセッサバスに送出された命令が障害
・停止命令であることを認識し、自己の区画番号と比較
した結果同一であるので、ステージ5のタイミングでプ
ロセッサのバス制御部以外の部位を機能停止させる。こ
の時、演算プロセッサ200のバス制御部は、先行する
主記憶トランザクション1のメモリライト命令を実行中
であるので、トランザクションの実行途中でバス動作の
停止を行うと続くステージ6、7の書き込みデータが不
定となり主記憶のデータ化けが発生する。
When making a bus acquisition request in stage 5, the arithmetic processor 210 sends a command code of a fault / stop command and a partition number to be stopped to the address data bus 101. The arithmetic processors 200 belonging to the same partition recognize that the instruction sent to the processor bus is a fault / stop instruction, and as a result of comparison with their own partition numbers, they are the same. Stop the function of parts other than the control unit. At this time, since the bus control unit of the arithmetic processor 200 is executing the memory write instruction of the preceding main memory transaction 1, if the bus operation is stopped during the execution of the transaction, the write data of the subsequent stages 6 and 7 will be lost. It becomes undefined and data in the main memory is corrupted.

【0044】本発明の第一実施例では、演算プロセッサ
200のバス動作を他の区画に影響のないところまで実
行した後、障害・停止状態に移行する様に作用する。し
たがって、演算プロセッサ200は主記憶トランザクシ
ョン1をステージ8のSYNまで実行し、初めてバス制
御部を障害停止状態に移行させる。これにより主記憶装
置400内のデータはデータ化けを起こすことなく、正
常な状態で保持される。
In the first embodiment of the present invention, after the bus operation of the arithmetic processor 200 is executed to the point where the other partitions are not affected, the operation is performed so as to shift to the failure / stop state. Therefore, the arithmetic processor 200 executes the main storage transaction 1 up to the SYN of the stage 8, and shifts the bus control unit to the failure stop state for the first time. As a result, the data in the main storage device 400 is maintained in a normal state without data corruption.

【0045】一方、区画2に所属する演算プロセッサ2
30は、ステージ9から始まる主記憶トランザクション
3でメモリリード命令を実行しようとしている。演算プ
ロセッサ230においてもステージ5の演算プロセッサ
210が要求した障害・停止命令をデコードするが、こ
ちらはアドレスデータレジスタ202に障害・停止命令
の引数として格納された区画番号と、演算プロセッサ2
30の論理区画番号格納レジスタ201の値が不一致と
なるので、障害・停止状態とはならず、ステージ9から
正常にメモリリード命令を実行する。
On the other hand, the arithmetic processor 2 belonging to the section 2
30 is about to execute a memory read instruction in main storage transaction 3 starting at stage 9. The arithmetic processor 230 also decodes the fault / stop instruction requested by the arithmetic processor 210 of stage 5, which decodes the partition number stored in the address data register 202 as an argument of the fault / stop instruction and the arithmetic processor 2
Since the values of the 30 logical partition number storage registers 201 do not match, a failure / stop state does not occur, and the memory read instruction is normally executed from the stage 9.

【0046】また、仮に演算プロセッサ200がトラン
ザクション1によって書き込みを行った主記憶アドレス
から、演算プロセッサ230がデータを読み出したとし
ても、トランザクション1は正常に終了しているので、
演算プロセッサ230の読み出しデータはデータ化けを
起こすことなく、正常な状態で区画2の運用が継続され
る。
Further, even if the arithmetic processor 230 reads data from the main memory address to which the arithmetic processor 200 has written by the transaction 1, the transaction 1 has been completed normally.
The operation of the partition 2 is continued in a normal state without causing the data read by the arithmetic processor 230 to be garbled.

【0047】本発明の第二の実施形態では、障害・停止
命令の引数として使用されるアドレスデータレジスタ2
02の区画番号設定フィールドに設定する区画番号とし
て、情報処理装置内の全プロセッサを停止させることを
目的とした同報区画番号を定義している。図3に示す例
では、アドレスデータバスで受け渡される障害・停止命
令の引数の内、ビット8〜15にFF(H)を設定した
場合がこれに当たる。
In the second embodiment of the present invention, the address data register 2 used as an argument of the fault / stop instruction
As the section number set in the section number setting field 02, a broadcast section number for the purpose of stopping all processors in the information processing apparatus is defined. In the example shown in FIG. 3, this corresponds to the case where FF (H) is set in bits 8 to 15 of the arguments of the fault / stop instruction passed on the address data bus.

【0048】障害・停止状態に至る動作を詳細に説明す
ると、何れかのプロセッサが障害となりその障害が情報
処理装置全体に影響するものであった場合には、障害と
なったプロセッサはコマンドレジスタ203に障害・停
止命令のコマンドコードである3(H)を設定すると共
に、アドレスデータレジスタ202のビット0〜7に自
プロセッサ固有の識別番号を、ビット8〜15に同報通
知を表す区画番号であるFF(H)を設定した後、アド
レスデータバス101に主記憶トランザクションを送信
する。
The operation leading to the failure / stop state will be described in detail. If any of the processors fails and the failure affects the entire information processing apparatus, the failed processor is set in the command register 203. Is set to 3 (H) which is the command code of the fault / stop instruction, an identification number unique to the own processor is set in bits 0 to 7 of the address data register 202, and a partition number indicating a broadcast notification is set in bits 8 to 15. After setting a certain FF (H), a main storage transaction is transmitted to the address data bus 101.

【0049】一方、主記憶トランザクションを受信する
プロセッサでは、アドレスデータバス101を流れる主
記憶トランザクションをコマンドレジスタ203で受信
し、コマンドデコーダ204で命令をデコードした際に
障害・停止命令のコマンドコードである3(H)であっ
た場合は、アドレスデータレジスタ202のビット8〜
15で与えられる対象区画番号を参照する。この時演算
プロセッサ200〜240と入出力プロセッサ300〜
320に内蔵する区画番号格納レジスタ201には、自
己の所属する区画番号が事前にが設定されているが、ア
ドレスデータレジスタ202で与えられた対象区画番号
が同報通知を表すFF(H)であった場合は、区画番号
設定レジスタ201の値との比較を実施することなく自
プロセッサを障害・停止状態に遷移させる。
On the other hand, in the processor that receives the main storage transaction, the main storage transaction flowing through the address data bus 101 is received by the command register 203, and when the command is decoded by the command decoder 204, it is the command code of the failure / stop instruction. If it is 3 (H), bits 8 to 8 of the address data register 202
Reference is made to the target section number given at 15. At this time, the arithmetic processors 200 to 240 and the input / output processors 300 to
In the section number storage register 201 built in 320, the section number to which the self belongs is set in advance, but the target section number given by the address data register 202 is FF (H) indicating a broadcast notification. If there is, the own processor is transited to the failure / stop state without comparing with the value of the partition number setting register 201.

【0050】次に本発明の第二の実施形態について、動
作を詳細に説明する。
Next, the operation of the second embodiment of the present invention will be described in detail.

【0051】図6は区画1に所属する演算プロセッサ2
10で障害を検出し、障害状態を波及させる範囲が情報
処理装置全体に及ぶと判断した場合の、障害・停止状態
へ移行するまでのバス動作を表したタイミングチャート
である。
FIG. 6 shows an arithmetic processor 2 belonging to the section 1.
10 is a timing chart showing a bus operation up to a transition to a failure / stop state when a failure is detected in 10 and it is determined that the range in which the failure state propagates extends to the entire information processing apparatus.

【0052】演算プロセッサ200はトランザクション
1に従って主記憶装置400へのメモリライト命令を実
行中であるとする。この時ステージ1〜4の間に演算プ
ロセッサ210が障害を検出し、情報処理装置全体を障
害・停止状態に移行させる必要が生じたとする。演算プ
ロセッサ210はステージ5から始まるトランザクショ
ン2で障害・停止命令を実行する。
Assume that arithmetic processor 200 is executing a memory write instruction to main storage device 400 in accordance with transaction 1. At this time, it is assumed that the arithmetic processor 210 detects a failure during the stages 1 to 4, and it becomes necessary to shift the entire information processing apparatus to the failure / stop state. The arithmetic processor 210 executes the failure / stop instruction in transaction 2 starting from stage 5.

【0053】演算プロセッサ210はステージ5でバス
の獲得要求を行う際に、アドレスデータバス101に対
して障害・停止命令のコマンドコードと全区画を表す同
報区画番号を送出する。一方、演算プロセッサ200で
は、アドレスデータバス101に送出された命令をステ
ージ5でコマンドレジスタ203に取り込み、コマンド
デコーダ204で命令をデコードすることによって障害
・停止命令であることを認識する。この時、演算プロセ
ッサ200がアドレスデータレジスタ202から取り出
した停止対象とすべき区画番号に同報区画番号が設定さ
れている場合は、バス制御部を含めたプロセッサ全体を
早急に障害・停止状態とすべく動作する。
When making a bus acquisition request in stage 5, the arithmetic processor 210 sends a command code of a fault / stop command and a broadcast section number representing all sections to the address data bus 101. On the other hand, the arithmetic processor 200 fetches the instruction sent to the address data bus 101 into the command register 203 in stage 5 and decodes the instruction with the command decoder 204 to recognize that the instruction is a failure / stop instruction. At this time, when the broadcast section number is set in the section number to be stopped, which is extracted from the address data register 202 by the arithmetic processor 200, the entire processor including the bus control unit is immediately switched to the fault / stop state. Work to do.

【0054】図6を参照すると、演算プロセッサ200
はステージ5においてトランザクションの取消処理CA
Nを実行中であるが、同報区画番号による障害・停止命
令を受信したので、続くステージ6データの前半1/2
の送出処理DT0、ステージ7データの後半1/2の送
出処理DT1、ステージ8パリティエラー等の検出報告
処理CHKの3つを実行することなく、演算プロセッサ
200のバス制御を含めた機能を停止させる。
Referring to FIG. 6, arithmetic processor 200
Is the transaction cancellation processing CA in stage 5
N is being executed, but since a failure / stop command by the broadcast section number has been received, the first half of the subsequent stage 6 data has been received.
Of the arithmetic processor 200 including the bus control without executing the three processes of the transmission process DT0, the transmission process DT1 of the latter half of the stage 7 data, and the detection reporting process CHK of the stage 8 parity error and the like. .

【0055】また、区画2に所属する演算プロセッサ2
30も、ステージ9から始まる主記憶トランザクション
3においてメモリリード命令を実行しようとしている
が、こちらもステージ5において演算プロセッサ200
と同様に障害・停止命令をデコードし、障害・停止命令
の引数として与えられた区画番号が同報区画番号である
ので、ステージ9からのメモリリード命令を実行するこ
となく、演算プロセッサ230の機能を停止する。
The arithmetic processor 2 belonging to the section 2
30 is also about to execute a memory read instruction in main storage transaction 3 starting at stage 9, but here too,
In the same manner as in the above, the failure / stop instruction is decoded, and the partition number given as an argument of the failure / stop instruction is a broadcast partition number. Therefore, the function of the arithmetic processor 230 can be performed without executing the memory read instruction from the stage 9. To stop.

【0056】本発明の第二の形態では、第一の形態より
更に3ステージ早いタイミングで、バス制御部の状態情
報が保持できることになる。
According to the second embodiment of the present invention, the state information of the bus control section can be held at a timing three stages earlier than in the first embodiment.

【0057】[0057]

【発明の効果】本発明の第1の効果は、論理分割方式の
情報処理装置において、特定の論理区画のみを選択的に
障害・停止状態に移行させるための機構を、専用の信号
線を使用することなく少ないハードウェア信号線で実現
できることにある。これは、障害・停止指示用の信号線
に替わって主記憶トランザクションの1つとしてプロセ
ッサの障害・停止命令を定義することによって、プロセ
ッサが通常有するアドレスデータバスを使用して障害・
停止状態を通知し、障害・停止指示用の信号線を削減が
可能になることによる。
A first effect of the present invention is that, in an information processing apparatus of a logical partitioning system, a mechanism for selectively shifting only a specific logical partition to a failure / stop state uses a dedicated signal line. That is, it can be realized with a small number of hardware signal lines without performing. This is because the fault / stop instruction of the processor is defined as one of the main storage transactions instead of the fault / stop instruction signal line, and the fault / stop is performed using the address data bus normally provided in the processor.
This is because the stop state is notified and the number of signal lines for failure / stop instructions can be reduced.

【0058】第2の効果は、情報処理装置全体に関わる
障害が発生した場合に、障害発生時点からより早い時期
に障害・停止状態へ移行可能とすることで、障害解析の
ために有用なレジスタ情報やトレース情報の破壊が進行
することを防ぐことができることにある。これは、障害
・停止命令の引数として特定の区画を障害・停止とさせ
るための区画番号と、全区画を障害・停止とさせるため
の同報区画番号を使い分けることによって、バス制御動
作を停止させるタイミングを選択していることによる。
The second effect is that, when a fault relating to the entire information processing apparatus occurs, it is possible to shift to the fault / stop state earlier than the time of the fault occurrence, so that a register useful for fault analysis can be obtained. It is to prevent the destruction of information and trace information from progressing. This is to stop the bus control operation by using a partition number for causing a specific partition to fail or stop as an argument of a failure / stop instruction and a broadcast section number for causing all partitions to fail or stop. It depends on the selection of timing.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の形態を表す構成図である。FIG. 1 is a configuration diagram illustrating an embodiment of the present invention.

【図2】本発明の実施例を表すバス制御部の詳細ブロッ
ク図である。
FIG. 2 is a detailed block diagram of a bus control unit representing an embodiment of the present invention.

【図3】本発明の実施例を表す主記憶トランザクション
の命令体系図である。
FIG. 3 is an instruction system diagram of a main storage transaction representing an embodiment of the present invention.

【図4】本発明の実施例を表すバスプロトコルのタイミ
ング図である。
FIG. 4 is a timing diagram of a bus protocol representing an embodiment of the present invention.

【図5】本発明の第一実施形態のバス動作を表すタイミ
ング図である。
FIG. 5 is a timing chart illustrating a bus operation according to the first embodiment of the present invention.

【図6】本発明の第二実施形態のバス動作を表すタイミ
ング図である。
FIG. 6 is a timing chart illustrating a bus operation according to the second embodiment of the present invention.

【図7】従来技術の実施例を表すバス制御部の詳細ブロ
ック図である。
FIG. 7 is a detailed block diagram of a bus control unit representing an embodiment of the related art.

【符号の説明】[Explanation of symbols]

100 プロセッサ間バス 200、210、220、230、240 演算プロ
セッサ 300、310、320 入出力プロセッサ 400 主記憶装置 101 アドレスデータバス 102 障害・停止信号線 201 論理区画番号格納レジスタ 202 アドレスデータレジスタ 203 コマンドレジスタ 204 コマンドデコーダ 205 割り込み制御回路 206 ロード/ストア制御回路 207 プロセッサ停止指示信号線 208 プロセッサアドレスデータ信号線
REFERENCE SIGNS LIST 100 Bus between processors 200, 210, 220, 230, 240 Arithmetic processor 300, 310, 320 I / O processor 400 Main storage device 101 Address data bus 102 Fault / stop signal line 201 Logical partition number storage register 202 Address data register 203 Command register 204 Command decoder 205 Interrupt control circuit 206 Load / store control circuit 207 Processor stop instruction signal line 208 Processor address data signal line

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 主記憶装置に対して複数のプロセッサを
密結合で接続し、このプロセッサ群をあらかじめ複数の
論理区画に分割し、前記論理区画ごとにオペレーティン
グシステムを割り付けて運用する論理分割システムにお
いて、前記主記憶装置のトランザクションを受信するス
テップと、該トランザクションの1つとして定義される
障害停止命令中に設けた停止対象区画番号とプロセッサ
ごとにあらかじめ設定された自らの所属する区画番号と
を比較するステップと、比較結果が一致した場合に前記
トランザクションを異区画で正常動作しているプロセッ
サに影響を与えない状態まで処理するステップと、自プ
ロセッサを障害・停止状態に遷移させるステップとから
なることを特徴とする論理分割システムの制御方法。
1. A logical partitioning system in which a plurality of processors are tightly coupled to a main storage device, the processor group is divided into a plurality of logical partitions in advance, and an operating system is assigned to each logical partition for operation. Receiving the transaction in the main storage device, and comparing a partition number to be stopped provided in a failure stop command defined as one of the transactions with a partition number to which the processor belongs, which is set in advance for each processor. And processing the transaction to a state that does not affect a processor that is operating normally in a different partition when the comparison result matches, and causing the own processor to transition to a failure / stop state. A control method for a logical partitioning system, characterized by the following.
【請求項2】 前記障害停止命令中に設けた停止対象と
すべき区画番号に、全区画指定に対応する同報区画番号
を定義するステップと、前記同報区画番号が設定された
障害停止命令を受信した場合に、各プロセッサはその時
点のバス動作状態に依らず即座に自らを障害停止状態に
遷移させるステップからなることを特徴とする、請求項
1記載の論理分割システムの制御方法。
2. A step of defining a broadcast section number corresponding to all partition designations in a section number to be stopped provided in the fault stop instruction, and a fault stop instruction in which the broadcast section number is set. 2. The method according to claim 1, further comprising the step of, upon receiving the command, causing each processor to immediately shift itself to the failure stop state regardless of the bus operation state at that time.
JP2001027757A 2001-02-05 2001-02-05 Control method of logical partitioning system Expired - Fee Related JP3746957B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001027757A JP3746957B2 (en) 2001-02-05 2001-02-05 Control method of logical partitioning system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001027757A JP3746957B2 (en) 2001-02-05 2001-02-05 Control method of logical partitioning system

Publications (2)

Publication Number Publication Date
JP2002229811A true JP2002229811A (en) 2002-08-16
JP3746957B2 JP3746957B2 (en) 2006-02-22

Family

ID=18892362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001027757A Expired - Fee Related JP3746957B2 (en) 2001-02-05 2001-02-05 Control method of logical partitioning system

Country Status (1)

Country Link
JP (1) JP3746957B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285810A (en) * 2005-04-04 2006-10-19 Hitachi Ltd Cluster configuration computer system and system reset method therefor
WO2007096999A1 (en) * 2006-02-24 2007-08-30 Fujitsu Limited Separating device and separating method
WO2007099606A1 (en) * 2006-02-28 2007-09-07 Fujitsu Limited Processor control method
WO2008120383A1 (en) * 2007-03-29 2008-10-09 Fujitsu Limited Information processor and fault processing method
WO2009147716A1 (en) * 2008-06-02 2009-12-10 富士通株式会社 Data processing system, data processing method, and data processing program

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4529767B2 (en) * 2005-04-04 2010-08-25 株式会社日立製作所 Cluster configuration computer system and system reset method thereof
JP2006285810A (en) * 2005-04-04 2006-10-19 Hitachi Ltd Cluster configuration computer system and system reset method therefor
WO2007096999A1 (en) * 2006-02-24 2007-08-30 Fujitsu Limited Separating device and separating method
JPWO2007096999A1 (en) * 2006-02-24 2009-07-09 富士通株式会社 Separation device and method
JP4576453B2 (en) * 2006-02-24 2010-11-10 富士通株式会社 Cache control circuit, information processing apparatus, and disconnection method
WO2007099606A1 (en) * 2006-02-28 2007-09-07 Fujitsu Limited Processor control method
US8060778B2 (en) 2006-02-28 2011-11-15 Fujitsu Limited Processor controller, processor control method, storage medium, and external controller
JPWO2007099606A1 (en) * 2006-02-28 2009-07-16 富士通株式会社 Processor control method
JP4653838B2 (en) * 2006-02-28 2011-03-16 富士通株式会社 Arithmetic processing device, control method of arithmetic processing device, and control program
JPWO2008120383A1 (en) * 2007-03-29 2010-07-15 富士通株式会社 Information processing apparatus and failure processing method
JP4495248B2 (en) * 2007-03-29 2010-06-30 富士通株式会社 Information processing apparatus and failure processing method
US7930599B2 (en) 2007-03-29 2011-04-19 Fujitsu Limited Information processing apparatus and fault processing method
WO2008120383A1 (en) * 2007-03-29 2008-10-09 Fujitsu Limited Information processor and fault processing method
WO2009147716A1 (en) * 2008-06-02 2009-12-10 富士通株式会社 Data processing system, data processing method, and data processing program
JP5212471B2 (en) * 2008-06-02 2013-06-19 富士通株式会社 Data processing system, data processing method, and data processing program
US8806276B2 (en) 2008-06-02 2014-08-12 Fujitsu Limited Control system for driving a data processing apparatus

Also Published As

Publication number Publication date
JP3746957B2 (en) 2006-02-22

Similar Documents

Publication Publication Date Title
US5193181A (en) Recovery method and apparatus for a pipelined processing unit of a multiprocessor system
US7669078B2 (en) Method and apparatus for debugging a program on a limited resource processor
US5621885A (en) System and method for providing a fault tolerant computer program runtime support environment
US9052887B2 (en) Fault tolerance of data processing steps operating in either a parallel operation mode or a non-synchronous redundant operation mode
US20220229714A1 (en) Serializing machine check exceptions for predictive failure analysis
US5640508A (en) Fault detecting apparatus for a microprocessor system
JPH10111815A (en) Debugging system
US20080126718A1 (en) Method And Device For Monitoring A Memory Unit In A Mutliprocessor System
US5109381A (en) Apparatus and method for detecting errors in a pipeline data processor
JP2006164277A (en) Device and method for removing error in processor, and processor
WO2020239060A1 (en) Error recovery method and apparatus
US7966536B2 (en) Method and apparatus for automatic scan completion in the event of a system checkstop
JP3746957B2 (en) Control method of logical partitioning system
US8812781B2 (en) External state cache for computer processor
JP3526031B2 (en) Data transfer device
JPH07141176A (en) Command retrial control system
JPWO2007097040A1 (en) Information processing apparatus control method, information processing apparatus
US20060195849A1 (en) Method for synchronizing events, particularly for processors of fault-tolerant systems
JPS6113626B2 (en)
JPS60142747A (en) Instruction execution control system
JPS6146535A (en) Pseudo error setting control system
JPH07152594A (en) Retry control system for control processor
JPS6074052A (en) History memory control system
JP2002215471A (en) Memory port, storage device and information processing system
JPH0498326A (en) Microprocessor

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050222

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050307

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051125

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3746957

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081202

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081202

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091202

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091202

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101202

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111202

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111202

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121202

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121202

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131202

Year of fee payment: 8

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees