JP2012083992A - Data failure processing apparatus and data failure processing method - Google Patents

Data failure processing apparatus and data failure processing method Download PDF

Info

Publication number
JP2012083992A
JP2012083992A JP2010230430A JP2010230430A JP2012083992A JP 2012083992 A JP2012083992 A JP 2012083992A JP 2010230430 A JP2010230430 A JP 2010230430A JP 2010230430 A JP2010230430 A JP 2010230430A JP 2012083992 A JP2012083992 A JP 2012083992A
Authority
JP
Japan
Prior art keywords
data
unit
failure
cache
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010230430A
Other languages
Japanese (ja)
Inventor
Masanori Kazuno
雅則 数野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP2010230430A priority Critical patent/JP2012083992A/en
Publication of JP2012083992A publication Critical patent/JP2012083992A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Detection And Correction Of Errors (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Retry When Errors Occur (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a data failure processing apparatus and a data failure processing method that actualize processor relief while avoiding repetitive fault occurrence.SOLUTION: The data failure processing apparatus includes a processor 3 which accesses data stored in a storage device having an error correcting function. The storage device imparts an error correction code to data during data supply. A fault identification unit 302 identifies whether a fault occurs to the data supplied from the storage device based upon the error correction code. A previous evaluation unit 305 issues a previous evaluation request such that an address in which data having an uncorrectable fault is stored is accessed again. A relief propriety determination unit 306 determines whether processor relief can be made according to the issue result of the previous evaluation request. A fault processing unit 307 performs fault handling processing according to a determination of the relief propriety determination unit.

Description

本発明はデータ障害処理装置、及びデータ障害処理方法に関する。   The present invention relates to a data failure processing apparatus and a data failure processing method.

近年の情報処理装置では、機能が向上し、多くのハードウェアを実装しているため、必然的に故障発生箇所が増加している。さらに、情報処理装置に対する信頼性向上の要求は高まってきている。   In recent information processing apparatuses, functions are improved and a lot of hardware is mounted, so that the number of failure occurrences inevitably increases. Furthermore, there is an increasing demand for improving the reliability of information processing apparatuses.

情報処理装置内のメモリ、キャッシュメモリ、及びそれらを接続しているシステムバスのデータ誤りについては、ECC(Error Checking and Correcting)による誤り訂正とエラーの検出が行われている。   For data errors in the memory in the information processing apparatus, the cache memory, and the system bus that connects them, error correction and error detection are performed by ECC (Error Checking and Correcting).

特許文献1は、ECCを用いたデータ障害処理装置に関する技術を開示している。当該データ処理装置の構成を図10に示す。このデータ処理装置は、ECCによる訂正が不可であるエラーを検出した場合に、ECCコードを専用コードに差し替えること(以下の説明では、ポイズン化と記載する。)により、余分な障害検出、報告を抑止するとともに、不正データを参照するプロセッサに対して確実にエラーを通知する技術が開示されている。当該データ処理装置によるポイズン化の具体的な効果として以下の事項が挙げられる。   Patent Document 1 discloses a technique related to a data failure processing apparatus using ECC. The configuration of the data processing apparatus is shown in FIG. When detecting an error that cannot be corrected by the ECC, this data processing apparatus replaces the ECC code with a dedicated code (in the following description, described as poisoning), thereby detecting and reporting an extra failure. A technique is disclosed that suppresses errors and reliably notifies an error to a processor that references illegal data. Specific effects of poisoning by the data processing apparatus include the following matters.

(1) 間欠故障からの救済
DIMM(Dual Inline Memory Module)やキャッシュメモリ等における訂正不可能障害の要因として、メモリセルが複数ビット故障する場合と、制御系が故障する場合と、が挙げられる。制御系が故障した場合には、再度このDIMM等にアクセスしなおすことにより正常データを得ることが可能である。このデータ障害処理装置では、リクエスト供給元(プロセッサ)に障害処理を委ねるため、リクエスト供給元の制御によっては間欠故障からの救済が可能となる。
(1) Relief from intermittent failure As a cause of an uncorrectable failure in a DIMM (Dual Inline Memory Module), a cache memory, or the like, there are a case where a memory cell fails in multiple bits and a case where a control system fails. When the control system fails, normal data can be obtained by accessing the DIMM again. In this data failure processing apparatus, since failure processing is entrusted to a request supply source (processor), relief from an intermittent failure is possible depending on control of the request supply source.

(2) データインテグリティの保証
上記のポイズン化によれば、いつ何時にどのようなリクエスト供給元から故障データにアクセスしても、リクエスト要求元はデータ内容が故障していることを把握することができる。
(2) Guarantee of data integrity According to the above-mentioned poisoning, the request requester can grasp that the data content is faulty regardless of when and what request source accesses the faulty data. it can.

(3) 障害発生箇所の特定
上記のポイズン化によれば、訂正不可能障害が発生した箇所のみがエラー報告を行う。これにより、不要な障害報告を抑止できる。
(3) Identification of failure location According to the poisoning described above, only the location where an uncorrectable failure has occurred reports an error. Thereby, unnecessary trouble reports can be suppressed.

(4) 動作の継続
上記のデータ障害処理装置は、訂正不可能障害が生じた場合であってもシステムとしての動作を継続しやすい構成となる。詳細には、障害発生箇所が特定できるため、データが壊れた場合であっても壊れたデータを使用しない限り、即時にシステムチェックを行うことなく、システム動作を継続できる。例えば、二度と使用しないワーク用データが故障した場合等には、システム動作をそのまま継続できる。さらに、壊れたデータを参照した場合であっても、データインテグリティが保証されているため、リクエスト要求元の処理に依存した障害処理を実行すればよく、ハードウェアによるシステムチェックを行う必要が無い。さらにまた、ポイズン化されたデータは必要に応じて初期値等に書き換える(ポイズン状態からの解除)ことが可能である。
(4) Continuation of operation The above-described data failure processing apparatus is configured to easily continue operation as a system even when an uncorrectable failure occurs. Specifically, since the location of the failure can be identified, even if the data is corrupted, the system operation can be continued without performing an immediate system check unless the corrupted data is used. For example, when work data that is not used again fails, the system operation can be continued as it is. Further, even when the corrupted data is referred to, data integrity is guaranteed, so that failure processing depending on the processing of the request request source may be executed, and there is no need to perform a system check by hardware. Furthermore, the poisoned data can be rewritten to an initial value or the like (cancellation from the poisoned state) as necessary.

なお、ポイズン状態からの解除は、ECCコードを付与したデータを全て書き換えることによりポイズン化された状態を解除することができる。たとえば、8バイトのデータにECCコードを付与した場合、この8バイトのデータを更新することによりポイズン状態を解除することができる。   The release from the poisoned state can be released by rewriting all the data to which the ECC code is added. For example, when an ECC code is added to 8-byte data, the poison state can be canceled by updating the 8-byte data.

特開平8−263453号公報JP-A-8-263453

しかしながら、特許文献1に記載のデータ障害処理装置では、繰り返し障害が発生してしまう恐れがある。この問題の詳細について以下に説明する。   However, in the data failure processing apparatus described in Patent Document 1, there is a possibility that a failure will repeatedly occur. Details of this problem will be described below.

特許文献1のデータ障害処理装置では、プロセッサ等が主記憶またはキャッシュメモリにアクセスした際に、アクセスしたデータに訂正不可能障害が生じていた場合(またはポイズン化されたデータであった場合)、プロセッサ等はそのデータが使用できないことを検出できる。この場合、各装置において予め定められたプロセッサチェック等の障害処理が実行される。   In the data failure processing device of Patent Document 1, when a processor or the like accesses main memory or cache memory, an uncorrectable failure occurs in the accessed data (or when it is poisoned data), A processor or the like can detect that the data cannot be used. In this case, failure processing such as a predetermined processor check is executed in each device.

障害処理として、障害が発生した時点以降の処理を別のプロセッサに引き継いで実行するプロセッサリリーフ処理がある。プロセッサリリーフ処理において、処理を引き継いだプロセッサは、訂正不可能障害が発生したデータにアクセスする処理、またはそれ以前の再開可能な処理から再実行を行う。この場合、処理を引き継いだプロセッサが再度データアクセスをしてもデータが故障状態のままであり、再度訂正不可状態を検出する。そして、このプロセッサは再度のプロセッサリリーフ処理を行い、さらに別のプロセッサに処理を引き継ぐこととなる。このように、訂正不可能障害が生じた場合に、プロセッサリリーフが繰り返し行われることとなり、プロセッサが枯渇してしまう。プロセッサが枯渇することにより、システムチェックを行う必要が生じてしまう。   As the failure processing, there is a processor relief processing in which processing after the point of occurrence of the failure is taken over and executed by another processor. In the processor relief process, the processor that has taken over the process re-executes from the process of accessing the data in which the uncorrectable failure has occurred, or the process that can be restarted before that. In this case, even if the processor that has taken over the process accesses the data again, the data remains in the fault state, and the uncorrectable state is detected again. Then, this processor performs the processor relief process again and takes over the process to another processor. As described above, when an uncorrectable failure occurs, processor relief is repeatedly performed, and the processor is exhausted. When the processor is exhausted, it becomes necessary to perform a system check.

上記のプロセッサが枯渇してしまう問題を図11に示す。前述したように、特許文献1に記載のデータ障害処理装置では、訂正不可能障害が生じた場合であっても、プロセッサリリーフを行う。これにより、処理を受け継いだプロセッサが訂正不可能障害の生じているデータに対するリードリクエストを発行することとなってしまう。   The problem that the above processor is exhausted is shown in FIG. As described above, the data failure processing apparatus described in Patent Document 1 performs processor relief even when an uncorrectable failure occurs. As a result, the processor that has inherited the processing issues a read request for data in which an uncorrectable failure has occurred.

ここでデータ障害の救済可否についての判断が出来れば、上記の問題を回避することができる。しかし特許文献1のデータ障害処理装置では、発生した障害が救済できるか否か(訂正不可能障害であるか否か)についての判定を行うことについての記載が無い。一般に、救済の可否の判断は、キャッシュステータス、リクエスト動作、障害箇所、障害種類(間欠・固定)等の組み合わせにより定まるため、複雑なハードウェア構成と処理機能が必要となってしまう。そのため、救済の可否の判断を行うことは極めて困難である。   If it is possible to determine whether or not the data failure can be repaired, the above problem can be avoided. However, in the data failure processing apparatus of Patent Document 1, there is no description about determining whether or not the occurred failure can be relieved (whether it is an uncorrectable failure). In general, the determination of whether or not relief is possible is determined by a combination of cache status, request operation, failure location, failure type (intermittent / fixed), etc., and thus requires a complicated hardware configuration and processing function. Therefore, it is extremely difficult to determine whether or not relief is possible.

このように、特許文献1に記載のデータ障害処理装置では、データ障害の救済可否の判断が困難であるため、プロセッサリリーフを行っても繰り返し障害が生じてしまうという問題がある。   As described above, in the data failure processing apparatus described in Patent Document 1, it is difficult to determine whether or not the data failure can be repaired. Therefore, there is a problem that a failure occurs repeatedly even if processor relief is performed.

本発明は、このような問題を解決するためになされたものであり、繰り返しの障害発生を回避してプロセッサリリーフを実現するデータ障害処理装置、及びデータ障害処理方法を提供することを主たる目的とする。   The present invention has been made to solve such a problem, and it is a main object of the present invention to provide a data failure processing apparatus and a data failure processing method for realizing processor relief by avoiding repeated failures. To do.

本発明にかかるデータ障害処理装置の一態様は、
誤り訂正機能を持つ記憶装置に格納されたデータにアクセスするプロセッサを備えるデータ障害処理装置であって、
前記記憶装置は、データ供給時にデータに対して誤り訂正符号を付与し、
前記プロセッサは、
前記誤り訂正符号に基づいて、前記記憶装置から供給されたデータに障害が発生しているか否かを識別する障害識別部と、
前記障害が生じたデータが格納されたアドレスに再度アクセスする事前評価リクエストを発行する事前評価部と、
前記事前評価リクエストの発行結果に応じてプロセッサリリーフが実行可能かを判定する救済可否判定部と、
前記救済可否判定部の判定に応じて障害対応処理を行う障害処理部と、を備える、ものである。
One aspect of the data failure processing apparatus according to the present invention is as follows.
A data failure processing apparatus comprising a processor for accessing data stored in a storage device having an error correction function,
The storage device gives an error correction code to data at the time of data supply,
The processor is
A failure identification unit for identifying whether or not a failure has occurred in the data supplied from the storage device based on the error correction code;
A pre-evaluation unit that issues a pre-evaluation request to access again the address where the failed data is stored;
A repairability determination unit that determines whether a processor relief can be executed according to a result of issuing the prior evaluation request;
A failure processing unit that performs a failure handling process according to the determination of the repairability determination unit.

本発明にかかるデータ障害処理方法の一態様は、
誤り訂正機能を持つ記憶装置に格納されたデータにアクセスするプロセッサを備えるデータ障害処理装置におけるデータ障害処理方法であって、
前記記憶装置は、データ供給時にデータに対して誤り訂正符号を付与し、
前記プロセッサは、
前記誤り訂正符号に基づいて前記記憶装置から供給されたデータに障害が発生しているか否かを識別し、
前記障害が生じたデータが格納されたアドレスに再度アクセスする事前評価リクエストを発行し、
前記事前評価リクエストの発行結果に応じてプロセッサリリーフが実行可能かを判定し、
前記プロセッサリリーフの実行可否の判定に応じて障害対応処理を行う、ものである。
One aspect of the data failure handling method according to the present invention is as follows.
A data failure processing method in a data failure processing apparatus comprising a processor for accessing data stored in a storage device having an error correction function,
The storage device gives an error correction code to data at the time of data supply,
The processor is
Identify whether or not a failure has occurred in the data supplied from the storage device based on the error correction code,
Issue a pre-evaluation request to re-access the address where the failed data is stored,
It is determined whether processor relief can be executed according to the issuance result of the prior evaluation request,
A failure handling process is performed according to the determination of whether or not the processor relief can be executed.

本発明によれば、繰り返しの障害を回避したプロセッサリリーフを実現するデータ障害処理装置、及びデータ障害処理方法を提供することができる。   According to the present invention, it is possible to provide a data failure processing apparatus and a data failure processing method that realize processor relief that avoids repeated failures.

実施の形態1にかかるデータ障害処理装置の構成を示すブロック図である。1 is a block diagram showing a configuration of a data failure processing apparatus according to a first exemplary embodiment; 実施の形態1にかかるキャッシュユニットのキャッシュステータスを示す図である。It is a figure which shows the cache status of the cache unit concerning Embodiment 1. FIG. 実施の形態1にかかるデータ障害処理装置の故障発生箇所と障害処理の関係を示す図である。FIG. 3 is a diagram illustrating a relationship between a failure occurrence location and a failure process of the data failure processing apparatus according to the first exemplary embodiment. 実施の形態1にかかるデータ障害処理装置の故障発生箇所と障害処理の関係を示す図である。FIG. 3 is a diagram illustrating a relationship between a failure occurrence location and a failure process of the data failure processing apparatus according to the first exemplary embodiment. 実施の形態1にかかるデータ障害処理装置の故障発生箇所と障害処理の関係を示す図である。FIG. 3 is a diagram illustrating a relationship between a failure occurrence location and a failure process of the data failure processing apparatus according to the first exemplary embodiment. 実施の形態1にかかるデータ障害処理装置の故障発生箇所と障害処理の関係を示す図である。FIG. 3 is a diagram illustrating a relationship between a failure occurrence location and a failure process of the data failure processing apparatus according to the first exemplary embodiment. 実施の形態1にかかるデータ障害処理装置の故障発生箇所と障害処理の関係を示す図である。FIG. 3 is a diagram illustrating a relationship between a failure occurrence location and a failure process of the data failure processing apparatus according to the first exemplary embodiment. 実施の形態1にかかるデータ障害処理装置の処理概要を示す図である。FIG. 3 is a diagram illustrating a processing outline of the data failure processing apparatus according to the first embodiment; 実施の形態1にかかるデータ障害処理装置の構成を示すブロック図である。1 is a block diagram showing a configuration of a data failure processing apparatus according to a first exemplary embodiment; 特許文献1に記載のデータ障害処理装置の構成を示すブロック図である。10 is a block diagram illustrating a configuration of a data failure processing apparatus described in Patent Literature 1. FIG. 特許文献1に記載のデータ障害処理装置の処理概要を示す図である。10 is a diagram showing an outline of processing of a data failure processing apparatus described in Patent Literature 1. FIG.

<実施の形態1>
以下、図面を参照して本発明の実施の形態について説明する。図1は、本実施の形態にかかるデータ障害処理装置の構成を示すブロック図である。データ障害処理装置は、主記憶ユニット1と、キャッシュメモリユニット2と、プロセッサユニット3と、を含む。なお、本実施の形態では、主記憶ユニット1、キャッシュメモリユニット2を単一構成として説明するが、複数の主記憶ユニット、キャッシュメモリユニットを含むデータ障害処理装置であってもよい。図示していないが、プロセッサリリーフが出来るよう、データ障害処理装置は、プロセッサユニット3を複数含む構成である。
<Embodiment 1>
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the data failure processing apparatus according to the present embodiment. The data failure processing apparatus includes a main storage unit 1, a cache memory unit 2, and a processor unit 3. In this embodiment, the main storage unit 1 and the cache memory unit 2 are described as a single configuration, but a data failure processing apparatus including a plurality of main storage units and cache memory units may be used. Although not shown, the data failure processing apparatus is configured to include a plurality of processor units 3 so as to enable processor relief.

主記憶ユニット1は、主記憶部101と、アクセス制御部102と、ECC(Error Check and Correct)チェック部103と、ポイズン化処理部104と、を備える。主記憶部101は、所謂メインメモリであり、一般的な情報処理装置が備える記憶装置である。主記憶部101を構成する素子等に関しても一般に用いられているものを用いればよい。   The main storage unit 1 includes a main storage unit 101, an access control unit 102, an ECC (Error Check and Correct) check unit 103, and a poisoning processing unit 104. The main storage unit 101 is a so-called main memory, and is a storage device provided in a general information processing apparatus. For the elements constituting the main storage unit 101, those generally used may be used.

アクセス制御部102は、キャッシュメモリユニット2またはプロセッサユニット3からのリクエストに応じて、主記憶部101からのデータ読み出し、及び主記憶部101へのデータ書き込みを制御する処理部である。アクセス制御部102の有する機能は、一般的な情報処理装置が有する機能である。   The access control unit 102 is a processing unit that controls data reading from the main storage unit 101 and data writing to the main storage unit 101 in response to a request from the cache memory unit 2 or the processor unit 3. The function of the access control unit 102 is a function of a general information processing apparatus.

ECCチェック部103は、一般的に知られているECC(Error Collection Code:誤り訂正符号)を実現するための処理部である。ここで、ECCチェック部103が採用するECC(すなわちコード)に関して特に制約はない。ECCチェック部103は、主記憶部101から読み出したデータをアクセス制御部102から受け取り、受け取ったデータに対してECCを用いたエラー検出、データ訂正等を実行する。さらにECCチェック部103は、検出したエラーを報告する機能を持つ。ECCチェック部103がエラーを検出しなかった場合、ECCチェック部103はデータ訂正等の処理を行わない。一方、ECCチェック部103が訂正可能なエラーを検出した場合、ECCチェック部103はデータの訂正処理を行う。訂正不可能なエラーの検出を行った場合、ECCチェック部103は、当該データに対してECCコード(すなわち誤り訂正符号)を付加する。ECCチェック部103は、ECCを用いたエラー検出、データ訂正等を実行後に、データ及び検出した障害種別をポイズン化部104に通知する。   The ECC check unit 103 is a processing unit for realizing a generally known ECC (Error Collection Code). Here, there are no particular restrictions on the ECC (that is, the code) employed by the ECC check unit 103. The ECC check unit 103 receives data read from the main storage unit 101 from the access control unit 102, and performs error detection, data correction, and the like using ECC on the received data. Further, the ECC check unit 103 has a function of reporting the detected error. When the ECC check unit 103 does not detect an error, the ECC check unit 103 does not perform processing such as data correction. On the other hand, when the ECC check unit 103 detects a correctable error, the ECC check unit 103 performs data correction processing. When an uncorrectable error is detected, the ECC check unit 103 adds an ECC code (that is, an error correction code) to the data. The ECC check unit 103 notifies the poisoning unit 104 of the data and the detected failure type after executing error detection, data correction, and the like using the ECC.

ポイズン化部104は、障害種別が「訂正不可能」を示すデータを受け取った際に、データに付加されているECCコードをポイズン化コードに変換して、キャッシュユニット2に供給する。障害種別が「訂正不可能」以外を示すデータを受け取った場合、ポイズン化部104は、受け取ったデータをそのままキャッシュユニット2に供給する。なお、ポイズン化コードとして用いるコートは、訂正不可データであることを識別できるコードであれば、如何なるコードを用いてもよい。   When the poisoning unit 104 receives data indicating that the failure type is “uncorrectable”, the poisoning unit 104 converts the ECC code added to the data into a poisoned code and supplies it to the cache unit 2. When data indicating that the failure type is other than “uncorrectable” is received, the poisoning unit 104 supplies the received data to the cache unit 2 as it is. The code used as the poisoning code may be any code as long as it can be identified as uncorrectable data.

続いて、キャッシュユニット2の構成について説明する。キャッシュユニット2は、ストアインキャッシュ201と、アクセス制御部202と、ECCチェック部203と、ポイズン化処理部204と、リクエスト制御部205と、キャッシュ掃き出し部206と、を備える。   Next, the configuration of the cache unit 2 will be described. The cache unit 2 includes a store-in cache 201, an access control unit 202, an ECC check unit 203, a poisoning processing unit 204, a request control unit 205, and a cache flushing unit 206.

ストアインキャッシュ201は、キャッシュユニット2内においてキャッシュデータを保持する記憶部である。ストアインキャッシュ201の論理構造、物理構造、キャッシュ階層構造についての特別な制限はなく、一般に用いられる仕組みを有すればよい。なお、ストアイン型のキャッシュ以外のキャッシュ記憶部を採用してもよい。   The store-in cache 201 is a storage unit that holds cache data in the cache unit 2. There is no special restriction on the logical structure, physical structure, and cache hierarchy structure of the store-in cache 201, and it is sufficient to have a generally used mechanism. A cache storage unit other than the store-in type cache may be employed.

アクセス制御部202は、ストアインキャッシュ201からのデータの読み出し、書き込みを制御する処理部である。また、アクセス制御部202は、ストアキャッシュ201内に所望のデータが無い場合にアクセス制御部102にアクセスする。アクセス制御部202の有する機能は、一般的なキャッシュメモリが有する機能である。   The access control unit 202 is a processing unit that controls reading and writing of data from the store-in cache 201. The access control unit 202 accesses the access control unit 102 when there is no desired data in the store cache 201. The function of the access control unit 202 is a function of a general cache memory.

アクセス制御部202は、後述のキャッシュ掃き出し部206からキャッシュの掃き出しにかかるリクエスト(以後、キャッシュ掃き出しリクエストと記載する。)を受信した場合に、当該キャッシュ掃き出しリクエストに含まれる掃き出し対象のアドレス(以後、キャッシュ掃き出しアドレスと記載する。)を抽出する。アクセス制御部202は、ストアインキャッシュ201内の当該キャッシュ掃き出しアドレスにデータが存在するか否かを判定する。当該キャッシュ掃き出しアドレスにデータが存在しない場合、アクセス制御部202は処理を終了する。一方、当該キャッシュ掃き出しアドレスにデータが存在する場合、アクセス制御部202は、キャッシュステータスに応じてキャッシュ内容を破棄、または主記憶部101に反映させる処理を実行する。本実施の形態にかかるデータ障害処理装置が採用するキャッシュステータスについては、図2を用いて後述する。   When the access control unit 202 receives a request for cache flushing (hereinafter referred to as a “cache flush request”) from a cache flushing unit 206 (to be described later), the address to be flushed (hereinafter referred to as “cache flushing request”). It is described as a cache flush address). The access control unit 202 determines whether data exists at the cache flush address in the store-in cache 201. If there is no data at the cache flush address, the access control unit 202 ends the process. On the other hand, if there is data at the cache flush address, the access control unit 202 executes processing for discarding the cache contents or reflecting the cache contents in the main storage unit 101 according to the cache status. The cache status employed by the data failure processing apparatus according to this embodiment will be described later with reference to FIG.

ECCチェック部203は、一般的に知られているECC(Error Collection Code:誤り訂正符号)を実現するための処理部である。ここで、ECCチェック部203が採用するECCコードに関して特に制約はない。さらに、ECCチェック部203が採用するECCコードは、ECCチェック部103が採用するECCコードとは独立したものであり、関連性を持たせる必要は無い。   The ECC check unit 203 is a processing unit for realizing a generally known ECC (Error Collection Code). Here, there are no particular restrictions on the ECC code employed by the ECC check unit 203. Further, the ECC code employed by the ECC check unit 203 is independent of the ECC code employed by the ECC check unit 103, and does not need to be related.

ECCチェック部203は、ストアインキャッシュ201から読み出したデータをアクセス制御部202から受け取り、受け取ったデータに対してECCコードを用いたエラー検出、データ訂正等を実行する。さらにECCチェック部203は、検出したエラーを報告する機能を持つ。エラーを検出しなかった場合、ECCチェック部203はデータ訂正等の処理を行わない。一方、訂正可能なエラーを検出した場合、ECCチェック部203はデータの訂正処理を行う。訂正不可能なエラーの検出をした場合、ECCチェック部203は、当該データに対してECCコードを付加する。ECCチェック部203は、ECCを用いたエラー検出、データ訂正等を実行後に、データ及び検出した障害種別をポイズン化部204に通知する。   The ECC check unit 203 receives data read from the store-in cache 201 from the access control unit 202, and executes error detection, data correction, and the like using the ECC code for the received data. Further, the ECC check unit 203 has a function of reporting the detected error. When no error is detected, the ECC check unit 203 does not perform processing such as data correction. On the other hand, when a correctable error is detected, the ECC check unit 203 performs a data correction process. When an uncorrectable error is detected, the ECC check unit 203 adds an ECC code to the data. The ECC check unit 203 notifies the poisoning unit 204 of the data and the detected failure type after executing error detection, data correction, and the like using ECC.

ポイズン化部204は、障害種別が「訂正不可能」を示すデータを受け取った際に、データに付加されているECCコードをポイズン化コードに変換して、リクエスト制御部205に供給する。障害種別が「訂正不可能」以外を示すデータを受け取った場合、ポイズン化部204は、受け取ったデータをそのままリクエスト制御部205に供給する。なお、ポイズン化コードとして用いるコードは、訂正不可データであることを識別できるコードであれば、如何なるコードを用いてもよい。   When the poisoning unit 204 receives data indicating that the failure type indicates “uncorrectable”, the poisoning unit 204 converts the ECC code added to the data into a poisoned code and supplies the poisoned code to the request control unit 205. When the data indicating that the failure type is other than “uncorrectable” is received, the poisoning unit 204 supplies the received data to the request control unit 205 as it is. The code used as the poisoning code may be any code as long as it can be identified as uncorrectable data.

リクエスト制御部205は、プロセッサユニット3から受け付けたリクエストを処理する処理部である。リクエスト制御部205は、アクセス制御部102を介した主記憶部101へのアクセス、及びストアインキャッシュ201へのアクセスを行うためにアクセス制御部202にリクエストを発行する。リクエスト制御部205は、ポイズン化部104から送信されたデータ(主記憶部101から読み出したデータ)、またはポイズン化部204から送信されたデータ(ストアインメモリ201から読み出したデータ)をリプライデータとして受け取る。リクエスト制御部205は、受け取ったリプライデータをリクエスト要求元であるプロセッサユニット3に供給する。プロセッサユニット3へのデータ供給に際して、リクエスト制御部205は、データとともに当該データに対するECCコードも合わせて出力する。ECCコードにより、データに訂正不可能な障害が発生したか否かを、プロセッサユニット3が判断できるようにする。   The request control unit 205 is a processing unit that processes a request received from the processor unit 3. The request control unit 205 issues a request to the access control unit 202 in order to access the main storage unit 101 via the access control unit 102 and access to the store-in cache 201. The request control unit 205 uses the data transmitted from the poisoning unit 104 (data read from the main storage unit 101) or the data transmitted from the poisoning unit 204 (data read from the store-in memory 201) as reply data. receive. The request control unit 205 supplies the received reply data to the processor unit 3 that is the request request source. When supplying data to the processor unit 3, the request control unit 205 outputs the ECC code for the data together with the data. The ECC code enables the processor unit 3 to determine whether an uncorrectable failure has occurred in the data.

リクエスト制御部205は、後述するプロセッサユニット3内のアクセス制御部301からキャッシュ掃き出しリクエストを受け付けた場合、キャッシュ掃き出し部205に対して当該キャッシュ掃き出しリクエストを転送する。キャッシュ掃き出しリクエストには、キャッシュ掃き出しアドレス(すなわち主記憶部101にデータ更新を反映するアドレス)が含まれる。   When the request control unit 205 receives a cache flush request from the access control unit 301 in the processor unit 3 to be described later, the request control unit 205 transfers the cache flush request to the cache sweep unit 205. The cache flush request includes a cache flush address (that is, an address that reflects data update in the main storage unit 101).

キャッシュ掃き出し部206は、キャッシュ掃き出しリクエストを受け付けた場合、アクセス制御部202に対してキャッシュ掃き出しアドレスのデータを主記憶101に更新するように指示する。   When the cache flushing unit 206 receives a cache flushing request, the cache flushing unit 206 instructs the access control unit 202 to update the data of the cache flushing address to the main memory 101.

次に、プロセッサユニット3の構成について説明する。プロセッサユニット3は、プロセッサ機能部(図示せず)と、リクエスト制御部301と、障害処理部302と、障害識別部302と、FW(FirmWare:ファームウェア)起動部303と、キャッシュ掃き出し指示部304と、事前評価部305と、救済可否判定部306と、を備える。   Next, the configuration of the processor unit 3 will be described. The processor unit 3 includes a processor function unit (not shown), a request control unit 301, a failure processing unit 302, a failure identification unit 302, an FW (FirmWare: firmware) activation unit 303, and a cache flushing instruction unit 304. A pre-evaluation unit 305 and a repairability determination unit 306.

プロセッサ機能部(図示せず)は、通常の計算処理を行う処理部である。このプロセッサ機能部(図示せず)が、必要に応じて主記憶ユニット1またはキャッシュユニット2内にあるデータに対してリクエストを発行する。   The processor function unit (not shown) is a processing unit that performs normal calculation processing. This processor function unit (not shown) issues a request to data in the main storage unit 1 or the cache unit 2 as necessary.

リクエスト制御部301は、プロセッサ機能部が要求する主記憶部101へのアクセスに関するリクエストを生成し、キャッシュユニット2に対して当該リクエストを出力する。リクエスト制御部301は、キャッシュユニット2から戻ってくるリプライデータを受け取る。主記憶部101に対するアクセスには、読み出し動作と書き込み動作がある。読み出し動作の場合、リクエスト制御部301はキャッシュユニット2からリプライデータを受け取る。   The request control unit 301 generates a request regarding access to the main storage unit 101 requested by the processor function unit, and outputs the request to the cache unit 2. The request control unit 301 receives reply data returned from the cache unit 2. Access to the main storage unit 101 includes a read operation and a write operation. In the case of a read operation, the request control unit 301 receives reply data from the cache unit 2.

リクエスト制御部301は、リプライデータに付随するECCコードを利用してECCチェックを行い、リプライデータに対して障害が発生しているかを判定する。リクエスト制御部301は、データに対して障害が発生していない場合にはプロセッサ機能部にデータを供給して処理を終了する。   The request control unit 301 performs an ECC check using an ECC code attached to the reply data, and determines whether a failure has occurred in the reply data. When no failure has occurred in the data, the request control unit 301 supplies the data to the processor function unit and ends the process.

データに対して訂正不可能な障害が発生している場合、リクエスト制御部301は、プロセッサ機能部にデータを供給せず、障害識別部302に対して障害発生の通知及びリード要求のアドレス(読み出そうとした主記憶部101のアドレス)を通知する。   When an uncorrectable failure has occurred in the data, the request control unit 301 does not supply the data to the processor function unit, and notifies the failure identification unit 302 of the occurrence of the failure and the address of the read request (read). The address of the main storage unit 101 to be issued is notified.

さらに、リクエスト制御部301は、事前評価部305から訂正不可能障害の状態を評価するための事前評価用のリードリクエスト(以後、以前評価リクエストと記載する。)を受け取ると、当該事前評価リクエストをキャッシュシステム2に発行する。リクエスト制御部301は、この事前評価リクエストに対するリプライデータを受け付けた際に、通常のリプライデータと同様にECCチェックを行い、障害の発生状況を救済可否判定部306に通知する。   Further, upon receiving a pre-evaluation read request (hereinafter referred to as a previous evaluation request) for evaluating the state of an uncorrectable failure from the pre-evaluation unit 305, the request control unit 301 receives the pre-evaluation request. Issue to cache system 2. When the request control unit 301 receives reply data for the prior evaluation request, the request control unit 301 performs an ECC check in the same manner as normal reply data, and notifies the repairability determination unit 306 of the failure occurrence status.

なお、本実施の形態では、リクエスト制御部301は、キャッシュユニット2に対してリクエストを発行する形態としたが、キャッシュユニット2の存在しない装置においては直接主記憶ユニット1にリクエストを発行してもよい。   In the present embodiment, the request control unit 301 is configured to issue a request to the cache unit 2. However, in a device that does not have the cache unit 2, the request control unit 301 may issue a request directly to the main storage unit 1. Good.

障害識別部302は、リクエスト制御部301からリプライデータに障害が発生した旨を知らせる通知と、リード要求のアドレスと、を受け取る。この受け取りにより、障害識別部302は、リプライデータに訂正不可能障害が発生したことを検出する。障害識別部302は、訂正不可能障害発生時にFW起動部303に対して障害処理実行の起動指示を供給する。この指示とともに、障害識別部302は、リード要求のアドレスもFW起動部303に通知する。   The failure identification unit 302 receives from the request control unit 301 a notification notifying that a failure has occurred in the reply data and the address of the read request. Upon receipt of this, the failure identification unit 302 detects that an uncorrectable failure has occurred in the reply data. The failure identification unit 302 supplies a start instruction for executing failure processing to the FW activation unit 303 when an uncorrectable failure occurs. Along with this instruction, the failure identification unit 302 also notifies the FW activation unit 303 of the address of the read request.

FW起動部303は、障害識別部302から起動指示及びリード要求のアドレスを受け取る。FW起動部303は、当該受け取りの後、FW起動部303は、しかかり中の処理トランザクションを破棄する。そして、FW起動部303は、キャッシュ掃き出し指示部304に対してキャッシュ掃き出し用リクエストの生成を指示する。この際、FW起動部303は、受け付けたリード要求のアドレスをキャッシュからの掃き出した対象のアドレス(キャッシュ掃き出しアドレス)としてキャッシュ掃き出し指示部304に通知する。   The FW activation unit 303 receives an activation instruction and a read request address from the failure identification unit 302. After the reception, the FW activation unit 303 discards the pending processing transaction. Then, the FW activation unit 303 instructs the cache flushing instruction unit 304 to generate a cache flushing request. At this time, the FW activation unit 303 notifies the cache flushing instruction unit 304 of the received read request address as a target address (cache flushing address) flushed from the cache.

なお、キャッシュの掃き出しを必要とする理由は、キャッシュ上に残っている訂正不可データ、またはポイズン化されたデータをキャッシュから追い出す、もしくは廃棄することを目的とする。キャッシュ上にこれらのデータが残っている場合、後述の事前評価部305が主記憶をリードする際にキャッシュヒットすることを回避するためである。   The reason why the cache needs to be flushed is that the uncorrectable data or poisoned data remaining in the cache is purged from the cache or discarded. This is to avoid a cache hit when the pre-evaluation unit 305 described later reads the main memory when these data remain in the cache.

FW起動部303は、キャッシュ掃き出し指示部304に対するキャッシュ掃き出しリクエストの生成指示の後、キャッシュ掃き出し指示部304からの完了通知が行われるまで処理を待ち合わせる。キャッシュ掃き出し完了通知がなされた場合、FW起動部303は、事前評価部305に対して、リード要求のアドレスを通知し、事前評価部305に事前評価リクエストの発行指示を行う。FW起動部303は、事前評価部305が発行した事前評価リクエストに対するリプライデータを基に判定されたプロセッサリリーフの可否を、救済可否判定部306から受け付ける。プロセッサリリーフ可能との通知を受け付けた場合、FW起動部303は、障害処理部307に対してプロセッサリリーフを開始してもよい旨を示す処理指示を行う。一方、プロセッサリリーフ不可能との通知を受け付けた場合、FW起動部303は、障害処理部307に対してプロセッサリリーフを行わずに障害に対応することを指示する。   The FW activation unit 303 waits for processing until a completion notification is issued from the cache flushing instruction unit 304 after the cache flushing instruction unit 304 instructs the cache flushing instruction unit 304 to generate a cache flushing request. When the cache flush completion notification is made, the FW activation unit 303 notifies the pre-evaluation unit 305 of the address of the read request and instructs the pre-evaluation unit 305 to issue the pre-evaluation request. The FW activation unit 303 receives from the repairability determination unit 306 the availability of processor relief determined based on the reply data for the prior evaluation request issued by the prior evaluation unit 305. When receiving a notification that the processor relief is possible, the FW activation unit 303 instructs the failure processing unit 307 to indicate that the processor relief may be started. On the other hand, when the notification that the processor relief is impossible is received, the FW activation unit 303 instructs the failure processing unit 307 to deal with the failure without performing the processor relief.

キャッシュ掃き出し指示部304は、FW起動部303からキャッシュ掃き出しリクエストの生成指示と、キャッシュ掃き出しアドレスを受け取る。キャッシュ掃き出し指示部304は、このキャッシュ掃き出しアドレスの情報を含むキャッシュ掃き出しリクエストを生成し、キャッシュユニット2に対して出力する。キャッシュ掃き出し指示部304は、キャッシュユニット2からキャッシュ掃き出しリクエストの完了が通知されるまで待ち合わせ、完了通知がなされた場合にFW起動部303にキャッシュ掃き出しの完了を通知する。   The cache flushing instruction unit 304 receives a cache flushing request generation instruction and a cache flushing address from the FW activation unit 303. The cache flushing instruction unit 304 generates a cache flushing request including the cache flushing address information and outputs it to the cache unit 2. The cache flushing instruction unit 304 waits until the completion of the cache flushing request is notified from the cache unit 2, and when the completion notification is made, notifies the FW activation unit 303 of the completion of the cache flushing.

事前評価部305は、FW起動部303から事前評価の指示を受け取る。事前評価部305は、事前評価指示と合わせて通知されたリード要求のアドレスを用いて事前評価リクエストを生成し、リクエスト制御部301を介してキャッシュユニット2に事前評価リクエストを発行する。この事前評価リクエストを実行する目的は、訂正不可能障害が解消しているか否かを評価するためである。ECCコードによる訂正ができない障害と判定された場合であっても、障害の種類によってはタイミングをずらすことにより障害が解消されていることを鑑みたものである。   The pre-evaluation unit 305 receives a pre-evaluation instruction from the FW activation unit 303. The pre-evaluation unit 305 generates a pre-evaluation request using the address of the read request notified together with the pre-evaluation instruction, and issues the pre-evaluation request to the cache unit 2 via the request control unit 301. The purpose of executing this pre-evaluation request is to evaluate whether or not the uncorrectable failure has been resolved. Even when it is determined that the failure cannot be corrected by the ECC code, the failure is solved by shifting the timing depending on the type of the failure.

救済可否判定部306は、事前評価部305が発行した事前評価リクエストに対してECCチェックを行った結果をリクエスト制御部301から受け取る。救済可否判定部306は、ECCチェックの結果が、データ障害が発生していないことを示すものである場合、プロセッサリリーフ可能と判定する。一方、救済可否判定部306は、ECCチェックの結果が、データ障害が発生していることを示すものである場合、プロセッサリリーフ不可能と判定する。救済可否判定部306は、プロセッサリリーフの可否をFW起動部303に通知する。   The repairability determination unit 306 receives from the request control unit 301 the result of performing an ECC check on the prior evaluation request issued by the prior evaluation unit 305. If the result of the ECC check indicates that no data failure has occurred, the repairability determination unit 306 determines that the processor relief is possible. On the other hand, the repairability determination unit 306 determines that the processor relief is impossible when the result of the ECC check indicates that a data failure has occurred. The repairability determination unit 306 notifies the FW activation unit 303 of the availability of processor relief.

障害処理部307は、データ障害処理装置にて規定されている障害処理を実行する処理部である。障害処理部307は、ファームウェアと適宜情報をやり取りし、障害処理を行う。障害処理部307は、FW起動部303から起動指示を受け取る。この際、救済可否判定部306によるプロセッサリリーフ可否の判断により障害対応の処理を切り換える。プロセッサリリーフが出来ない場合、障害処理部307は、重度障害として障害処理を行う。障害処理部307は、プロセッサリリーフが可能である場合には、プロセッサチェックの後に、プロセッサリリーフを行うための処理を行う。   The failure processing unit 307 is a processing unit that executes failure processing defined by the data failure processing apparatus. The failure processing unit 307 appropriately exchanges information with the firmware and performs failure processing. The failure processing unit 307 receives an activation instruction from the FW activation unit 303. At this time, the failure handling processing is switched based on the determination of whether or not the processor relief is possible by the repairability determination unit 306. When the processor relief cannot be performed, the failure processing unit 307 performs failure processing as a severe failure. When the processor relief is possible, the failure processing unit 307 performs a process for performing the processor relief after the processor check.

次に、本実施の形態にかかるデータ障害処理装置が採用するキャッシュステータスを図2に示す。なお、キャッシュステータスは、各情報処理装置において採用するキャッシュコヒーレンシー制御に依存する。   Next, FIG. 2 shows a cache status adopted by the data failure processing apparatus according to this embodiment. Note that the cache status depends on the cache coherency control employed in each information processing apparatus.

本実施の形態にかかるストアインキャッシュ201が取り得るキャッシュステータスは、"I(Invalidate)"、"CE(Clean Exclusive)"、"CS(Clean Shared)"、"DE(Dirty Exclusive)"のいずれかである。"I"とは、キャッシュ上にデータが存在しない状態を示す。"CE"とは、キャッシュに登録されているデータが主記憶に格納されているデータと一致し、他のキャッシュにコピーが存在しない状態を示す。"CS"とは、キャッシュに登録されているデータが主記憶に格納されているデータと一致し、他のキャッシュにコピーが存在する状態を示す。"DE"とは、キャッシュに登録されているデータが主記憶に格納されているデータと一致せず、他のキャッシュにも存在していない状態を示す。"DE"の状態の場合、最新のデータはキャッシュ内にのみ存在する。   The cache status that the store-in cache 201 according to the present embodiment can take is any one of “I (Invalidate)”, “CE (Clean Exclusive)”, “CS (Clean Shared)”, and “DE (Dirty Exclusive)”. It is. “I” indicates a state in which no data exists on the cache. “CE” indicates a state in which the data registered in the cache matches the data stored in the main memory, and no copy exists in another cache. “CS” indicates a state in which the data registered in the cache matches the data stored in the main memory and a copy exists in another cache. “DE” indicates a state in which the data registered in the cache does not match the data stored in the main memory and does not exist in other caches. In the “DE” state, the latest data exists only in the cache.

図3〜7に本実施の形態にかかるデータ障害処理装置の故障発生箇所と障害処理の関係を示す。例えば、図3(No.1)では、プロセッサユニット3がリードリクエストを発行し、キャッシュヒット時(CE/CS)にキャッシュユニット2から読み出したデータがポイズン化されていた場合であって間欠障害箇所がL2(キャッシュ)である場合、L2キャッシュを廃棄してからプロセッサリリーフすることにより障害からの救済が規定されている。   3 to 7 show the relationship between the failure occurrence location and the failure processing of the data failure processing apparatus according to the present embodiment. For example, in FIG. 3 (No. 1), when the processor unit 3 issues a read request and the data read from the cache unit 2 is poisoned at the time of a cache hit (CE / CS), the intermittent failure location Is L2 (cache), the relief from the failure is defined by discarding the L2 cache and then performing processor relief.

図8を参照して、本実施の形態にかかるデータ障害処理装置の処理概要を改めて説明する。本実施の形態にかかるプロセッサユニット3は、キャッシュユニット2または主記憶ユニット1によりポイズン化処理の後に、訂正不可能障害の検出(障害識別部302)、キャッシュの掃き出し(キャッシュ掃き出し指示部304、キャッシュ掃き出し部206)、事前評価リクエストの発行(事前評価部305)、プロセッサリリーフの可否の判断(救済可否判定部306)を行う。   With reference to FIG. 8, the outline of the process of the data failure processing apparatus according to the present embodiment will be described again. In the processor unit 3 according to the present embodiment, after the poisoning process by the cache unit 2 or the main storage unit 1, an uncorrectable failure is detected (failure identification unit 302), a cache is flushed (a cache flushing instruction unit 304, a cache The sweep-out unit 206), issuance of a prior evaluation request (pre-evaluation unit 305), and determination of whether processor relief is possible (reliefability determination unit 306).

続いて本実施の形態にかかるデータ障害処理装置の効果について説明する。上述のように、読み出し対象のデータに訂正不可能障害が発生した場合、プロセッサユニット3は、当該障害を検出するとともに、再度のリクエスト(事前評価リクエスト)を発行し、当該障害が解消したかを判定し、その判定結果に応じてプロセッサリリーフを行うか否かを決定している。これにより、障害が依然として解消されていない場合にプロセッサリリーフを行うことを回避でき、繰り返しの障害発生を抑制することができる。   Next, effects of the data failure processing apparatus according to the present embodiment will be described. As described above, when an uncorrectable failure occurs in the data to be read, the processor unit 3 detects the failure and issues a request (pre-evaluation request) again to determine whether the failure has been resolved. Whether or not to perform processor relief is determined according to the determination result. As a result, it is possible to avoid performing the processor relief when the failure is still not resolved, and it is possible to suppress the occurrence of repeated failures.

さらに、上述の事前評価部306及び救済可否判定部306の処理は、データアクセスと、そのアクセス結果の判定にかかる処理のみであるため、処理の負荷が非常に小さい。   Furthermore, since the processes of the prior evaluation unit 306 and the repairability determination unit 306 described above are only data access and processing related to the determination of the access result, the processing load is very small.

さらにまた、本実施の形態にかかるデータ障害処理装置では、通常のプロセッサチェック等の処理やプロセッサリリーフの機構について修正を行うことなく、上記の機能を追加することができる。このため、様々なシステムに上記した機能(事前評価機能等)を適用することが容易である。   Furthermore, in the data failure processing apparatus according to the present embodiment, the above functions can be added without correcting the processing such as normal processor check and the mechanism of processor relief. For this reason, it is easy to apply the above-described functions (preliminary evaluation function or the like) to various systems.

なお、本実施の形態にかかるデータ処理装置の特徴部分を図示すると図9のようになる。当該構成であっても、プロセッサユニット3は、記憶装置内で生じた障害を検出するとともに、再度のリクエストを発行し、当該障害が解消したかを判定し、その判定結果に応じてプロセッサリリーフを行うか否かを決定することができる。これにより、プロセッサリリーフ時の再度の障害発生を回避することができる。   The characteristic part of the data processing apparatus according to this embodiment is illustrated in FIG. Even in this configuration, the processor unit 3 detects a failure that has occurred in the storage device, issues a request again, determines whether the failure has been resolved, and performs processor relief according to the determination result. It can be decided whether or not to do so. Thereby, it is possible to avoid the occurrence of a failure again at the time of processor relief.

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。   Note that the present invention is not limited to the above-described embodiment, and can be changed as appropriate without departing from the spirit of the present invention.

1 主記憶ユニット
101 主記憶部
102 アクセス制御部
103 ECCチェック部
104 ポイズン化部
2 キャッシュメモリユニット
201 ストアインキャッシュ
202 アクセス制御部
203 ECCチェック部
204 ポイズン化部
205 リクエスト制御部
206 キャッシュ掃き出し部
3 プロセッサユニット
301 リクエスト制御部
302 障害識別部
303 FW起動部
304 キャッシュ掃き出し指示部
305 事前評価部
306 救済可否判定部
307 障害処理部
DESCRIPTION OF SYMBOLS 1 Main memory unit 101 Main memory part 102 Access control part 103 ECC check part 104 Poisoning part 2 Cache memory unit 201 Store-in cache 202 Access control part 203 ECC check part 204 Poisoning part 205 Request control part 206 Cache flushing part 3 Processor Unit 301 Request control unit 302 Failure identification unit 303 FW activation unit 304 Cache flushing instruction unit 305 Pre-evaluation unit 306 Relief availability determination unit 307 Failure processing unit

Claims (10)

誤り訂正機能を持つ記憶装置に格納されたデータにアクセスするプロセッサを備えるデータ障害処理装置であって、
前記記憶装置は、データ供給時にデータに対して誤り訂正符号を付与し、
前記プロセッサは、
前記誤り訂正符号に基づいて、前記記憶装置から供給されたデータに障害が発生しているか否かを識別する障害識別部と、
前記障害が生じたデータが格納されたアドレスに再度アクセスする事前評価リクエストを発行する事前評価部と、
前記事前評価リクエストの発行結果に応じてプロセッサリリーフが実行可能かを判定する救済可否判定部と、
前記救済可否判定部の判定に応じて障害対応処理を行う障害処理部と、を備える、データ障害処理装置。
A data failure processing apparatus comprising a processor for accessing data stored in a storage device having an error correction function,
The storage device gives an error correction code to data at the time of data supply,
The processor is
A failure identification unit for identifying whether or not a failure has occurred in the data supplied from the storage device based on the error correction code;
A pre-evaluation unit that issues a pre-evaluation request to access again the address where the failed data is stored;
A repairability determination unit that determines whether a processor relief can be executed according to a result of issuing the prior evaluation request;
A data failure processing apparatus comprising: a failure processing unit that performs a failure handling process according to the determination of the repairability determination unit.
前記障害識別部が前記障害を識別した場合に、仕掛中の処理トランザクションを破棄するファームウェア起動部を備えることを特徴とする請求項1に記載のデータ障害処理装置。   The data failure processing apparatus according to claim 1, further comprising a firmware activation unit that discards a processing transaction in progress when the failure identification unit identifies the failure. 前記記憶装置として、主記憶ユニット及びキャッシュメモリユニットを備えることを特徴とする請求項1または請求項2に記載のデータ障害処理装置。   The data failure processing apparatus according to claim 1, further comprising a main storage unit and a cache memory unit as the storage device. 前記プロセッサは、
前記事前評価リクエストの発行の前に、前記キャッシュメモリユニットから前記アドレスに対応するデータを掃き出すことを要求するリクエストであるキャッシュ掃き出しリクエストを前記キャッシュメモリユニットに対して発行するキャッシュ掃き出し指示部を備え、
前記キャッシュメモリユニットは、前記キャッシュ掃き出しリクエストに応じてデータを掃き出すキャッシュ掃き出し部を備えることを特徴とする請求項3に記載のデータ障害処理装置。
The processor is
A cache flushing instruction unit for issuing a cache flush request to the cache memory unit, which is a request for sweeping data corresponding to the address from the cache memory unit before issuing the prior evaluation request; ,
The data failure processing apparatus according to claim 3, wherein the cache memory unit includes a cache flush unit that sweeps data in response to the cache flush request.
前記事前評価部は、前記キャッシュ掃き出し部からの処理完了通知が行われた後に、前記事前評価リクエストを発行することを特徴とする請求項4に記載のデータ障害処理装置。   The data failure processing apparatus according to claim 4, wherein the pre-evaluation unit issues the pre-evaluation request after processing completion notification from the cache flushing unit is performed. 誤り訂正機能を持つ記憶装置に格納されたデータにアクセスするプロセッサを備えるデータ障害処理装置におけるデータ障害処理方法であって、
前記記憶装置は、データ供給時にデータに対して誤り訂正符号を付与し、
前記プロセッサは、
前記誤り訂正符号に基づいて前記記憶装置から供給されたデータに障害が発生しているか否かを識別し、
前記障害が生じたデータが格納されたアドレスに再度アクセスする事前評価リクエストを発行し、
前記事前評価リクエストの発行結果に応じてプロセッサリリーフが実行可能かを判定し、
前記プロセッサリリーフの実行可否の判定に応じて障害対応処理を行う、データ障害処理方法。
A data failure processing method in a data failure processing apparatus comprising a processor for accessing data stored in a storage device having an error correction function,
The storage device gives an error correction code to data at the time of data supply,
The processor is
Identify whether or not a failure has occurred in the data supplied from the storage device based on the error correction code,
Issue a pre-evaluation request to re-access the address where the failed data is stored,
It is determined whether processor relief can be executed according to the issuance result of the prior evaluation request,
A data failure processing method for performing failure handling processing in accordance with determination of whether or not the processor relief can be executed.
前記障害を識別した場合に、仕掛中の処理トランザクションを破棄することを特徴とする請求項6に記載のデータ障害処理方法。   The data failure processing method according to claim 6, wherein when the failure is identified, a processing transaction in progress is discarded. 前記記憶装置として、主記憶ユニット及びキャッシュメモリユニットを備えることを特徴とする請求項6または請求項7に記載のデータ障害処理方法。   8. The data failure processing method according to claim 6, further comprising a main storage unit and a cache memory unit as the storage device. 前記プロセッサは、
前記事前評価リクエストの発行の前に、前記キャッシュメモリユニットから前記アドレスに対応するデータを掃き出すことを要求するリクエストであるキャッシュ掃き出しリクエストを前記キャッシュメモリユニットに対して発行し、
前記キャッシュメモリユニットは、前記キャッシュ掃き出しリクエストに応じてデータを掃き出すことを特徴とする請求項8に記載のデータ障害処理装置。
The processor is
Before issuing the pre-evaluation request, issue a cache flush request to the cache memory unit, which is a request for sweeping data corresponding to the address from the cache memory unit,
9. The data failure processing apparatus according to claim 8, wherein the cache memory unit sweeps data in response to the cache flush request.
前記キャッシュメモリユニットからのデータ掃き出しの処理完了通知が行われた後に、前記事前評価リクエストを発行することを特徴とする請求項9に記載のデータ障害処理方法。   The data failure processing method according to claim 9, wherein the advance evaluation request is issued after the completion of the data sweeping process notification from the cache memory unit.
JP2010230430A 2010-10-13 2010-10-13 Data failure processing apparatus and data failure processing method Pending JP2012083992A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010230430A JP2012083992A (en) 2010-10-13 2010-10-13 Data failure processing apparatus and data failure processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010230430A JP2012083992A (en) 2010-10-13 2010-10-13 Data failure processing apparatus and data failure processing method

Publications (1)

Publication Number Publication Date
JP2012083992A true JP2012083992A (en) 2012-04-26

Family

ID=46242779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010230430A Pending JP2012083992A (en) 2010-10-13 2010-10-13 Data failure processing apparatus and data failure processing method

Country Status (1)

Country Link
JP (1) JP2012083992A (en)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62113241A (en) * 1985-11-12 1987-05-25 Nec Corp Fault recovery device
JPS63213048A (en) * 1987-02-28 1988-09-05 Nec Corp Fault processing system for multi-processor system
JPH02135539A (en) * 1988-11-16 1990-05-24 Nec Corp Microprogram controller
JPH02135533A (en) * 1988-11-16 1990-05-24 Nec Corp Fault processing system
JPH05127937A (en) * 1991-11-06 1993-05-25 Mitsubishi Electric Corp Multiprocessor system
JPH05324487A (en) * 1992-05-20 1993-12-07 Hitachi Ltd Memory control system
JPH0713792A (en) * 1993-06-29 1995-01-17 Nec Corp Error control system in hot standby system
JPH07200502A (en) * 1993-12-28 1995-08-04 Omron Corp Dual system for transaction processing system
JPH08263453A (en) * 1995-03-23 1996-10-11 Kofu Nippon Denki Kk Data fault processor
JPH09511088A (en) * 1995-04-18 1997-11-04 インターナショナル・ビジネス・マシーンズ・コーポレーション Highly Available Error Self-Healing Shared Cache for Multiprocessor Systems
JP2003223338A (en) * 2002-01-31 2003-08-08 Fujitsu Ltd Duplex system
JP2008305317A (en) * 2007-06-11 2008-12-18 Toyota Motor Corp Multiprocessor system and control method thereof

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62113241A (en) * 1985-11-12 1987-05-25 Nec Corp Fault recovery device
JPS63213048A (en) * 1987-02-28 1988-09-05 Nec Corp Fault processing system for multi-processor system
JPH02135539A (en) * 1988-11-16 1990-05-24 Nec Corp Microprogram controller
JPH02135533A (en) * 1988-11-16 1990-05-24 Nec Corp Fault processing system
JPH05127937A (en) * 1991-11-06 1993-05-25 Mitsubishi Electric Corp Multiprocessor system
JPH05324487A (en) * 1992-05-20 1993-12-07 Hitachi Ltd Memory control system
JPH0713792A (en) * 1993-06-29 1995-01-17 Nec Corp Error control system in hot standby system
JPH07200502A (en) * 1993-12-28 1995-08-04 Omron Corp Dual system for transaction processing system
JPH08263453A (en) * 1995-03-23 1996-10-11 Kofu Nippon Denki Kk Data fault processor
JPH09511088A (en) * 1995-04-18 1997-11-04 インターナショナル・ビジネス・マシーンズ・コーポレーション Highly Available Error Self-Healing Shared Cache for Multiprocessor Systems
JP2003223338A (en) * 2002-01-31 2003-08-08 Fujitsu Ltd Duplex system
JP2008305317A (en) * 2007-06-11 2008-12-18 Toyota Motor Corp Multiprocessor system and control method thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6013039565; 藤原 庸隆,上芝 卓也: 'ACOSシリーズにおける中央処理装置の耐故障技術' 電子情報通信学会技術研究報告 FTS 93(372), 19931210, 57頁〜62頁, 社団法人電子情報通信学会 *

Similar Documents

Publication Publication Date Title
US7971112B2 (en) Memory diagnosis method
US8060698B2 (en) Method and apparatus for controlling degradation data in cache
US8977820B2 (en) Handling of hard errors in a cache of a data processing apparatus
US7376877B2 (en) Combined tag and data ECC for enhanced soft error recovery from cache tag errors
US7752505B2 (en) Method and apparatus for detection of data errors in tag arrays
US8205136B2 (en) Fault tolerant encoding of directory states for stuck bits
US9065481B2 (en) Bad wordline/array detection in memory
US8190973B2 (en) Apparatus and method for error correction of data values in a storage device
EP3483732B1 (en) Redundant storage of error correction code (ecc) checkbits for validating proper operation of a static random access memory (sram)
US9645904B2 (en) Dynamic cache row fail accumulation due to catastrophic failure
JP3851093B2 (en) Data transfer method and data processing system
US8775863B2 (en) Cache locking control
EP1444580B1 (en) Method and apparatus for fixing bit errors encountered during cache references without blocking
JPH09146836A (en) Fault correcting device for cache index
CN112181712B (en) Method and device for improving reliability of processor core
US7689891B2 (en) Method and system for handling stuck bits in cache directories
JP2012083992A (en) Data failure processing apparatus and data failure processing method
JP4860403B2 (en) Multiprocessor system, memory control / coherency control device, and coherency guarantee method
JP2014081865A (en) Cache memory, cache memory fault control method, and information processing system
US20230386598A1 (en) Methods for real-time repairing of memory failures caused during operations, memory systems performing repairing methods, and data processing systems including repairing memory systems
JP3450132B2 (en) Cache control circuit
JP6334969B2 (en) Arithmetic processing device, control method, and program
JPH0353660B2 (en)
JP5888419B2 (en) Data processing apparatus, processor, and operation history recording method
JP2010140140A (en) Cache memory control circuit, cache memory device, and cache memory control method

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130813

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131210