JP2015106226A - 二重化システム - Google Patents

二重化システム Download PDF

Info

Publication number
JP2015106226A
JP2015106226A JP2013246981A JP2013246981A JP2015106226A JP 2015106226 A JP2015106226 A JP 2015106226A JP 2013246981 A JP2013246981 A JP 2013246981A JP 2013246981 A JP2013246981 A JP 2013246981A JP 2015106226 A JP2015106226 A JP 2015106226A
Authority
JP
Japan
Prior art keywords
reboot
failure
error
setting table
restart
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013246981A
Other languages
English (en)
Inventor
寿郎 木本
Toshiro Kimoto
寿郎 木本
智之 梶田
Tomoyuki Kajita
智之 梶田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2013246981A priority Critical patent/JP2015106226A/ja
Publication of JP2015106226A publication Critical patent/JP2015106226A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Retry When Errors Occur (AREA)

Abstract

【課題】二重化システムにおける片系運転状態の時間を短縮し、システムの信頼性の向上を図る。
【解決手段】各制御装置1a、1bが、エラーコード取得手段41、リブート設定テーブル42、リブート設定テーブル参照手段43、およびリブート実行手段44を含む自動リブート手段4a、4bを備え、自装置のリブートを自動的に実行する。これにより、保守員による部品交換等の作業が必要な故障を除く故障を、自動的且つ迅速に復旧することが可能となり、片系運転状態の時間を短縮することができ、システムの信頼性が向上する。
【選択図】図1

Description

本発明は、二重化システに関し、特に、稼動系と待機系を切り替える際に片系運転状態となる時間を短縮した二重化システムに関する。
電気、ガス等の社会インフラに適用されるプラント監視制御システムとして、制御装置を二重化した冗長構成が採用されている。この方式では、同じ機能を有する制御装置を二台用意し、一台を稼動系(主系)、他を待機系(従系)とし、稼動系の制御装置に故障等の異常が発生した場合には、待機系の制御装置を稼動系に切り替える。これにより、システムの稼動中に稼動系の制御装置に故障が発生した場合でも、制御を継続させることができ、システムの信頼性が向上する。
このような二重化システムにおいて、稼動系の制御装置が故障等により停止し、保守員が故障した部品を交換する等の復旧作業を行い、待機系として再起動するまでの間は、片系運転状態となり冗長構成ではなくなる。すなわち、この片系運転時に稼動している一台の制御装置が停止すると、システム停止状態となり、システムの信頼性を著しく損なうことになる。特にインフラのプラント監視制御システムの停止は社会的な混乱を招くことになるため、片系運転となる時間をできるだけ短くする必要がある。
二重化システムにおける片系運転状態を短縮するための従来の対策としては、故障発生時を想定した保守部品の確保を行い、保守員が常駐して緊急事態に備え、迅速な復旧作業を行う体制をとっていた。しかし、復旧作業の改善による作業時間の短縮には限界があり、故障部位の特定や故障部品の交換に長時間を要することがあった。
また、特許文献1には、コンピュータシステムの外部に接続された障害監視装置を用いて、複数のコンピュータシステムで発生する障害を監視する方法が提示されている。この先行技術では、障害監視装置は、コンピュータシステムにおいて障害が発生した場合の復旧動作を定義する障害復旧情報を記憶しており、コンピュータシステムに障害が発生した場合、その障害に対応する障害復旧動作を行うようにコンピュータシステムに指示するものである。
特開2003−114811号公報
しかしながら、特許文献1の方法では、コンピュータシステムの他にシステム監視専用の障害監視装置を用意する必要があり、コストが高くなるという問題があった。また、障害監視装置に障害復旧情報を記憶させる必要があり、多大な労力を必要としていた。
本発明は、上記のような課題を解決するためになされたものであり、二重化システムにおける片系運転状態の時間を短縮し、システムの信頼性の向上を図ることを目的とする。
本発明に係る二重化システムは、同一の機能を有する二台の制御装置が通信可能に接続され、一方は稼動系、他方は待機系として運用される冗長構成の二重化システムであって
、制御装置は、自装置に故障が発生した際に原因を特定しエラーコードを出力するエラー判定手段と、各エラーコードに対応する故障内容と再起動を実行するか否かを定義したリブート設定テーブルを格納する記憶手段と、エラー判定手段から取得したエラーコードをリブート設定テーブルに参照し自装置の再起動を実行するか否かを決定するリブート設定テーブル参照手段と、リブート設定テーブル参照手段による参照結果に基づいて自装置の再起動を実行するリブート実行手段と、自装置の運転状態を稼動系から待機系または待機系から稼動系に移行する稼動状態切り替え手段を備えたものである。
本発明に係る二重化システムによれば、各制御装置がリブート設定テーブルの参照結果に基づいて自装置の再起動を実行するようにしたので、保守員による復旧作業が必要な故障を除く故障を、自動的且つ迅速に復旧することが可能となり、保守員の負担が軽減されると共に、片系運転状態の時間を短縮することができ、システムの信頼性が向上する。
本発明の実施の形態1に係る二重化システムおよび自動リブート手段の構成を示す図である。 本発明の実施の形態1に係るリブート設定テーブルの一例を示す図である。 本発明の実施の形態1に係る自動リブート手段の処理の流れを示す図である。 本発明の実施の形態2に係る二重化システムの構成を示す図である。 本発明の実施の形態2に係る二重化システムにおける自動リブート手段の処理の流れを示す図である。 本発明の実施の形態3に係る二重化システムにおける自動リブート手段の処理の流れを示す図である。 本発明の実施の形態4に係る二重化システムにおける自動リブート手段の処理の流れを示す図である。 本発明の実施の形態4に係る二重化システムにおける自動リブート手段の処理の流れを示す図である 本発明の実施の形態5に係る二重化システムにおけるプロセッサコアのエラー検出手段の処理の流れを示す図である。 本発明の実施の形態5に係る二重化システムにおけるプロセッサコアの自動リブート手段の処理の流れを示す図である。 本発明の実施の形態6に係る二重化システムにおけるプロセッサコアの自動リブート手段の処理の流れを示す図である。 本発明の実施の形態7に係る二重化システムにおいてリブート発生後に待機系となった制御装置のCPUの処理の流れを示す図である。
実施の形態1.
以下に、本発明の実施の形態1に係る二重化システムについて、図面に基づいて説明する。図1(a)は、本実施の形態1に係る二重化システムの構成を示し、図1(b)は、本実施の形態1に係る二重化システムにおける自動リブート手段の構成を示している。
本実施の形態1に係る二重化システムは、同一の機能を有する二台の制御装置1a、1bが互いに通信可能に接続され、一方は稼動系(主系)、他方は待機系(従系)として運用される冗長構成である。本システムをプラント監視制御システムに適用した場合、制御装置1a、1bは、プラント監視制御装置として用いられる。
図1(a)に示すように、制御装置1a、1bは、CPUカードから構成される中央処理装置であるCPU2a、2bを備えている。これらのCPU2a、2bは、制御装置1a、1bによる主な制御を実行するためのプログラム(図示省略)を有すると共に、エラー判定手段3a、3b、自動リブート手段4a、4b、記憶手段5a、5bを有している。
エラー判定手段3a、3bは、自装置に故障が発生した際にその原因を特定し、該当するエラーコードを出力する。自動リブート手段4a、4bについては、後に詳細に説明する。記憶手段5a、5bは、例えば不揮発性のバックアップSRAMやFLASHである。なお、記憶手段5a、5bは、複数個備えられていても良い。エラー判定手段3a、3bから出力されたエラーコードは、記憶手段5a、5bに保存される。
CPU2a、2bは、記憶手段5a、5bに保存されたデータを、トラッキングバス6を介して互いにやりとりする。トラッキングバス6には、イーサネット(Ethernet)(登録商標)等のLANや専用の制御線を用いることができる。
計算機8a、8bは、例えば下位計算機である。制御装置1a、1bと計算機8a、8bは、例えばLAN7を介して通信可能に接続されている。なお、通信手段としてLAN7以外のネットワーク、例えばWAN(Wide Area Network)を用いても良い。なお、図1では、制御装置1a、1bと接続される装置として二台の計算機8a、8bを示したが、これに限定されるものではなく、計測器等であっても良い。
また、CPU2a、2bは、自装置の運転状態を稼動系から待機系、または待機系から稼動系に移行する稼動状態切り替え手段(図示省略)を備えている。ただし、稼動状態切り替え手段は、CPU2a、2b内に配置されていなくても良い。また、制御装置1a、1bに運転状態の切り替えを指示する切り替え装置を、制御装置1a、1bの外部に備えた構成であっても良い。
図1に示す二重化システムの基本的な動作について簡単に説明する。なお、ここでは、制御装置1aを稼動系で運用中であると仮定し、制御装置1aのCPU2aを稼動系CPU2aと呼ぶ。また、待機系の制御装置1bのCPU2bを待機系CPU2bと呼ぶ。
計算機8a、8bは、稼動系の制御装置1aに対し、プラントデータ等のデータを周期的に送信する。稼動系CPU2aは、計算機8a、8bから送信されたデータを取得し、記憶手段5aに保存する。また、必要に応じ取得したデータに対し処理を実行する。待機系CPU2bは、トラッキングバス6を介して稼動系CPU2aの内部データを取得し、内部データを等値化している。これにより、待機系CPU2bが稼動系に移行した際に即座に動作を継続することができる。
制御装置1aに故障が発生した場合、稼動系CPU2aは稼動状態切り替え手段により自装置の運転状態を稼動系から待機系に移行する。制御装置1aが稼動系から待機系に移行したことは、制御装置1aから送信される信号により制御装置1bに通知される。これを受けた制御装置1bのCPU2bは、稼動状態切り替え手段により自装置の運転状態を待機系から稼動系に移行する。
次に、自動リブート手段4a、4b(総称して自動リブート手段4)について説明する。本システムにおける制御装置1a、1bは、自動リブート手段4a、4bを備えることにより、自装置のリブートすなわち再起動を自動的に実行し、自動復旧することが可能なものである。自動リブート手段4は、図1(b)に示すように、エラーコード取得手段41、リブート設定テーブル42、リブート設定テーブル参照手段43、およびリブート実行手段44を含んで構成される。
エラーコード取得手段41は、エラー判定手段3a、3bから出力されたエラーコードを取得し、該エラーコードをリブート設定テーブル参照手段43に送る。リブート設定テーブル42は、各エラーコードに対応する故障内容と再起動を実行するか否かを定義したテーブルである。なお、リブート設定テーブル42は、機能的には自動リブート手段4に含まれるが、実際には記憶手段5a、5bに格納されている。
図2は、リブート設定テーブル42の一例を示している。リブート設定テーブル42の各欄は、エラーコード、故障内容、リブートの有無、故障の軽重、統計情報対象か否か、備考の項目で構成されている。リブートの有無の欄は、自動リブートを実行する場合は「1」が記載され、自動リブートを実行しない場合は「0」が記載されている。
次の欄では、各エラーコードに対応する故障を、その内容に関連して軽度の故障と重度の故障に分類している。図2に示す例では、重度の故障には「1」が記載され、軽度の故障には「0」が記載されている。また、次の欄では、統計情報対象の故障の場合には「1」が記載され、対象外の故障の場合には「0」が記載されている。統計情報対象の故障が発生した場合の処理については、実施の形態5で詳細に説明する。
図2に示す例では、エラーコード「0x2001」に対応する故障内容は、ゼロ割(除数を0として除算するエラー。その後の処理が続行不能に陥りプログラムの異常終了となる)等のフォールトエラーであり、リブート有りで重度故障である。エラーコード「0x2002」に対応する故障内容は、WDTエラー(コンピュータが正常に稼動しているかどうかを定期的に監視するウォッチドックタイマのエラー)であり、リブート有りで重度故障である。
また、エラーコード「0x3001」に対応する故障内容は、FPGA故障であり、リブート無しで重度故障である。FPGA故障は、ゲートアレイの故障であり、このようなハードウェア故障では部品交換が必要なため、自動リブートを実行することはできない。また、エラーコード「0x4001」に対応する故障内容は、LAN通信リトライエラーであり、リブート有りで軽度故障であり、統計情報対象である。
リブート設定テーブル参照手段43は、エラー判定手段3a、3bから取得したエラーコードをリブート設定テーブル42に参照し、自装置のリブートを実行するか否かを決定する。図2に示す例では、エラーコード「0x2001」、「0x2002」の場合にはリブートを実行、「0x4001」の場合には、エラーカウンタを1つ上げ、規定回数以上となったらリブートを実行、「0x3001」の場合にはリブートを実行しない、と決定する。
リブート実行手段44は、リブート設定テーブル参照手段43による参照結果に基づいて、リブート有りの場合には、自装置のリブートを実行する。なお、リブート実行手段44によるリブートは、稼動系として運用中の制御装置1aに故障が発生した場合、稼動状態切り替え手段により自装置を稼動系から待機系に移行した後、実行される。すなわち、リブート実行時には、制御装置1bが稼動系として運用されており、片系運転状態となっている。
本実施の形態1に係る二重化システムにおける自動リブート手段4の処理の流れについて、図3のフローチャートを用いて説明する。なお、ここでは制御装置1aを稼動系、制御装置1bを待機系として運用している場合を例に挙げて説明するが、逆の場合も同様の処理が行われる。
図3のステップ1(S1)において、制御装置1aに故障が発生した場合(YES)、ステップ2(S2)において、エラーコード取得手段41はエラー判定手段3aが出力したエラーコードを取得する。S1で故障が発生していない場合(NO)は、処理は行われない。
続いて、ステップ3(S3)において、制御装置1aは、稼動状態切り替え手段により自装置を稼動系から待機系に移行する。この通知を受けた制御装置1bは、自装置を待機系から稼動系に移行し、これまでの制御装置1aの動作を継続する。次に、ステップ4(S4)において、リブート設定テーブル参照手段43は、S2で取得したエラーコードをリブート設定テーブル42に参照し、ステップ5(S5)において自装置のリブートを実行するか否かを決定する。
S5において、参照結果がリブート有りであった場合(YES)、ステップ6(S6)に進み、リブート実行手段44はリブートを実行する。その後、初期化処理を経て、制御装置1aは待機系として運用される。S5において、参照結果がリブート無しであった場合(NO)、処理を終了する。
本実施の形態1に係る二重化システムによれば、各制御装置1a、1bが自動リブート手段4a、4bを備え、自装置のリブートを自動的に実行するようにしたので、保守員による部品交換等の作業が必要な故障を除く故障を、自動的且つ迅速に復旧することが可能である。これにより、保守員の負担が軽減されると共に、片系運転状態の時間を短縮することができ、システムの信頼性が向上する。
実施の形態2.
図4は、本発明の実施の形態2に係る二重化システムの構成を示している。なお、図4において、図1と同一または相当部分には同一符号を付している。本実施の形態2に係る二重化システムは、制御装置1a、1bと通信可能に接続され、制御装置1a、1bの故障を監視する監視装置9を備えている。さらに、各制御装置1a、1bは、自装置の運転状態および故障を監視装置9に通知する通知手段(図示省略)を備えている。それ以外の構成については、上記実施の形態1(図1)と同様であるので説明を省略する。
各制御装置1a、1bと監視装置9は、LAN7を介して接続されている。各制御装置1a、1bの通知手段は、自装置に発生した故障が、リブート実行手段44によるリブートを実行できない故障であった場合に、その旨を監視装置9に通知する。通知を受けた監視装置9は、その表示手段または警報手段等により故障の発生を保守員に報知し、保守員は必要な復旧作業を行う。
本実施の形態2に係る二重化システムにおける自動リブート手段4の処理の流れについて、図5のフローチャートを用いて説明する。ただし、図5において、S1〜S6は、上記実施の形態1で説明した図3のフローチャートと同じ処理であるので、説明を省略する。
図5のS5において、制御装置1aのリブート設定テーブル参照手段43は、S2で取得したエラーコードをリブート設定テーブル42に参照し、リブート無しであった場合(NO)、上記実施の形態1では処理を終了したが、本実施の形態2では、ステップ51(S51)に進み、制御装置1aの通知手段は、自動復旧不可であることを監視装置9に通知する。その後、自装置を停止し処理を終了する。
本実施の形態2に係る二重化システムによれば、上記実施の形態1と同様の効果に加え、自動リブートを実行できない故障が発生した場合に、自動復旧不可であることを監視装置9に通知し、保守員が迅速に部品交換等の復旧作業を行えるようにしたので、片系運転状態の時間が短縮され、さらにシステムの信頼性が向上する。
実施の形態3.
本発明の実施の形態3に係る二重化システムの構成は、上記実施の形態2と同様であるので図4を流用して説明する。本実施の形態3に係る二重化システムは、制御装置1a、1bと通信可能に接続され、制御装置1a、1bの故障を監視する監視装置9を備えている。また、各制御装置1a、1bは、自装置の運転状態および故障を監視装置9に通知する通知手段(図示省略)を備えている。
各制御装置1a、1bの通知手段は、上記実施の形態2と同様に、自装置に発生した故障がリブート実行手段44によるリブートを実行できない故障であった場合に、その旨を監視装置9に通知する。さらに、本実施の形態3では、通知手段は、リブート実行手段44によるリブートの原因が重度の故障であった場合に、その旨を監視装置9に通知するようにしている。発生した故障が重度の故障であるか否かは、リブート設定テーブル42に定義されている。
本実施の形態3に係る二重化システムにおける自動リブート手段4の処理の流れについて、図6のフローチャートを用いて説明する。ただし、図6において、S1〜S6、およびS51は、上記実施の形態2で説明した図5のフローチャートと同じ処理であるので、説明を省略する。
図6のS5において、制御装置1aのリブート設定テーブル参照手段43は、S2で取得したエラーコードをリブート設定テーブル42に参照し、リブート有りであった場合(YES)、ステップ52(S52)に進む。S52において、リブート設定テーブル参照手段43は、現在発生している故障が軽度の故障であるか否かを、リブート設定テーブル42を参照して確認する。
S52において、現在発生している故障が軽度の故障であった場合(YES)、S6に進み、リブート実行手段44はリブートを実行する。S52で重度の故障であった場合(NO)、ステップ53(S53)に進み、制御装置1aの通知手段は、現在発生している故障が重度の故障であることを監視装置9に通知する。その後、S6に進みリブートを実行する。
本実施の形態3に係る二重化システムによれば、上記実施の形態1および実施の形態2と同様の効果が得られる。さらに、軽度の故障の場合には、監視装置9に通知せずに自動でリブートが実行されるので、あたかも故障が発生していないように運転が継続され、保守員の負担がさらに軽減される。また、重度の故障の場合には、監視装置9に通知した後リブートが実行されるため、保守員が重度の故障の発生を把握することができ、システムの信頼性がさらに向上する。
実施の形態4.
本発明の実施の形態4に係る二重化システムの主な構成は、上記実施の形態2と同様であるので図4を流用して説明する。本実施の形態4では、制御装置1a、1bのCPU2a、2bは、それぞれ二つのプロセッサコア(コア1、コア2;図示省略)を搭載している。
本実施の形態4において、リブート実行手段44は、リブートを実行する前に、故障時に主として使用されていたプロセッサコアを記憶手段5a(または5b)に記憶しており、該プロセッサコアを除くプロセッサコアで再起動を実行する。その他の構成および動作については、上記実施の形態1〜実施の形態3と同様であるので説明を省略する。
本実施の形態4に係る二重化システムにおける自動リブート手段4の処理の流れについて、図7および図8のフローチャートを用いて説明する。ただし、図7において、S1〜S6、およびS51〜S53は、上記実施の形態3で説明した図6のフローチャートと同じ処理であるので、説明を省略する。
図7のフローチャートのS52において、制御装置1aのリブート設定テーブル参照手段43は、現在発生している故障が軽度の故障であるか否かをリブート設定テーブル42で確認し、軽度の故障であった場合(YES)、ステップ54(S54)に進む。また、S52で重度の故障であった場合(NO)、S53で現在発生している故障が重度の故障であることを監視装置9に通知した後、S54に進む。
S54では、制御装置1aのCPU2aにおいて、現在、すなわち故障時に主として使用されていたプロセッサコアを記憶手段5aに記憶する。続いてステップ55(S55)において、自動リブートの履歴(エラーコード、実行時刻等)を記憶手段5aに記憶した後、S6でリブートを実行する。
図8は、S6のリブート実行後の処理の流れを示している。図8のステップ61(S61)において、制御装置1aにリブートが発生すると、ステップ62(S62)において、該リブートが自動リブート(自動リブート手段4によるリブート)であるか否かを、記憶手段5aのリブート履歴を参照して確認する。自動リブート手段4によるリブートの場合には、図7のS55で記憶手段5aに記憶されている。
なお、リブートには、自動リブート手段4によるリブートの他に、保守員によるリブートもある。S62において、自動リブート手段4によるリブートではない場合(NO)、ステップ66(S66)に進み、通常の初期化処理を実行する。
また、S62において、自動リブート手段4によるリブートであった場合(YES)、ステップ63(S63)に進み、リブート実行前に主として動作していたプロセッサコアがどちらであったかを確認する。S63において、主として動作していたのがコア1であった場合(YES)、ステップ64(S64)に進み、コア2で起動する。S63において、主として動作していたのがコア2であった場合(NO)、ステップ65(S65)に進み、コア1で起動する。その後、S66に進み、通常の初期化処理を実行する。
本実施の形態4に係る二重化システムによれば、上記実施の形態1〜実施の形態3と同様の効果が得られる。さらに、自動リブート手段4のリブート実行手段44によるリブートを実行する前に、主として使用されているプロセッサコアを記憶しておき、リブート後は別のプロセッサコアで起動するようにしたので、片方のプロセッサコアが故障した場合にも、待機系としての動作を継続して実行することができる。これにより、片系運転状態の時間を短縮することができ、システムの信頼性がさらに向上する。
実施の形態5.
本発明の実施の形態5に係る二重化システムの主な構成は、上記実施の形態2と同様であるので図4を流用して説明する。本実施の形態5では、上記実施の形態4と同様に、制御装置1a、1bのCPU2a、2bは、それぞれ二つのプロセッサコア(コア1、コア2)を搭載している。また、プロセッサコアは、同じCPU2a(または2b)に搭載された他のプロセッサコアの故障を検出するエラー検出手段(図示省略)を有している。その他の構成および動作については、上記実施の形態4と同様であるので説明を省略する。
例えば稼動系として運用されている制御装置1aのCPU2aにおいて、主として使用されているコア1は、同じCPU2aに搭載されたコア2のエラー検出手段により定期的に故障診断されている。コア2のエラー検出手段は、コア1の故障を検出した場合、その故障内容に応じたエラーコードを出力し、コア1に対してリブート要求を通知する。なお、エラー検出手段により出力されるエラーコードは、エラー判定手段3aと同様のものである。
すなわち、本実施の形態5では、制御装置1aにおいて、リブート実行手段44がリブートを実行するパターンとして、以下の二つがある。一つは、制御装置1aに故障が発生し、エラー判定手段3aによりエラーコードが出力され、このエラーコードをリブート設定テーブルに参照した結果「リブート有」であった場合である。もう一つは、制御装置1aのCPU2aにおいて主として動作しているコア1の故障をコア2のエラー検出手段が検出し、その故障内容によりコア1に対しリブート要求を通知した場合である。
稼動系として運用されている制御装置1aのCPU2aにおいて、コア1が主として使用されている場合の、コア2のエラー検出手段の処理の流れについて、図9のフローチャートを用いて説明する。なお、図9では、統計情報対象のエラーが発生した場合を例に挙げて説明する。
統計情報対象のエラーとは、例えば図2に示すリブート設定テーブルのエラーコード「0x4001」に対応するLAN通信リトライエラーのような、比較的軽度の故障である。頻繁に発生し易い軽度な故障は、1回の発生でリブートを実行せず、発生回数が予め設定された規定回数(例えば100回)以上となった時にリブートを実行する。
図9のステップ7(S7)において、統計情報対象のエラーが発生すると、コア2のエラー検出手段は、ステップ71(S71)において、エラーカウンタのカウントを1つ上げる。続いてステップ72(S72)において、エラーカウンタのカウントが規定回数以上であるか否かを判定する。規定回数以上ではない場合(NO)は、リブート不要であるため処理を終了する。
また、S72において、規定回数以上の場合(YES)は、ステップ73(S73)に進み、カウンタをクリアする。続いて、ステップ74(S74)において、コア1に対しリブート要求を通知する。
次に、コア2からリブート要求の通知を受けたコア1の自動リブート手段4の処理の流れについて、図10のフローチャートを用いて説明する。図10のステップ8(S8)において、コア1は、コア2からの通知待ち(無限待ち)状態であり、ステップ81(S81)においてコア2からリブート要求の通知を受けた場合(YES)、ステップ82(S82)に進む。
S82では、自装置の運転状態を稼動系から待機系に移行し、ステップ83(S83)において、リブート実行手段44によりリブートを実行する。また、S81でコア2からリブート要求の通知を受けていない場合(NO)は、処理を終了し、再度S8に戻りコア2からの通知待ち状態となる。
本実施の形態5に係る二重化システムによれば、上記実施の形態1〜実施の形態4と同様の効果が得られる。さらに、同じCPU2a(または2b)内に二つのプロセッサコアを搭載し、主として使用されているプロセッサコア(例えばコア1)を、他のプロセッサコア(例えばコア2)のエラー検出手段で定期的に診断しているので、制御装置1a(または1b)が重度の故障になる前に自動的にリブートを実行することができ、システムの信頼性がさらに向上する。
実施の形態6.
本発明の実施の形態6に係る二重化システムの主な構成は、上記実施の形態2と同様であるので図4を流用して説明する。本実施の形態6では、上記実施の形態5と同様に、例えば稼動系として運用されている制御装置1aのCPU2aにおいて、主として使用されているコア1を、同じCPU2aに搭載されているコア2のエラー検出手段が定期的に故障診断し、故障を検出した場合、コア1に対しリブート要求を通知する。
上記実施の形態5では、コア2からリブート要求の通知を受けたコア1は、図10に示すように、稼動系から待機系に移行した後、すぐにリブートを実行しているが、本実施の形態6では、コア2からリブート要求の通知を受けたコア1は、上記実施の形態4と同様の処理(図7に示すフローチャート)を経てリブートを実行するようにしている。
図11は、本実施の形態6に係る二重化システムにおいて、コア2からリブート要求の通知を受けたコア1の自動リブート手段4の処理の流れを示すフローチャートである。なお、図11において、S3〜S6、およびS51〜S55は、上記実施の形態4で説明した図7のフローチャートと同じ処理であるので説明を省略する。
図11のステップ9(S9)において、コア1は、コア2からの通知待ち(有限待ち)状態であり、ステップ91(S91)において、コア2からリブート要求の通知を受けた場合(YES)、ステップ92(S92)に進む。また、S91においてリブート要求の通知を受けていない場合は、処理を終了する。S92において、コア1のエラーコード取得手段41は、コア2のエラー検出手段が出力したエラーコードを取得し、S3に進む。
また、本実施の形態6では、リブートを実行した後、上記実施の形態4で説明した図8のフローチャートと同様の処理を行う。すなわち、リブート実行手段44によるリブートを実行する前に、主として使用されているコアを記憶し、リブート後は別のコアで起動するようにしている。
本実施の形態6に係る二重化システムによれば、上記実施の形態1〜実施の形態5と同様の効果が得られる。さらに、コア2からのリブート要求時においてもリブート設定テーブル42を参照するようにしたので、リブートの有無をリブート設定テーブル42により決定することができ、汎用性が向上する。
実施の形態7.
本発明の実施の形態7に係る二重化システムの構成は、上記実施の形態2と同様であるので図4を流用して説明する。本実施の形態7では、稼動系として運用されている制御装置1a(または1b)は、自装置に故障が発生した場合、稼動状態切り替え手段により自装置を稼動系から待機系に移行した後、リブート実行手段44によるリブートを実行し、該リブートの原因が軽度の故障であった場合には、待機系から稼動系に再度移行するようにしたものである。
図12は、本実施の形態7に係る二重化システムにおいて、リブート発生後、待機系となった制御装置1aのCPU2aの処理の流れを示すフローチャートである。S61において、制御装置1aにリブートが発生すると、S62において、該リブートが自動リブート(リブート実行手段44によるリブート)であるか否かを、記憶手段5aを参照して確認する。
S62において、リブート実行手段44によるリブートではない場合(NO)、処理を終了する。S62においてリブート実行手段44によるリブートであった場合(YES)、ステップ66(S66)において通常初期化処理を行う。続いてステップ67(S67)において、S61で発生したリブートが軽度の故障によるものか否かを、記憶手段5aを参照して確認する。リブート実行手段44によるリブートの場合、リブートの履歴は記憶手段5aに記憶されている。
S67において、S61で発生したリブートが重度の故障によるものであった場合(NO)、処理を終了する。また、S67において、S61で発生したリブートが軽度の故障によるものであった場合(YES)、待機系から稼動系に移行する。ただし、この場合には、後に再度リブートする必要がある。
本実施の形態7に係る二重化システムによれば、上記実施の形態1〜実施の形態6と同様の効果が得られる。さらに、自動リブート手段4によるリブートが軽度の故障による場合には、待機系に移行した後、再度稼動系に移行して元の状態に戻るため、あたかも故障が発生していないように運転が継続され、システムの信頼性がさらに向上する。
なお、本実施の形態7による処理の流れは、上記実施の形態4〜実施の形態6に係る二重化システム、すなわちCPU2a、2bに複数のプロセッサコアを搭載した場合にも、適用することができる。本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。
本発明は、制御装置を二重化したプラント監視制御システムとして利用することができる。
1a、1b 制御装置、2a、2b CPU、3a、3b エラー判定手段、
4、4a、4b 自動リブート手段、5a、5b 記憶手段、6 トラッキングバス、7 LAN、8a、8b 計算機、9 監視装置、41 エラーコード取得手段、42 リブート設定テーブル、43 リブート設定テーブル参照手段、44 リブート実行手段。

Claims (10)

  1. 同一の機能を有する二台の制御装置が通信可能に接続され、一方は稼動系、他方は待機系として運用される冗長構成の二重化システムであって、前記制御装置は、
    自装置に故障が発生した際に原因を特定しエラーコードを出力するエラー判定手段と、
    各エラーコードに対応する故障内容と再起動を実行するか否かを定義したリブート設定テーブルを格納する記憶手段と、
    前記エラー判定手段から取得したエラーコードを前記リブート設定テーブルに参照し自装置の再起動を実行するか否かを決定するリブート設定テーブル参照手段と、
    前記リブート設定テーブル参照手段による参照結果に基づいて自装置の再起動を実行するリブート実行手段と、
    自装置の運転状態を稼動系から待機系または待機系から稼動系に移行する稼動状態切り替え手段を備えたことを特徴とする二重化システム。
  2. 前記リブート設定テーブルは、各エラーコードに対応する故障を、その内容に関連して軽度の故障と重度の故障に分類していることを特徴とする請求項1記載の二重化システム。
  3. 前記制御装置と通信可能に接続され前記制御装置の故障を監視する監視装置を備え、前記制御装置は、自装置の運転状態および故障を前記監視装置に通知する通知手段を有することを特徴とする請求項1または請求項2に記載の二重化システム。
  4. 前記通知手段は、自装置に発生した故障が前記リブート実行手段による再起動を実行できない故障であった場合に、その旨を前記監視装置に通知することを特徴とする請求項3記載の二重化システム。
  5. 前記リブート設定テーブルは、各エラーコードに対応する故障を、その内容に関連して軽度の故障と重度の故障に分類しており、前記通知手段は、前記リブート実行手段による再起動の原因が重度の故障であった場合に、その旨を前記監視装置に通知することを特徴とする請求項3記載の二重化システム。
  6. 稼動系として運用中の前記制御装置は、自装置に故障が発生した場合、前記稼動状態切り替え手段により自装置を稼動系から待機系に移行した後、前記リブート実行手段による再起動を実行し、該再起動の原因が軽度の故障であった場合には、待機系から稼動系に移行することを特徴とする請求項2記載の二重化システム。
  7. 前記制御装置の中央処理装置は、複数のプロセッサコアを搭載しており、前記リブート実行手段は、再起動を実行する前に、故障時に主として使用されていた前記プロセッサコアを記憶しており、該プロセッサコアを除く前記プロセッサコアで再起動を実行することを特徴とする請求項1から請求項6のいずれか一項に記載の二重化システム。
  8. 前記プロセッサコアは、同じ前記中央処理装置に搭載されている他の前記プロセッサコアの故障を検出するエラー検出手段を有し、主として使用されている前記プロセッサコアは、他の前記プロセッサコアの前記エラー検出手段により定期的に故障診断されていることを特徴とする請求項7記載の二重化システム。
  9. 前記エラー検出手段は、主として使用されている前記プロセッサコアの故障を検出した場合、該プロセッサコアに対して再起動要求を通知することを特徴とする請求項8記載の二重化システム。
  10. 前記エラー検出手段は、主として使用されている前記プロセッサコアの故障を検出した場合、前記エラー判定手段と同様のエラーコードを出力し、前記リブート設定テーブル参照手段は、前記エラー検出手段から取得したエラーコードを前記リブート設定テーブルに参照し自装置の再起動を実行するか否かを決定することを特徴とする請求項8または請求項9に記載の二重化システム。
JP2013246981A 2013-11-29 2013-11-29 二重化システム Pending JP2015106226A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013246981A JP2015106226A (ja) 2013-11-29 2013-11-29 二重化システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013246981A JP2015106226A (ja) 2013-11-29 2013-11-29 二重化システム

Publications (1)

Publication Number Publication Date
JP2015106226A true JP2015106226A (ja) 2015-06-08

Family

ID=53436307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013246981A Pending JP2015106226A (ja) 2013-11-29 2013-11-29 二重化システム

Country Status (1)

Country Link
JP (1) JP2015106226A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017010336A (ja) * 2015-06-23 2017-01-12 富士電機株式会社 制御システム
WO2022059269A1 (ja) * 2020-09-16 2022-03-24 株式会社東芝 コントローラ、および、コントローラシステム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266573A (ja) * 1993-03-11 1994-09-22 N T T Data Tsushin Kk 障害復旧情報管理システム
JPH08249212A (ja) * 1995-03-13 1996-09-27 Intec:Kk 多重化されたコンピュータシステムにおける障害監視方法
JPH09288589A (ja) * 1996-04-19 1997-11-04 Mitsubishi Electric Corp システム・バックアップ方法
JP2007140885A (ja) * 2005-11-18 2007-06-07 Mitsubishi Electric Corp 計算機装置
JP2009003775A (ja) * 2007-06-22 2009-01-08 Toshiba Corp 制御装置
JP2010061419A (ja) * 2008-09-04 2010-03-18 Hitachi Ltd 制御装置
JP2010128627A (ja) * 2008-11-26 2010-06-10 Hitachi Automotive Systems Ltd 車載用電子制御装置
JP2011085995A (ja) * 2009-10-13 2011-04-28 Panasonic Corp 機内サービスシステム
JP2011090597A (ja) * 2009-10-26 2011-05-06 Seiko Epson Corp 画像表示装置およびその制御方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266573A (ja) * 1993-03-11 1994-09-22 N T T Data Tsushin Kk 障害復旧情報管理システム
JPH08249212A (ja) * 1995-03-13 1996-09-27 Intec:Kk 多重化されたコンピュータシステムにおける障害監視方法
JPH09288589A (ja) * 1996-04-19 1997-11-04 Mitsubishi Electric Corp システム・バックアップ方法
JP2007140885A (ja) * 2005-11-18 2007-06-07 Mitsubishi Electric Corp 計算機装置
JP2009003775A (ja) * 2007-06-22 2009-01-08 Toshiba Corp 制御装置
JP2010061419A (ja) * 2008-09-04 2010-03-18 Hitachi Ltd 制御装置
JP2010128627A (ja) * 2008-11-26 2010-06-10 Hitachi Automotive Systems Ltd 車載用電子制御装置
JP2011085995A (ja) * 2009-10-13 2011-04-28 Panasonic Corp 機内サービスシステム
JP2011090597A (ja) * 2009-10-26 2011-05-06 Seiko Epson Corp 画像表示装置およびその制御方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017010336A (ja) * 2015-06-23 2017-01-12 富士電機株式会社 制御システム
WO2022059269A1 (ja) * 2020-09-16 2022-03-24 株式会社東芝 コントローラ、および、コントローラシステム
JP2022049441A (ja) * 2020-09-16 2022-03-29 株式会社東芝 コントローラ、および、コントローラシステム
JP7326239B2 (ja) 2020-09-16 2023-08-15 株式会社東芝 コントローラ、および、コントローラシステム

Similar Documents

Publication Publication Date Title
CN101271417B (zh) 修复数据处理系统的方法、数据处理系统及信息处置系统
US7787388B2 (en) Method of and a system for autonomously identifying which node in a two-node system has failed
EP2518627B1 (en) Partial fault processing method in computer system
US8977895B2 (en) Multi-core diagnostics and repair using firmware and spare cores
WO2015169199A1 (zh) 分布式环境下虚拟机异常恢复方法
EP1703401A2 (en) Information processing apparatus and control method therefor
KR20000011835A (ko) 네트워크의분산애플리케이션에대한고장검출및소정의복제스타일로복구하는방법및장치
TWI529624B (zh) Method and system of fault tolerance for multiple servers
US20160378602A1 (en) Pre-boot self-healing and adaptive fault isolation
US9256489B2 (en) Synchronized debug information generation
WO2020239060A1 (zh) 错误恢复的方法和装置
JP2010186242A (ja) 計算機システム
CN113742165B (zh) 双主控设备及主备控制方法
CN109358982B (zh) 硬盘自愈装置、方法以及硬盘
JP5327105B2 (ja) バックアップシステム
JP2015106226A (ja) 二重化システム
WO2015188619A1 (zh) 物理主机故障检测方法、装置及虚机管理方法、系统
JP2011034219A (ja) 故障検出方法及び監視装置
JP2009075719A (ja) 冗長構成装置及びその自己診断方法
JP2009026182A (ja) プログラム実行システム及び実行装置
JP3325785B2 (ja) 計算機の故障検出・回復方式
JP2014078067A (ja) データベースシステム、データベース装置、データベースの障害回復方法およびプログラム
JP6089766B2 (ja) 情報処理システム、及び情報処理装置の障害処理方法
JP4623001B2 (ja) 障害切り分けシステム、障害切り分け方法、およびプログラム
JP6710128B2 (ja) 通信装置及び通信装置の復旧方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161020

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170404