JP2013169644A

JP2013169644A - 手続き記憶学習およびロボット制御

Info

Publication number: JP2013169644A
Application number: JP2013018336A
Authority: JP
Inventors: Leandro G Barajas; リアンドロ・ジー・バラジャス; M Sanders Adam; アダム・エム・サンダース
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2012-02-21
Filing date: 2013-02-01
Publication date: 2013-09-02
Anticipated expiration: 2033-02-01
Also published as: JP5759495B2; DE102013202378B4; US8805581B2; US20130218335A1; DE102013202378A1

Abstract

【課題】作業動作をロボットに対して実演し、ロボットが実演された動作を実行するとロボットから取得された相関値、属性、およびパラメータの類似度マトリクスに従ってロボットに動作を学習させることにより、ロボットを制御する手続き記憶学習のための方法および装置を提供すること。
【解決手段】学習はロボットコントローラに関連する人工神経回路網によって行われ、その結果、ロボットは類似度マトリクスに関連する作業を実行することを学習する。拡張類似度マトリクスは変数の積分値および微分値を含むことができる。手続き記憶学習は、ロボットに作業の実行を教える際のオーバヘッドを削減する。継続学習は成績を向上させ、ロボットの状態および環境因子における変化を自動的に補償する。
【選択図】図１

Description

本発明は、手続き記憶学習およびロボット制御に関する。

[001]ロボット工学、製造業、航空宇宙産業、産業用機械、および他の産業で使用されるマシンコントローラは、通常、既定の運動または動作の特定のセットを実行するようにプログラムされる。

これは時間を浪費し、資源集約的であり得る。例えば、１つの繰返し作業を実行するようにロボットをプログラミングするには、すべてのロボットの構成部品を据え付ける必要があり得る。１度プログラムされると、ロボットは変更に適合したり、変更を補償したり、または新しい動作環境に適応することができない可能性がある。ロボット機能における変更には、通常、適正な動作を保証するために再プログラミング、確認、検証、および他の処理が必要である。

[002]本発明の実施形態は、実演による学習を提供し、すなわち、ロボットコントローラが試行錯誤を通じて実演された動作をまねることによって学習する。作業を習得することにより、ロボットコントローラが、同様の作業だが異なる作業を実行することが可能になる。加えて、学習の結果は永続的であり、ロボットは老朽化、摩耗、および環境条件の変化の影響を補償することができる。ロボットに事前に教えることが不要であるだけでなく、作業の実行に要する低レベルのコマンドを明示的に形式化することも不要である。

[003]手続型メモリコントローラは、ロボットの正常動作中、外乱を観察し、所望の結果と相互に関連付けることによって訓練される。相関、順序および適切な組合せが見出されると、このコントローラは高水準の制御メカニズムに置き換わる。本発明の実施形態は、誤り補償器として動作してロボットのエンドエフェクタのタイミングおよび作動を調節する手続型メモリコントローラと一緒に、既存の宣言型メモリモデルコントローラ（例えば、経路計画、順運動学および逆運動学）を利用する。宣言型メモリコントローラは、作業の順序を実行するようにプログラムすることができる。

[004]本発明の実施形態によれば、複数の入力信号（その限定的でない例には、センサ出力、アクチュエータ入力、属性、位置、および他のロボットの手順に関連した測定可能変数が含まれる）が、半教師付き学習実演の間、モニタされる。ある特定の実施形態では、これらの信号は、また、微分され積分されて再帰的に拡張される。次いで、類似度マトリクスが展開されて、変数がお互いに関してどのように振る舞うかを集約し、これらのマトリクスは学習アルゴリズムへの入力として使用される。具体例は、相関、相互相関、順位相関、積率相関、距離相関、および他の関係の尺度を利用する。線形関係は通常、解析するのが速いが、非線形関係を使用することもある。

[005]センサは、ロボットの内部装置（その限定的でない例には、歪みゲージ、加速度計、位置検出器、ＲＭＳ電流および電圧メータなどの電力センサ、ならびに振動検出器および整定時間測定器などの構成部品性能エバリュエータが含まれる）、ならびに、ロボットの外部装置（その限定的でない例には、ビデオカメラおよび近接検出器が含まれる）を含む。アクチュエータは、通常、２つの状態をもつ装置であり、その限定的でない例には、オン／オフスイッチおよび開／閉グリッパが含まれる。

[006]本発明の実施形態による半教師付きシーケンス学習では、システムは、マトリクスの中の値を対象手順の目標として使用するように教えられる。ロボットの出力値がマトリクスの値とより近く相関すればするほど、ロボットは対象手順をより良く遂行している。ロボット出力と目標マトリクスの間の相関関係を最適化することを求めることにより、コントローラはいかに最良に手順を遂行するかを学習する。本発明の例では、学習工程が進み、その結果、コントローラは動作環境およびロボットの状態における経時変化を絶え間なく補償する。

[007]本発明と見なされる主題は、明細書の最終部分において具体的に指摘され明確に特許請求される。本発明の実施形態は、実施形態を図示する添付図面とともに読むと、動作の構成と方法の両方に関して、その目的、特徴、および利点とともに、以下の詳細説明を参照することによって最も良く理解することができる。

[008]本発明の実施形態によるシステムを示す図である。 [009]本発明の実施形態による方法の構成要素を示す図である。 [0010]本発明の実施形態による方法の構成要素を示す図である。 [0011]本発明の実施形態による方法の構成要素を示す図である。 [0012]本発明の実施形態による方法の流れ図を示す図である。

[0013]説明を簡単および明確にするために、図において示された構成要素は、必ずしも縮尺通りに描かれていないことが理解されよう。例えば、明確にするために、いくつかの構成要素の大きさは他の構成要素と比べて誇張されている場合がある。さらに、適切と考えられるところでは、対応する、または類似の構成要素を示すために、参照数字は図の間で繰り返される場合がある。

[0014]以下の詳細説明では、本発明を完全に理解するために、多数の特定の詳細が説明される。しかしながら、本発明は特定の詳細がなくても実践できることが当業者によって理解されよう。他の例では、良く知られている方法、手順、および構成部品は、本発明を不明瞭にしないように詳細に説明されていない。

[0015]特に断らない限り、以下の説明から明白なように、明細書の説明全体を通して、「処理」、「算出」、「格納」、「決定」、「評価」、「計算」、「測定」、「提供」、「転送」などの用語の利用は、計算機システムのレジスタ内および／もしくはメモリ内の電子的などの物理的な量として表現されたデータを操作し、かつ／または、計算機システムのメモリ、レジスタもしくは他のそのような情報を格納、伝送もしくは表示する装置の内部の物理的な量として同様に表現された他のデータに変換する、コンピュータすなわち計算機システム、または同様の電子計算装置の動作および／または処理を参照することが理解されよう。

[0016]図１は、本発明の例による学習／制御システム１０１を示す。システム１０１は、中央処理装置１０３、データ格納装置１０５、および活動状態のデータベース１０９を含むメモリ装置１０７を含む。信号インタフェース１１１は、人工神経回路網を含むコントローラ１２５を介してロボット１２３から信号を受信する能力がある。相関器１１３は、２つ以上の信号を相互に関連付け、相関出力を作成する能力があり、相関出力の限定的でない例には、相互相関、順位相関、積率相関、および距離相関が含まれる。微分器１１５は、高次微分を含む信号の時間微分を出力する能力があり、積分器１１７は信号の時間積分を出力する能力がある。微分器１１５および積分器１１７の出力は、処理装置１０３の制御下で相関器１１３の中に入力することができる。マトリクス装置１１９は、相関器１１３によって出力された値を含む類似度マトリクスを生成し、コントローラ１２５を介して人工神経回路網（ＡＮＮ）にマトリクスを送信する能力がある。本発明の例では、マトリクス装置１１９によって生成されたマトリクスは、データ格納装置１０５の中に格納される。低レベル制御インタフェース１２１は、コントローラ１２５を介して直接制御コマンドをロボット１２３に送信する。これはヒューマンロボットインタフェース１２７を介して実行することができ、この中で人間のオペレータは、ジョイスティックまたは同様の装置などの手動操作器を使用してコントローラ１２５を介してロボット１２３を直接制御する。あるいは、ロボット１２３への制御コマンドは、コントローラ１２５へのコマンドインタフェース１２９を介して、システム１０１上で走るソフトウェアによって生成することができる。本発明の実施形態では、「コマンド」は低レベルでロボットコントローラによって解釈することができる命令である。コマンドは、「Ｇｏｔｏ＜Ｘ，Ｙ，Ｚ＞」などの形式言語のコンテキストで表現することができる。ここで、＜Ｘ，Ｙ，Ｚ＞はロボットコントローラが認識するようにプログラムされた座標のポイントを表す。アグリゲータ１３１は、ロボット１２３の運動学モデルに従ってＡＮＮからのコマンド信号を結合し、結果として生じた被変調制御信号を、制御インタフェース１２５を介してロボット１２３に送信する。

[0017]下記で述べるように、（ヒューマンロボットインタフェース１２７を介するか、またはプログラムに基づいた制御による）ロボット１２３の直接制御は、学ぶべき動作の実演をロボット１２３に提供する。プログラムに基づいた制御の利点は、実演された動作を正確に繰り返すことができ、何回も繰り返すことができることである。本発明の実施形態では、動作を繰り返す回数はＮと表記される。

[0018]概して、ロボット１２３に関連する信号およびコマンドは可変量であり、それらは時間および／または周波数、あるいは他のパラメータの関数である。
[0019]本発明の実施形態によれば、複数の信号がロボット１２３から受信され、類似度の測定値を取得するためにお互いと比較される。図２は実施形態による２つの信号の比較を示す。Ｓ１と表記された第１の信号２０１は、時間軸２０５に対して振幅軸２０３によるプロットとして示され、Ｓ２と表記された第２の信号２０７は、時間軸２１１に対して振幅軸２０９によるプロットとして示される。Ｓ１信号２０１とＳ２信号２０７は、Ｋ個の異なる信号毎にＮ個のサンプルを含むサンプルセット２１９から取られた例示用の２つの信号である。方向２１７にスライドするスライドウインドウ２１５は、両方の信号を採取し、サンプルを類似度解析装置２２１に供給する。一例では、類似度解析装置２２１は、Ｓ１信号２０１とＳ２信号２０７の類似度を、それらの間の類似度の関数を評価することにより解析する。限定的でない例では、類似度解析装置２２１は、Ｓ１信号２０１とＳ２信号２０７の大きさ−位相の相互相関を実行する。次いで、相互に関連付けられた値は、それによってＫ×Ｋの類似度マトリクス２２３を算出するために適切なエントリの中に置かれる。概して、相関値は複素数であり、大きさと位相の両方における相関関係を表す。ある特定の実施形態では、類似度マトリクス２２３は、２つの別々のマトリクスとして表され、一方は相関関係の実数部を含み、他方は虚数部を含む。いくつかの実施形態では、類似度マトリクス２２３の構成要素は、相関関係の関数の値であり、そのような関数の限定的でない例には、正規化関数、計量関数などが含まれる。動作がＮ回繰り返されてＮ個のサンプルをもたらすとき、明示的な平均演算を実行する必要はない。相関関係自体が繰返しを考慮に入れている。

[0020]類似度マトリクス２２３は時間の関数であり、したがって、時間的に変化する関数を近似するためにマトリクス２２３の多くのインスタンスはメモリの中に格納される。限定的でない例では、０．１秒毎のスナップショットに分解された１０秒の動作は、メモリまたはデータベースエントリの中に格納されたマトリクス２２３の１００個のインスタンスを有する。類似度マトリクスＭ（ｔ）は、単にオフセットを適用することにより、Ｔ_０秒毎に時間移動されてＭ（ｔ＋Ｔ_０）を得ることができる。したがって、特定の動作用の類似度マトリクスをもつことは、遅れた時間の同じ動作用の類似度マトリクスを自動的に提供する。

[0021]図３は上述の図２の構成要素の拡大図を示す。Ｎ×Ｋ個の入力配列３０１は、Ｋ個の異なる信号毎にＮ個のサンプルを含む。信号の限定的でない例には、第１のセンサ入力３０３、第２のセンサ入力３０５、・・・、第１のアクチュエータ入力３０７、第２のアクチュエータ入力３０９、・・・、第１の属性入力３１１、第２の属性入力３１３、・・・、第１の位置入力３１５、第２の位置入力３１７、・・・が含まれ、Ｋ番目の入力３１９で終わる。

[0022]入力配列３０１は、Ｌ×Ｎ×Ｋ個の拡張入力配列３２１のＮ×Ｋ個の構成要素から成る状態入力３２５として入力される。図３の限定的でない例ではＬ＝４であるが、Ｌの他の値も実現可能である。

[0023]図３の限定的でない例では、入力配列３０１の各構成要素は時間積分されて、積分状態入力３２３用の別のＮ×Ｋ個の構成要素を作成する。入力配列３０１の各構成要素は時間微分されて、第１の微分状態入力３２７用の別のＮ×Ｋ個の構成要素を作成する。第１の微分状態入力３２７の各構成要素は、再び時間微分されて、第２の微分状態入力３２９用の別のＮ×Ｋ個の構成要素を作成する。他の例では、他の高次モーメントが使用される。図３の例では、位置センサの第２の微分は加速度値をもたらす。別の例（図示せず）では、加速度センサの二重積分は位置オフセットをもたらす。第２の微分、第１の微分、状態、積分、および二重積分が使用されると、Ｌ＝５である。

[0024]拡張入力配列３２１の（それぞれが可変量である）構成要素は相互に関連付けられて、（図３の限定的でない例において示されたように、値Ｌ＝４を使用して）（４×Ｋ）×（４×Ｋ）＝１６×Ｋ^２個の平方拡張類似度マトリクス３３１を作成する。概して、拡張類似度マトリクス３３１の要素ｉ、ｊは、信号Ｓｉの信号Ｓｊとの相関関係である。

[0025]拡張類似度マトリクス３３１は、作業実行中のロボットの動作、すなわち、動作の個別の側面だけでなく、各側面が他の側面すべてに関係する方法も特徴付ける。
[0026]上記の例について説明した信号の振幅／時間領域解析に加えて、他の例は、振幅／周波数領域解析（フーリエ変換）、周波数／時間解析（短時間フーリエ変換すなわちＳＴＦＴ）、および時間／ウェーブレット（「多重解像度」）解析を使用する。

[0027]他の、または異なる一連の演算も使用することができる。
[0028]図４は、以下のような、限定的でない例による方法の構成要素を示す。ロボット１２３用の運動学モデル４００は、連結部品４０１、４０５、４０９、４１３、４１７、４２１、および４２５、関節４０３、４０７、４１１、４１５、４１９、および４２３、ならびにグリッパ４２７について、構成要素をモデル化することを含む。位置および方位は座標系４２９に対して測定される。

[0029]「左に動く」動作用の拡張類似度マトリクス４５１は、「左に動く」動作用の制御コマンド４５２とともに、人工神経回路網（「ＡＮＮ」）４５７への入力である。こうして、ＡＮＮ４５７は、類似度マトリクス４５１を「左に動く」動作の制御コマンド４５２と関連付けることを学習する。「５秒で上昇する」動作用の拡張類似度マトリクス４５３も、「５秒で上昇する」動作用の制御コマンド４５４とともに、ＡＮＮ４５７への入力である。こうして、ＡＮＮ４５７は、類似度マトリクス４５３を「５秒で上昇する」動作の制御コマンド４５４と関連付けることも学習する。拡張類似度マトリクス４５１と４５３が与えられると、ＡＮＮ４５７は、ロボット１２３を制御して「左に動く」と「５秒で上昇する」の結合動作を実行するための制御信号を出力する。

[0030]本発明のある特定の実施形態によれば、各動作グループはそれ自身の類似度マトリクスを有しており、この限定的でない例では、「グリッパを閉める」動作用の拡張類似度マトリクス４５５も、「グリッパを閉める」動作用の制御コマンド４５６とともに、人工神経回路網４５９への入力である。こうして、ＡＮＮ４５９は、類似度マトリクス４５５を「グリッパを閉める」動作の制御コマンド４５６と関連付けることを学習する。この例では、「グリッパを閉める」動作は、「左に動く」と「５秒で上昇する」とは異なる動作グループに含まれる。何故なら、「動く」動作は位置の検知による連続的な位置決め運動を要するが、「閉める」動作は力の検知による２値状態（開または閉）を要するからである。

[0031]「グリッパを閉め、次いで左に動き、次いで５秒で上昇する」作業の場合、運動学モデル４００に従って、上記の出力はアグリゲータ４６１の中で結合されて、ロボット１２３への被変調制御信号４６３を作成する。ＡＮＮ４５７および４５９からの制御信号出力が線形である本発明のある特定の実施形態では、アグリゲータ４６１は、加算を実行することにより制御信号を集める。本発明の実施形態では、任意の数の異なる動作グループを一緒に集めて、特定の作業を実行することができる。

[0032]「半教師付き学習」では、システムを初期化するとき、および変更、修正を行うとき、および定期的なメンテナンスを行うときだけ、教師付き学習が必要である。本発明の実施形態では、メンテナンスの再訓練は１００サイクル毎に実施される。教師付き学習セッションの合間では、システムは、制御ループを修正せずに、教師なしの動作を行うことができる。

[0033]運動学モデルは、通常、ロボット工学において使用されて、エンドエフェクタの位置を関節パラメータに（順方向の運動学モデル）、および関節パラメータをエンドエフェクタの位置に（逆方向の運動学モデル）関係付ける。通常、運動学モデルは関節拘束のセットを要し、そのためアグリゲータ４６１へ運動学モデル４００を入力すると、被変調制御信号４６３がロボット１２３の拘束に従うことが保証される。

[0034]結合はロボット４００用の制御ループとして機能する。処理が繰り返され、拡張類似度マトリクス４５１、４５３、および４５５を再計算するために必要なパラメータ、属性、および信号を測定する。

[0035]図５は、本発明の実施形態による方法の流れ図を示す。ステップ５０１において、直接コマンド５０３で動作がロボットに対して実演される。ステップ５０５において、類似度マトリクス５０７が算出され、ステップ５０９において、直接コマンド５０３および類似度マトリクス５０７が人工神経回路網（ＡＮＮ）に入力されて信号５１１を取得する。ステップ５１３において、ロボットの運動学モデル５１５に従って信号５１１が集められて、被変調制御信号５１７を出力して、動作を実行するようにロボットを制御する。

[0036]本発明の実施形態は、本明細書に記載した動作を実行するための装置を含むことができる。そのような装置は、所望の目的のために特別に構成することができるか、または、コンピュータ内に格納されたコンピュータプログラムにより選択的に起動されるかもしくは再構成された、コンピュータもしくはプロセッサを備えることができる。そのようなコンピュータプログラムは、コンピュータ可読もしくはプロセッサ可読の持続性記憶媒体、フロッピディスク、光ディスク、ＣＤ−ＲＯＭ、磁気光ディスクを含む任意のタイプのディスク、リード・オンリ・メモリ（ＲＯＭ）、ランダム・アクセス・メモリ（ＲＡＭ）、電子的プログラム可能リード・オンリ・メモリ（ＥＰＲＯＭ）、電子的消去可能およびプログラム可能リード・オンリ・メモリ（ＥＥＰＲＯＭ）、磁気式もしくは光学式カード、またはその他の任意のタイプの電子命令を格納するのに適切な持続性有形媒体の中に格納することができる。さまざまなプログラミング言語を使用して、本明細書に記載した本発明の教示を実装できることが理解されよう。本発明の実施形態は、プロセッサまたはコントローラによって実行されると、プロセッサまたはコントローラに本明細書で開示された方法を遂行させる命令、例えばコンピュータ実行可能命令を符号化する、含む、または格納する、例えば、メモリ、ディスクドライブ、またはＵＳＢフラッシュメモリなどのコンピュータ可読またはプロセッサ可読の持続性記憶媒体などの物品を含むことができる。命令は、プロセッサまたはコントローラに、本明細書で開示された方法を遂行する処理を実行させることができる。

[0037]さまざまな実施形態が本明細書で開示されている。ある特定の実施形態の特徴は他の実施形態の特徴と結合することができ、したがって、ある特定の実施形態は複数の実施形態の特徴の組合せであり得る。本発明の実施形態の前述の説明は、例示および説明の目的で提示された。それは網羅的なものでも、本発明を開示された厳密な形態に限定するものでもない。上記の教示に照らして、多くの修正形態、変形形態、置換形態、変更形態、および均等形態が実現可能であることは、当業者によって理解されるべきである。したがって、添付の特許請求の範囲は、すべてのそのような修正形態および変更形態を、本発明の本当の精神の範囲に入るものとしてカバーするものであることが理解されよう。

Claims

ロボットを制御して作業を実行する手続き記憶学習のための方法であって、
低レベルインタフェースを介して直接制御コマンドで前記ロボットを制御して前記作業の動作を実行することにより、前記作業を前記ロボットに対して実演するステップと、
前記ロボットから前記動作に関連した複数の信号を受信するステップと、
構成要素が前記複数の信号の類似度の少なくとも１つの関数による値を含む、類似度マトリクスを算出するステップと、
前記ロボットの人工神経回路網（ＡＮＮ）コントローラに
前記直接制御コマンド、および
前記類似度マトリクス
を入力するステップと、
前記ＡＮＮコントローラから前記ロボットを制御する制御信号を受信するステップと、
前記ロボットの運動学モデルに従って、アグリゲータにより前記ＡＮＮコントローラから前記制御信号を集めるステップと、
集められた制御信号を前記アグリゲータから前記ロボットに送信して前記作業を実行するステップと
を含む方法。
前記類似度の少なくとも１つの関数が、相関、相互相関、順位相関、積率相関、および距離相関から成るグループから選択される、請求項１に記載の方法。
前記類似度マトリクスの前記構成要素の前記値が、実数部と虚数部をもつ複素数である、請求項１に記載の方法。
前記実数部と前記虚数部が、２つの別々のマトリクスによって表現された、請求項３に記載の方法。
前記類似度マトリクスは、値が積分値および微分値から成るグループから選択された少なくとも１つのモーメントをさらに含む拡張類似度マトリクスである、請求項１に記載の方法。
人工神経回路網コントローラから別の制御信号を受信するステップと、
前記アグリゲータにより前記別の制御信号を前記制御信号と集めるステップと
をさらに含む、請求項１に記載の方法。
ロボットを制御して作業を実行する手続き記憶学習のための装置であって、前記ロボットが人工神経回路網（ＡＮＮ）を含むロボットコントローラを有し、前記装置が、
前記ロボットコントローラから複数の信号を受信するための信号インタフェースと、
前記信号のうちの少なくとも２つの相関関係を生成し、相関関係の出力を作成するための相関器と、
前記相関関係を含む構成要素を有する類似度マトリクスを生成し、前記ロボットコントローラを介して前記マトリクスを前記ＡＮＮに送信するためのマトリクス装置と、
直接制御コマンドを前記ロボットコントローラに送信するための低レベル制御インタフェースと、
前記ロボットの運動学モデルに従って前記ＡＮＮから制御信号を集めるためのアグリゲータと
を備える装置。
微分値を生成して前記類似度マトリクスを拡張するための微分器をさらに備える、請求項７に記載の装置。
積分値を生成して前記類似度マトリクスを拡張するための積分器をさらに備える、請求項７に記載の装置。
ロボットを制御して作業を実行する手続き記憶学習のためのコンピュータ実行可能命令を含む、コンピュータ可読持続性記憶媒体であって、前記命令がコンピュータによって実行されると前記コンピュータに請求項１に記載の方法を遂行させる、コンピュータ可読持続性記憶媒体。
前記コンピュータによって実行されると前記コンピュータに請求項２に記載の方法を遂行させる、コンピュータ実行可能命令をさらに含む、請求項１０に記載のコンピュータ可読持続性記憶媒体。
前記コンピュータによって実行されると前記コンピュータに請求項５に記載の方法を遂行させる、コンピュータ実行可能命令をさらに含む、請求項１０に記載のコンピュータ可読持続性記憶媒体。