JP7443314B2

JP7443314B2 - ３ｄテレプレゼンスシステム

Info

Publication number: JP7443314B2
Application number: JP2021170889A
Authority: JP
Inventors: ゴールドマン，ダニエル; ローレンス，ジェイソン; ホイバーズ，アンドリュー; ラッセル，アンドリュー・イアン; サイツ，スティーブン・エム
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-09-09
Filing date: 2021-10-19
Publication date: 2024-03-05
Anticipated expiration: 2037-09-08
Also published as: US20180077430A1; DE202017105484U1; JP2019533324A; US20190306541A1; JP2022009242A; EP3510768A1; JP7001675B2; US20180077437A1; CN109565567A; KR20200096322A; US20180077384A1; EP3510768B1; US10750210B2; CN112584080A; US10327014B2; US20200344500A1; CN109565567B; US10880582B2; CN112584080B; WO2018049201A1

Description

関連出願の相互参照
本願は、２０１６年９月９日に出願され、「３Ｄテレプレゼンスシステム」と題された米国特許仮出願第６２／３８５６８５号の優先権を主張し、当該出願の全ての内容は、参照により本明細書に組み込まれる。

背景
テレビ会議システムなどの会議システムは、様々な環境に使用され、参加者が同一の場所にいる必要がなく、仮想会議を行う可能性を与える。テレビ会議システムは、例えば、ディスプレイ、通信リンク、スピーカおよびマイクロホンを備えるため、参加者は、リモート参加者を見ることができ、リモート参加者と通信することができる。参加者が話す相手を見ることができるため、テレビ会議システムは、書面または口頭による通信よりも、議論されている話題をより良く理解することができる。また、テレビ会議システムの場合、全ての参加者が同一の場所にいる必要がないため、会議の予定をより簡単に行うことができる。さらに、テレビ会議システムの場合、移動する必要がないため、資源（例えば、時間および金銭）の浪費を減らすことができる。従来のテレビ会議システムは、通常、通信システム（例えば、電話、ＶｏＩＰシステムなど）、標準のビデオモニタ（例えば、ＣＲＴディスプレイ、プラズマディスプレイ、ＨＤディスプレイ、ＬＥＤディスプレイ、またはＬＣＤディスプレイ）、カメラ、マイクロホン、およびスピーカを含む。

概要
以下の本開示の実施形態は、テレビ会議システムおよびテレプレゼンスシステムに関する。少なくともいくつかの実装形態は、ヘッドマウントディスプレイ、ヘッドフォン、および／または他の任意種類の物理的な部材を使用しない３Ｄテレプレゼンスを提供する。

一局面において、テレプレゼンス端末は、画素グリッドの前方に配置されたマイクロレンズアレイを有するディスプレイを含む。また、この端末は、画像センサと、赤外線エミッタと、赤外線深度センサとを含むことができる。この端末は、処理装置と、命令を格納するメモリとをさらに含むことができる。これらの命令は、実行されると、画像センサによって捕捉された可視光に基づいて、画像データを決定することと、赤外線エミッタによって出射され、赤外線深度センサによって捕捉された赤外線に基づいて、深度データを決定することとを含む動作を処理装置に実行させることができる。また、動作は、深度データおよび画像データをリモートテレプレゼンス端末に伝達することと、リモートテレプレゼンス端末から送信されたリモート画像データおよびリモート深度データを受信することとを含むことができる。動作は、リモート画像データに基づいて、画素グリッドの第１画素サブセットを用いて、第１視点からマイクロレンズアレイを通って見える第１表示画像を生成することと、リモート画像データおよびリモート深度データに基づいて、画素グリッドの第２画素サブセットを用いて、第２視点からマイクロレンズアレイを通って見える第２表示画像を生成することをさらに含むことができる。

いくつかの実施形態において、第１表示画像および第２表示画像は、視差をシミュレートする差異を有するように、受信された深度データに基づいて生成されてもよい。この場合、命令は、テレプレゼンス端末のユーザの位置を決定することを含む動作をさらに処理装置に実行させることができる。テレプレゼンス端末のユーザの位置は、例えば、深度データおよび／または画像データに基づいて決定されてもよい。例えば、第１表示画像およ
び第２表示画像は、視差をシミュレートする差異を有するように、決定されたユーザの位置に基づいて生成されてもよい。

いくつかの実施形態において、命令は、リモート画像データおよびリモート深度データ並びにテレプレゼンス端末のユーザの決定された位置を用いて、ディスプレイに３Ｄ立体画像を生成することを含む動作をさらに処理装置に実行させることができる。

上記の実施形態と組み合わせることができるいくつかの実施形態において、命令は、第１方向において、第１表示画像の第１部分を生成することと、第２方向において、第２表示画像の第２部分を生成することとを含む動作をさらに処理装置に実行させることができる。例えば、マイクロレンズアレイのマイクロレンズは、１つ以上の角度に光を出射しおよび／または１つ以上の異なる方向に異なる画素値を表示するように構成することができる。第１方向は、第１位置に基づいて決定されてもよく、第２方向は、第２位置に基づいて決定されてもよい。

いくつかの実施形態において、命令は、赤外線エミッタによって出射された第１赤外線と、第１赤外線の出射光路に位置する物体によって反射され、赤外線深度センサによって捕捉された第２赤外線との間の位相オフセットを測定するためのタイムオブフライト法に基づいて、深度データを決定することを含む動作をさらに処理装置に実行させることができる。

いくつかの実施形態において、テレプレゼンス端末は、ディスプレイの第１側に配置された第１マイクロホンおよびディスプレイの第２側に配置された第２マイクロホンを含むマイクロホンアセンブリと、ディスプレイの第１側に配置された第１スピーカおよびディスプレイの第２側に配置された第２スピーカを含むスピーカアセンブリとをさらに備えることができる。このような実施形態において、命令は、マイクロホンアセンブリを用いて、指向性音声データを捕捉することと、指向性音声データをリモート端末に伝達することと、リモート端末からリモート指向性音声データを受信することと、リモート指向性音声データに基づいて、スピーカアセンブリを用いて音声を出力することとを含む動作をさらに処理装置に実行させることができる。

テレプレゼンス端末は、画像センサと赤外線エミッタと赤外線深度センサとを含む少なくとも１つのカメラユニットを含むカメラアセンブリを備えることができる。ディスプレイが透明である場合、少なくとも１つのカメラユニットは、ディスプレイの後方に配置されてもよい。透明ディスプレイの場合、ディスプレイは、オフ状態と点灯状態との間で切り替えることができ、命令は、可視光および赤外線の捕捉をディスプレイのオフ状態と同期させることを含む動作をさらに処理装置に実行させることができる。このような実施形態において、マイクロレンズアレイのマイクロレンズは、第１材料および第２材料から作られてもよい。第１材料は、実質的に電流に影響されない材料であり、第２材料は、実質的に電流に影響される材料である。第１材料と第２材料とは、電流を第１材料および第２材料に印加していないときに異なる屈折率を有する。

いくつかの実施形態において、テレプレゼンス端末は、入射光を分割し、分割された入射光を画像センサおよび赤外線深度センサに伝送するビームスプリッタをさらに備えることができる。したがって、ビームスプリッタは、画像センサおよび赤外線深度センサが同様の光線を受光するように入射光を分割することができる。

他の局面において、方法は、赤外線エミッタを用いて、第１赤外線を生成することを含む。また、方法は、赤外線深度センサを用いて、第２赤外線を受光することを含む。第２赤外線は、出射された第１赤外線の反射によって引き起こされてもよい。また、方法は、
第１赤外線および第２赤外線に基づいて、取得された深度データを決定すること、および画像センサによって捕捉された可視光に基づいて、取得された画像データを決定することを含むことができる。また、方法は、取得された深度データおよび取得された画像データをリモート端末に伝達することを含むことができる。方法は、画素グリッドの第１サブセットを用いて、リモート端末から受信された画像データに基づいて、第１位置からマイクロレンズアレイを通って見える第１表示画像を生成することと、画素グリッドの第２サブセットを用いて、リモート端末から受信された画像データおよび深度データに基づいて、第２位置からマイクロレンズアレイを通って見える第２表示画像を生成することとをさらに含むことができる。

別の局面において、非一時的コンピュータ可読記憶媒体は、命令を格納する。これらの命令は、少なくとも１つのプロセッサによって実行されると、少なくとも以下のこと、すなわち、赤外線エミッタを用いて、第１赤外線を生成することと、赤外線深度センサを用いて、第２赤外線を受光することと、第１赤外線および第２赤外線に基づいて、深度データを決定することと、画像センサによって捕捉された可視光に基づいて、画像データを決定することと、深度データおよび画像データをリモートテレプレゼンス端末に送信することと、レンチキュラディスプレイ（lenticular display）を用いて、リモート端末から受信された画像データに基づいて、第１位置から見える第１表示画像を生成することと、レンチキュラディスプレイを用いて、リモート端末から受信された画像データおよび深度データに基づいて、第２位置から見える第２表示画像を生成することとをコンピューティングシステムに実行させるように構成される。深度データは、リモート端末から受信されてもよい。

この局面の他の実施形態は、各々が上記に要約した方法の動作を実行するように構成された対応のコンピュータシステム、装置、および１つ以上のコンピュータ記憶装置に記録されたコンピュータプログラムを含む。

一局面において、テレプレゼンスシステム内のローカル端末は、ディスプレイを含む。ディスプレイは、画素グリッドの前方に配置されたマイクロレンズアレイを含む。ローカル端末は、１つ以上のカメラユニットをさらに含む。カメラユニットは、レンズと、画像センサと、赤外線エミッタと、赤外線深度センサとを含むことができる。ローカル端末は、処理装置と、実行されると処理装置に動作を実行させる命令を格納するメモリとをさらに含む。動作は、ローカル端末の画像センサによって捕捉された可視光に基づいて、ローカル画像データを決定することと、ローカル端末の赤外線深度センサによって捕捉された赤外線に基づいて、ローカル深度データを決定することとを含むことができる。ローカル深度データは、ローカル端末に対して視聴者の位置に依存することができる。また、動作は、ローカル深度データおよびローカル画像データをリモートテレビ会議端末に送信することを含むことができる。また、動作は、リモート画像データおよびローカル位置データ（例えば、ローカル深度データ）に基づいて、マイクロレンズアレイのマイクロレンズを通って、第１方向に第１画像の第１部分を生成することを含むことができる。位置データは、場所－位置データと呼ぶことができる。リモート画像データは、リモートテレビ会議端末から発信され、リモート深度データに依存することができる。また、動作は、リモート画像データおよびローカル位置データに基づいて、マイクロレンズアレイのマイクロレンズを通って、第２方向に第２画像を生成することを含むことができる。ローカル位置データは、ローカルテレビ会議端末から発信されてもよい。第１方向および第２方向は、ローカル位置データに応じて異なってもよい。例えば、第１方向は、第１位置（例えば、ユーザの第１目）から見える方向であってもよく、第２方向は、第２位置（例えば、ユーザの第２目）から見える方向あってもよい。いくつかの実施形態において、端末は、各々が１つ以上のレンズを含むことができる複数のカメラユニットを備えることができる。いくつかの実施形態において、１つ以上の画像の一部は、マイクロレンズアレイの各マイクロ
レンズ上に生成されてもよい。いくつかの実施形態において、第１方向は、第１画像の一部を表示するように、複数の画素から第１画素を選択することによって決定されてもよく、第２方向は、第２画像の一部を表示するように、複数の画素から第２画素を選択することによって決定されてもよい。

この局面のいくつかの実施形態において、ローカル位置データは、ローカル端末のユーザに対応する位置データを含む。いくつかの実施形態において、位置データは、深度データを含むことができる。

この局面の他の実施形態は、テレビ会議システムのメモリに格納された命令に従って、処理装置の動作を実行するように構成された対応の方法を含む。

別の局面において、３Ｄテレプレゼンスを提供するための方法は、赤外線エミッタを用いて第１赤外線を生成することと、赤外線深度センサを用いて第２赤外線を受光することとを含む。第１赤外線および第２赤外線に基づいて、深度データを決定することができ、画像センサによって捕捉された可視光に基づいて、画像データを決定することができる。決定された深度データおよび決定された画像データは、リモートテレビ会議端末に送信することができる。リモートテレビ会議端末から受信された画像データに基づいて、ローカル端末のマイクロレンズアレイのマイクロレンズを通って、第１方向に第１画像を生成し、リモートテレビ会議端末から受信された画像データおよびローカル端末のユーザに対応する位置データに基づいて、ローカル端末のマイクロレンズアレイのマイクロレンズを通って、第２方向に第２画像を生成する。第１画像と第２画像とは、位置データによって異なる。

この局面のいくつかの実施形態において、マイクロレンズアレイのマイクロレンズを通って第１画像および／または第２画像を生成することは、画像センサによって画像が撮影されたユーザに対応する位置データにさらに基づいて行われる。

１つ以上の実施形態の詳細は、添付の図面および以下の説明に記載される。他の特徴は、説明および図面並びに特許請求の範囲から明らかになるだろう。

様々な図面において、同様の参照記号は、同様の要素を示す。

開示された実施形態に従ったテレビ会議システムの一例を示す図である。開示された実施形態に従ったテレビ会議システムの一例を示す図である。開示された実施形態に従ったテレビ会議端末の一例を示す図である。開示された実施形態に従ったテレビ会議端末の一例を示す図である。開示された実施形態に従ったカメラユニットの一例を示す図である。開示された実施形態に従ったテレビ会議端末に３Ｄ画像を生成するためのプロセスを示すフローチャートである。開示された実施形態に従った技術を実現するために使用され得るコンピュータ装置の一例を示す図である。実施形態に係る深さおよび投影の例である。実施形態に係る深さおよび投影の例である。実施形態に係る深さおよび投影の例である。実施形態に係る深さおよび投影の例である。実施形態に係る深さおよび投影の例である。実施形態に係る深さおよび投影の例である。実施形態に係る深さおよび投影の例である。実施形態に係る３Ｄテレプレゼンスシステムを示す概略図である。

詳細な説明
従来のテレビ会議システムは、（例えば、ビデオを有しない）リモート会議よりも対面会議に近い体験を提供するが、「実在の」会議体験を損なう制限を有する。例えば、伝統的なテレビ会議のディスプレイは、２Ｄ画像を提示し、実在の深度を表現する能力が限られている。その結果、テレビ会議の参加者は、他の参加者との共存感を有しない。さらに、従来のテレビ会議システムのカメラの配置によって、参加者は、直接なアイコンタクトを取ることができない。すなわち、各参加者が各々のディスプレイを直視しているが、カメラは、ディスプレイを通って参加者の画像を取得していない。一部のテレビ会議システムは、仮想現実に近いテレビ会議体験を提供するが、この場合、３Ｄ画像の表現を体験するために、参加者は、ヘッドマウントディスプレイ、ゴーグルまたは３Ｄメガネを着用する必要がある。

したがって、本明細書に開示された実施形態は、ヘッドマウントディスプレイおよび３Ｄメガネを使用することなく、従来のテレビ会議システムに比べてより現実的な対面体験を提供する３Ｄテレプレゼンスシステムに関する。テレビ会議システムおよび画像会議システムは、テレプレゼンスシステムのいくつかの例である。開示された実施形態に従って、３Ｄテレプレゼンスシステムは、マイクロレンズアレイに配置された複数のマイクロレンズを含み、メガネを使用する必要のない（glasses-free）３Ｄレンチキュラディスプレイ（lenticular display）を備えることができる。いくつかの実施形態によれば、マイクロレンズアレイは、複数のマイクロレンズ群（またはサブアレイ）を含むことができ、複数のマイクロレンズ群（またはサブアレイ）の各々は、１つ以上の角度に光を出射しおよび／または１つ以上の異なる方向に異なる色の画素値（例えば、ＲＧＢ画素値）を表示するように構成された数個のマイクロレンズを含む。マイクロレンズ群／サブアレイをディスプレイに含むによって、異なる視野角に異なる画像を示すことができる（すなわち、異なる視点から異なる画像を見える）。３Ｄテレプレゼンスシステムのいくつかの実施形態において、複数のマイクロレンズ群の各々は、少なくとも２つのマイクロレンズを含み、３Ｄ画像は、少なくとも１つのマイクロレンズを通って、第１画像の一部（例えば、第１画素）を第１方向に投影することによって生成され、少なくとも１つの他のマイクロレンズを通って、第２画像の一部（例えば、第２画素）を第２方向に投影することによって生成されてもよい。第２画像は、第１画像と同様であってもよいが、視差をシミュレートするように第１画像からシフトされてもよい。これによって、視聴者に３Ｄ立体画像を生成することができる。

また、本明細書に開示された３Ｄテレプレゼンスシステムは、１つ以上のカメラユニットを有するカメラアセンブリを含むことができる。各カメラユニットは、可視光（例えば、色）を捕捉するための画像センサと、赤外線エミッタと、赤外線エミッタから出射され、視聴者および視聴者の周囲の物体から反射された赤外線を捕捉するための赤外線深度センサとを含むことができる。いくつかの実施形態において、カメラユニットの１つ以上の構成要素（例えば、画像センサ、赤外線エミッタおよび赤外線深度センサ）は、同一の場所に配置されなくてもよい。いくつかの実施形態において、３Ｄテレプレゼンスシステムの第１端末は、捕捉された可視光および捕捉された赤外線の組み合わせを用いて、第１端末画像データおよび第１端末深度データを生成することができる。これらのデータは、３Ｄテレプレゼンスシステムの第２端末に送信される。いくつかの実施形態において、３Ｄテレプレゼンスシステムの第１端末は、３Ｄテレプレゼンスシステムの第２端末から第２端末画像データおよび第２端末深度データを受信し、第２端末画像データおよび第２端末深度データ並びに（例えば、第１端末の深度データに基づいて決定された）第１端末に対するユーザの位置に関連する位置データを用いて、第１端末のディスプレイ上に３Ｄ立体
画像を生成することができる。

３Ｄテレプレゼンスシステム１００の一実装例は、図１に示されている。２人のユーザ１０５ａおよび１０５ｂは、３Ｄテレプレゼンスシステム１００を用いて、リモートで対面通信を行うことができる。第１ユーザ１０５ａは、第２ユーザ１０５ｂから離れた場所にいる。第２ユーザ１０５ｂは、ディスプレイ１２５上に表示された第１ユーザ１０５ａの３Ｄ画像を見る。いくつかの実施形態において、ディスプレイ１２５は、第１ユーザ１０５ａおよび第２ユーザ１０５ｂの共存をシミュレートするために、第２ユーザ１０５ｂから一定の距離に配置され且つ適切なサイズを有する。例えば、ディスプレイ１２５は、第２ユーザ１０５ｂからテーブルの向こう側の１ｍの位置に配置されてもよく、ディスプレイ１２５は、１ｍのディスプレイであってもよい。カメラアセンブリ１８０は、可視光および赤外線を捕捉するように構成されてもよい。３Ｄテレプレゼンスシステム１００（例えば、第２ユーザ１０５ｂによって使用されている端末）は、捕捉された可視光および赤外線を用いて、（図１に示されていない）第１ユーザ１０５ａが見ているディスプレイに第２ユーザ１０５ｂの３Ｄ立体画像を表示することができる。いくつかの実施形態において、システム１００は、１つ以上のマイクロホンおよび／またはスピーカ（例えば、スピーカアレイ）を含むことができる。このようなシステム１００は、マイクロホンおよび／またはスピーカを用いて、立体的な音声をシミュレートすることができる（例えば、音声は、音源の位置に応じて立体的に生成される）。

図２は、２人のユーザの間に３Ｄテレビ会議を行うための３Ｄテレプレゼンスシステム１００を示すブロック図である。図２に示す実装例において、各々のユーザ（例えば、第１参加者および第２参加者）に対応する各端末１２０は、ネットワーク１９０を介して通信することができる。

図２に示す３Ｄテレプレゼンスシステム１００は、コンピュータ化することができる。この場合、図示された各構成要素は、ネットワーク１９０を介して他のコンピューティング装置と通信するように構成されたコンピューティング装置またはコンピューティング装置の一部を含む。例えば、各端末１２０は、ネットワーク１９０を介して他のコンピューティング装置とデータを送受信するように構成された１つ以上のコンピューティング装置、例えば、デスクトップ、ノートブックまたは携帯式コンピューティング装置を含むことができる。いくつかの実施形態において、各端末１２０は、特殊用途のテレビ会議装置であってもよい。この場合、端末１２０の各構成要素は、同一のハウジングに配置されている。いくつかの実施形態において、各端末１２０間の通信は、会議の設定、解散および／またはスケジューリングを管理するための１つ以上のサーバまたはコンピューティングクラスタ（図示せず）によって、促進されてもよい。いくつかの実施形態、例えば図２に示す実装例において、端末１２０は、ポイントツーポイント通信プロトコルを用いて通信することができる。

図２に示す実装例において、端末１２０は、テレビ会議の参加者によって使用される。いくつかの実施形態において、参加者は、同様の端末を使用している。例えば、テレビ会議中の通信を容易にするために、各参加者は、同様の構成または仕様を有する同型番の端末１２０または同様の方法で構成された端末１２０を使用することができる。いくつかの実施形態において、参加者によって使用された端末は、異なってもよいが、各端末は、画像および深度データを送受信し、ヘッドマウントディスプレイまたは３Ｄメガネを使用せず、３Ｄ立体画像を生成するように構成されている。説明を簡単にするために、図２の実装例は、３Ｄテレプレゼンスシステム１００の両端に配置された同一の端末１２０を示している。

いくつかの実施形態において、端末１２０は、ディスプレイ１２５を含む。いくつかの
実施形態において、ディスプレイ１２５は、メガネを使用する必要のない３Ｄレンチキュラディスプレイを含むことができる。ディスプレイ１２５は、複数のマイクロレンズからなるマイクロレンズアレイを含むことができる。いくつかの実施形態において、マイクロレンズアレイのマイクロレンズを用いて、第１位置から見える第１表示画像および第２位置から見える第２表示画像を生成することができる。ディスプレイ１２５は、視差をシミュレートするように、ユーザの第１眼の位置に対応する第１位置からマイクロレンズアレイを通って見られるように画素グリッドの一部に第１表示画像を形成し、ユーザの第２眼の位置に対応する第２位置からマイクロレンズアレイを通って見られるように画素グリッドの一部に第１表示画像から深度シフトされるものを表す第２表示画像を形成することによって、３Ｄ立体画像を生成することができる。例えば、画素グリッドは、マイクロレンズアレイを通って参加者の左眼によって見られるように意図した第１表示画像を表示することができ、マイクロレンズアレイを通って参加者の右眼によって見られるように意図した第２表示画像を表示することができる。第１位置および第２位置は、ディスプレイに対する視聴者の位置（例えば、横方向／垂直方向の場所、位置、深度、左眼または右眼の位置）に基づくことができる。いくつかの実施形態において、第１表示画像を生成するための第１方向および第２表示画像を生成するための第２方向は、マイクロレンズアレイに関連する画素のアレイから、特定の画素を選択することによって決定されてもよい。

いくつかの実施形態において、マイクロレンズアレイは、２つのマイクロレンズからなるマイクロレンズ対を複数含むことができ、ディスプレイ１２５は、少なくとも２つのマイクロレンズを用いて画像を表示ことができる。いくつかの実施形態において、処理装置１３０は、ディスプレイ１２５に対して参加者の位置（この位置は、開示された実施形態に従って、カメラアセンブリ１８０によって取得されてもよい）に対応する位置情報に基づいて、マイクロレンズを通って画像を見ることができる出射光線を選択することによって、左眼用画像および右眼用画像を表示することができる。いくつかの実施形態において、複数のマイクロレンズの各々は、いくつかの画素を覆う（例えば、その上方に配置されるまたはそれに関連付けられる）ことができる。これによって、各画素は、ディスプレイ１２５の前方のいくつかの限られた方向から見ることができる。視聴者の位置が既知である場合、一方の眼から見える各レンズの下方の（ディスプレイ１２５全体の）画素サブセットおよび他方の眼から見えるディスプレイ１２５の画素サブセットを特定することができる。各画素に対して、ユーザの目の位置から見える仮想視点に対応する適切な表示画像を選択することで、各目は、正しい画像を見ることができる。

処理装置１３０は、１つ以上の中央処理装置、グラフィック処理装置、他の種類の処理装置、またはそれらの組み合わせを含むことができる。

いくつかの実施形態において、マイクロレンズを通って少なくとも２つの画像を端末のユーザに同時に投影するための方向を決定するために、さまざまなメカニズムを用いて、端末に対するユーザの位置を決定することができる。例えば、赤外線追跡システムは、ユーザに関連付けられた１つ以上のマーカ（例えば、ユーザのメガネまたは帽子に取り付けられた反射マーカ）を使用することができる。他の例として、赤外線カメラを使用することができる。赤外線カメラは、少なくとも２つの画像からユーザの目の位置を特定し、三角法で３Ｄ位置を測定することができる比較的に高速の顔検出器を用いて、構成することができる。さらに別の例として、色画素（例えば、ＲＧＢ画素）および深度センサを用いて、ユーザの位置情報を決定する（例えば、直接的に決定する）ことができる。いくつかの実施形態において、このようなシステムを用いて精確な追跡を行うためのフレームレートは、少なくとも６０Ｈｚ（例えば、１２０Ｈｚ以上）あってもよい。

いくつかの実施形態において、ディスプレイ１２５は、切替可能な透明の３Ｄレンチキュラディスプレイを含むことができる。このような実施形態のディスプレイ１２５におい
て、テレビ会議中にアイコンタクトをシミュレートするために、カメラアセンブリ１８０をディスプレイ１２５の後方に配置することができる。いくつかの実施形態において、ディスプレイ１２５は、人間の目またはカメラレンズに容易に検知できない程十分に小さい有機発光ダイオード（ＯＬＥＤ）を含むことができる。これによって、ディスプレイ１２５は、事実上透明である。また、これらのＯＬＥＤは、十分な明るさを有することができる。そのため、これらのＯＬＥＤが点灯されたときに、発光面積が各ＯＬＥＤの面積よりも著しく大きい。その結果、ＯＬＥＤは、人間の目またはカメラレンズには容易に見えなくても、十分な明るさでディスプレイ１２５を照らすことができ、隙間なく表示画像を形成することができる。切替可能な透明の３Ｄレンチキュラディスプレイにおいて、ＯＬＥＤは、ガラスを連続するＯＬＥＤ列の間に配置するように、ガラス基板に埋め込まれてもよい。このように配置することによって、ディスプレイ１２５は、ＯＬＥＤが点灯されていないときに透明になるが、ＯＬＥＤが点灯されているときに（ディスプレイ１２５に表示されている画像によって）不透明になる。

カメラアセンブリ１８０がディスプレイ１２５の後方に配置される実施形態において、ＯＬＥＤが点灯されているときに、カメラアセンブリ１８０は、可視光および赤外線を捕捉することができない。ディスプレイ１２５が切替可能な透明の３Ｄレンチキュラディスプレイを含む実施形態において、処理装置１３０は、ディスプレイ１２５のＯＬＥＤの点灯とカメラアセンブリ１８０を同期させることができる。したがって、ＯＬＥＤが点灯されているときに、カメラアセンブリ１８０は、可視光または赤外線を捕捉しないが、ＯＬＥＤが点灯されていないとき、カメラアセンブリ１８０は、開示された実施形態に従って、画像データ、深度データおよび／または位置データを決定するための可視光および赤外線を捕捉する。処理装置１３０は、人間の目が検知できる速度よりも速い速度、例えば毎秒９０フレームの速度で、ディスプレイ１２５のＯＬＥＤの点灯とカメラアセンブリ１８０の画像取得を同期させることができる。

ディスプレイ１２５がレンチキュラディスプレイであるため、カメラアセンブリ１８０が切替不能な透明の３Ｄレンチキュラディスプレイの後方に配置された場合、ディスプレイ１２５のレンチキュラ特性によって、カメラアセンブリ１８０によって捕捉される可視光および赤外線に歪みが生じる。したがって、いくつかの実施形態において、ディスプレイ１２５は、切替可能な透明の３Ｄレンチキュラディスプレイである。切替可能な透明の３Ｄレンチキュラディスプレイの実施形態において、マイクロレンズアレイのマイクロレンズは、第１材料および第２材料から作ることができる。例えば、少なくとも一部のマイクロレンズは、第１材料から作ることができ、少なくとも一部のマイクロレンズは、第２材料から作ることができる。第１材料は、電流に影響されない（例えば、実質的に影響されない）材料であってもよく、第２材料は、電流に影響される（例えば、実質的に影響される）材料であってもよい。第２材料に電流を印加していないときに、第１材料と第２材料とは、異なる屈折率を有することができる。したがって、第１材料からなるマイクロレンズと第２材料からなるマイクロレンズとの間の境界に屈折をもたらすことによって、レンチキュラディスプレイを形成することができる。第２材料に電流を印加すると、電流によって第２材料の屈折率が第１材料の屈折率と同様になるように変化するため、ディスプレイ１２５のレンチキュラ特性を中和する。これによって、２種の材料が均一な屈折を有する単一の長方形スラブを形成するため、画像は、歪みなくディスプレイを通過することができる。いくつかの実施形態において、電流は、第１材料と第２材料の両方に印加される。この場合、電流は、第２材料に上述した影響を与え、第１材料に影響を与えない。したがって、ディスプレイ１２５が画像を投影するとき（例えば、ＯＬＥＤが点灯されているとき）に、処理装置１３０は、マイクロレンズアレイに電流を印加せず、ディスプレイ１２５は、（例えばオンのとき）レンチキュラアレイとして機能することができる。ディスプレイ１２５のＯＬＥＤが点灯されておらず、処理装置１３０がカメラアセンブリ１８０に可視光および赤外線を捕捉するように命令する場合、処理装置１３０は、ディスプレ
イ１２５に電流を印加することによって、第２材料からなるマイクロレンズに影響を与えることができる。電流を印加すると、第２材料からなるマイクロレンズの屈折率が変化するため、ディスプレイ１２５は、レンチキュラアレイとして機能しなくなる（例えば、ディスプレイ１２５は、透明になるまたはレンチキュラ効果のない透明ガラス板として機能する）。

いくつかの実施形態において、端末１２０は、処理装置１３０を含むことができる。処理装置１３０は、画像を表示するようにディスプレイ１２５を命令する（例えば、トリガする）機能および動作を実行することができる。いくつかの実施形態において、処理装置１３０は、カメラアセンブリ１８０と通信することによって、端末１２０のユーザの位置および場所を表す原始データを受信することができる。また、処理装置１３０は、ネットワークアダプタ１６０と通信することによって、テレビ会議に参加している他の端末１２０から画像データおよび深度データを受信することができる。処理装置１３０は、開示された実施形態に従って、カメラアセンブリ１８０端末から受信された位置および場所データ並びにネットワークアダプタ１６０から受信された画像データおよび深度データを用いて、ディスプレイ１２５上に３Ｄ立体画像を形成することができる。

いくつかの実施形態において、処理装置１３０は、機能および動作を実行することによって、カメラアセンブリ１８０端末から受信された原始データを画像データ、深度データおよび／または位置データに変換し、ネットワークアダプタ１６０を介して、テレビ会議に参加している他の端末１２０に通信することができる。例えば、テレビ会議中に、カメラアセンブリ１８０は、端末１２０のユーザによって反射された可視光および／または赤外線を捕捉することができる。カメラアセンブリ１８０は、捕捉された可視光および／または赤外線に対応する電子信号を処理装置１３０に送信することができる。処理装置１３０は、捕捉された可視光および／または赤外線を分析し、画像データ（例えば、画像を形成することができる画素セットのＲＧＢ値に対応するデータ）および／または深度データ（例えば、形成された画像内の画素セットの各ＲＧＢ値の深度に対応するデータ）を決定することができる。いくつかの実施形態において、処理装置１３０は、ネットワーク１９０を介して画像データまたは深度データを通信する前に、より少ないメモリまたは帯域幅を使用するように、画像データおよび／または深度データを圧縮または符号化することができる。同様に、処理装置１３０は、３Ｄ立体画像を形成する前に、受信した画像データまたは深度データを解凍または復号することができる。

いくつかの実施によれば、端末１２０は、スピーカアセンブリ１４０およびマイクロホンアセンブリ１５０を含むことができる。スピーカアセンブリ１４０は、テレビ会議中に他の端末１２０端末から受信された音声データに対応する音声を放送することができる。スピーカアセンブリ１４０は、例えば指向性音声を放送するために、複数の場所に配置された１つ以上のスピーカを含むことができる。マイクロホンアセンブリ１５０は、端末１２０のユーザに対応する音声を捕捉することができる。マイクロホンアセンブリ１５０は、例えば指向性音声を放送するために、複数の場所に配置された１つ以上のスピーカを含むことができる。いくつかの実施形態において、処理ユニット（例えば、処理装置１３０）は、マイクロホンアセンブリ１５０によって捕捉され、ネットワークアダプタ１６０およびネットワーク１９０を介してテレビ会議に参加している他の端末１２０に送信された音声を圧縮または符号化することができる。

また、端末１２０は、Ｉ／Ｏ装置１７０を含むことができる。Ｉ／Ｏ装置１７０は、端末１２０が参加しているテレビ会議を制御するための入力装置および／または出力装置を含むことができる。例えば、Ｉ／Ｏ装置１７０は、ディスプレイ１２５のコントラスト、輝度またはズームを調整するために使用され得るボタンまたはタッチスクリーンを含むことができる。また、Ｉ／Ｏ装置１７０は、ディスプレイ１２５上に表示された画像に注釈
を付けるまたはテレビ会議に参加している他の端末１２０に送信されるコメントを付けるために使用され得るキーボードインターフェイスを含むことができる。

いくつかの実施形態によれば、端末１２０は、カメラアセンブリ１８０を含む。カメラアセンブリ１８０は、１つ以上のカメラユニットを含むことができる。いくつかの実施形態において、カメラアセンブリ１８０は、ディスプレイ１２５の後方に配置されたいくつかのカメラユニットと、ディスプレイ１２５の外縁部に隣接して配置された１つ以上のカメラユニット（すなわち、カメラアセンブリ１８０の後方に配置されていないカメラユニット）とを含む。例えば、カメラアセンブリ１８０は、１つのカメラユニット、３つのカメラユニット、または６つのカメラユニットを含むことができる。カメラアセンブリ１８０の各カメラユニットは、画像センサ、赤外線センサおよび／または赤外線エミッタを含むことができる。以下に説明される図４は、カメラユニット１８２の一実装例をより詳細に示している。

いくつかの実施形態において、端末１２０は、メモリ１８５を含むことができる。実施形態に応じて、メモリ１８５は、１つ以上の揮発性メモリユニットまたは１つ以上の不揮発性メモリユニットであってもよい。メモリ１８５は、任意種類のコンピュータ可読媒体、例えば磁気ディスクまたは光ディスク、もしくは固体メモリであってもよい。いくつかの実施形態によれば、メモリ１８５は、開示された実施形態に従って、処理装置１３０に機能および動作を実行させる命令を格納することができる。

いくつかの実施形態において、３Ｄテレプレゼンスシステム１００の端末１２０は、テレビ会議を容易にするために、端末間に様々な種類のデータを通信する。いくつかの実施形態において、端末１２０は、各端末１２０のユーザに対応する画像データ、深度データ、音声データおよび／または位置データを通信することができる。各端末１２０の処理装置１３０は、受信された画像データ、深度データおよび／または位置データを用いて、ディスプレイ１２５上に３Ｄ立体画像を形成することができる。処理装置１３０は、音声データを翻訳して、音声データに対応する音声を放送するようにスピーカアセンブリ１４０を命令することができる。いくつかの実施形態において、画像データ、深度データ、音声データおよび／または位置データは、圧縮または符号化されてもよく、処理装置１３０は、機能および動作を実行することによって、これらのデータを解凍または復号してもよい。いくつかの実施形態において、画像データは、例えば、ＪＰＥＧまたはＭＰＥＧなどの標準的な画像フォーマットであってもよい。いくつかの実施形態において、深度データは、例えば、１対１の対応関係で、画像データの各画素に対応する深度値を特定する行列であってもよい。同様に、音声データは、当技術分野に既知の標準的な音声ストリーミングフォーマットであってもよく、いくつかの実施形態において、ＶｏＩＰ（Voice over Internet Protocol）技術を使用してもよい。

実施形態に応じて、ネットワーク１９０は、１つ以上の任意種類のネットワーク、例えば、１つ以上のローカルエリアネットワーク、ワイドエリアネットワーク、パーソナルエリアネットワーク、電話ネットワークおよび／または利用可能な有線および／または無線通信プロトコルを介してアクセスできるインターネットを含むことができる。例えば、ネットワーク１９０は、各端末１２０が通信するときに利用するインターネット接続を含むことができる。安全なネットワーク通信リンクおよび非安全なネットワーク通信リンクを含む他のネットワークの任意の組み合わせが、本明細書に記載されているシステムに使用できると考えられる。

図３Ａは、端末１２０の一実装例を示している。この実装例において、カメラアセンブリ１８０は、ディスプレイ１２５の外縁部に配置された３つのカメラユニット１８２を含む。図３Ａの実装例は、３つのカメラユニット１８２、すなわち、ディスプレイ１２５の
上部に配置された第１カメラユニット、ディスプレイ１２５の左側に配置された第２カメラユニット、およびディスプレイ１２５の右側に配置された第３カメラユニットを含む。図３Ａの実装例において、ディスプレイ１２５は、メガネを使用する必要のない３Ｄレンチキュラディスプレイであってもよい。いくつかの実施形態によれば、カメラアセンブリ１８０の各カメラユニット１８２は、レンズ３１０と、赤外線エミッタ３２０とを含むことができる。カメラユニット１８２は、レンズ３１０を用いて、端末１２０のユーザに対応する可視光および赤外線を捕捉する。いくつかの実施形態において、赤外線エミッタ３２０は、赤外線を出射することができ、出射された赤外線は、端末１２０のユーザおよびユーザの周囲から反射され、レンズ３１０によって捕捉される（以下、図４を参照してより詳細に説明する）。

図３Ｂは、端末１２０の他の実装例を示している。この実装例において、ディスプレイ１２５は、開示された実施形態と同様に、メガネを使用する必要なく切替可能な透明の３Ｄレンチキュラディスプレイである。また、この実装例において、カメラアセンブリ１８０をディスプレイ１２５の後方に配置することができる。カメラアセンブリ１８０をディスプレイ１２５の後方に配置すると、カメラアセンブリ１８０のカメラユニット１８２は、端末１２０のユーザがよく見る位置に配置されているため、テレビ会議中に直接なアイコンタクトをする可能性を増やすことができる。従来のテレビ会議システムでは、単一のカメラは、通常、テレビ会議の参加者が見ているディスプレイの外縁部に配置される。その結果、テレビ会議中に参加者の間のアイコンタクトが妨げられる。メガネを使用する必要なく切替可能な透明の３Ｄレンチキュラディスプレイを使用することによって、カメラアセンブリ１８０をスクリーンの後方に配置することができ、テレビ会議中のアイコンタクトを増やすことができる。

図３Ａおよび図３Ｂがディスプレイ１２５に近接する様々な位置に配置された複数のカメラユニット１８２を有するカメラアセンブリ１８０のいくつかの実装例を示すが、本開示の主旨および範囲から逸脱することなく、カメラユニット１８２をディスプレイ１２５に近接する他の位置に配置してもよい。例えば、図３Ａおよび図３Ｂに示された実装例において、３つのカメラユニット１８２がディスプレイ１２５に近接して配置されているが、他の実施形態は、より多いまたはより少ないカメラユニット１８２を含むことができる。また、図３Ａおよび図３Ｂに示された実装例において、カメラアセンブリ１８０のカメラユニット１８２が固定位置に配置されたが、カメラユニット１８２は、いくつかの実施形態に従って調整可能または移動可能あってもよい。例えば、１つ以上のカメラユニット１８２は、端末１２０のユーザに関連する位置データに応じて、そのカメラユニット１８２の位置および／または回転を調整する可動アクチュエータに接続されてもよい。

図４は、いくつかの実施形態において、カメラアセンブリ１８０の例示的なカメラユニット１８２、カメラアセンブリ１８０の赤外線エミッタ３２０から出射された赤外線の出射光路４１０、およびカメラアセンブリ１８０によって受光された可視光および赤外線の受光光路４２０を示している。カメラユニット１８２は、赤外線エミッタ３２０と、レンズ３１０と、ビームスプリッタ４４０と、画像センサ４５０と、赤外線深度センサ４６０とを含むことができる。いくつかの実施形態によれば、赤外線エミッタ３２０は、出射光路４１０として赤外光波を出射する。出射光路４１０は、ユーザ１０５から反射され、レンズ３１０を通ってカメラユニット１８２によって捕捉される受光光路４２０の一部になる。また、受光光路４２０は、レンズ３１０を通る可視光（例えば、可視スペクトル範囲内の光）を含んでもよい。ビームスプリッタ４４０は、捕捉された光を分割して、画像センサ４５０および赤外線深度センサ４６０に伝送する。いくつかの実施形態において、画像センサ４５０および赤外線深度センサ４６０は、捕捉された光の周波数および位相に対応する原始データを処理装置１３０に送信することができる。

いくつかの実施形態において、画像センサ４５０は、可視光を捕捉し、捕捉された可視光を赤－緑－青（ＲＧＢ）値、ＣＭＹＫ色値および／またはＹＵＶ色値に相関させることができる画像センサであってもよい。いくつかの実施形態において、画像センサ４５０は、高精細度（ＨＤ）または４Ｋ解像度の画像センサであってもよい。

いくつかの実施形態において、赤外線エミッタ３２０および赤外線深度センサ４６０は各々、タイムオブフライト型エミッタおよびタイムオブフライト型センサであってもよい。このような実施形態において、赤外線エミッタ３２０は、正弦波パルスの赤外線を出射する。赤外線は、その光路に位置する物体から反射され、カメラアセンブリ１８０に戻り、赤外線深度センサ４６０によって捕捉されてもよい。いくつかの実施形態において、赤外線深度センサ４６０（または他の実施形態において、処理装置１３０）は、赤外線エミッタ３２０によって出射された正弦波パルスの赤外線と赤外線深度センサ４６０によって検出された正弦波パルスの赤外線との間の位相オフセットを決定することができる。この位相オフセットを用いて、例えば深度を決定することができる。いくつかの実施形態において、赤外線エミッタ３２０および赤外線深度センサ４６０は各々、アクティブステレオ、非構造化ライトステレオ、または補助投影テクスチャ（説明の便宜上、総称してアクティブステレオと呼ばれる）エミッタおよびセンサであってもよい。このような実施形態において、赤外線エミッタ３２０は、非構造化高周波テクスチャの赤外線を出射し、この赤外線は、その光路に位置する物体から反射され、カメラアセンブリ１８０に戻ることができる。アクティブステレオの実施形態において、物体の深度を計算するために、複数のカメラユニット内の赤外線深度センサ４６０が必要である。いくつかの実施形態において、赤外線エミッタ３２０および赤外線深度センサ４６０は各々、符号化ライトステレオエミッタおよび符号化ライトステレオセンサであってもよい。符号化ライトステレオの実施形態において、赤外線エミッタ３２０は、特定パターンの光を生成し、この特定パターンの光を用いて、ステレオ三角測量を実行することによって、取得された画像内の点の深度を決定することができる。

いくつかの実施形態によれば、ビームスプリッタ４４０は、画像センサ４５０および赤外線深度センサ４６０が同一の光を受光するように入射光を分割する。いくつかの実施形態において、画像センサ４５０および赤外線深度センサ４６０は、同様または実質的に同様の幾何学形状を有する。これによって、画像センサ４５０の幾何学形状にある点に対応する可視光の周波数は、赤外線深度センサ４６０の幾何学形状にある点に対応する赤外線の周波数に直接対応する。その結果、画像センサ４５０によって取得された画像内の画素のＲＧＢ値は、赤外線深度センサ４６０によって取得された画像内の同一位置にある画素の深度値と１対１に対応する。いくつかの実施形態において、画像センサ４５０および赤外線深度センサ４６０によって取得された画像を用いて、画像センサ４５０によって捕捉されたＲＧＢ画像の深度メッシュを作成することができる。画像センサ４５０および赤外線深度センサ４６０が同様の幾何学形状を有するため、較正なしでまたは僅かな較正で、深度メッシュを作成することができる。

図５は、開示された実施形態に従ったテレビ会議端末に３Ｄ立体画像を生成するための例示的な画像表示プロセス５００を示すフローチャートである。いくつかの実施形態によれば、画像表示プロセス５００は、テレビ会議端末の１つ以上の構成要素、例えば端末１２０によって実行されてもよい。以下では、テレビ会議端末が画像表示プロセス５００を実行すると説明するが、本開示の主旨および範囲から逸脱することなく、テレビ会議端末に３Ｄ画像を生成するように構成されたコンピュータシステムの他の構成要素は、画像表示プロセス５００を実行することができる。

ステップ５１０において、ローカル端末のカメラユニットの赤外線エミッタは、第１赤外線を生成する。第１赤外線は、その光路に位置する物体から反射される。ステップ５２
０において、ローカル端末のカメラユニットは、反射された赤外線を受光する。ステップ５３０において、カメラユニットの赤外線深度センサは、受光された第２赤外線を取得し、原始データをローカル端末の処理ユニットに提供し、処理ユニットは、第１赤外線と第２赤外線との間の差に基づいて、深度データを決定する。いくつかの実施形態において、ステップ５３０は、端末１２０の赤外線深度センサまたは他の構成要素によって実行されてもよい。いくつかの実施形態において、深度データは、第１赤外線と第２赤外線との間の位相オフセットを測定するタイムオブフライト法に基づいて決定される。いくつかの他の実施形態において、アクティブステレオまたは符号化ライトステレオなどの異なる技法を使用することができる。

ステップ５４０において、ローカル端末は、捕捉された可視光から画像データを決定する。いくつかの実施形態において、ローカル端末のカメラユニットの一部である画像センサは、可視光を捕捉し、捕捉された可視光から画像データを決定することができる。いくつかの実施形態において、画像センサは、捕捉された可視光に対応する原始データを決定し、ローカル端末の処理ユニット（例えば、グラフィック処理ユニット１３０）に通信することによって、画像データを決定することができる。いくつかの実施形態において、ステップ５４０は、ステップ５１０、５２０および５３０のうちの１つ以上と同時に実行されてもよい。

ステップ５５０において、ローカル端末は、取得された深度データおよび取得された画像データをリモート端末に伝達する。ローカル端末は、リモート端末から深度データおよび画像データを受信し、受信したデータを用いて、（例えば、左眼に対応する）第１画像および（例えば、右眼に対応する）第２画像を含む３Ｄ立体画像を生成することができる。ステップ５６０において、端末は、ローカル端末のディスプレイを構成するマイクロレンズアレイのマイクロレンズを介して、第１画像を生成する。第１画像は、受信した画像データおよびローカル位置データに基づくことができる。ステップ５７０において、ローカル端末は、ローカル端末のディスプレイを構成するマイクロレンズアレイのマイクロレンズを介して、第２画像を生成することができる。第２画像は、受信した画像データおよびローカル位置データの両方に基づくことができる。ローカル位置データは、ローカル端末に対する視聴者（例えば、視聴者の目）の位置を示すことができる。少なくともいくつかの実施形態において、第１画像および第２画像は、リモート端末から受信した深度データの少なくとも一部に基づいて生成されてもよい。いくつかの実施形態において、ステップ５６０および５７０は、異なる順序でまたは同時に実行されてもよい。

いくつかの実施形態において、端末１２０は、配線でディスプレイ１２５に接続された専用コンピューティング装置を含むことができる。このような実施形態において、処理装置１３０、スピーカアセンブリ１４０、マイクロホンアセンブリ１５０、ネットワークアダプタ１６０、Ｉ／Ｏ装置１７０およびメモリ１８５は、ユーザによって簡単に取り外せないように、ディスプレイ１２５と共にハウジング内に配置されてもよく、またはディスプレイ１２５に接続されてもよい（すなわち、互いに半田で接続されるまたはディスプレイ１２５のハウジングを開かずに接続を切断できない）。いくつかの実施形態において、処理装置１３０、スピーカアセンブリ１４０、マイクロホンアセンブリ１５０、ネットワークアダプタ１６０、Ｉ／Ｏ装置１７０およびメモリ１８５によって実行された機能は、ディスプレイ１２５およびカメラアセンブリに接続された外部の汎用コンピューティング装置によって実行されてもよい。このような実施形態において、汎用コンピューティング装置は、開示された３Ｄテレプレゼンスシステムの実施形態に従って動作を実行することができ、ディスプレイ１２５に電子信号を送信することによって、ディスプレイを「駆動」して、３Ｄ画像を生成することができる。

特定の順序でプロセス５００を図示および説明したが、このプロセスは、特定の順序に
限定されず、いくつかの実施形態において、プロセス５００の少なくともいくつかのステップを異なる順序で実行してもよい。また、いくつかの実施形態において、プロセス５００の様々なステップを同時に実行してもよい。

図６は、本明細書に記載の技術と共に使用することができる汎用のコンピューティング装置６００の一例を示している。コンピューティング装置６００は、ラップトップ、デスクトップ、タブレット、ワークステーション、パーソナルデジタルアシスタント、テレビ、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピューティング装置などの様々な形態のデジタルコンピュータを表すように意図している。図示された構成要素、それらの接続および関係並びにそれらの機能は、例示的なものに過ぎず、開示された実施形態の実装例を限定するものではない。

コンピューティング装置６００は、プロセッサ６０２と、メモリ６０４と、記憶装置６０６と、メモリ６０４および高速拡張ポート６１０に接続している高速コントローラ６０８と、低速拡張ポート６１４および記憶装置６０６を連結する低速コントローラ６１２とを含む。プロセッサ６０２は、半導体プロセッサであってもよい。メモリ６０４は、半導体メモリであってもよい。構成要素６０２、６０４、６０６、６０８、６１０および６１２は、様々なバスを用いて相互に接続され、共通のマザーボード上に実装されてもよく、または適切な他の方法で実装されてもよい。プロセッサ６０２は、メモリ６０４または記憶装置６０６に記憶された命令を含むコンピューティング装置６００内に実行される命令を処理することによって、外部入力／出力装置のＧＵＩに、例えば高速インターフェイス６０８に接続されたディスプレイ６１６にグラフィック情報を表示することができる。他の実施態様において、複数のプロセッサおよび／または複数のバスは、複数のメモリおよび複数種類のメモリと共に、適切に使用されることができる。また、各装置が（例えば、サーババンク、一群のブレードサーバ、またはマルチプロセッサシステムとして）必要な動作の一部を実行するように、複数のコンピューティング装置６００を接続することができる。

メモリ６０４は、コンピューティング装置６００に情報を格納する。一実施形態において、メモリ６０４は、揮発性メモリユニットである。別の実施形態において、メモリ６０４は、不揮発性メモリユニットである。メモリ６０４は、別の形態のコンピュータ可読媒体、例えば、磁気ディスクまたは光ディスクであってもよい。

記憶装置６０６は、コンピューティング装置６００に大容量の記憶を提供することができる。一実施形態において、記憶装置６０６は、例えば、フロッピー（登録商標）ディスク装置、ハードディスク装置、光学ディスク装置、テープディスク装置、フラッシュメモリまたは他の同様の固体メモリ装置、または記憶エリアネットワークまたは他の構成内の装置を含むアレイ記憶装置などのコンピュータ可読媒体を含むことができる。コンピュータプログラム製品は、情報担体に有形的に具体化することができる。また、コンピュータプログラム製品は、命令を含むことができる。これらの命令は、実行されると、上述したような１つ以上の方法を実行することができる。情報担体は、例えば、メモリ６０４、記憶装置６０６、またはプロセッサ６０２上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

高速コントローラ６０８は、コンピューティング装置６００の高速の帯域幅集約動作を管理し、低速コントローラ６１２は、低速の帯域幅集約動作を管理する。このような機能の割り当ては、例示に過ぎない。一実施形態において、高速コントローラ６０８は、メモリ６０４、（例えば、グラフィックプロセッサまたはアクセラレータを介して）ディスプレイ６１６、および様々な拡張カード（図示せず）を挿入できる高速拡張ポート６１０に連結される。この実施形態において、低速コントローラ６１２は、記憶装置６０６および
低速拡張ポート６１４に連結される。様々な通信ポート（例えば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、無線イーサネット）を含み得る低速拡張ポートは、例えば、キーボード、ポインティング装置、スキャナなどの１つ以上の入出力装置に連結されてもよく、またはネットワークアダプタを介して、スイッチまたはルータなどのネットワーキング装置に連結されてもよい。

図示のように、コンピューティング装置６００は、いくつかの異なる形態で実装されてもよい。例えば、コンピューティング装置６００は、標準サーバ６２０として実装されてもよく、または標準サーバのグループ内に複数回実装されてもよい。また、コンピューティング装置６００は、サーバラックシステム６２４の一部として実装されてもよい。さらに、コンピューティング装置６００は、ラップトップコンピュータ６２２のようなパーソナルコンピュータに実装されてもよい。代替的には、コンピューティング装置６００の要素は、モバイル装置（図示せず）内の他の要素と組み合わてもよい。このような装置の各々は、１つ以上のコンピューティング装置６００を含むことができ、システムの全体は、互いに通信できる複数のコンピューティング装置６００から構成されることができる。

本明細書に記載のシステムおよび技術の様々な実装例は、デジタル電子回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェアおよび／またはそれらの組み合わせで実現することができる。これらの様々な実装例は、プログラム可能なシステム上で実行可能および／または解釈可能な１つ以上のコンピュータプログラムにおける実装を含むことができる。このプログラム可能なシステムは、記憶システムからデータおよび命令を受信し、データおよび命令を記憶システムに送信するように記憶システムに連結された少なくとも１つのプログラム可能な専用または汎用のプロセッサ、少なくとも１つの入力装置、および少なくとも１つの出力装置を含む。

（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られている）これらのコンピュータプログラムは、プログラム可能なプロセッサ用の機械命令を含み、高度な手続き型プログラミング言語および／または高度なオブジェクト指向プログラミング言語で実装することができ、および／またはアセンブリ言語／機械言語で実装することができる。「機械可読媒体」という用語は、本明細書に使用された場合、プログラム可能なプロセッサに機械命令および／またはデータを提供するために使用された機械可読信号としての機械命令を受け取る機械可読媒体を含む任意のコンピュータプログラム製品、機械および／または装置（例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能な論理装置（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラム可能なプロセッサに提供するために使用された任意の信号を指す。

本明細書に記載のシステムおよび技術は、バックエンド要素（例えば、データサーバ）を含むコンピューティングシステム、またはミドルウェア要素（例えば、アプリケーションサーバ）を含むコンピューティングシステム、またはフロントエンド要素（例えば、ユーザが本明細書に記載のシステムおよび技術の実装と情報交換を行うことができるグラフィカルユーザインターフェイスまたはウェブブラウザを含むクライアントコンピュータ）を含むコンピューティングシステム、またはバックエンド要素、ミドルウェア要素およびフロントエンド要素の任意の組み合わせを含むコンピューティングシステムに実装されてもよい。これらのシステム要素は、任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）およびインターネットを含む。

コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバとは、一般的に互いにリモートであり、典型的には通信ネットワークを介して情報交換を行う。クライアントとサーバとの関係は、各々のコンピュータ上で動作しており、互いにクライアント－サーバ関係を有するコンピュータプログラムに依存する。

図７Ａ～７Ｇは、３Ｄテレプレゼンスシステム７００の実装例を示す概略図である。３Ｄテレプレゼンスシステム７００は、３Ｄテレプレゼンスシステム１００の一例である。図７Ｇは、側面図である。

３Ｄテレプレゼンスシステム７００は、ディスプレイ７２５と、カメラユニット７８２ａ、７８２ｂ、および７８２ｃを含むカメラアセンブリとを含む。ローカル参加者７０５ａおよびリモート参加者は、３Ｄテレプレゼンスシステム７００を使用するテレビ会議に参加している。リモート参加者の肖像７０５ｂは、ディスプレイ７２５によって生成される。ディスプレイ７２５の３Ｄ機能は、少なくともローカル参加者７０５ａに対して、リモート参加者がローカル参加者７０５ａからディスプレイ７２５の反対側に位置するように、肖像７０５ｂを生成することができる。

いくつかの実施形態において、ディスプレイ７２５は、約１９２０×１０８０の有効解像度を有する４Ｋレンチキュラディスプレイ画面を含むことができる。他の実際の解像度および有効解像度も可能である。ディスプレイ７２５は、１．３ｍの幅Ｗを有してもよい。いくつかの実施形態において、ディスプレイ７２５は、１～１．５ｍの幅Ｗを有する。いくつかの実施形態において、ディスプレイ７２５は、０．５～２ｍの幅Ｗを有する。いくつかの実施形態において、ディスプレイ７２５は、０．５ｍ未満または２ｍを超える幅を有してもよい。

ディスプレイ７２５は、色値および深度値（例えば、ＲＧＢ＋Ｄ）を含むグラフィックデータを受信して表示するように構成されてもよい。いくつかの実施形態において、ディスプレイ７２５は、ディスプレイ７２５から距離Ｌに位置する点の周りの枠にいるローカル参加者を撮像するように構成される。いくつかの実施形態において、Ｌは、例えば、１ｍ、約１ｍ、１．２ｍまたは別の距離である。また、ディスプレイ７２５は、リモート参加者がディスプレイ７２５の後方からオフセット距離Ｏにいるように、リモート参加者の肖像を生成するように構成されてもよい。いくつかの実施形態において、オフセット距離Ｏは、０．２ｍ、約０．２ｍ、０．３ｍまたは別の距離である。

図示のように、カメラユニット７８２ａ、７８２ｂおよび７８２ｃは、対応の視野７８４ａ、７８４ｂおよび７８４ｃを有する。視野７８４ａ、７８４ｂおよび７８４ｃは、カメラユニットの焦点距離に対応する水平視野角（θ_{ｈｏｒｉｚ}で示す）および水平範囲（ｒ_{ｈｏｒｉｚ}で示す）を有してもよい。水平範囲は、カメラユニットが適切な画像および深度を取得できるように、カメラに対してローカル参加者７０５ａを位置させるべき距離に対応してもよい。いくつかの実施形態において、カメラユニット７８２ａ、７８２ｂおよび７８２ｃは、同様の水平視野角および水平範囲を有するように構成される。いくつかの実施形態において、水平視野角は、５７°である。いくつかの実施形態において、水平視野角は、５５～６０°の間にある。さらに、水平視野角は、４５°～７０°の間にあってもよい。他の実施形態は、異なる水平視野角で構成されたカメラユニットを含むこともできる。いくつかの実施形態において、水平範囲は、１．２ｍに等しいまたはほぼ等しい。いくつかの実施形態において、水平範囲は、１ｍ～１．５ｍの間にある。水平範囲は、０．５ｍより大きく２ｍ未満であってもよい。他の水平範囲も可能である。

様々な構成のシステム７００は、様々な水平深度サンプル間隔（ｄで示す）をサポート
することができる。水平深度サンプル間隔は、ディスプレイ７２５上に３Ｄ画像を生成するために使用されるリモート側の深度値間の水平距離に対応する。例えば、システム７００の様々な実施形態は、水平深度サンプル間隔に影響を与えることができる。いくつかの実施形態は、０．８ｍｍの水平深度サンプル間隔を有する。しかしながら、他の実施形態は、他の水平深度サンプル間隔を有する。いくつかの実施形態において、水平深度サンプル間隔は、以下の式を用いて計算することができる。

式中、Ｌは、ローカル参加者７０５ａの目からディスプレイ８２５までの距離であり、Ｏは、ディスプレイ７２５からリモート参加者の肖像までの投影オフセット距離であり、Ｗは、ディスプレイ７２５の幅であり、Ｒは、ディスプレイ７２５の水平有効解像度である。

例えば、いくつかの実施形態において、システム７００は、レンチキュラディスプレイ上に第１画像および第２画像を生成するように構成されてもよい。第２画像は、第１画像とは異なるように生成される。これによって、リモート参加者の肖像を表示装置の後方のオフセット距離に表示させるように、ユーザに視差効果を形成する。いくつかの実施形態において、オフセット距離は、所定の深度サンプル間隔に基づいて決定される。いくつかの実施形態において、（例えば、カメラユニット７８２ａ、７８２ｂまたは７８２ｃの）１つ以上の赤外線深度センサは、深度サンプリングレートで深度サンプルを収集することによって、所定のオフセット距離をサポートするように構成されてもよい。例えば、深度データは、ディスプレイからユーザまでの所定距離、リモート参加者の肖像までのオフセット距離、ディスプレイの幅、およびディスプレイの水平有効解像度に基づいて、（例えば、上記の式に従って）計算された水平深度サンプル間隔で収集されてもよい。

いくつかの実施形態において、システム７００は、ローカル参加者７０５ａの頭が位置すべきヘッドボックス７９０を規定することができる。ヘッドボックス７９０は、例えば、ディスプレイ７２５を見ることができ、カメラユニット７８２ａ、７８２ｂおよび７８２ｃの視野が重なり、ローカル参加者７０５ａの画像および／または深度を取得できる物理的な領域であってもよい。いくつかの実施形態において、ヘッドボックス７９０は、０．６ｍの高さ（ｈで示す）および０．６ｍの幅（ｗで示す）を有することができる。他の実施形態において、ヘッドボックス７９０は、異なる高さおよび／または幅を有してもよい。通常、ヘッドボックス７９０の境界は、物理的に規定されていないが、様々な技術を用いて（例えば、ローカル参加者７０５ａの頭がヘッドボックス７９０から離れたときに、警告を表示することによって）ディスプレイ７２５上でローカル参加者７０５ａに示されてもよい。

いくつかの実施形態において、ヘッドボックス７９０の中心から測定する場合、ローカル参加者７０５ａの視野７９２は、約６６°の視野角を有する。他の実施形態において、視野７９２の視野角は、５０～８０°の間にある。他の視野角も可能である。いくつかの実施形態において、ローカル参加者７０５ａの有効視野７９４は、ヘッドボックス７９０の異なる位置において異なるローカル参加者７０５ａの視野に基づいて拡大される。例えば、いくつかの実施形態において、有効視野７９４は、約１０７°である。いくつかの実施形態において、ディスプレイ７２５は、有効視野７９４のより大きな水平幅（Ｋで示す）に亘って最小水平深度サンプル間隔をサポートするようにより高い解像度を有する。例
えば、システムのいくつかの実施形態は、少なくとも約２２７０画素の水平有効解像度を有するディスプレイ７２５を含む。

図７Ｇに示すように、ディスプレイ７２５は、高さＨを有する。いくつかの実施形態において、高さＨは、０．８ｍに等しいまたは０．８ｍにほぼ等しい。いくつかの実施形態において、高さＨは、０．５～１．５ｍの間にある。他の実施形態において、高さＨは、０．５ｍ未満または１．５ｍを超えてもよい。

カメラユニット７８２ａ、７８２ｂおよび７８２ｃは、対応の視野７８４ａ、７８４ｂおよび７８４ｃを有する。視野７８４ａ、７８４ｂおよび７８４ｃは、カメラユニットの焦点距離に対応する垂直視野角（θ_ｖｅｒｔで示す）および垂直範囲（ｒ_ｖｅｒｔで示す）を有してもよい。垂直範囲は、カメラユニットが適切な画像および深度を取得できるように、カメラに対してローカル参加者７０５ａを位置させるべき距離に対応してもよい。いくつかの実施形態において、カメラユニット７８２ａ、７８２ｂおよび７８２ｃは、同様の水平視野角および水平範囲を有するように構成される。いくつかの実施形態において、垂直視野角は、６８°である。いくつかの実施形態において、垂直視野角は、６５～７５°の間にある。さらに、垂直視野角は、５０°～８０°の間にあってもよい。他の実施形態は、異なる垂直視野角で構成されたカメラユニットを含むこともできる。いくつかの実施形態において、垂直範囲は、１ｍに等しいまたは１ｍにほぼ等しい。いくつかの実施形態において、垂直範囲は、０．５～１．５ｍの間にある。垂直方向の範囲は、０．５ｍ未満でも１．５ｍを超えてもよい。他の垂直方向の範囲も可能である。

図８は、３Ｄテレプレゼンスシステム８００の実装例を示す概略図である。３Ｄテレプレゼンスシステム８００は、３Ｄテレプレゼンスシステム１００の一例である。

いくつかの実施形態において、システム８００は、ディスプレイ８２５と、カメラユニット８８２ａ、８８２ｂ、８８２ｃ、８８２ｄおよび８８２ｅを含むカメラアセンブリと、スピーカ８４２ａおよび８４２ｂを含むスピーカアセンブリと、マイクロホン８５２ａおよび８５２ｂを含むマイクロホンアセンブリと、視線追跡モジュール８９０とを備える。例えば、カメラユニットは、ディスプレイ８２５の周りの異なる位置に配置することができる。図示の例では、カメラユニット８８２ａおよび８８２ｂは、ディスプレイ８２５の上方に配置され、カメラユニット８８２ｃは、ディスプレイ８２５の一方側に配置され、カメラユニット８８２ｄは、ディスプレイ８２５の他方側に配置され、カメラユニット８８２ｅは、ディスプレイ８２５の下方に配置されている。いくつかの実施形態において、指向性または立体的な音声を生成および録音することができるように、スピーカおよびマイクロホンは、様々な場所に配置されている。例えば、スピーカ８４２ａおよびマイクロホン８５２ａは、ディスプレイ８２５の一方側に配置され、スピーカ８４２ｂおよびマイクロホン８５２ｂは、ディスプレイ８２５の他方側に配置されている。いくつかの実施形態において、マイクロホンアセンブリは、３つ以上のマイクロホン（例えば、４つのマイクロホン）を含む。同様に、いくつかの実施形態において、スピーカアセンブリは、３つ以上のスピーカ（例えば、４つのスピーカ）を含む。

視線追跡モジュール８９０は、ディスプレイ８２５の周りの様々な位置に配置されてもよい。視線追跡モジュール８９０は、ローカル参加者（図示せず）の眼球位置／場所および／またはローカル参加者の注視方向または注視目標を特定するように構成された１つ以上のカメラまたは他の種類の撮像装置を含むことができる。また、視線追跡モジュール８９０は、ユーザの他の特徴、例えば口の特徴または他の顔の特徴を追跡することができる。さらに、いくつかの実施形態において、視線追跡モジュールは、カメラアセンブリのカメラユニット８８２ａ、８８２ｂ、８８２ｃ、８８２ｄおよび８８２ｅに比べてより高いフレームレートで動作するカメラを含む。追加的または代替的に、カメラアセンブリのカ
メラユニットは、視線追跡を実行してもよい。

複数の実施形態を説明したことにも拘わらず、本発明の精神および範囲から離脱することなく、様々な変更を成し得ることが理解されるであろう。

また、望ましい結果を達成するために、図示の論理フローは、示された特定の順序でまたは逐次に行う必要がない。図示のフローに他のステップを追加してもよく、または図示のフローから他のステップを省いてもよい。記載のシステムに他の要素を追加してもよく、システムから他の要素を除去してもよい。したがって、他の実施形態は、添付の特許請求の範囲内に含まれる。

Claims

テレプレゼンス端末であって、
画素グリッドの前方に配置されたマイクロレンズアレイを含むレンチキュラディスプレイと、
画像センサと、
赤外線エミッタと、
赤外線深度センサと、
処理装置と、
命令を格納するメモリとを備え、これらの命令は、実行されると、前記処理装置に、
前記画像センサによって捕捉された可視光に基づいて、画像データを決定することと、
前記赤外線エミッタによって出射され、前記赤外線深度センサによって捕捉された赤外線に基づいて、深度データを決定することと、
前記テレプレゼンス端末のユーザの位置を決定することと、
前記深度データおよび前記画像データをリモート端末に伝達することと、
リモート端末から送信されたリモート画像データおよびリモート深度データを受信することと、
前記リモート画像データに基づいて、前記画素グリッドの第１画素サブセットを用いて、前記決定された位置にいる前記ユーザの第１視点から前記マイクロレンズアレイを通って見える第１表示画像を生成することと、
前記リモート画像データおよび前記リモート深度データに基づいて、前記画素グリッドの第２画素サブセットを用いて、前記決定された位置にいる前記ユーザの第２視点から前記マイクロレンズアレイを通って見える第２表示画像を生成することとを含む動作を実行させ、
前記第１表示画像および前記第２表示画像は、視差をシミュレートするように、前記ユーザの前記決定された位置に基づいて生成され、
シミュレートされた前記視差は、前記リモート端末のリモートユーザの肖像を前記ユーザと対面するように前記ユーザから前記マイクロレンズアレイの反対側のオフセット距離（Ｏ）に表示させ、
前記深度データは、前記レンチキュラディスプレイから前記ユーザまでの所定距離（Ｌ）、前記オフセット距離（Ｏ）、前記レンチキュラディスプレイの幅（Ｗ）および前記レンチキュラディスプレイの水平有効解像度（Ｒ）に基づいて計算された水平深度サンプル間隔（ｄ）で収集され、
前記水平深度サンプル間隔ｄは、ｄ＝（Ｌ＋Ｏ）／Ｌ×Ｗ／Ｒとして計算される、テレプレゼンス端末。
前記テレプレゼンス端末の前記ユーザの前記位置は、前記深度データに基づいて決定される、請求項１に記載のテレプレゼンス端末。
前記テレプレゼンス端末の前記ユーザの前記位置は、前記画像データに基づいて決定される、請求項１に記載のテレプレゼンス端末。
前記テレプレゼンス端末は、
前記レンチキュラディスプレイの第１側に配置された第１マイクロホンおよび前記レンチキュラディスプレイの第２側に配置された第２マイクロホンを含むマイクロホンアセンブリと、
前記レンチキュラディスプレイの前記第１側に配置された第１スピーカおよび前記レンチキュラディスプレイの前記第２側に配置された第２スピーカを含むスピーカアセンブリとをさらに備え、
前記命令は、前記処理装置に、
前記マイクロホンアセンブリを用いて、指向性音声データを捕捉することと、
前記指向性音声データを前記リモート端末に送信することと、
前記リモート端末からリモート指向性音声データを受信することと、
前記リモート指向性音声データに基づいて、前記スピーカアセンブリを用いて音声を出力することとを含む動作をさらに実行させる、請求項１に記載のテレプレゼンス端末。
前記マイクロホンアセンブリは、３つ以上のマイクロホンを含む、請求項４に記載のテレプレゼンス端末。
前記テレプレゼンス端末は、少なくとも１つのカメラユニットを含むカメラアセンブリを備え、
前記カメラユニットは、前記画像センサと前記赤外線エミッタと前記赤外線深度センサとを含み、
前記赤外線エミッタは、前記レンチキュラディスプレイに対向するユーザに前記レンチキュラディスプレイを介して赤外線を出射する、請求項１に記載のテレプレゼンス端末。
テレプレゼンス端末であって、
画素グリッドの前方に配置されたマイクロレンズアレイを含むディスプレイと、
画像センサと、
赤外線エミッタと、
赤外線深度センサと、
処理装置と、
命令を格納するメモリとを備え、これらの命令は、実行されると、前記処理装置に、
前記画像センサによって捕捉された可視光に基づいて、画像データを決定することと、
前記赤外線エミッタによって出射され、前記赤外線深度センサによって捕捉された赤外線に基づいて、深度データを決定することと、
前記テレプレゼンス端末のユーザの位置を決定することと、
前記深度データおよび前記画像データをリモート端末に伝達することと、
リモート端末から送信されたリモート画像データおよびリモート深度データを受信することと、
前記リモート画像データに基づいて、前記画素グリッドの第１画素サブセットを用いて、前記決定された位置にいる前記ユーザの第１視点から前記マイクロレンズアレイを通って見える第１表示画像を生成することと、
前記リモート画像データおよび前記リモート深度データに基づいて、前記画素グリッドの第２画素サブセットを用いて、前記決定された位置にいる前記ユーザの第２視点から前記マイクロレンズアレイを通って見える第２表示画像を生成することとを含む動作を実行させ、
前記第１表示画像および前記第２表示画像は、視差をシミュレートするように、前記ユーザの前記決定された位置に基づいて生成され、
シミュレートされた前記視差は、前記リモート端末のリモートユーザの肖像を前記ユーザから前記マイクロレンズアレイの反対側のオフセット距離に表示させ、
前記テレプレゼンス端末は、少なくとも１つのカメラユニットを含むカメラアセンブリを備え、
前記カメラユニットは、前記画像センサと前記赤外線エミッタと前記赤外線深度センサとを含み、
前記赤外線エミッタは、前記ディスプレイに対向するユーザに前記ディスプレイを介して赤外線を出射し、
前記ディスプレイは、透明であり、かつオフ状態と点灯状態との間で切替可能であり、
前記命令は、可視光および赤外線の捕捉を前記ディスプレイの前記オフ状態と同期させることを含む動作をさらに前記処理装置に実行させる、テレプレゼンス端末。
前記マイクロレンズアレイのマイクロレンズの少なくとも一部は、第１材料から作られ、前記マイクロレンズアレイの前記マイクロレンズの少なくとも一部は、第２材料から作られ、
前記第１材料は、実質的に電流に影響されない材料であり、前記第２材料は、実質的に電流に影響される材料であり、
前記第１材料および前記第２材料に電流を印加していないときに、前記第１材料と前記第２材料とは、異なる屈折率を有し、
前記第２材料に電流を印加する場合、前記電流によって前記第２材料の屈折率は前記第１材料の屈折率と同様になるように変化し、
前記命令は、前記処理装置に、可視光および赤外線の捕捉を前記ディスプレイの前記オフ状態と同期させる場合、前記処理装置に、前記第２材料に前記電流を印加させる、請求項７に記載のテレプレゼンス端末。
入射光を分割し、前記分割された入射光を前記画像センサおよび前記赤外線深度センサに伝送するビームスプリッタをさらに備える、請求項１に記載のテレプレゼンス端末。
方法であって、
テレプレゼンス端末の赤外線エミッタを用いて、第１赤外線を生成することと、
前記テレプレゼンス端末の赤外線深度センサを用いて、第２赤外線を受光することと、
前記第１赤外線および前記第２赤外線に基づいて、捕捉された深度データを決定することと、
画像センサによって捕捉された可視光に基づいて、捕捉された画像データを決定することと、
前記テレプレゼンス端末のユーザの位置を決定することと、
前記捕捉された深度データおよび前記捕捉された画像データをリモート端末に送信することと、
画素グリッドの第１サブセットを用いて、前記リモート端末から受信された画像データに基づいて、前記決定された位置にいる前記ユーザの第１視点からマイクロレンズアレイを通って見える第１表示画像を生成することと、
画素グリッドの第２サブセットを用いて、前記リモート端末から受信された前記画像データおよび深度データに基づいて、前記決定された位置にいる前記ユーザの第２視点から前記マイクロレンズアレイを通って見える第２表示画像を生成することとを含み、
前記第２表示画像は、視差効果を形成するように、前記ユーザの前記決定された位置および前記受信された深度データの組み合わせに基づいて、前記第１表示画像とは異なるように生成され、
前記視差効果は、前記リモート端末のリモートユーザの肖像を前記ユーザと対面するように前記ユーザから前記マイクロレンズアレイの反対側のオフセット距離（Ｏ）に表示させ、
前記方法はさらに、前記テレプレゼンス端末のレンチキュラディスプレイから前記ユーザまでの所定距離（Ｌ）、前記オフセット距離（Ｏ）、前記レンチキュラディスプレイの幅（Ｗ）および前記レンチキュラディスプレイの水平有効解像度（Ｒ）に基づいて計算された水平深度サンプル間隔（ｄ）で前記深度データを収集することを含み、
前記水平深度サンプル間隔ｄは、ｄ＝（Ｌ＋Ｏ）／Ｌ×Ｗ／Ｒとして計算される、方法。
マイクロホンアセンブリを用いて、指向性音声データを捕捉することと、
前記指向性音声データを前記リモート端末に送信することと、
前記リモート端末からリモート指向性音声データを受信することと、
前記リモート指向性音声データに基づいて、スピーカアセンブリを用いて音声を出力することとをさらに含む、請求項１０に記載の方法。
テレプレゼンス端末の赤外線エミッタを用いて、第１赤外線を生成することと、
前記テレプレゼンス端末の赤外線深度センサを用いて、第２赤外線を受光することと、
前記第１赤外線および前記第２赤外線に基づいて、捕捉された深度データを決定することと、
画像センサによって捕捉された可視光に基づいて、捕捉された画像データを決定することと、
前記テレプレゼンス端末のユーザの位置を決定することと、
前記捕捉された深度データおよび前記捕捉された画像データをリモート端末に送信することと、
画素グリッドの第１サブセットを用いて、前記リモート端末から受信された画像データに基づいて、前記決定された位置にいる前記ユーザの第１視点からマイクロレンズアレイを通って見える第１表示画像を生成することと、
画素グリッドの第２サブセットを用いて、前記リモート端末から受信された前記画像データおよび深度データに基づいて、前記決定された位置にいる前記ユーザの第２視点から前記マイクロレンズアレイを通って見える第２表示画像を生成することとを含み、
前記第２表示画像は、視差効果を形成するように、前記ユーザの前記決定された位置および前記受信された深度データの組み合わせに基づいて、前記第１表示画像とは異なるように生成され、
前記視差効果は、前記リモート端末のリモートユーザの肖像を前記ユーザから前記マイクロレンズアレイの反対側のオフセット距離に表示させ、
前記テレプレゼンス端末は、前記画素グリッドの前方に配置された前記マイクロレンズアレイを含むディスプレイを備え、
前記ディスプレイは、透明であり、
前記赤外線エミッタは、前記ディスプレイに対向するユーザに前記ディスプレイを介して赤外線を出射し、
前記赤外線エミッタから出射された赤外線は、前記ディスプレイを通過した後に前記ユーザに反射され、
前記画像センサおよび前記赤外線深度センサは、前記ユーザに反射された後に前記ディスプレイを通過した光を受光し、
前記赤外線深度センサを用いて、前記第２赤外線を受光することは、
前記第２赤外線の捕捉と同期させて前記ディスプレイをオフ状態にすることと、
前記オフ状態の前記ディスプレイおよび前記画素グリッドを通った前記第２赤外線を捕捉することと、
前記ディスプレイを点灯状態にすることとを含む、方法。
プログラムであって、前記プログラムは、少なくとも１つのプロセッサによって実行されると、コンピューティングシステムに、少なくとも以下のこと、すなわち、
テレプレゼンス端末の赤外線エミッタを用いて、第１赤外線を生成することと、
前記テレプレゼンス端末の赤外線深度センサを用いて、第２赤外線を受光することと、
前記第１赤外線および前記第２赤外線に基づいて、深度データを決定することと、
画像センサによって捕捉された可視光に基づいて、画像データを決定することと、
前記テレプレゼンス端末のユーザの位置を決定することと、
前記深度データおよび前記画像データをリモート端末に送信することと、
前記テレプレゼンス端末のレンチキュラディスプレイを用いて、前記リモート端末から受信された画像データに基づいて、前記決定された位置にいる前記ユーザの第１視点から見える第１表示画像を生成することと、
前記レンチキュラディスプレイを用いて、前記リモート端末から受信された前記画像データおよび深度データに基づいて、前記決定された位置にいる前記ユーザの第２視点から見える第２表示画像を生成することとを実行させるように構成され、
前記第２表示画像は、視差効果を形成するように、前記ユーザの前記決定された位置および前記受信された深度データの組み合わせに基づいて、前記第１表示画像とは異なるように生成され、
前記視差効果は、前記リモート端末のリモートユーザの肖像を前記ユーザと対面するように前記ユーザから前記レンチキュラディスプレイの反対側のオフセット距離（Ｏ）に表示させ、
前記深度データは、前記レンチキュラディスプレイから前記ユーザまでの所定距離（Ｌ）、前記オフセット距離（Ｏ）、前記レンチキュラディスプレイの幅（Ｗ）および前記レンチキュラディスプレイの水平有効解像度（Ｒ）に基づいて計算された水平深度サンプル間隔（ｄ）で収集され、
前記水平深度サンプル間隔ｄは、ｄ＝（Ｌ＋Ｏ）／Ｌ×Ｗ／Ｒとして計算される、プログラム。
前記オフセット距離は、所定の深度サンプル間隔に基づいて決定される、請求項１３に記載のプログラム。
プログラムであって、前記プログラムは、少なくとも１つのプロセッサによって実行されると、コンピューティングシステムに、少なくとも以下のこと、すなわち、
テレプレゼンス端末の赤外線エミッタを用いて、第１赤外線を生成することと、
前記テレプレゼンス端末の赤外線深度センサを用いて、第２赤外線を受光することと、
前記第１赤外線および前記第２赤外線に基づいて、深度データを決定することと、
画像センサによって捕捉された可視光に基づいて、画像データを決定することと、
前記テレプレゼンス端末のユーザの位置を決定することと、
前記深度データおよび前記画像データをリモート端末に送信することと、
前記テレプレゼンス端末のレンチキュラディスプレイを用いて、前記リモート端末から受信された画像データに基づいて、前記決定された位置にいる前記ユーザの第１視点から見える第１表示画像を生成することと、
前記レンチキュラディスプレイを用いて、前記リモート端末から受信された前記画像データおよび深度データに基づいて、前記決定された位置にいる前記ユーザの第２視点から見える第２表示画像を生成することとを実行させるように構成され、
前記第２表示画像は、視差効果を形成するように、前記ユーザの前記決定された位置および前記受信された深度データの組み合わせに基づいて、前記第１表示画像とは異なるように生成され、
前記視差効果は、前記リモート端末のリモートユーザの肖像を前記ユーザから前記レンチキュラディスプレイの反対側のオフセット距離に表示させ、
前記オフセット距離は、所定の深度サンプル間隔に基づいて決定され、
前記深度データは、前記レンチキュラディスプレイから前記ユーザまでの所定距離（Ｌ）、前記オフセット距離（Ｏ）、前記レンチキュラディスプレイの幅（Ｗ）および前記レンチキュラディスプレイの水平有効解像度（Ｒ）に基づいて計算された水平深度サンプル間隔（ｄ）で収集され、
前記水平深度サンプル間隔ｄは、ｄ＝（Ｌ＋Ｏ）／Ｌ×Ｗ／Ｒとして計算される、プログラム。