JP3662259B2 - データ処理条件コード・フラグ - Google Patents
データ処理条件コード・フラグ Download PDFInfo
- Publication number
- JP3662259B2 JP3662259B2 JP51436998A JP51436998A JP3662259B2 JP 3662259 B2 JP3662259 B2 JP 3662259B2 JP 51436998 A JP51436998 A JP 51436998A JP 51436998 A JP51436998 A JP 51436998A JP 3662259 B2 JP3662259 B2 JP 3662259B2
- Authority
- JP
- Japan
- Prior art keywords
- bit
- register
- instruction
- piccolo
- parallel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012545 processing Methods 0.000 title claims description 22
- 238000007792 addition Methods 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 5
- 238000003672 processing method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000015654 memory Effects 0.000 description 29
- 230000007246 mechanism Effects 0.000 description 22
- 238000012546 transfer Methods 0.000 description 18
- 230000035508 accumulation Effects 0.000 description 16
- 238000009825 accumulation Methods 0.000 description 16
- 101100534231 Xenopus laevis src-b gene Proteins 0.000 description 11
- 229920006395 saturated elastomer Polymers 0.000 description 11
- 230000006399 behavior Effects 0.000 description 9
- 238000000034 method Methods 0.000 description 8
- HJVCHYDYCYBBQX-HLTLHRPFSA-N (2s,3s,4e,6e,8s,9s)-3-amino-9-methoxy-2,6,8-trimethyl-10-phenyldeca-4,6-dienoic acid Chemical compound OC(=O)[C@@H](C)[C@@H](N)/C=C/C(/C)=C/[C@H](C)[C@@H](OC)CC1=CC=CC=C1 HJVCHYDYCYBBQX-HLTLHRPFSA-N 0.000 description 7
- PBLZLIFKVPJDCO-UHFFFAOYSA-N omega-Aminododecanoic acid Natural products NCCCCCCCCCCCC(O)=O PBLZLIFKVPJDCO-UHFFFAOYSA-N 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 206010000210 abortion Diseases 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 101001050286 Homo sapiens Jupiter microtubule associated homolog 1 Proteins 0.000 description 2
- 102100023133 Jupiter microtubule associated homolog 1 Human genes 0.000 description 2
- 239000013256 coordination polymer Substances 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 238000013470 microfluidic resistive pulse sensing Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101100365087 Arabidopsis thaliana SCRA gene Proteins 0.000 description 1
- 101100058681 Drosophila melanogaster Btk29A gene Proteins 0.000 description 1
- 101000668165 Homo sapiens RNA-binding motif, single-stranded-interacting protein 1 Proteins 0.000 description 1
- 102100039692 RNA-binding motif, single-stranded-interacting protein 1 Human genes 0.000 description 1
- 101150105073 SCR1 gene Proteins 0.000 description 1
- 101100134054 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) NTG1 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30098—Register arrangements
- G06F9/30101—Special purpose registers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/30018—Bit or string instructions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30094—Condition code generation, e.g. Carry, Zero flag
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Advance Control (AREA)
- Executing Machine-Instructions (AREA)
Description
例えば、英国、ケンブリッジのアドヴァンスト・リスク(RISC)・マシン・リミテッドによって製造されるマイクロコンピュータARM6のようなデータ処理システムを提供することが知られている。各指令が行われるごとに、その指令の結果がシステムの条件コードフラグに反映される。続くデータ処理は、これらの条件コードフラグの状態に従って行われる。ARM6マイクロプロセッサの場合、完全な条件付指令のセットが提供され、各指令は、その指令に到達した時点で存在する条件コードの所定の状態に従って行われる。これにより、プログラムコードの密度における、かなりの柔軟性及び改善が得られる。
欧州公開特許出願EP−A−0,395,348号は、条件コードフラグを2セット有するデータ処理システムを記載している。
本発明のデータ処理用装置は、一面から見ると、
操作すべきデータワードを記憶するための、それぞれが少なくともNビットの容量を持つ複数のレジスタと、
Nビットのデータパス及び応答プログラム命令ワードを備えて当該プログラム命令によって指定された演算操作を行う演算ユニットと
を備えており、
前記演算ユニットは、第1の(N/2)ビット入力オペランド・データワードに対して第1の演算操作を、第2の(N/2)ビット入力オペランド・データワードに対して第2の演算操作を別々に行う少なくとも1つの並列操作プログラム命令ワードに応答し、且つ
前記演算ユニットは、前記第1の演算操作に従って第1の条件コードフラグのセットをセットし、前記第2の演算操作に従って第2の条件コードフラグのセットをセットし、
更に以下の特徴を持つ。すなわち、前記演算ユニットは、次のような条件付き選択命令に応答する。当該条件付き選択命令は、前記条件フラグの第1セットに従って、第1ソースレジスタに記憶された第1(N/2)ビット入力オペランド・データワードと第2ソースレジスタに記憶された第1(N/2)ビット入力オペランド・データワードの一方を前記複数のレジスタの中の目的レジスタへ移動し、前記条件フラグの第2セットに従って、第1ソースレジスタに記憶された第2(N/2)ビット入力オペランド・データワードと第2ソースレジスタに記憶された第2(N/2)ビット入力オペランド・データワードの一方を前記複数のレジスタの中の目的レジスタへ移動する。
Nビットのデータパスを有する演算ユニットを使用するシステムにおいては、2つの(N/2)ビットのオペランドで別々の演算操作を同時に行う並列操作プログラム命令ワードを提供することが有利であることがわかっている。特に、データパスの幅、典型的には32及び64を増加させようとする場合に有利である。これらの高性能システムにおいては、大抵、操作すべきオペランドがデータパスの全幅より狭い。この場合、並列操作プログラム命令によって演算ユニットの処理能力をより有効に使用することができる。この能力は、並列操作されるそれぞれの操作に対して別個の条件コードフラグがあれば、更に高めることができる。更に、条件付き選択命令は、ビタビ(Viterbi)アルゴリズムにおいて特に役立ち、またエレメントの集合の中で最大エレメント用サンプルベクトルをスキャンするのに役立つ。
そのような並列操作を行う能力と、つまりすべての必要なパラメータを定義するために、そのような命令ワード内で指定される必要のある情報が増加することとの間での有効な譲歩は、次のようになる。前記並列操作プログラム命令ワードが複数のレジスタの中からソースレジスタを指定すること。即ち、前記第1の(N/2)ビット入力オペランドが前記ソースレジスタの高次ビット位置に記憶され、前記第2の(N/2)ビット入力オペランドが前記ソースレジスタの低次ビット位置に記憶されたソースレジスタを複数のレジスタの中から指定する。
演算ユニットを変形して少なくともいくつかの並列操作を行えるようにする比較的直線的な方法は、次の通りである。即ち、前記演算ユニットは、演算操作における複数のビット位置の間のキャリー・チェインとして機能する信号パスを有しており、並列操作プログラム命令ワードを実行する際、前記信号パスが、前記第1(N/2)ビット入力オペランド・データワードと前記第2(N/2)ビット入力オペランド・データワードとの間で割れる。
導入が簡単で操作上有益な並列操作プログラム命令ワードは、以下のものを含む。
(i)2つの並列(N/2)ビット加算が行われる並列加算と、
(ii)2つの並列(N/2)ビット減算が行われる並列減算と、
(iii)2つの並列(N/2)ビットシフト操作が行われる並列シフトと、
(iv)(N/2)ビット加算と(N/2)ビット減算が並列に行われる並列加算/減算と、
(v)2つの並列の(N/2)ビットの最小値/最大値操作が行われる並列最小値/最大値と、
(vi)2つの並列の(N/2)ビットのスケール操作が行われる並列スケール。
条件コードフラグは様々な意味を持つことができるが、条件コードフラグの選択が特に有益なのは、次の場合である。即ち、前記第1の条件コードフラグのセット及び前記第2の条件コードフラグのセットが、直前の操作を示すフラグを少なくとも1つ含む場合である。即ち、直前の操作が
(i)ゼロという結果をもたらした、
(ii)否定の結果をもたらした、
(iii)オーバーフローをもたらした、
(iv)キャリーをもたらした。
本発明の他の面によれば、以下のデータ処理方法が提供される。即ち、
扱われるべきデータワードを、それぞれが少なくともNビットの容量を持つ複数のレジスタに記憶するステップと、
プログラム命令ワードに応答して、Nビットのデータパスを持つ演算ユニットで、前記プログラム命令ワードによって指定された演算操作を行うステップとからなり、
少なくとも1つの並列操作プログラム命令ワードに応答して、第1の(N/2)ビット入力オペランド・データワードに対して第1の演算操作を行い、第2の(N/2)ビット入力オペランド・データワードに対して第2の演算操作をそれぞれ独立に行い
前記第1の演算操作に従って第1の条件コードフラグのセットをセットし、前記第2の演算操作に従って第2の条件コードフラグのセットをセットし、且つ以下の特徴を持つ。すなわち、条件付き選択命令に応答し、前条件コードフラグの第1セットに従って、第1ソースレジスタに記憶されている第1(N/2)ビット入力オペランド・データワードと第2ソースレジスタに記憶されている第1(N/2)ビット入力オペランド・データワードとのいずれか一方を、前複数のレジスタの中の目的レジスタに移動し、前条件コードフラグの第2セットに従って、第1ソースレジスタに記憶されている第2(N/2)ビット入力オペランド・データワードと第2ソースレジスタに記憶されている第2(N/2)ビット入力オペランド・データワードとのいずれか一方を、前記目的レジスタに移動する。
以下、本発明の実施の形態を例として、添付図面を参照して説明する。
図1は、デジタル信号処理装置のハイレベルの構成を示し、
図2は、コプロセッサ(coprocessor)のレジスタ構成の入力バッファを示し、
図3は、前記コプロセッサ内のデータパスを示し、
図4は、レジスタから高次または低次のビットを読みだすためのマルチプレキシング回路を示し、
図5は、好ましい実施の形態におけるコプロセッサが使用するレジスタ・リマッピング(remapping)論理を示すブロック図であり、
図6は、図5に示されたレジスタ・リマッピング論理の詳細を示し、
図7は、ブロック・フィルタ・アルゴリズム(Block Filter Algorithm)を示す表である。
以下に説明するシステムは、デジタル信号処理(DSP)に関する。DSPは、いろいろな形態を取ることができるが、典型的には、大量のデータの高速(実時間)処理を必要とする処理である。このデータは、典型的には、アナログの物理的信号である。DSPの好例として、デジタル移動電話に使用されるものがある。そこでは、無線信号が送受信され、アナログ音声信号から、及びアナログ音声信号へのデコーディング及びエンコーディング(典型的には、畳み込み(convolution)、変換、相関の操作を使用)が必要となる。また、他の例として、ディスクヘッドからの信号が処理されてヘッド・トラッキング制御が行われるディスク・ドライバ・コントローラが挙げられる。
上記のような文脈において、マイクロプロセッサ・コア(ここでは、英国、ケンブリッジのアドヴァンスト・RISC・マシン・リミテッドにより設計されたマイクロプロセッサの範囲からのARMコア)上でのデジタル信号処理システムの説明をする。マイクロプロセッサとコプロセッサ・アーキテクチャとの間のインターフェースは、それ自体が、DSP機能を提供すべく具体的構成を持つ。以下の説明において、マイクロプロセッサ・コアはARM、コプロセッサはピッコロ(Piccolo)とする。ARMとピッコロは、典型的には、他の構成要素(たとえば、チップ上のDRAM、ROM,D/Aコンバータ、A/Dコンバータ)をASICの部分として含む単一の集積回路として製造される。
ピッコロは、ARMのコプロセッサであるから、ARM命令の集合の一部を実行する。ARMコプロセッサ命令により、(Load Coprocessor,LDC and Store Coprocessor,STC命令を使用して)ARMがピッコロとメモリーの間でデータをやり取りさせ、また、(move to coprocessor,MCR,及び、move from coprocessor,MCR命令を使用して)ARMがARMレジスタをピッコロとやり取りすることができる。ある見方をすれば、ARMとピッコロの相互作用は、ARMGAピッコロのデータに対して強力なアドレス生成器として作用し、ピッコロの方は、大量のデータを実時間で扱う必要のあるDSP操作を自由に行うことによって、対応の実時間結果を生み出すことである。
図1は、ARM2がピッコロ4に制御信号を発行して、データワードをピッコロ4に対して送信させ、またデータワードをピッコロ4から転送させる様子を示す。命令キャッシュ6は、ピッコロ4にとって必要なピッコロプログラム命令ワードを記憶する。単一のDRAMメモリ8は、ARM2とピッコロ4の両方にとって必要なすべてのデータ及び命令ワードを記憶する。ARM2は、メモリ8へのアドレッシング(addressing)及びすべてのデータ転送の制御に責任がある。単一のメモリ8、及び1セットのデータバスとアドレスバスから成る構成は、複数のメモリと高い帯域幅のバスを必要とする典型的DSPアプローチに比較して、構成が簡単であり、費用も易い。
ピッコロは、命令キャッシュ6からの第2の命令ストリーム(デジタル信号処理プログラム命令ワード)を実行し、これにより、ピッコロのデータパスが制御される。これらの命令は、デジタル信号処理方式操作、例えば、Multiply−Accumulate(乗算−累算)、及び制御フロー命令、例えば、ゼロ・オーバーヘッド・ループ命令を含む。これらの命令は、ピッコロのレジスタ10(図2を参照)に保持されているデータを操作する。このデータは、前もって、ARM2によってメモリ8から転送されたものである。複数の命令が命令キャッシュ6からストリームとして出され、命令キャッシュ6が、データバスを、完全な支配下に置く。小型ピッコロ命令キャッシュ6は、1行当たり16ワードの4行で、直接マップされたキャッシュ(64個の命令)となる。導入の方法によっては、命令キャッシュをもっと大きくしてもよい。
このように、2つのタスクが独立的に走る。ARMがデータをロードして、ピッコロがそれを処理する。これにより、16ビット・データ上で単一サイクル・データ処理が維持される。ピッコロの持つデータ入力メカニズム(図2に示される)により、ARMは、シーケンシャル・データを先に取り込み、そのデータがピッコロに必要になるより先にロードする。ピッコロは、ロードされたデータにどのような順序でもアクセスすることができ、古いデータが最後に使用されると、自動的にそのレジスタを再び満たす(すべての命令はソースオペランド1つにつき、ソースレジスタを再充填すべきであることを示す1ビットを持つ)。この入力メカニズムは、リオーダ(reorder)バッファと呼ばれ、入力バッファ12を備える。ピッコロにロードされる(以下に示すLDCまたはMCRを介して)すべての値には、その値の目的地がどのレジスタであるかを示すタグRnが付いている。タグRnは、入力バッファ内のデータワードの側に記憶される。あるレジスタがレジスタ選択回路14を介してアクセスされ、命令がデータレジスタの再充填を指定すると、そのレジスタは、信号Eによって「空き」の印がつく。すると、レジスタは、自動的に、再充填制御回路16によって、その入力バッファ12内でそのレジスタに向けられた最も早くロードされた最古の値を充填される。リオーダ・バッファは8つのタグ付き値を保持する。入力バッファ12の形式は、FIFOと似ているが、キーの中央からデータワードを抽出することができ、その後で、遅くに記憶されたワードが渡され、その空き場所を埋める。従って、入力から最も遠いデータワードが最古であり、入力バッファ12が正しいタグRnを持つ2つのデータワードを保持する時は、その最古のデータワードを使用して、どちらのデータワードでレジスタを再充填すべきかを決定することができる。
ピッコロは、図3に示されたように、データを出力バッファ18(FIFO)に記憶させて出力する。データはFIFOにシーケンシャルに書き込まれ、ARMによって同じ順序でメモリ8に読み出される。出力バッファ18は、8つの32ビットの値を保持する。
ピッコロは、コプロセッサ・インターフェース(図1のCP制御信号)を介してARMと接続する。ARMコプロセッサ命令の実行に際して、ピッコロは、それを実行するか、あるいは、ピッコロがその命令を実行できるようになるまでARMを待たせるか、あるいは命令実行を拒否することができる。最後の場合、ARMは、未定義命令例外とする。
ピッコロが実行する最も普通のコプロセッサ命令はLDCとSTCであり、これらは、それぞれデータワードをデータバスを介してメモリ8へ、及びメモリ8からロードし(LDC)、記憶させ(STC)、ARMがすべてのアドレスを生成する。リオーダ・バッファにデータをロードし、出力バッファ18からのデータを記憶するのもこれらの命令である。ピッコロは、入力リオーダ・バッファにデータをロードするのに充分な場所がなければARMをLDCのままにし、また出力バッファに記憶すべき充分なデータがなければARMをSTCのままにする。ピッコロは、また、ARM/コプロセッサ・レジスタ転送を行って、ARMがピッコロの特定の(special)レジスタにアクセスできるようにする。
ピッコロは、それ自身の命令はメモリから取り込み、図3に示されたピッコロのデータパスを制御し、リオーダ・バッファからレジスタへ、またレジスタから出力バッファ18へデータを転送する。これらの命令を行うピッコロの演算ユニットは、乗算/加算回路20を有し、これが乗算、加算、減算、乗算・累算、論理操作、シフト、及び回転を行う。また、データパスには累算/退出(decumulate)回路22と、縮尺(scale)/飽和(saturate)回路24とが備わっている。
ピッコロ命令は、最初にメモリから命令キャッシュ6にロードされ、そこへピッコロがアクセスし、主記憶にアクセスバックする必要がない。
メモリがアボート(abort)した場合、ピッコロはそれを修復することができない。従って、ピッコロを仮想メモリシステムで使用する場合、すべてのピッコロのデータは、ピッコロのタスクの始めから終わりまで、物理的メモリになければならない。このことは、ピッコロのタスクの実時間性、例えば実時間DSPを考えれば、大した問題ではない。メモリ・アボートが起きると、ピッコロは停止して状態レジスタS2にフラグをセットする。
図3は、ピッコロの全体のデータパス機能を示す。レジスタ・バンク10は、3つの読み出しポートと2つの書き込みポートを使用する。1つの書き込みポート(Lポート)は、リオーダ・レジスタからレジスタを再充填するのに使用される。出力バッファ18は、ALU結果バス26から直接的に更新され、出力バッファ18からの出力は、ARMプログラム制御の支配下にある。ARMコプロセッサ・インターフェースは、LDC(Load coprocessor)命令をリオーダ・バッファに行い、出力バッファ18からSTC(Store Coprocessor)命令を行い、また、レジスタバンク10上にMCRとMRC(Move ARM register to/from CP register)を行う。
残りのレジスタ・ポートは、ALUに使用される。読み出しポート(A及びB)は、入力を乗算/加算回路20に駆動し、C読み出しポートは、累算(accumulate)/退出(decumulate)回路22入力の駆動に使用される。残りの書き込みポートWは、結果をレジスタバンク10に戻すのに使用される。
乗算器20は、符号付き又は符号無し16x16の乗算を行い、必要により48ビット累算を伴うこともできる。スケーラー(scaler)ユニット24は、0から31までの即値算術又は論理シフト右を提供することができ、その後、必要により飽和を行うことができる。シフタ(shifter)及び論理ユニット20は、各周期でシフト又は論理操作を行うことができる。
ピッコロは、D0−D15又はA0−A3,X0−X3,Y0−Y3,Z0−Z3という名のついた16個の汎用レジスタを持つ。最初の4つのレジスタ(A0−A3)は、累算用で、48ビットの幅があり、余分な16ビットが、多数の連続的計算の間にオーバーフローが生じないためのガードを提供する。残りのレジスタは32ビットの幅である。
ピッコロのレジスタは各々2つの独立した16ビットの値を含むものとして扱うことができる。ビット0からビット15までが下半分、ビット16からビット31までが上半分を含む。命令は、ソースオペランドとして各レジスタのどちらかの半分の16ビットを指定することができ、あるいは、全体の32ビットレジスタを指定することもできる。
また、ピッコロは、飽和演算に対する備えもある。乗算、加算、減算命令の変量は、結果が目的レジスタのサイズより大きい場合、飽和結果を提供する。目的レジスタが48ビットのアキュムレータであれば、値は32ビットで飽和される(つまり、48ビットの値を飽和させる方法はない)。48ビットのレジスタにはオーバーフローの検出がない。これは手頃な制限である。というのは、オーバーフローを起こすには、少なくとも65536乗算累算命令が必要であるから。
各ピッコロのレジスタは、「空き」(Eフラグ、図2参照)であるか、1つの値を含む(レジスタの半分だけが空きになることはない)。初期状態では、すべてのレジスタが空きの印がついている。各周期で、ピッコロは再充填制御回路16によって、空きレジスタの1つを、入力リオーダ・バッファからの値で埋める。あるいは、レジスタにALUからの値が書き込まれている場合は、「空き」ではない。もし、レジスタにALUからの書き込みがあり、これと同時に、リオーダ・バッファからのレジスタに入れられる値が控えている場合は、結果は未定義である。空きレジスタに読み出しが行われれば、ピッコロの実行ユニットはとまってしまう。
入力リオーダ・バッファ(ROB)は、コプロセッサ・インターフェースとピッコロのレジスタ・バンクとの間にある。データがROBにロードされる時は、ARMコプロセッサが転送する。ROBは、多数の32ビットの値を含み、それぞれ値の目的地となるピッコロ・レジスタを示すタグを持っている。タグは、また、そのデータが32ビットレジスタの全体に転送されるのか、あるいは32ビット中の下の16ビットだけに転送されるべきかも示す。データがレジスタ全体に転送される場合は、そのエントリーの下の16ビットは目的レジスタの下半分に転送され、上の16ビットはレジスタの上半分に転送される(目的レジスタが48ビット・アキュムレータの場合は、符号が拡張される)。データの目的地がレジスタの下半分だけ(いわゆるハーフ・レジスタ)の場合、下の16ビットが先に転送される。
レジスタのタグは常に物理的目的レジスタを示し、レジスタのリマッピングが行われることはない(レジスタのリマッピングについては、以下を参照)。
各周期で、ピッコロは、次のように、データ・エントリをROBからレジスタ・バンクへ転送しようとする。
− ROBの各エントリが検査され、タグが空きレジスタと比較され、エントリの一部又は全部からレジスタへ転送が可能かどうかが決定される。
− 転送可能なエントリの集合から、最古のエントリが選択され、そのデータがレジスタバンクへ転送される。
− このエントリのタグが更新されてエントリを空きにする。エントリの一部だけが転送された場合は、転送された部分だけが空きの印になる。
例えば、目的レジスタが完全に空きであり、選択されたROBエントリが含むデータが1つの全体レジスタ用であれば、32ビット全体が転送され、そのエントリは空きの印になる。目的レジスタの下半分が空きであり、ROBの含むデータがレジスタの下半分用であれば、ROBエントリの下の16ビットが目的レジスタの下半分へ転送され、ROBの下半分が空きの印になる。
どのエントリでも、上の16ビットと下の16ビットは、それぞれ独立に転送することができる。レジスタバンクに転送できるデータを含むエントリが皆無の場合、その周期では、転送は行われない。下の表は、目的ROBエントリと目的レジスタ状態のあらゆる可能な組み合わせを示す。
以上をまとめると、1つのレジスタの2つの半分は、互いに独立に、ROBから充填することができる。ROB内のデータは、レジスタ全体用に印が付けられるか、あるいはレジスタの下半分用の2つの16ビットの値としての印が付く。
データをROBにロードするにはARMコプロセッサ命令が使用される。ROBにおいてデータが印を付けられる方法は、転送に使用されたARMコプロセッサ命令がどれであったかによる。ROBにデータを充填するのに使用できるARM命令には以下のものがある。
ROBの構成には、以下のARM命令が提供される。
LDPA<bank list>
最初の3つは、LDC命令としてアセンブルされ、MPRとMRPは、MCR命令として、LDPAはCDP命令としてアセンブルされる。
上記<dest>は、ピッコロのレジスタ(A0−Z3)を示し、RnはARMレジスタを示し、<size>は4の乗数(ゼロを除く)となる定数としてのバイト数であり、<wrap>は、定数(1、2、4、8)を示す。{ }によって囲まれた領域は、オプションである。転送がリオーダ・バッファへ当てはまるようにするために、<size>は最大で32である。多くの場合、<size>は、この制限より小さくしてデッドロックを避ける。<16/32>領域は、ロードされるデータが16ビット・データとして扱われ、endianess特定動作(以下を参照)を行うべきか、あるいは32ビットデータであるかを示す。
注1:以下の説明において、LDPまたはLDPWに言及する場合、これらの命令の16ビット用変種と32ビット用変種の両方を含むものとする。
注2:1つのワード(word)は、メモリからの32ビットの固まりであり、それは、16ビットのデータ項目2つから成るか、あるいは32ビットのデータ項目1つからなる。
LDP命令は、多数のデータ項目をフル・レジスタ用として転送する。この命令は、メモリ内のアドレスRnから<size>/4ワードをロードし、それらをROBに挿入する。転送することのできるワード数は以下のように制限される。
− <size>の量は、4の非ゼロ倍数でなければならず、
− <size>は、特定の導入についてROBのサイズ以下でなければならない(第1版では8ワード、その後の版では、それ以下にならない保証があること)。
転送される最初のデータ項目は目的地が<dest>のタグを付け、第2のデータ項目は、<dest>+1というようになる(Z3からA0まではラッピング(wrapping))。もし“!”が指定された場合は、その後、レジスタRnが<size>によって1つずつ増加される。
LDP16の変種が使用された場合は、エンダイアン(endian)特定動作が2つの16ビットのハーフワードに行われて、それらがメモリシステムから戻される時には32ビットデータ項目とする。より詳しくは、以下のBig Endian及びLittle Endianサポートを参照せよ。
LDPW命令は、多数のデータ項目をレジスタのセットに転送する。最初に転送されるデータ項目には<dest>のタグが付き、次は<dest>+1のタグが付き、以下同様。<wrap>転送が起きると、次に転送される項目は、<dest>用となり、以下同様。<wrap>の量は、ハーフワードの量で指定される。
LDPWには、次の制限がある。
− <size>の量は、4の非ゼロ倍でなければならず、
− <size>は、特定の導入についてROBのサイズ以下でなければならず(第1版では8ワード、その後の版では、それ以下にならない保証がある)、
− <dest>は、{A0,X0,Y0,Z0}のいずれか1つでよく、
− <wrap>は、LDP32Wについては{2,4,8}のいずれかの個数のハーフワードであり、LDP16Wについては{1,2,4,8}のいずれかの個数のハーフワードであり、
− <size>の量は、2*<wrap>より大きくなければならない。さもないと、ラッピングは起きず、代わりにLDP命令が使用される。
たとえば、次の命令
LDP32W X0,2,〔R0〕!,#8
は、2つのワードをROBにロードし、その目的地をフル・レジスタX0とする。R0は、8増加する。次の命令
LDP32w X0,4,〔R0〕,#16
は、4つのワードをROBにロードし、それらの目的地をX0,X1,X0、X1(この順序で)とする。R0は影響されない。
LSP16Wに対しては、<wrap>は、1、2、4、又は8として指定できる。1のラップが指定されると、すべのデータのタグの目的地が、目的レジスタの下半分<dest>.1.となる。これは、ハーフ・レジスタの場合である。
例えば、次の命令
LDP16W X0,1,〔R0〕!,#8
は、2つのワードをROBにロードし、それらを16ビットデータとして目的地をX0.1とする。R0は8増加される。次の命令
LDP16W X0,4,〔R0〕,#16
は、LDP32Wの例と同様に挙動するが、ただし、エンダイアン特定動作は、メモリから戻されるデータ上に行われる。
LDP命令のすべての使用されないエンコーディングは、将来の拡張用に取っておくことができる。
LDP16U命令は、非ワード揃え(non-word aligned)16ビットデータの効率良い転送をサポートする。LDP16UサポートはレジスタD4−D15(X,Y,Zバンク)になされる。LDP16Uサポートは、レジスタ32ビットワードのデータ1つ(2つの16ビットデータ項目を含む)をメモリからピッコロへ転送することになる。ピッコロは、このデータの下の16ビットを捨て、上の16ビットを保持レジスタに記憶する。X,Y,Zバンク用の保持レジスタがある。バンクの保持レジスタが通報されると(primed)と、データの目的地がそのバンク内のレジスタであれば、LDP{w}命令の挙動が変化する。ROBにロードされたデータは、LDP命令によって転送されつつあるデータの下の16ビットと保持レジスタとの連結によって形成される。転送されつつある上の16ビットは、保持レジスタに入れられる。
このモードの動作は、LDPA命令によって打ち切られるまで続く。保持レジスタは、目的レジスタのタグもサイズも記録しない。これらの性質は、次のdata.1.の値を提供する命令から得られる。
メモリシステムから戻されたデータには、常にエンダイアン特定挙動が起きる可能性がある。LDP16Uと同等の非16ビットはない。というのは、32ビットデータ項目はすべてメモリにおいてワード揃えされるからである。
LDPA命令は、LDP16U命令によって開始された操作の非整列(unaligned)モードを取り止めるのに使用される。非整列モードは、バンクX,Y,Z上で独立に切ることができる。例えば、次の命令
LDPA {X,Y}
は、バンクX,Y上で非整列モードを打ち切る。これらのバンクの保持レジスタ内のデータは、捨てられる。
非整列モードにないバック上でLDPAを実行することは可能であり、そのバンクは整列モードのままである。
MPR命令は、ARMレジスタRnの内容をROBに入れ、ピッコロレジスタ<dest>に向けられる。目的レジスタ<dest>は、A0−Z3の範囲のフルレジスタならどれでもよい。例えば、次の命令
MPR X0,R3
は、R3の内容をROBに移し、そのデータをフルレジスタX0用とする。
データがARMからピッコロに転送される時にエンダイアネス(endianess)特定挙動が生じることがない。というのは、ARMは、内部的に、あまりエンダイアンではないからである。
MPRW命令は、ARMレジスタRnの内容をROBに入れ、それを、16ビットピッコロレジスタ<dest>.1.向けの2つの16ビットデータ項目とする。<dest>についての制限は、LDPW命令の場合と同じである(つまり、Z0,X0,Y0,Z0)。例えば、次の命令
MPRW X0,R3
は、R3の内容をROBに移し、X0.1.向けの2つの16ビット量のデータとする。尚、1でラップするLDP16Wの場合、32ビットレジスタの下半分だけが目的地となり得る。
MPRについては、データに対してエンダイアネス特定操作は何も行われない。
LDPは、次のようにエンコードされる。
ここで、PICCOLO1は、ピッコロの最初のコプロセッサの番号(現在8)である。NビットがLDP32(1)とLDP16(0)との間の選択を行う。
LDPWは、次のようにエンコードされる。
ここで、DESTは、目的レジスタA0,X0,Y0,Z0に対する0−3であり、WRAPは、1、2、4、8の値のラップに対して0−3である。PICCOLO2は、ピッコロの第2のコプロセッサ番号(現在9)である。Nビットが、LDP32(1)とLDP16(0)との間の選択を行う。
LDP16Uは、次のようにエンコードされる。
ここで、DESTは、目的バンクX,Y,Zに対する1−3である。
LDPAは、次のようにエンコードされる。
ここで、BANK〔3:0〕は、バンクごとの非整列モードを打ち切るのに使用される。BANK〔1〕がセットされると、バンクX上の非整列モードが打ち切られる。BANK〔2〕及びBANK〔3〕がセットされれば、それぞれバンクY,Z上の非整列モードが打ち切られる。尚、これはCDP操作である。
MPRは、次のようにエンコードされる。
MPRWは、次のようにエンコードされる。
ここで、DESTは、目的レジスタX0,Y0,Z0に対する1−3である。
出力FIFOは、32ビットの値を8つまで保持することができる。これらは、次の(ARM)オペコード(opcodes)の1つを使用して、ピッコロから転送される。
最初のは、<size>/4ワードを出力FIFOから、ARMレジスタRnによって与えられるアドレスへ退避する。“!”があれば、Rnを指示する。デッドロックを避けるために、<size>は、出力FIFOのサイズ(この導入例では8エントリ)以下でなければならない。STP16の変種が使用された場合は、メモリシステムから戻されるデータにエンダイアン特定挙動が生じる可能性がある。
MRP命令は、出力FIFOから1つのワードを除去し、それをARMレジスタRnに入れる。MRPと同様に、このデータには、エンダイアン特定操作が適用されることはない。
STP用のARMエンコーディングは以下の通り。
ここで、Nは、STP32(1)とSTP16(0)との間の選択を行う。P,U,Wビットの定義については、ARMデータシートを参照せよ。
MRP用のARMエンコーディングは以下の通り。
ピッコロ命令セットは、内部的にはエンダイアン操作がほとんどないと仮定している。例えば、32ビットレジスタに、複数の16ビット・ハーフとしてアクセスする場合、下半分がビット15から0を占めるとする。ピッコロは、大きなエンダイアン・メモリ又は周辺機器(peripherals)のあるシステムで動作することになるので、16ビットでパックされたデータを正しくロードできるようにしなければならない。
ピッコロ(つまり、DSPが採用されたコプロセッサ)は、ARM(例えば、英国、ケンブリッジのアドヴァンストRISCマシンズ・リミテッドによって製造されたARM7マイクロプロセッサ)のように、プログラマがプログラム可能周辺機器で制御できるであろう‘BIGEND’構成ピンを持っている。ピッコロは、このピンを使用して入力リオーダ・バッファ及び出力FIFOを構成する。
ARMがパック16ビットデータをリオーダ(reorder)・バッファにロードする時は、そのことを、LDP命令の16ビット形式を使用して示さなければならない。この情報は‘BIGEND’構成入力の状態と組み合わされて、データを保持ラッチへ入れ且つリオーダ・バッファを適当な順序にする。特にbig endianモードの時は、保持レジスタはロードされたワードの下16ビットを記憶し、次のロードの上16ビットと対(ペア)にされる。保持レジスタの内容は、常に、リオーダ・バッファへ転送されたワードの下16ビットで終わる。
出力FIFOは、パックされた16ビット又は32ビットデータを含むことができる。プログラマは、STP命令の正確な形式を使用して、16ビットデータがデータバスの正しい半分に提供されていることをピッコロが確認できるようにしなければならない。big endianとして構成されている場合、STPの16ビット形式が使用されると、上16ビットハーフ及び下16ビットハーフが交換される。
ピッコロは、ARMからしかアクセスできないプライベート・レジスタを4つ持っている。これらは、S0−S2と呼ばれる。これらにアクセスできるのは、MRC命令とMCR命令だけである。オペコードは以下の通り。
MPSR Sn,Rm
MRPS Rm,Sn
これらのオペコードは、ARMレジスタRmとプライベート・レジスタSnとの間で32ビット値を転送する。それらは、ARMにおいて、コプロセッサ・レジスタ転送としてエンコードされる。
ここで、Lは、MPSRなら0、MRPSなら1である。
レジスタS0は、ピッコロの一意なID及び改定コードを含む。
〔3:0〕ビットは、プロセッサの改定番号を含む。
〔15:4〕ビットは、2進符号化された10進フォーマットの3桁部分の番号(ピッコロなら、0x500)を含む。
〔23:16〕ビットは、アーキテクチャ版数を含む。0x00=第1版
〔31:24〕ビットは、導入者の商標のASCIIコードを含む。0x41=A=ARM Ltd.
レジスタS1は、ピッコロの状態レジスタである。
一次状件コードフラグ(N,Z,C,V)
二次状件コードフラグ(SN,SZ,SC,SV)
Eビット:ピッコロは、ARMによってディスエーブルされ、中止した。
Uビット:ピッコロは、UNDEFINED(未定義)命令に出会って、中止した。
Bビット:ピッコロは、BREAKPOINT(区切点)に出会って、中止した。
Hビット:ピッコロは、HALT(中止)命令に出会って、中止した。
Aビット:ピッコロは、メモリ・アボート(ロード、ストア、又はピッコロ命令)によって、中止した。
Dビット:ピッコロは、デッドロック条件を検出し、中止した(以下を参照)。
レジスタS2はピッコロプログラム・カウンタである。
プログラム・カウンタに書き込みすると、ピッコロはそのアドレスで(中止状態であれば中止状態のまま)プログラムの実行を始める。プログラム・カウンタはリセットされた時、未定義である。というのは、プログラム・カウンタへの書き込みによっって、ピッコロは常にスタートされるからである。
実行中、ピッコロは命令の実行及びコプロセッサ・インターフェースの状態を次のようにモニタする。
− ピッコロは、レジスタ再充填されるのを、あるいは出力FIFOが使えるエントリを持つのを、待つ態勢に入った。
− ROB内のスペースが不十分であるか、出力FIFO内の事項(items)が不十分であるかの理由で、コプロセッサ・インターフェースがビジー待ち状態(busy-waiting)にある。
これらの両方の条件が検出されると、ピッコロは、その状態レジスタにDビットをセットし、中止し、ARMコプロセッサの命令を拒絶し、ARMは未定義命令トラップにはまる。
このデッドロック状態の検出により、少なくともプログラマにこのような条件が生じたことを知らせ、また失敗の正確な点(位置)を知らせることができるシステムが構成される。プログラマは、ARMとピッコロのプログラム・カウンタとレジスタを読めばよい。尚、強調しておくが、デッドロックが生じるのは、間違ったプログラムあるいはピッコロの状態を変造するシステム部分がある場合だけである。デッドロックは、データが少なすぎることや「オーバーロード」によって生じることはない。
ARMからピッコロを制御するのに使用できるいくつかの操作があり、それらはCDP命令によって提供される。これらのCDP命令は、ARMが優先状態にある時に受け付けられる。そうでないと、ピッコロはCDP命令を拒絶し、ARMは未定義命令トラップにはまる。以下の操作が使用可能である。
− Reset(リセット)
− Enter State Access Mode(状態アクセスモードに入る)
− Enable(イネーブル)
− Disable(ディスエーブル)
ピッコロは、PRESET命令によってソフトウェア内でプリセットされる。
PRESET ;Clear Piccolo's state(ピッコロの状態をクリアする)
この命令は、次のようにエンコードされる。
この命令が実行されると、次のことが生じる。
− すべてのレジスタが空き(再充填の態勢)の印になる。
− 入力ROBがクリアされる。
− 出力FIFOがクリアされる。
− ループ・カウンタがリセットされる。
− ピッコロは中止状態に入る(そしてS2のHビットがセットされる)。
PRESET命令の実行には、いくつかのサイクル(この実施の形態では、2から3)が必要である。実行されている間に、以下のピッコロ上で実行されるべきARMコプロセッサ命令がビジー待ちになる。
状態アクセスモードにおいて、ピッコロの状態は、STC及びLDC命令(以下のARMからのピッコロ状態アクセスについての説明を参照)を使って退避され復元される。状態アクセスモードに入るには、PSTATE命令がまず実行されなければならない。
PSTATE; Enter State Access Mode(状態アクセスモードに入る)
この命令は次のようにエンコードされる。
実行されると、PSTATE命令は、
− ピッコロを中止し(すでに中止されているのでなければ)、Eビットをピッコロの状態レジスタにセットする。
− ピッコロを状態アクセスモードに構成する。
PSTATE命令の実行が終わるまでにはいくつかのサイクルがある。というのは、ピッコロの命令パイプラインは中止する前に汲み出されなければならないからである。実行中、ピッコロ上で実行される次のARMコプロセッサ命令がビジー待ちになる。
PENABLE及びPDISABLE命令は、高速コンテキスト切替えに使用される。ピッコロがディスエーブルされると、専用レジスタ0と1だけが(IDレシスタ、状態レジスタ)アクセス可能となり、それも優先モードからだけである。これ以外の状態へアクセスすると、またユーザモードからアクセスすると、ARM未定義命令例外が生じる。ピッコロをディスエーブルすると、実行が中止される。ピッコロは、実行を中止すると、状態レジスタにEビットをセットして応答する。
ピッコロをイネーブルするには、PENABLE命令を実行する。
PENABLE; Enable Piccolo
この命令は次のようにエンコードされる。
ピッコロをディスエーブルするには、PDISABLE命令を実行する。
PDISABLE; Disable Piccolo
この命令は次のようにエンコードされる。
この命令が実行されると、次のことが生じる。
− ピッコロの命令パイプラインが空になる(drain)。
− ピッコロは中止して、状態レジスタにHビットをセットする。
ピッコロ命令キャッシュは、ピッコロのデータパスを制御するピッコロの命令を保持する。もし存在すれば少なくとも64個の命令を保持し、それを16ワード境界から開始することが保証される。次のARMオペコードがMCRにアセンブルされる。その動作は、強制的にキャッシュに、(16ワード境界上にあるはずの)指定されたアドレスから始まる(16個の)命令のラインを取り込ませる(fetch)。この取り込みは、キャッシュがすでにこのアドレスに関係するデータを保持していても行われる。
PMIR Rm
ピッコロは、PMIRが行われるより前に中止されなければならない。
このオペコードのMCRエンコーディングは以下の通り。
− このセクションは、ピッコロのデータパスを制御するピッコロ命令セット(集合)に言及する。各命令は32ビットの長さである。これらの命令は、ピッコロ命令キャッシュから読み出される。
命令セットのデコードは、非常に直線的である。最初6ビット(26から31)が主要オペコードを与え、22から25までが、いくつかの特定の命令のためのマイナーなオペコードを提供する。灰色の影となっているコードは、現在未使用のものであり、拡張用として使える(それらは現時点で指示された値を含んでいなければならない)。
11の主要命令クラスがある。これは、いくつかのサブクラスのデコードを簡単にするため、命令にファイルされた主要オペコードに完全に対応するものではない。
上の表にある命令には、以下の名前がついている。
命令の各クラスのフォーマットは、次のセクションに詳しく述べてある。ソース及び目的オペランド領域は、ほとんどの命令において共通であり、レジスタ・リマッピングと同様、別のセクションに述べてある。
ほとんどの命令は2つのソースオペランドSource1,Source2を必要とする。
Source1(SRC1)オペランドは、次の7ビット・フォーマットを持つ。
この領域の要素は、次の意味を持つ。
− Size−読み出すオペランドのサイズを示す(1=32ビット、0=16ビット)。
− Refill−レジスタが読み出された後、空きの印になり、ROBから再充填できることを示す。
− Register Number−32ビット、16ビットレジスタのどっちのレジスタを読み出すべきべきかエンコードする。
− Hi/Lo−16ビット読み出しに対して、32ビットレジスタのどちらの半分を読み出すべきかを示す。32ビットオペランドに対してセットされた場合は、レジスタの2つの16ビット半分が入れ換えられなければならないことを示す。
レジスタのサイズは、レジスタ番号に接尾辞を付けることによってアセンブラによって特定される。下位16ビットなら、.1、上位16ビットなら、.h,32ビットの上下の16ビットを入れ換えるなら、.x。
一般のソース2(SCR2)は、次の3つの12ビット・フォーマットの1つを持つ。
図4は、選択されたレジスタの適切な半分をピッコロのデータパスにスイッチするためのHi/Loビット及びSizeビットに応答するマルチプレクサ構成を示す。Sizeビットが16ビットであれば、符号拡張回路がデータパスの高次ビットに適切な0または1を入れる。
最初のエンコーディングは、ソースをレジスタとして指定し、その領域は、SCR1指定子(specifier)と同じエンコーディングを持つ。SCALE領域は、ALUの結果に適用されるべきスケールを指定する。
8ビット即値(immediate)は、回転(rotate)エンコーディングによって、32ビット即値を生成し、それが、8ビット値及び2ビット回転(rotate)によって表現される。次の表は、8ビット値XYから生成される即値を示す。
16ビット即値エンコーディングにより、6ビット符号無し即値(範囲0から63)を、ALUの出力に提供されるスケールと共に使用することができる。
一般のソース2エンコーディングは、ほとんどの命令変種に共通である。この規則には例外が少しあり、それがソース2エンコーディングの限定されたサブセットをサポートするか、あるいは、それを少し変形させる。
− Select Instructions.(選択命令)
− Shift Instructions.(シフト命令)
− Parallel Operations.(並列操作)
− Multiply Accumulate Instructions.(乗算累算命令)
− Multiply Double Instructions.(乗算ダブル命令)
選択命令は、レジスタ又は16ビット符号無し即値であるオペランドをサポートするだけである。スケールは無効である。それは、これらのビットは命令の条件領域によって使用されるからである。
シフト命令は、16ビットレジスタ又は5ビット符号無し即値である1から31のオペランドをサポートするだけである。結果のスケールは無効である。
並列操作の場合、レジスタがオペランドのソースとして指定されていれば、32ビット読み出しが行われなければならない。即値エンコーディングは、並列操作については、少し違った意味を持つ。これにより、即値は、32ビットオペランドの16ビット半分の両方に複製できる。並列操作には少し制限のある範囲のスケールが使用できる。
16ビット即値が使用された場合、常に、32ビット量の半分の両方に複製される。8ビット即値が使用された場合は、それが複製されるのは、それが32ビット量の上半分に回転されるべきであると回転(rotate)が示している時だけである。
並列選択操作にはスケールは無効である。スケール領域は、これらの命令では、0にセットされる。
乗算累算命令では、8ビット回転即値を指定することはできない。領域のビット10は、どのアキュミュレータを使用すべきかを指定する部分となる。ソース2は、16ビットオペランドとして意味される。
乗算ダブル命令は、定数を使用することができない。16ビットレジスタだけが指定できる。この領域のビット10は、どのアキュミュレータを使用すべきかを指定する部分となる。
命令のうちいくつかは、常に32ビット操作(例えば、ADDADD)を含み、その場合、サイズ・ビットは、1にセットされ、Hi/Loビットは、場合によっては32ビットオペランドの2つの16ビット半分を交換するのに使用することができる。また、いくつかの命令は、常に16ビット操作(例えば、MUL)を含み、サイズビットは0に設定されなければならない。Hi/Loビットは、レジスタのどちらの半分が使用されるかを選択する(見えないサイズビットは明らかなものと仮定する)。乗算・累算命令は、ソース・アキュミュレータと目的レジスタを独立に指定することができる。これらの命令においては、Sizeビットは、ソースアキュミュレータを指定するのに使用され、サイズビットは、命令タイプによって0と暗示される。
16ビット値が(A又はBバスを介して)使用される場合、それは、自動的に32ビット量に符号拡張される。48ビットレジスタが(A又はBバスを介して)読みだされる場合、下の32ビットだけがバスに現れる。それは、どの場合でも、ソース1、ソース2は、32ビット値に変換されるからである。バスCを使用する累算命令だけがアキュミュレータレジスタの48ビット全部にアクセスすることができる。
再充填ビットがセットされていれば、レジスタは使用後、空きの印になり、普通の再充填メカニズムによってROBから再充填される(ROBについてのセクションを参照)。ピッコロは、再充填が行われる以前にソースオペランドとしてレジスタが再び使用されないかぎり、止まらない。再充填されたデータが有効になる前のサイクルの最小数(最善の場合で、データはROBの先頭で待っている)は、1か2である。従って、再充填されたデータは、再充填要求の次の命令には使わない方が良い。もし、次の2つの命令上でオペランドの使用を避けることができるのであれば、その方が良い。というのは、これにより、より深いパイプライン導入上での性能損失を防ぐことになるから。
再充填ビットは、レジスタ番号に接尾辞“^”を付けることによってアセンブラで指定される。空きの印のついたレジスタのセクションは、レジスタのオペランドに依存する。各レジスタの2つの半分は、独立に、再充填の印をつけることもできる(例えば、X0.1^は、X0の下半分だけを再充填することになり、X0^は、X0全体を再充填することになる)。48ビットレジスタの上「半分」(ビット47:16)が再充填されると、16ビットのデータがビット31:16に書き込まれ、ビット47まで符号拡張される。
同じレジスタを2回再充填しようと(例えば、ADD X1,X0^,X0^)しても、再充填は1度しか行われない。アセンブラは、ADD X1,X0,X0^という文法しか許可すべきではない。
レジスタ読み出しが、レジスタの再充填以前に試みられると、ピッコロは、レジスタが再充填されるまでまち状態で止まる。レジスタが再充填の印になると、レジスタは再充填の値が読まれる以前に更新され、その結果、UNPREDICATBLE(予想不可)となる(例えば、ADD X0,X0^,X1は予想不可。なぜなら、X0については再充填の印であるから、X0とX1の合計で埋めることになる)。
4ビットスケール領域は14のスケールタイプをエンコードする。
− ASR #0,1,2,3,4,6,8,10
− ASR #12から16
− LSL #1
並列Max/Min命令は、スケールを提供しないので、ソース2の6ビット定数変種は使用されない(アセンブラにより0にセットされる)。
REPEAT命令内で、レジスタのリマッピングがサポートされ、REPEATが、ループを解かないままレジスタの移動「窓」にアクセスすることができる。これについて、以下、詳しく説明する。
目的オペランドは、次の7ビットフォーマットを持つ。
この基本エンコーディングには10の変種がある。
レジスタ番号(Dx)は16のレジスタのどれがアドレスされているかを示す。Hi/LoビットとSizeビットは、一緒になって、各32ビットレジスタへ16ビットレジスタのペアとしてアドレスする。Sizeビットは、どのようにしたら適切なフラグが、命令タイプに定義されているように、セットされるかを定義するもので、結果がレジスタバンク及び/又は出力FIFOに書き込まれるか否かには関係しない。これにより、比較及び同様の命令の構成ができる。命令の累算クラスのある加算は、結果をレジスタに書き戻さなければならない。
どの場合でも、レジスタへの書き戻し又は出力FIFOへの挿入以前の操作の結果は、48ビット量である。2つの場合がある。
書き込みが16ビットならば、48ビット量は、下の16ビット〔15:0〕を選択することによって、16ビットに減る。命令が飽和すれば、値は、−2^15から2^15−1の範囲に飽和される。次に16ビット値が指示されたレジスタに書き戻され、また、書き込みFIFOビットがセットされれば、出力FIFOに書き戻される。出力FIFOに書き込まれた場合、それは、次の16ビット値が書き込まれるまで保持される。次の16ビットが書き込まれると、それらの値はペアとなって、単一32ビット値として出力FIFOに入れられる。
32ビットの書き込みならば、48ビットは、下の32ビット〔31:0〕を選んで32ビット量に減る。
32ビット書き込みでも、48ビット書き込みでも、命令が飽和すれば、48ビット値は−2^31−1から2^31の範囲の32ビット値に変換される。飽和すると、
− アキュミュレーへの書き戻しが行われると、48ビット全部が書き込まれる。
− 32ビットレジスタへの書き戻しが行われると、ビット〔31:0〕が書き込まれる。
− 出力FIFOへの書き戻しが行われるた場合も、やはりビット〔31:0〕が書き込まれる。
目的サイズは、レジスタ番号の後の.1または.hによって、アセンブラ内で指定される。レジスタへの書き戻しが全く行われない場合は、レジスタ番号は意味がなくなるので、目的レジスタを省略して、レジスタへの書き込み無しとするか、あるいは、^を使って、出力FIFOだけへの書き込みを指示する。例えば、SUB,X0,Y0は、CMP X0,Y0と等価であり、ADD^,X0,Y0は、X0+Y0の値を出力FIFOに入れる。
出力FIFOに値を入れる空きがない場合は、ピッコロは、空きができるまで待機する。
16ビット値、例えば、ADD X0.h^,X1,X2が書き出されると、その値は、第2の16ビット値が書かれるまでラッチされる。次にこれら2つの値は結合されて、32ビット数として出力FIFOに入れられる。最初に書き込まれる16ビット値は、常に32ビットワードの下半分に現れる。出力FIFOに入れられたデータは、16又は32ビットデータとしての印がつき、endianessをbig endianシステム上で訂正することができる。
32ビット値が2つの16ビット書き込みの間に書き込まれると、その動作は未定義になる。
REPEAT命令内で、レジスタ・リマッッピングがサポートされ、REPEATは、ループを解く(unroll)ことなしにレジスタの移動「窓」にアクセスすることができる。以下、これについて詳しく説明する。
本発明の好ましい実施の形態において、REPEAT命令は、レジスタ・オペランドがループ内で特定される方法を変更するメカニズムを提供する。このメカニズムの下で、アクセスするレジスタは命令内のレジスタ・オペランドとレジスタバンクのオフセットの機能によって決定される。オフセットは、プログラム可能な方法で変更でき、各命令ループの最後で変更されるのが好ましい。このメカニズムは、X,Y,Zバンク内にあるレジスタ上で独立に動作することができる。好ましい実施の形態では、この機能はAバンク内のレジスタには使用できない。
論理レジスタ、物理レジスタという概念を使用することができる。命令オペランドは論理レジスタを参照し、これらは、特定のピッコロレジスタ10を同定する物理レジスタ・レファレンスにマップされる。すべての操作は、再充填も含み、物理レジスタ上で動作する。レジスタ・リマッピングが生じるのは、ピッコロ命令ストリームサイドだけであり、ピッコロにロードされるデータは常に物理レジスタを目的とし、リマッピングは行われない。
リマッピングのメカニズムについて、以下、図5を参照して説明する。図5は、ピッコロ・コプロセッサ4の多数の内部構成要素を示すブロック図である。メモリからARMコア2によって検索されるデータ項目は、リオーダ・バッファ12に入れられ、ピッコロレジスタ10は、先に図2を参照した方法で、リオーダ・バッファ12から再充填される。キャッシュ6に記憶されているピッコロの命令は、ピッコロ4内の命令デコーダ50に渡されることによって、ピコロ・プロセッサ・コア54に渡される前にデコードされる。ピッコロ・プロセッサ・コア54は、先に図3を参照して述べた乗算器/加算器回路20と、累算/退出回路22と、スケール/飽和(saturate)回路24とを備える。
命令デコーダ50がREPEAT命令によって同定された命令ループの一部を構成する命令を扱っていて、且つ、そのREPEAT命令が多数のレジスタのリマッピングを行うことが必要であると指示した場合は、レジスタ・リマッピング論理52が使用されて、必要なリマッピングが行われる。レジスタ・リマッピング論理52は、命令デコーダ50の一部であると考えて良い。ただし、当業者には明らかなように、レジスタ・リマッピング論理52は、命令デコーダ50に対して全く別のものとして提供されてもかまわない。
典型的な命令は、その命令にとって必要なデータ項目を含むレジスタを同定する1つまたは2つ以上のオペランドを備える。例えば、典型的な命令は、2つのソースオペランドと1つの目的ペランドを含むことができ、その命令が必要とするデータ項目を含む2つのレジスタと、その命令の結果を入れるべきレジスタを同定する。レジスタ・リマッピング論理52は、命令デコーダ50から命令のオペランドを受け取るが、それらは論理レジスタ・レファレンスを同定する。論理レジスタ・レファレンスに基づき、レジスタ・リマッピング論理は、物理レジスタのリマッピングをすべきかどうかを決定し、必要なら、物理レジスタ・レファレンスにリマッピングを適用する。また、リマッピングを適用すべきではないと決定された場合は、論理レジスタ・レファレンスが物理レジスタ・レファレンスとして提供される。リマッピングを行う好ましい方法については、後で、詳しく説明する。
レジスタ・リマッピング論理からの各出力物理レジスタ・レファレンスは、ピッコロ・プロセッサ・コア54に渡されることによって、プロセッサ・コアが、物理レジスタ・レファレンスによって同定される特定のレジスタ10内のデータ項目に命令を適用できるようにする。
好ましい実施の形態によるリマッピングのメカニズムによれば、レジスタの各バンクは、2つのセクション、つまりその中でレジスタがリマップされるセクションと、レジスタがリマッピング無しで元のレジスタ・レファレンスを保持するセクションとの2つのセクションに割ることができる。好ましい実施の形態において、リマップされたセクションは、リマップされているレジスタ・バンクの下から開始される。
このリマッピングのメカニズムは多数のパラメータを使用し、これらのパラメータについては、図6を参照しながら、詳細に説明する。図6は、様々なパラメータがレジスタ・リマッピング論理52によっていかに使用されるかを示すブロック図である。尚、これらのパラメータは、リマップされているバンク内の点、例えば、バンクの下からの相対的値を与えられている。
レジスタ・リマッピング論理52は、2つの主要論理ブロック、つまりRemap(リマップ)ブロック56とBase Update(ベース更新)ブロック58とからなると考えることができる。レジスタ・リマッピング論理52は、論理レジスタ・レファレンスに加えられるべきオフセット値を提供するベース・ポインタを使用する。このベース・ポインタの値は、ベース更新ブロック58によってリマップ・ブロックに提供される。
BASESTART信号を使用して、ベースポインタの初期値を定義することができる。例えば、典型的には、ゼロであるが、他の値を指定することもできる。このBASESTART信号は、ベース更新ブロック58内のマルチプレクサ60に渡される。命令ループの最初の繰り返しで、BASESTART信号は、マルチプレクサ60によって、記憶エレメント66に渡され、ループのその後の繰り返しでは、次のベース・ポインタ値がマルチプレクサ60によって記憶エレメント66に渡される。
記憶エレメント66の出力は、現在のベース・ポインタ値としてリマップ論理56に渡され、またベース更新論理58内の加算器62の入力の1つにも渡される。加算器62は、ベース・インクリメント値を提供するBASEINC信号を受け取る。加算器62は、記憶エレメント66によって供給される現在のベース・ポインタ値を、BASEINC値分だけインクリメントし、結果をモジュロ回路64へ渡すようになっている。
また、モジュロ回路は、BASEWRAP値を受け取り、この値を加算器62からの出力ベース・ポインタ信号と比較する。インクリメントされたベース・ポインタ値がBASEWRAP値以上であれば、その新しいベース・ポインタがラップラウンドされて、新しいオフセット値となる。モジュロ回路64の出力は、記憶エレメント66に記憶されるべき次のベース・ポインタ値となる。この出力はマルチプレクサ60に提供され、そこから、記憶エレメント66に提供される。
しかしながら、この次のベース・ポインタ値は、REPEAT命令を管理するループ・ハードウェアからBASEUPDATE信号を記憶エレメント66が受け取らないうちは、記憶エレメント66に記憶できない。BASEUPDATE信号は、ループ・ハードウェアによって周期的に生成され、例えば、命令ループが反復されるごとに、生成される。BASEUPDATE信号を記憶エレメント66が受け取ると、記憶エレメントは、以前のベース・ポインタ値にマルチプレクサ60から提供される次のベース・ポインタ値を上書きする。このように、リマップ論理58に供給されるベース・ポインタ値は、新しいベース・ポインタ値に変わる。
レジスタバンクのリマップされたセクション内でアクセスされるべき物理レジスタは、命令のオペランド内に含まれる論理レジスタ・レファレンスに、ベース更新論理58によって提供されるベース・ポインタ値を加えることによって決定される。この加算を行うのは加算器68であり、その出力は、モジュロ回路70に渡される。好ましい実施の形態において、モジュロ回路70は、レジスタ・ラップ値を受け取り、加算器68からの出力信号(論理レジスタ・レファレンスとベース・ポインタ値の和)がレジスタ・ラップ値を越えると、その結果へ、リマップされた領域の下でラップ(wrap)が行われる。モジュロ回路70の出力は、マルチプレクサ72に提供される。
REGCOUNT値がリマップ・ブロック56内の論理74に提供され、リマップされるべきバンク内のレジスタの個数を同定する。論理74は、このREGCOUNT値を論理レジスタ・レファレンスと比較し、比較の結果により、制御信号をマリチプレクサ72に渡す。マルチプレクサ72は、その2つの入力で、論理レジスタ・レファレンスとモジュロ回路70からの出力(リマップされたレジスタ・レファレンス)を受け取る。本発明の好ましい実施の形態において、論理レジスタ・レファレンスがREGCOUNT値より小さければ、論理74は、マルチプレクサ72にリマップされたレジスタ・レファレンスを物理レジスタ・レファレンスとして出力させる。ただし、もし、論理レジスタ・レファレンスがREGCOUNT値以上であれば、論理74は、マルチプレクサ72に論理レジスタ・レファレンスを直接、物理レジスタ・レファレンスとして出力させる。
先に述べたように、好ましい実施の形態において、リマッピング・メカニズムを引き起こすのはREPEAT命令である。後で、より詳しく述べるように、REPEAT命令は、ハードウェアで4つのゼロサイクルループを提供する。これらのハードウェア・ループは、図5に命令デコーダ50の部分として図示されている。命令デコーダ50がキャッシュ6から命令を要求する度に、キャッシュはその命令を命令デコーダに戻し、それにより、命令デコーダは、戻された命令がREPEAT命令であるかどうか判断する。もしそれであれば、ハードウェア・ループの1つが、そのREPEAT命令を扱うように構成される。
各繰り返し命令は、ループ内の命令の数と、ループを繰り返す回数(定数またはピッコロ・レジスタから読み出される)を指定する。2つのオペコードREPEATとNEXTがハードウェアループの定義用に提供され、NEXTオペコードは単に区切りとして使用されるだけで、命令としてアセンブルはされない。REPEATがループの頭に行き、NEXTがループの最後を区切ることによって、アセンブラはループ・本体内の命令の数を数えることができる。好ましい実施の形態において、REPEAT命令は、レジスタ・リマッピング論理52が使用すべきREGCOUNT,BASEINC,BASEWRAP,REGWRAPパラメータのようなリマッピング・パラメータを含むことができる。
レジスタ・リマッピング論理によって使用されるリマッピング・パラメータを記憶する多数のレジスタを提供することができる。これらのレジスタ内で、前もって定義されたリマッピング・パラメータの多数のセット(集合)を提供することができる一方、いくつかのレジスタはユーザ定義リマッピング・パラメータを記憶するために残される。REPEAT命令と共に指定されたリマッピング・パラメータが、前もって定義されたリマッピング・パラメータの1つと等しい場合、適当なREPEATエンコーディングが使用され、これにより、マルチプレクサ等が適当なリマッピング・パラメータをレジスタから直接にレジスタ・リマッピング論理へ提供する。一方、リマッピング・パラメータが前もって定義されたリマッピング・パラメータのどれとも等しくない場合は、アセンブラがRemapping Parameter Move(RMOV)命令を生成する。これにより、ユーザ定義レジスタ・リマッピング・パラメータの構成が可能となり、RMOV命令の後にREPEAT命令が続く。好ましくは、ユーザ定義リマッピング・パラメータは、RMOV命令によって、そのようなユーザ定義リマッピング・パラメータを記憶すべく残されていたレジスタに入れられ、マルチプレクサは、それらのレジスタの内容をレジスタ・リマッピング論理に渡すようプログラムされる。
好ましい実施の形態において、REGCOUNT,BASEIN,BASEWRAP,REGWRAPパラメータは、以下のチャートに示された値の1つを取る。
図6に戻り、リマップ・ブロック56によって様々なパラメータが使用される例を次に示す(この例では、論理及び物理レジスタ値は、特定バンクに対する相対値である。)
ループの最後で、ループの次の繰り返しが始まる前に、次のベース・ポインタ更新がベース更新論理58によって行われる。
Base=(Base+BASEINC)MOD BASEWRAP
リマッピング・ループの最後でレジスタ・リマッピングが打ち切られ、すべてのレジスタは物理レジスタとしてアクセスされる。好ましい実施の形態において、1つのリマッピングREPEATだけがどの時点においてもアクティブである。ループは、ネストされたままであるが、ある特定の時点で1つだけがリマッピング変数を更新してよい。ただし、所望するなら、リマッピング繰り返しはネストできるようにする。
本発明の好ましい実施の形態に基づくリマッピング・メカニズムを使用した結果としてのコード密度に関して達成される効果を示すために、以下、典型的なブロック・フィルタ・アルゴリズムについて説明する。まず、ブロック・フィルタ・アルゴリズムの原則について、図7を参照しながら説明する。図7に示されているように、アキュミュレータ・レジスタA0は、多数の乗算操作の結果を累算するように備えられている。この乗算操作というのは、係数c0とデータ項目d0との乗算、係数c1とデータ項目d1との乗算、係数c2とデータ項目d2との乗算などである。レジスタA1は、乗算操作の同様のセットの結果を累算していくが、今度は、係数がずれて、c0とd1、c1とd2、c2とd3と組み合わせの乗算になる。同様に、レジスタA2は、係数値を更にずらして、c0とd2、c1とd3、c2とd4といった組み合わせの乗算の結果を累算する。このシフト、乗算、累算のプロセスが、繰り返され、その結果がレジスタA3に入れられる。
本発明の好ましい実施の形態に基づくレジスタ・リマッピングを使用しないと、ブロック・フィルタ命令を実行するには、次のような命令ループが必要となる。
この例において、データ値はレジスタのXバンクに入れられ、係数値はレジスタのYバンクに入れられる。第1ステップとして、4つのアキュミュレータ・レジスタA0,A1,A2,A3はゼロにセットされる。アキュミュレータ・レジスタがリセットされると、命令ループが開始され、このループはREPEAT命令及びNEXT命令によって区切られる。Z1の値は、この命令ループが繰り返される回数を示し、また後で述べる理由により、この回数は、実際には、係数の個数(c0,c1,c2など)を4で割った数に等しい。
命令ループには16の乗算累算命令(MULA:multiply accumulate instructions)があり、1回目の繰り返しが終わると、その結果、レジスタA0,A1,A2,A3は、REPEAT命令と第1のMULA命令との間で上のコードで示される計算の結果を含む。乗算累算操作がどのように動作するかを示すために、最初の4つのMULA命令を考えることにする。最初の命令によって、Xバンク・レジスタ・ゼロの最初のすなわち下の16ビット内のデータ値と、Yバンク・レジスタ・ゼロ内の下の16ビットとが掛け合わされ、その結果がレジスタA0に加えられる。これと同時に、Xバンク・レジスタ・ゼロの下の16ビットが再充填の印になり、レジスタのこの部分に新しいデータ値が再充填できることを示す。このように印がつき、図7から明らかなように、データ項目d0が係数c0で乗算されると(これは最初のMULAによって表される)、d0は、ブロック・フィルタ命令の残り部分では不要になり、新しいデータ値で置き換えられる。
次に、第2のMULAによって、Xバンク・レジスタ・ゼロの第2のすなわち上の16ビットと、Yバンク・レジスタ・ゼロの下の16ビットとが掛け合わされ(これは、図7における,d1 x c0を表す)。同様に、第3、第4のMULA命令が、d2 x c0,及びd3 x c0の乗算を行う。図7から明らかなように、これらの4つの計算が行われると、係数C0は不要となり、レジスタY0.1は、再充填の印がつき、他の係数(c4)で上書きできるようになる。
次の4つのMULA命令は、それぞれ、d1xc1,d2xc1,d3xc1,d4xc1の計算を表す。d1xc1の計算が終了すると、d1は不要になるので、レジスタX0.hは再充填ビットの印がつく。同様に、4つの計算すべてが終了すると、係数c1は不要になるので、レジスタY0.hは再充填用の印がつく。同様に、次の4つのMULA命令は、d2xc2,d3xc2,d4xc2,d5xc2の計算に対応し、最後の4つの計算は、d3xc3,d4xc3,d5xc3,d6xc3の計算に対応する。
上記の実施の形態において、リジスタはリマップできず、各乗算操作は、オペランドで指定される特定レジスタによって明示的に再生されなければならない。16のMULA命令の実行が終了すると、係数c4からc7及びデータ項目d4からd10まで、命令ループを繰り返すことができる。また、ループは、繰り返し1回につき4つの係数値で操作するので、係数値の個数は、4の倍数でなければならず、Z1=係数/4個の計算が行われる。
本発明の好ましい実施の形態におけるリマッピング・メカニズムを使用することによって、命令ループは飛躍的に減らすことができ、4つの乗算累算命令を含むだけになる。さもなければ16の乗算累算命令が必要になる。このリマッピング・メカニズムを使用すると、コードは以下のように書くことができる。
先に述べたのと同様に、第1のステップで、4つのアキュミュレータ・レジスタA0−A3をゼロにセットする。次に、REPEATオペコードとNEXTオペコードによって区切られる命令ループに入る。REPEAT命令は、以下のように多数のパラメータを持つ。
X++: レジスタのXバンクに、BASEINCが‘1’であることを示す。
n4: REGCOUNTが‘4’であり、従って、最初の4つのXバンクレジスタX0.1からX1.hがリマップされることを示す。
w4: レジスタのXバンクに、BASEWRAPが‘4’であることを示す。
Y++: レジスタのYバンクに、BASEINCが‘1’であることを示す。
n4: REGCOUNTが‘4’であり、従って、最初の4つのYバンクレジスタY0.1からY1.hがリマップされることを示す。
w4: レジスタのYバンクに、BASEWRAPが‘4’であることを示す。
r4: レジスタのYバンクに、REGWRAPが‘4’であることを示す。
尚、Z1の値は、先行技術の例では、係数の個数/4に等しくなるが、ここでは、係数の個数と等しくなる。
命令ループの最初の繰り返しで、ベースポインタの値はゼロであり、リマッピングはない。ただし、次にループが実行される時は、XバンクもYバンクもベース・ポインタの値は‘1’であるから、オペランドは次のようにマップされる。
X0.1はX0.hになる
X0.hはX1.1になる
X1.1はX1.hになる
X1.hはX0.1になる(BASEWRAPが‘4’だから)
Y0.1はY0.hになる
Y0.hはY1.1になる
Y1.1はY1.hになる
Y1.hはY0.1になる(BASEWRAPが‘4’だから)
従って、2回目の繰り返しでは、本発明のリマッピングを含まない先に述べた例における第5から第8番目のMULA命令によって示される計算を、4つのMULA命令が実際に行うことがわかる。同様に、3回目、4回目のループの繰り返しでは、先行技術コードの第9から第12番目、そして第13から第16番目のMULA命令によって実行された計算が行われる。
従って、上記コードは、先行技術のコードと全く同様のブロック・フィルタ・アルゴリズムを行うわけだが、ループ本体内のコード密度を4倍に改善している。つまり、先行技術では16の命令が必要であったのに比較して、4つの命令ですむ。
本発明の好ましい実施の形態に基づくレジスタ・リマッピング技術を使用することによって、以下のような利点が得られる。
1.コード密度を改善する。
2.場合によっては、レジスタを空きとして印をしてからピッコロのリオーダ・バッファによって再充填されるまでのレイテンシー(latency)を隠すこともできる。これは増えるコードサイズを捨ててアンローリングループによって実現される。
3.アクセスされるべきレジスタの数を変化させることができる。ループ繰り返し実行数を変化させることによって、アクセスされるレジスタの数を変化させることができる。
4.アルゴリズム開発を簡単にすることができる。適当なアルゴリズムについて、プログラマはアルゴリズムのn番目の段に対する1つのコードを生成して、レジスタ・リマッピングを使用して、その公式をデータのスライディング・セットに適用することができる。
上記レジスタ・リマッピング・メカニズムは、本発明の範囲から離れることなく、ある程度の変形が可能であることが明らかになるであろう。例えば、レジスタ10のバンクは、プログラマによって命令オペランドに指定される以上の物理レジスタを提供することができる。これらの余分のレジスタは直接的にはアクセスできないが、レジスタ・リマッピング・メカニズムでは、これらのレジスタを使用することができる。例えば、先に出した例を考えてみよう。レジスタのXバンクに、プログラマの使える32ビットレジスタが4つあり、従って8つの16ビットレジスタが論理レジスタ・レファレンスによって指定するこができる。レジスタのXバンクが、実際には、例えば6つの32ビットレジスタから成る場合、プログラマにとって直接アクセスできない16ビットレジスタが余分に4つあることになる。しかしながら、これらの4つのレジスタは、リマッピング・メカニズムによって使用可能となり、データ項目の記憶のための付加的レジスタを提供する。
以下のアセンブラ・シンタクス(文法)を使用することができる。
>>は、論理右シフト、又は、シフト・オペランドが負であれば、左シフトを意味する(下の<1scale>を参照)。
−>>は、算術右シフト、又は、シフト・オペランドが負であれば、左シフトを意味する(下の<scale>を参照)。
RORは、右回転を意味する。
SAT(a)は、aの飽和値を意味する(目的レジスタのサイズによって、16ビット又は32ビットで飽和する)。特に、16ビットで飽和するために、+0x7fffより大きいどんな値も+0x7fffで置き換えられ、−0x8000より小さいどんな値も−0x8000で置き換えられる。32ビット飽和は、同様に、極限値+0x7fffffffと−0x80000000がある。目的レジスタが48ビットである場合も、飽和は32ビットで行われる。
ソース・オペランド1は、次のフォーマットの1つを取ることができる。<src1>は、
の短縮形として使用される。別の言い方をするなら、ソース・スペシファイアの7ビットはすべて有効であり、レジスタは32ビット値として(希望すれば、交換される)、または符号拡張した16ビット値として読まれる。アキュミュレータに取っては、下の32ビットだけが読まれる。“^”は、レジスタ再充填を指定する。
<src_16>は、
の短縮形として使用される16ビット値だけが読まれる。
<src_32>は、
の短縮形として使用される。32ビット値だけが読まれ、上半分及び下半分は希望すれば交換できる。
ソース・オペランド2は、次のフォーマットの1つを取ることができる。
<src2>は、3つのオプションの短縮形として使用される。
の形のソース・レジスタ、プラス最終結果のスケール(<scale>)。
− オプションでシフトされた8ビット定数(<immed_8>)、ただし、最終結果のスケールはない。
− 6ビット定数(<immed_6>)、プラス、最終結果のスケール(<scale>)。
<src2_maxmin>は、<src2>と同じであるが、ただし、スケールは許可されない。
<src2_shift>シフト命令は、<src2>の限定的サブセットを提供する詳細は上記を参照。
<src2_par> <src2_shift>用である。
第3のオペランドを指定する命令に対して:
<acc>は、4つのアキュミュレータ・レジスタ
のいずれかを示す短縮形。48ビットすべてが読まれる。再充填は指定されない。
目的レジスタは次のフォーマットを持つ:
<dest> これは、
の短縮形。“.”の拡張はない。
レジスタ全部が書かれる(アキュミュレータの場合は、48ビット)。レジスタへの書き戻しが必要ない場合は、使用されるレジスタは重要でない。アセンブラが、目的レジスタの省略をサポートし、書き戻しの必要がないこと、又は“.1”つまり、書き戻しは必要ないが結果が16ビット量であるかのようにフラグをセットすべきであることを示す。^は、値が出力FIFOに書き込まれることを示す。
<scale> これは、代数スケールの数を表す。14のスケールが使用できる。
ASR #0,1,2,3,4,6,8,10
ASR #12から16
LSL #1
<immed_8> これは、符号無し8ビット即値を表す。これは、0、8、16、又は24シフトで左回転された1バイトから成る。従って、0xYZ000000,0x00YZ0000、0x0000YZ00、0x000000YZの値が、任意のYZに対してエンコードできる。回転は、2ビット量としてエンコードされる。
<imm_6> これは、符号無し6ビット即値を表す。
<PARAMS> これは、レジスタ・リマッピングを指定し、次のフォーマットを持つ: <BANK><BASIC>n<RENUMBER>w<BASEWRAP>
<cond>という表現は、以下の条件コードの任意の1つの短縮形である。尚、エンコーディングは、ARMと少し異なる。それは、符号無しLS及びHIコードは、より役立つ符号付きオーヴァーフロー/アンダーフローのテストで置き換えられているからである。Vフラグ及びNフラグは、ピッコロ上で、ARMとは違う方法でセットされるので、条件テストからフラグ・チェックへの翻訳も、ARMとは異なる。
ピッコロが扱うのは符号付き量であるから、符号無しLS及びHI条件は、落とされ、オーバーフローの方向を記述するVPとVNで置き換えられている。ALUの結果は48ビット幅であるから、MIとLTが、同様にPLとGEが同じ機能を行う。
すべての操作は、特に注意書のない限り、符号付きである。
第1条件コード及び第2条件コードは、それぞれ、次のものから成る。
N 負
Z ゼロ
C キャリー/符号無しオーバーフロー
V 符号付きオーバーフロー
算術命令は、並列命令と「フル幅」命令の2つに分けることができる。「フル幅」命令というのは、一次フラグをセットするだけであるのに対して、並列オペレータは、結果の上16ビット半分と下16ビット半分とに基づき、一次フラグと2次フラグをセットする。
N,Z,Vフラグは、スケールを適用した後に、目的に書き込まれる前に、ALUの結果に基づいて計算される。ASRは常に、結果を記憶するのに必要なビット数を減らすが、ASLだと、それを増やす。これを避けるために、ピッコロは、ASLスケールが適用された場合、48ビットの結果を削って、ゼロ検出及びオーバーフローが行われるビット数を制限する。
Nフラグの計算は、符号付き算術計算が行われると推定して、行われる。それは、オーバーフローが起きた場合、結果の最上位ビットはCフラグかNフラグであり、それは、入力オペランドが符号付きか符号無しかによるからである。
Vフラグは、選択された目的に結果を書き込んだ結果、精度の損失があるか否かを示す。書き戻しが選択されなかった場合も、「サイズ」は含まれており、オーバーフロー・フラグは正しくセットされる。オーバーフローが起きるのは、次の場合である。
− 結果が、−2^15から2^15−1の範囲にないのに16ビットレジスタに書き込んだ場合。
− 結果が、−2^31から2^31−1の範囲にないのに32ビットレジスタに書き込んだ場合。
並列加算/減算命令は、結果の上半分及び下半分に独立にN,Z,Vフラグをセットする。
アキュミュレータに書き込みを行うと、32ビットレジスタに書き込まれたかのように、Vフラグがセットされる。
飽和絶対命令(SABS)も、入力オペランドの絶対値が指定された目的に合わないと、オーバーフロー・フラグをセットする。
キャリー・フラグは、加算と減算命令によりセットされ、MAX/MIN,SABS、CLB命令によって「バイナリー」フラグとして使用される。乗算操作を含む他のすべての命令は、(単数または複数の)キャリー・フラグを保存する。
加算と減算操作については、キャリーは、ビット31又はビット15又は目的が32ビット幅であるか16ビット幅であるかの、結果によって生成される。
標準的算術命令は、フラグのセット方法によって、多くのタイプに分類することができる。
加算命令、減算命令の場合、Nビットがセットされると、すべてのフラグが保存される。Nビットがセットされないと、フラグは、次のように更新される。
Zがセットされるのは、フル48ビット結果が0だった場合。
Nがセットされるのは、フル48ビット結果にビット47のセットがあった場合(負だった場合)。
Vがセットされるのは:
目的レジスタが16ビットであり、符号付き結果が16ビットレジスタに合わない(−2^15<=x<2^15の範囲にない)場合
目的レジスタが32/48ビットレジスタであり、符号付き結果が32ビットに合わない場合
<dest>が32又は48ビットレジスタである場合でCフラグがセットされるのは、<scr1>と<scr2>を合計してビット31からキャリーがある時、又は、<scr1>から<scr2>を減算してビット31から借り(borrow)が生じない時(ARM上と同じキャリー)。<dest>が16ビットレジスタである場合でCフラグがセットされるのは、合計のビット15からキャリーがある時。
2次フラグ(SZ,SN,SV,SC)は保存される。
48ビットレジスタから乗算又は累算を行う命令の場合。
Zがセットされるのは、フル48ビット結果が0だった場合。
Nがセットされるのは、フル48ビット結果にビット47のセットがあった場合(負だった場合)。
Vがセットされるのは:(1)目的レジスタが16ビットであり、符号付き結果が16ビットレジスタに合わない(−2^15<=x<2^15の範囲にない)場合、(2)目的レジスタが32/48ビットレジスタであり、符号付き結果が32ビットに合わない場合
Cは保存される。
2次フラグ(SZ,SN,SV,SC)は保存される。
論理操作、並列加算及び減算、max及びmin、シフトなどを含むその他の命令は、以下のようにカバーされる。
加算命令、減算命令は、2つのレジスタを加算又は減算し、結果をスケールして、レジスタに戻して記憶させる。オペランドは、符号付き値として扱われる。不飽和変種に対するフラグ更新は、オプショナルであり、Nを命令の最後に付け足すことによって抑制することもできる。
OPCは、命令のタイプを指定する。
CMPは、レジスタ書き込みディスエーブル(disabled)のフラグをセットする減算であり、CMNは、レジスタ書き込みディスエーブルのフラグをセットする加算である。
フラグ:
これについては、上記の通り。
含める理由
ADCは、shift/MAX/MIN操作に続いてレジスタの下にキャリーを挿入するのに使える。また、32/32割算を行うのにも使用される。さらに、拡張精密加算を提供する。Nビットを加算することによって、フラグを細かく制御することができ、特にキャリーを制御できる。これにより、1ビットにつき2サイクルで、32/32ビット割算ができる。
飽和加算及び減算が、G.729などに必要である。
カウンタのインクリメント/ディクリメント。RSBは計算シフト(x=32−xが普通の操作)に使える。飽和RSBは、飽和否定(G.729で使用される)に必要である。
加算/減算累算命令は、累算及びスケーリング/飽和を伴う加算及び減算を行う。乗算累算命令と違って、アキュミュレータ番号は、目的レジスタと独立に指定することはできない。目的レジスタの下2ビットは、累算に使う48ビットアキュミュレータの番号、accを与える。従って、ADDA X0,X1,X2,A0及びADDA A3,X1,X2,A3は有効であるが、ADDA X1,X1,X2,A0は無効である。このクラスの命令では、結果はレジスタに書き戻されなければならず、目的領域の書き戻し無しエンコーディングは許可されない。
OPCは、命令のタイプを指定する。以下において、accは(DEST〔1:0〕)である。Saビットは、飽和を示す。
コマンドの前のSは飽和を示す。
フラグ:
上記を参照
含める理由
ADDA(加算累算)命令は、1サイクルにつき、整数アレーの2ワードとアキュミュレータ(例えば、それらの平均を見つけるのに)の和を取るのに使える。SUBA(減算累算)命令は、差の和を計算するのに(例えば相関のために)使え、2つの別個の値を減算して、その差を第3のレジスタに加える。
<acc>とは異なる<dest>を使用することによって、丸め(rounding)をともなう加算をすることもできる。例えば、X0=(X1+X2+16384)>>15は、16384をA0に保持しながら1サイクルで行うことができる。丸め付定数加算は、ADDA X0,X1,#16384,A0で行うことができる。
ビットの正確な導入には:
sum of((a_i*b_i)>>k)(一般的にはTrueSpeechで使用される)
標準ピッコロ・コードは以下のようになる:
MUL t1,a_0,b_0,ASR#k
ADD ans,ans,t1
MUL t2,a_1,b_1,ASR#k
ADD ans,ans,t2
このコードには2つの問題がある。1つは長すぎること、もう1つは、加算が48ビット精密加算ではなくガードビットが使用できないこと。これに対処するには、ADDAを使うことである。
MUL t1,a_0,b_0,ASR#k
MUL t2,a_1,b_1,ASR#k
ADDA ans,t1,t2,ans
これにより、25%のスピードアップが得られる、48ビット精度が保持される。
並列命令における加算/減算は、32ビットレジスタに対(ペア)で保持される2つの符号付き16ビット量で行われる。一次条件コードフラグは、最上位16ビットの結果からセットされ、二次フラグは、下位半分から更新される。これらの命令のソースとして指定できるのは32ビットレジスタだけであるが、値は、ハーフワード交換できる。各レジスタの個々の半分は、符号付き値として扱われる。計算及びスケーリングは、精度損失無しで行われる。従って、ADDADD X0,X1,X2,ASR#1 は、X0の上半分及び下半分における正しい平均を生成する。各命令にはオプションナル飽和が提供され、それには、Saビットをセットする。
OPCが操作を定義する。
書き戻しなしの標準命令によって生成される。
フラグ
C がセットされるのは、2つの上の16ビット半分を加算する時に、ビット15のキャリーがある場合。
Z がセットされるのは、上の16ビット半分の和が0である場合。
N がセットされるのは、上の16ビット半分の和が負である場合。
V がセットされるのは、上の16ビット半分の符号付き17ビット和が16ビットに当てはまらない(ポスト・スケール)場合。
SZ,SN,SV,SCが、同様に、下の16ビット半分に対してセットされる。
含める理由
並列加算及び減算命令は、単一32ビットレジスタに保持される複素数を操作するのに使用でき、FFTカーネルで使用される。また、16ビットデータのベクトルの単純な加算/減算にも使え、1サイクルで2つの要素を処理することができる。
ブランチ(条件付き)命令は、制御フローにおける条件付き変更を行うことを可能とする。ピッコロは、取られたブランチを実行するのに3サイクル使う。
動作
一次フラグに基づき<cond>が保持されれば、オフセットによるブランチ。
オフセットは、符号付き16ビット番号のワードである。この時、オフセットの範囲は、−32768から+32767ワードに制限される。
アドレス計算は次のようにされる。
目的アドレス=ブランチ命令アドレス+4+オフセット
ニューモニック:
B<cond><destination_label>
フラグ:
影響されない
含める理由:
殆どのルーチンで非常に役立つ。
条件付き加算又は減算命令は、条件付きでsrc2をsrc1へ加算または減算する。
OPCが命令のタイプを指定する。
フラグ:
上記参照
含める理由
条件付き加算または減算命令により、効率のよい除算コードを構成することができる。
例1: X0にある32ビット符号無し値を、X1にある16ビット符号無し値で割る(X0<(X1<<16)且つX1.h=0と仮定する)。
LSL X1,X1,#15 ;除数をシフトアップする
SUB X1,X1,#0 ;キャリーフラグをセットする
REPEAT #16
CASC X0,X0,X1,LSL#1
NEXT
ループの最後で、X0.1は除算の商を保持する。余りは、キャリーの値に従って、X0.hから復元される。
例2: X0にある32ビット正の値を、X1にある32ビット正の値で割り、早く終了する。
最後に、X2が商を保持し、余りは、X0から復元される。
カウント・リーディング・ビット命令により、データが正規化される。
動作
destは、src1にある値が左にシフトされるべき場所数にセットされて、ビット31がビット30と異なるようにする。これは0−30の範囲の値であるが、例外として、src1が−1又は0の場合は、31が戻される。
ニューモニック
CLB <dest>,<src1>
フラグ
Z がセットされるのは、結果が0の時。
N はクリアされる。
C がセットされるのは、src1が−1又は0の時。
V は未使用。
含む理由:
正規化に必要なステップ
ピッコロの実行を止めるには、Halt及びBreakpoint命令がある。
OPCは命令のタイプを指定する。
動作(OPC)
0 ピッコロの実行が止められ、Haltビットがピッコロ状態レジスタにセットされる。
1 ピッコロの実行が止められ、Breakビットがピッコロ状態レジスタにセットされ、ARMが中断され、ブレークポイントに到達したことを知らせる。
ニューモニック
0 HALT
1 BREAK
フラグ
影響されない。
論理演算命令は、32又は16ビットレジスタ上で論理演算を行う。オペランドは、符号無し値として扱われる。
OPCは、実行すべき論理操作をエンコードする。
TSTは、レジスタ書き込みがディスエーブルされたANDである。TEQはレジスタ書き込みがディスエーブルされたEORである。
フラグ
Z がセットされるのは、結果が全て0の時。
N,C,V は保存される。
SZ,SN,SC,SVは保存される。
含む理由:
スピーチ圧縮アルゴリズムは、情報をエンコードするために、パックされたビット領域を使用する。ビットマスク命令は、これらの領域の抽出/パック化を助ける。
Max及びMin操作命令は、最大及び最小操作を実行する。
OPCは命令のタイプを指定する。
フラグ
Z がセットされるのは、結果が0の時。
N がセットされるのは、結果が負の時。
C Maxでは、src2>=src1 (dest=src1の場合)の時にセットされる。Minでは、src2>=src1 (dest=src2の場合)の時にセットされる。
V 保存される
含む理由:
信号の強さを見るために、多数のアルゴリズムがサンプルをスキャンして、サンプルの絶対値の最大/最小を決める。これに、MAX,MIN操作が使用できる。信号の最初の最大値か最後の最大値のどちらを見つけたいかによって、オペランドsrc1及びsrc2は、交換することができる。
MAX X0,X0,#0 は、X0を正の数に変換し下をクリップする。
MIN X0,X0,#255は、X0の上をクリップする。これは、グラフィック処理に役立つ。
並列命令におけるMAX,MIN操作は、並列16ビットデータ上で最大値、最小値操作を行う。
OPCは、命令のタイプを指定する。
フラグ
Z がセットされるのは、結果の上16ビットがゼロの場合。
N がセットされるのは、結果の上16ビットが負の場合。
C Max: src2.h>=scrc1.h (dest=src1の場合)の時にセットされる。
Min: src2.h>=scrc1.h (dest=src2の場合)の時にセットされる。
V 保存される
SZ,SN,SC,SVは、同様に、下16ビット半分用にセットされる。
含む理由:
32ビットMax,Minについて。
Move Long Immeidate Operation命令により、レジスタは、どの符号付き16ビットの符号拡張値をセットされることができる。これらの命令のうち2つは、32ビットレジスタに任意の値にセットすることができる(連続する高位半分と低位半分にアクセスすることによって)。レジスタ間の移動については、選択操作を参照。
MOV<dest>,#<imm_16>
アセンブラは、MOV命令を使用して非インターロックNOP操作を提供することができる。つまり、NOPは、MOV,#0と等価である。
フラグ
フラグは影響されない。
含む理由:
レジスタ/カウンタをイニシアライズする。
乗算累算操作命令は、符号付き乗算を行い、累算または退出(deaccumulation)、スケーリング及び飽和を伴う。
OPC領域は命令のタイプを特定する。
各場合、Saビットがセットされていれば、結果は目的に書き込まれる前に飽和される。
コマンドの手前のSは飽和を示す。
フラグ:
上記を参照。
含む理由:
1サイクル保持されたMULAがFIRコードに必要である。MULSは、FFTバタフライで使用される。また、MULAは、丸め(rounding)付き乗算に役立つ。例えば、A0=(X0*X1+16384)>>15は、16384を別のアキュミュレータ(例えばA1)に保持することによって、1つのサイクルで行うことができる。FFTカーネルには異なった<dest>及び<acc>が必要である。
Multiply Double Operation命令は、符号付き乗算を行い、結果をダブルにしてから累算又は退出、スケーリング、飽和を行う。
OPCは命令のタイプを指定する。
フラグ:
上記参照
含む理由:
MLD命令は、G.729など、分数(fractional)算術を使用するアルゴリズムにとって必要である。殆どのDSPは、累算又は書き戻しの前に乗数の出力において1ビット左にシフトさせることのできる分数モードを提供する。これを特定命令としてサポートすることにより、プログラマにはより大きなフレキシビリティーが与えられる。Gシリーズの基本操作のいくつかと同等の名前を以下に示す。
L_msu=> SMLDS
L_mac=> SMLDA
これらは、1ビット左シフトする時に乗数の飽和を利用する。一連の分数の乗算・累算が必要な場合、精度のロスなしに、MULAを使うことができ、その和は、33.14フォーマットで保持される。必要なら、左シフト及び飽和を最後に利用して、1.15フォーマットに変換することができる。
乗算演算命令は、符号付き乗算、及びオプショナルなスケーリング/飽和を行う。ソース・レジスタ(16ビットのみ)は、符号付き数として扱われる。
OPCは命令のタイプを指定する。
フラグ
上記を参照。
含む理由。
符号付き且つ飽和乗算は、多くの処理で必要となる。
Register List操作は、複数のレジスタのセット(集合)に操作を行う時に使用される。Empty and Zero命令は、ルーチンを始める前に、あるいはルーチンとルーチンとの間で、レジスタの選択をリセットするのに使用する。Output命令を使って、レジスタのリストの内容を出力FIFOに記憶することができる。
OPCは命令のタイプを指定する。
フラグ
影響されない
例
EMPTY {A0,A1,X0−X3}
ZERO {Y0−Y3}
OUTPUT {X0−Y1}^
また、アセンブラはシンタクス(文法)をサポートする。
OUTPUT Rn
その場合、MOV^,Rn命令を使ってレジスタを1つ出力することになる。
EMPTY命令は、空であるすべてのレジスタが有効データを含む(すなわち、空きでない)まで、止まっている。
リマッピングREPEATループ内では、レジスタ・リスト操作は使用されるべきでない。
OUTPUT命令が出力用に指定することができるレジスタは8つまでである。
含む理由:
1つのルーチンが終了した後、次のルーチンは、ARMからデータを受け取れるようすべてのレジスタが空きであることを期待する。これを遂行するために、EMPTY命令が必要となる。FIRそのたのフィルタを実行する前に、すべてのアキュミュレータ及び部分的結果がゼロにされなければならない。これには、ZERO命令が助けとなる。これらの命令は、一連の単一レジスタ移動を置き換えることによってコード密度を改善するよう設計されている。OUTPUT命令は、一連のMOV^,Rn命令を置き換えることによってコード密度を改善するべく含まれる。
リマッピング・パラメータ・移動命令RMOVが提供されるので、ユーザ定義のレジスタ・リマッピング・パラメータの構成を取ることができる。
命令エンコーディングは以下の通り。
各PARAMS領域は次のエントリから成る:
これらのエントリの意味を以下に示す。
RMOV命令の使用がリマッピングのアクティブ中だと、その挙動は、UNPREDICATABLE(予想不可)である。
フラグ
影響されない。
Repeat命令は、4つのゼロ・サイクル・ループをハードウェアで提供する。REPEAT命令は、新しいハードウェア・ループを定義する。ピッコロは、最初のREPEAT命令にハードウェア・ループ0を使用し、最初のrepeat命令に埋め込まれた(nested)REPEAT命令にハードウェア・ループ1を使用し、以下同様である。REPEAT命令は、どのループが使用されているかを指定する必要はない。REPEAT命令は厳密に埋め込まれなければならない。深さ4を越える埋め込みを試みると、挙動は、予想不可となる。
各REPEAT命令は、(REPEAT命令の直後の)ループ内の命令の数を指定し、そのループを何回巡るかの回数(定数またはピッコロレジスタから読み込まれる)を指定する。
ループ内の命令の数が小さい(1又は2)場合、ピッコロはそのループをセットアップするために余分のサイクルを使っても良い。
ループ・カウントがレジスタ指定であれば、32ビットアクセスという意味になる(S1=1)が、下の16ビットだけが意味を持ち、その数は符号無しであるとされる。ループ・カウントがゼロの場合、ループの動作は未定義である。ループ・カウントのコピーが取られ、レジスタはループに影響せずに直接再利用(又は、再充填さえ)できる。
REPEAT命令は、ループ内でレジスタ・オペランドが指定される方法を変えるメカニズムを提供する。詳細は上記の通り。
ループ数がレジスタ指定されたREPEATのエンコーディング:
固定されたループ数のREPEATのエンコーディング:
RFIELDオペランドは、ループ内でどの16リマッピングパラメータ構成を使用すべきかを指定する。
アセンブラは、ハードウェア・ループを定義するためにREPEATとNEXTという2つのオペコードを提供する。REPEATはループの始めに行き、NEXTはループの最後を区切ることによって、アセンブラはループ本体内にある命令の数を数えることができる。REPEATにとって必要なことは、ループの数を定数あるいはレジスタとして指定すればよいだけである。例えば:
REPEAT X0
MULA A0,Y0.1,Z0.1,A0
MULA A0,Y0.h^,Z0.h^,A0
NEXT
これは、2つのMULA命令をX0回実行する。また、
REPEAT #10
MULA A0,X0^,Y0^,A0
NEXT
は、10回乗算累算を行う。
アセンブラは、次のシンタクス(文法)をサポートする。
REPEAT #iterations[,<PARAMS>]
REPEATのために使用するリマッピング・パラメータを指定する。必要なリマッピング・パラメータが前もって定義されたパラメータのセットの1つと等しい場合は、適当なREPEATエンコーディングが使用される。そうでなければ、アセンブラはRMOVを生成してREPEAT命令に続くユーザ定義パラメータをロードする。RMOV命令及びリマッピング・パラメータ・フォーマットの詳細については前記を参照。
ループの繰り返し(iteration)の回数が0であれば、REPEATの動作はUNPREDICATABLE(予想不可)である。
命令数領域が0にセットされると、REPEATの動作は、予想不可である。
ループに1つの命令しかなく、その命令がブランチであれば、予想不可能の挙動をする。
REPEATループの範囲からそのループの外へのブランチは、予想不可である。
飽和絶対命令は、ソース1の飽和絶対値(saturated absolute)を計算する。
動作:
dest=SAT((src1>=0)?src1:-src1).値は常に飽和する。特に、0x80000000の絶対値は0x7fffffffであり、0x80000000ではない。
ニューモニック:
SABS<dest>,<src1>
フラグ
Z がセットされるのは、結果が0の時。
N は保存される。
C がセットされるのは、scr<0 (dest=_scr1の場合)。
V がセットされるのは、飽和が生じた時。
含む理由:
多くのDSPアプリケーションで役立つ。
選択(select)操作(条件付き移動)は、条件付きでソース1またはソース2を目的レジスタに移動させる。選択は、常に、移動と等価である。並列加算/減算の後で使用するための並列操作もある。
尚、両方のソースオペランドは、導入理由のための命令によっても読み出すことができるので、一方が空きであれば、そのオペランドが絶対的に必要であるかどうかに関係なく、命令は止まる。
OPCは、命令のタイプを指定する。
MOV<cond>A,Bは、SEL<cond>A,B,Aと等価である。SELFTとSELFFは、SELTF,SELTTを使用して、src1とsrc2を交換することによって得ることができる。
フラグ
すべてのフラグは、一連の選択が行われるよう保存される。
含む理由:
簡単な決定をブランチに頼ることないインラインにするために使用される。最大要素のためにサンプル又はベクトルをスキャンする時に、そしてビタビ(Viterbi)アルゴリズムによって使用される。
シフト操作命令は、指定量の左右の論理シフト、右算術シフト、回転(rotate)を提供する。シフト量は、レジスタの内容の下8ビットから取られた−128から+127の間の符号付き整数、又は、+1から+31の範囲内の即値である。負の量のシフトは、ABS(シフト量)分反対方向にシフトさせる。
入力オペランドは、32ビットに符号拡張され、結果の32ビット出力は、書き戻し前に48ビットに符号拡張され、48ビットレジスタへの書き込みが感度よく機能する。
OPCは、命令のタイプを指定する。
フラグ
Z がセットされるのは、結果が0の時。
N がセットされるのは、結果が負の時。
V は保存される。
C は、最後にシフトされて出た(ARM上として)ビット値にセットされる。
レジスタ指定されたシフトの挙動は以下の通り。
−32によるLSLの結果は0で、src1のビット0にCがセットされる。
−32を越えるものでのLSLは、結果が0で、Cは0にセットされる。
−32によるLSRの結果は0で、src1のビット31にCがセットされる。
−32を越えるものでのLSRは、結果が0で、Cは0にセットされる。
−32以上でのASRの結果は充填され、Cはsrc1のビット31に等しい。
−32でのRORの結果はsrc1に等しく、Cがsrc1のビット31にセットされる。
−32を越えるnによるRORは、n−32によるRORと同じ結果とキャリーアウト(carry out)になるので、量が1から32の範囲内になるまで、繰り返し32をnから引く。上記参照。
含む理由:
2のべき乗による乗算/除算。ビット及び領域抽出。シリアル・レジスタ。
未定義の命令が、上記命令セットリストで挙げてある。それらの実行により、ピッコロは、実行を停止し、状態レジスタにUビットをセットし、それ自身をディスエーブルする(制御レジスタ内のEビットがクリアされたかのように)。これにより、命令が将来拡張された場合も、それがトラップされて、オプショナルに、既存の手段上でエミュレートされることが可能である。
ARMからピッコロ状態へのアクセスは以下の通り。状態アクセス・モードを使用して、ピッコロの状態を観察/変更する。このメカニズムが提供されるのは次の2つの理由からである。
−文脈(Context)切替え
−デバッグ
ピッコロは、PSTATE命令を行うことで、状態アクセスモードになる。このモードでは、ピッコロの状態を退避して、一連のSTC及びLDC命令で復元される。状態アクセスモードに入ると、ピッコロ・コプロセッサ ID PICCOLO1の使用が変更されて、ピッコロの状態にアクセスできるようになる。ピッコロの状態には7つのバンクがある。特定バンク内のすべてのデータは、単一のLDC又はSTCでロードし記憶することができる。
バンク0:プライベート・レジスタ
− ピッコロIDレジスタ(Read Only)の値を含む1つの32ビットワード
− 制御レジスタの状態を含む1つの32ビットワード
− 状態レジスタの状態を含む1つの32ビットワード
− プログラム・カウンタの状態を含む1つの32ビットワード
バンク1:汎用レジスタ(GPR)
− 汎用レジスタの状態を含む16個の32ビットワード
バンク2:アキュミュレータ
− アキュミュレータ・レジスタの上の32ビットを含む4つの32ビットワード(注:GPR状態の複製が復元に必要だということは、さもないとレジスタバンク上で別の書き込みイネーブルを意味する)。
バンク3:レジスタ/ピッコロROB/出力FIFO状態
− どのレジスタが再充填用の印(各32ビットレジスタにつき2ビット)になっているかを示す32ビットワードが1つ。
− ROBタグ(ビット7から0に記憶されている7ビット項目8つ)の状態を含む32ビットワード8つ。
− 連合していない(unaligned)ROBラッチ(ビット17から0)の状態を含む32ビットワード3つ。
− 出力シフトレジスタ内のどのスロットが有効データを含むかを示す32ビットワードが1つ(ビット4は空きを示し、ビット3から0は、使用中のエントリの数をエンコードする)。
− ラッチ(ビット17から0)を保持する出力FIF0の状態を含む32ビットワード1つ。
バンク4:ROB入力データ
− 32ビットデータ値が8つ。
バンク5:出力FIFOデータ
− 32ビットデータ値が8つ。
バンク6:ループハードウェア
− ループ開始アドレスを含む32ビットワード4つ。
− ループ最終アドレスを含む32ビットワード4つ。
− ループ回数(ビット15から0)を含む32ビットワード4つ。
− ユーザ定義リマッピング・パラメータその他のリマッピング状態を含む32ビットワードが1つ。
LDC命令は、ピッコロが状態アクセスモードにある時にピッコロの状態をロードするのに使う。BANK領域はロードされるバンクを特定する。
次の一連の動作により、ピッコロのすべての状態がレジスタR0内のアドレスからロードされる。
STC命令は、ピッコロが状態アクセスモードにある時にピッコロの状態を記憶させるのに使う。BANK領域はどのバンクが記憶されるかを特定する。
次の一連の動作により、ピッコロのすべての状態がレジスタR0内のアドレスから記憶される。
デバッグ・モード − ピッコロは、ARMによってサポートされているものと同じデバッグ・メカニズム、すなわち、DemonとAngelを介したソフトウェア、及び埋め込まれたICEを備えたハードエウェア、に応答しなければならない。ピッコロのシステムをデバッグするためのいくつかのメカニズムがある。
−ARM命令ブレークポイント
−データ・ブレークポイント(ウオッチポイント)
−ピッコロ命令ブレークポイント
−ピッコロ・ソフトウェア・ブレークポイント
ARM命令ブレークポイント及びデータ・ブレークポイントは、ARM埋め込みICEモジュールによって扱われる。ピッコロ命令ブレークポイントは、ピッコロ埋め込みICEモジュールによって扱われる。ピッコロ・ソフトウェア・ブレークポイントは、ピッコロ・コアによって扱われる。ハードウェア・ブレークポイント・システムは、ARMとピッコロの両方がブレークポイントされるように構成される。
ソフトウェア・ブレークポイントを扱うのは、ピッコロ命令(Halt又はBreak)で、ピッコロに実行を止めさせ、デバッグ・モードに入れ(状態レジスタのBビットがセットされる)、自身をディスエーブルする(ピッコロがPDISABLE命令によってディスエーブルされたようになる)。プログラム・カウンタは有効のままで、ブレークポイントのアドレスが回復できる。ピッコロは、それ以上、命令を実行しなくなる。
Single stepping Piccoloは、ピッコロ命令ストリーム上に次々にブレークポイントをセットすることによって行われる。
ソフトウェア・デバッグ − ピッコロによって提供される基本的機能は、状態アクセスモードにある時、コプロセッサ命令を介して、すべての状態をメモリーにロード及び退避させる能力である。これにより、デバッガーは、すべての状態をメモリーに退避させ、それを読み出し,及び/又は更新し、それをピッコロに復元することができる。ピッコロの記憶状態メカニズムは、非破壊的であり、つまり、ピッコロの状態を記憶する動作は、ピッコロの内部状態を駄目にすることはない。つまり、ピッコロは、その状態をダンプした後、それを復元することなしに、再開できる。
ピッコロ・キャッシュの状態を見つけるメカニズムを決定しなければならない。
ハードウェア・デバッグ − ハードウェア・デバッグは、ピッコロのコプロセッサ・インターフェース上のスキャン・チェインによって行うことができる。ピッコロは状態アクセスモードになり、スキャン・チェインを介して、その状態を調査/変更してもらう。
ピッコロの状態レジスタは、ブレークポイント付き命令を実行したことを示す単一ビットを含む。ブレークポイント付き命令が実行されると、ピッコロは、状態レジスタにBビットをセットし、実行を中止する。ピッコロに質問をするには、デバッガーは、ピッコロをイネーブルし、次のアクセスが起きる前に、制御レジスタに書き込むことによって、状態アクセスモードにしなければならない。
図4は、Hi/LoビットとSizeビットに応答して、選択されたレジスタの適当な半分をピッコロ・データパスに切り換えるマルチプレクサ構成を示す。Sizeビットが16ビットなら、符号拡張回路が必要に応じてデータパスの高次ビットに0か1を入れる。
Claims (7)
- 操作されるべきデータワードを記憶するためのレジスタで、各々が少なくともNビットの容量のある複数のレジスタ(10)と、
Nビット・データパスを有し、プログラム命令ワードに応答し、当該プログラム命令ワードによって指定された演算操作を行う演算ユニット(4)と
を備えるデータ処理装置であって、
前記演算ユニットは、第1の(N/2)ビット入力オペランド・データワード上で第1の演算操作を、第2の(N/2)ビット入力オペランド・データワード上で第2の演算操作を、別々に行う少なくとも1つの並列操作プログラム命令ワードに応答し、
前記演算ユニットは、前記第1の演算操作に従って条件コードフラグの第1セット(N,Z,C,V)をセットし、前記第2の演算操作に従って条件コードフラグの第2セット(SN,SZ,SC,SV)をセットし、
前記演算ユニットは、前記条件コードフラグの第1セットに従って、第1ソースレジスタに記憶されている第1(N/2)ビット入力オペランド・データワードと第2ソースレジスタに記憶されている第1(N/2)ビット入力オペランド・データワードとのいずれか一方を前複数のレジスタの中の目的レジスタに移動し、前条件コードフラグの第2セットに従って、第1ソースレジスタに記憶されている第2(N/2)ビット入力オペランド・データワードと第2ソースレジスタに記憶されている第2(N/2)ビット入力オペランド・データワードとのいずれか一方を前記目的レジスタに移動する条件付選択命令(SEL)に応答する
ことを特徴とするデータ処理装置。 - 請求項1に記載の装置であって、
前記並列操作プログラム命令ワードが、前記複数のレジスタの中から、ソースレジスタを当該ソースレジスタの高次ビット位置に記憶される前記第1の(N/2)ビット入力オペランドと当該ソースレジスタの低次ビット位置に記憶される前記第2の(N/2)ビット入力オペラントとともに指定することを特徴とする。 - 請求項1及び請求項2のいずれかに記載の装置であって、
前記演算ユニットが単一パスを有し、当該パスは、演算操作におけるビット位置の間のキャリー・チェインとして機能し、且つ、並列操作プログラム命令ワードが実行される時に、前記第1(N/2)ビット入力オペランド・データワードと前記第2(N/2)ビット入力オペランド・データワードとの間で割れることを特徴とするデータ処理装置。 - 先行する請求項のいずれかに記載の装置であって、
前記並列操作プログラム命令ワードが
(i)2つの並列(N/2)ビット加算が行われる並列加算、
(ii)2つの並列(N/2)ビット減算が行われる並列減算、
(iii)2つの並列(N/2)ビットシフト操作が行われる並列シフト、
(iv)(N/2)ビット加算と(N/2)ビット減算とが並列して行われる並列加算/減算、
(v)2つの並列(N/2)ビットmin/max操作が行われる並列min/max、及び
(vi)2つの並列(N/2)ビット・スケール操作が行われる並列スケール
のいずれか1つの演算操作を行うことを特徴とするデータ処理装置。 - 先行する請求項のいずれかに記載の装置であって、
前記条件コードフラグの第1のセット及び前記条件コードフラグの第2のセットが、直前の操作の
(i)結果がゼロだった(Z)、
(ii)結果が負だった(N)、
(iii)結果としてオーバーフローが起きた(V)、及び
(iv)結果としてキャリーが生じた(C)
ことを示す少なくとも1つのフラグを含むことを特徴とするデータ処理装置。 - 先行する請求項のいずれかに記載の装置であって、
前記演算ユニットが、畳み込み(convolution)操作と、フィルタ操作と、相関操作と、変換操作のいずれか1つを行うことを特徴とするデータ処理装置。 - 操作されるべきデータワードを、各々が少なくともNビットの容量のある複数のレジスタに記憶させるステップと、
プログラム命令ワードに応答して、Nビット・データパスを有する演算ユニットで、当該プログラム命令ワードによって指定された演算操作を行うステップと、
少なくとも1つの並列操作プログラム命令ワードに応答し、第1の(N/2)ビット入力オペランド・データワード上で第1の演算操作を、第2の(N/2)ビット入力オペランド・データワード上で第2の演算操作を、別々に行うステップと、
前記第1の演算操作に従って条件コードフラグの第1のセットをセットするステップと、
前記第2の演算操作に従って条件コードフラグの第2のセットをセットするステップと
から成るデータ処理方法であって、
前記条件コードフラグの第1セットに従って、第1ソースレジスタに記憶されている第1(N/2)ビット入力オペランド・データワードと第2ソースレジスタに記憶されている第1(N/2)ビット入力オペランド・データワードとのいずれか一方を前複数のレジスタの中の目的レジスタに移動し、前条件コードフラグの第2セットに従って、第1ソースレジスタに記憶されている第2(N/2)ビット入力オペランド・データワードと第2ソースレジスタに記憶されている第2(N/2)ビット入力オペランド・データワードとのいずれか一方を前記目的レジスタに移動する条件付き選択命令に応答することを特徴とするデータ処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB9619825A GB2317466B (en) | 1996-09-23 | 1996-09-23 | Data processing condition code flags |
GB9619825.4 | 1996-09-23 | ||
PCT/GB1997/002256 WO1998012626A1 (en) | 1996-09-23 | 1997-08-22 | Data processing condition code flags |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001501755A JP2001501755A (ja) | 2001-02-06 |
JP3662259B2 true JP3662259B2 (ja) | 2005-06-22 |
Family
ID=10800362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP51436998A Expired - Lifetime JP3662259B2 (ja) | 1996-09-23 | 1997-08-22 | データ処理条件コード・フラグ |
Country Status (9)
Country | Link |
---|---|
EP (1) | EP0927390B1 (ja) |
JP (1) | JP3662259B2 (ja) |
KR (1) | KR100520807B1 (ja) |
CN (1) | CN1104679C (ja) |
DE (1) | DE69721023T2 (ja) |
IL (1) | IL127290A0 (ja) |
MY (1) | MY118456A (ja) |
RU (1) | RU2181214C2 (ja) |
TW (1) | TW325552B (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9710269B2 (en) * | 2006-01-20 | 2017-07-18 | Qualcomm Incorporated | Early conditional selection of an operand |
US7958181B2 (en) | 2006-09-21 | 2011-06-07 | Intel Corporation | Method and apparatus for performing logical compare operations |
JP4228241B2 (ja) * | 2006-12-13 | 2009-02-25 | ソニー株式会社 | 演算処理装置 |
US9747105B2 (en) | 2009-12-17 | 2017-08-29 | Intel Corporation | Method and apparatus for performing a shift and exclusive or operation in a single instruction |
US9483266B2 (en) | 2013-03-15 | 2016-11-01 | Intel Corporation | Fusible instructions and logic to provide OR-test and AND-test functionality using multiple test sources |
US9886277B2 (en) | 2013-03-15 | 2018-02-06 | Intel Corporation | Methods and apparatus for fusing instructions to provide OR-test and AND-test functionality on multiple test sources |
DE112017008040T5 (de) * | 2017-09-14 | 2020-07-09 | Mitsubishi Electric Corporation | Rechenoperationsschaltung, rechenoperationsverfahren und programm |
CN111210012B (zh) * | 2018-11-21 | 2022-12-09 | 上海寒武纪信息科技有限公司 | 数据处理方法、装置及相关产品 |
CN111209231B (zh) * | 2018-11-21 | 2021-05-11 | 上海寒武纪信息科技有限公司 | 数据处理方法、装置及相关产品 |
KR20200139829A (ko) | 2018-10-18 | 2020-12-14 | 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 | 네트워크 온칩 데이터 처리 방법 및 장치 |
-
1996
- 1996-10-08 TW TW085112294A patent/TW325552B/zh not_active IP Right Cessation
-
1997
- 1997-08-22 JP JP51436998A patent/JP3662259B2/ja not_active Expired - Lifetime
- 1997-08-22 EP EP97937699A patent/EP0927390B1/en not_active Expired - Lifetime
- 1997-08-22 CN CN97194703A patent/CN1104679C/zh not_active Expired - Lifetime
- 1997-08-22 DE DE69721023T patent/DE69721023T2/de not_active Expired - Lifetime
- 1997-08-22 RU RU99108451/09A patent/RU2181214C2/ru not_active IP Right Cessation
- 1997-08-22 IL IL12729097A patent/IL127290A0/xx not_active IP Right Cessation
- 1997-08-22 KR KR10-1999-7002436A patent/KR100520807B1/ko not_active IP Right Cessation
- 1997-08-30 MY MYPI97004023A patent/MY118456A/en unknown
Also Published As
Publication number | Publication date |
---|---|
KR100520807B1 (ko) | 2005-10-12 |
RU2181214C2 (ru) | 2002-04-10 |
CN1104679C (zh) | 2003-04-02 |
IL127290A0 (en) | 1999-09-22 |
JP2001501755A (ja) | 2001-02-06 |
EP0927390A1 (en) | 1999-07-07 |
MY118456A (en) | 2004-11-30 |
KR20000048528A (ko) | 2000-07-25 |
DE69721023T2 (de) | 2003-12-24 |
TW325552B (en) | 1998-01-21 |
EP0927390B1 (en) | 2003-04-16 |
CN1219253A (zh) | 1999-06-09 |
DE69721023D1 (de) | 2003-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3756195B2 (ja) | デジタル信号処理集積回路アーキテクチャ | |
JP3681407B2 (ja) | コプロセッサ・データ・アクセス制御 | |
US5881257A (en) | Data processing system register control | |
US5784602A (en) | Method and apparatus for digital signal processing for integrated circuit architecture | |
US5881263A (en) | Non-instruction base register addressing in a data processing apparatus | |
US5748515A (en) | Data processing condition code flags | |
US5969975A (en) | Data processing apparatus registers | |
US5881259A (en) | Input operand size and hi/low word selection control in data processing systems | |
JP3645573B2 (ja) | データ処理装置におけるレジスタ・アドレッシング | |
JP3662259B2 (ja) | データ処理条件コード・フラグ | |
JP3645574B2 (ja) | データ処理システムにおける入力オペランド制御 | |
JP2001504956A (ja) | データ処理システム・レジスタ制御 | |
JP2001501329A (ja) | データ処理装置レジスタ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050323 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090401 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090401 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100401 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110401 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120401 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130401 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130401 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140401 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |