JP3558834B2 - Music score recognition method and computer readable recording medium recording music score recognition program - Google Patents
Music score recognition method and computer readable recording medium recording music score recognition program Download PDFInfo
- Publication number
- JP3558834B2 JP3558834B2 JP19797097A JP19797097A JP3558834B2 JP 3558834 B2 JP3558834 B2 JP 3558834B2 JP 19797097 A JP19797097 A JP 19797097A JP 19797097 A JP19797097 A JP 19797097A JP 3558834 B2 JP3558834 B2 JP 3558834B2
- Authority
- JP
- Japan
- Prior art keywords
- staff
- label
- section
- feature
- symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G1/00—Means for the representation of music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/155—User input interfaces for electrophonic musical instruments
- G10H2220/441—Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
- G10H2220/451—Scanner input, e.g. scanning a paper document such as a musical score for automated conversion into a musical file format
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
- Character Input (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、五線を消去せずに、高い認識率を得ることのできる楽譜認識方法及び楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
パソコン及びスキャナ等を使用して楽譜上の音符・休符・その他の記号を認識する場合、楽譜イメージを2値化して読み取り、更に五線及び段落を認識した上で、各段落毎に、五線消去を行なった後、任意の矩形形状をした読み取り用のラベルを各記号毎に設定して、該ラベルデータと予め辞書に用意されていたラベルデータとをパターンマッチングして、認識が行われていた。
【0003】
【発明が解決しようとする課題】
しかし上記の認識方法では、五線消去によって、五線上の記号の五線と接する部分までイメージから除去されてしまうため、その記号をラベリングする際、画素の連続性が損なわれ、このような分割によって、ラベリングができなくなる。その結果、認識されるべき記号が1つのまとまった記号として正確に認識されないといった問題がある。この問題を解決するために、分割された五線上のイメージを保持する手法が用いられていた。ところがこの方法も完全な方法ではないため、五線消去によるラベリング失敗は避けられず、認識率の低下の原因となっている。また五線消去時にノイズが残った場合、本来別のラベルになるべき複数の記号が、ノイズで画素連結され(ラベル連結)、1つのラベルとして抽出されてしまうことになり、認識に悪影響を与えることになる。
【0004】
本発明は従来技術の上記問題に鑑み創案されたもので、五線を消去せずに、高い認識率を得ることのできる楽譜認識方法及び楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体を提供せんとするものである。
【0005】
【課題を解決するための手段】
本発明者等は、上記の問題を分析した結果、音部記号、拍子記号、省略記号、五線内にある臨時記号や休符等の、五線上での縦位置が固定されている記号、又は五線をグリッドとして縦位置が固定される記号で、その特徴付けが可能な範囲が五線内にあるものを、認識対象として絞れば、五線の消去をせずとも、対象イメージを充分に特徴付けできる部分を正確にラベル抽出し、得られたラベルから変形、擦れ、滲みに影響を受け難い特徴を抽出して、正確な認識ができると考え、以下に示す本発明を創案するに至った。
【0006】
即ち、本発明の構成(請求項2に係るコンピュータ読み取り可能な記録媒体の構成についても同じ)は、ラベル抽出手段と、特徴量抽出手段と、パターンマッチング手段とを備え、楽譜のイメージを読み取って、その音楽記号を認識し、演奏や楽譜表示のためのデータを作成する楽譜認識方法において、後述する図3に示すように、前記ラベル抽出手段により、記号別に設定される五線位置を基にした任意の縦区間y1〜y2で、五線開始位置xsから五線終了位置xeまでの横軸へのプロジェクション(投影量)を求め、該プロジェクション値が任意のしきい値th1を超える区間x1〜x2の幅が任意の別のしきい値th2以上であれば、x1、x2、y1、y2で囲まれる矩形をその記号の特徴を抽出するラベルとし(ラベル抽出機能)、前記特徴量抽出手段により、該ラベルにおける、前記縦区間y1〜y2で五線イメージに重ならない区間を、後述する図4に示すように、横方向のペリフェラル特徴を得る抽出区間として設定し、各抽出区間で左右端からのペリフェラル特徴を複数次求め、更に各抽出区間を、後述する図5に示すように、縦方向で一部が重なり合うように設定された数区間のメッシュに分割し、これらのメッシュ内でのペリフェラル特徴の次数毎の平均値を求めて各メッシュ区間の特徴量とし、これを左右両端、各メッシュ別に求めたものをこのラベルの特徴とし(特徴量抽出機能)、前記パターンマッチング手段により、辞書に記憶された前記特徴とのパターンマッチングにより、楽譜イメージで五線上に固定の位置を持つ或いは五線をグリッドに持つ記号を認識する(パターンマッチング機能)ことを基本的特徴としている。
【0007】
また請求項2の構成は、上記請求項1の構成を、ラベル抽出機能と、特徴量抽出機能と、パターンマッチング機能とを有する構成として、これらの機能を実行させるための楽譜認識プログラムを記録させたコンピュータ読み取り可能な記録媒体として提供するものである。
より具体的には、楽譜のイメージを読み取って、その音楽記号を認識し、演奏や楽譜表示のためのデータを作成する楽譜認識プログラムを記憶したコンピュータ読み取り可能な記録媒体であって、該プログラムの実行により、ラベル抽出手段と、特徴量抽出手段と、パターンマッチング手段とが該コンピュータ上に実現され、
前記ラベル抽出手段による、記号別に設定される五線位置を基にした任意の縦区間y1〜y2で、五線開始位置xsから五線終了位置xeまでの横軸へのプロジェクションを求め、該プロジェクション値が任意のしきい値th1を超える区間x1〜x2の幅が任意の別のしきい値th2以上であれば、x1、x2、y1、y2で囲まれる矩形をその記号の特徴を抽出するラベルとするラベル抽出機能と、
前記特徴量抽出手段による、該ラベルにおける、前記縦区間y1〜y2で五線イメージに重ならない区間を横方向のペリフェラル特徴を得る抽出区間として設定し、各抽出区間で左右端からのペリフェラル特徴を複数次求め、更に各抽出区間を、縦方向で一部が重なり合うように設定された数区間のメッシュに分割し、これらのメッシュ内でのペリフェラル特徴の次数毎の平均値を求めて各メッシュ区間の特徴量とし、これを左右両端、各メッシュ別に求めたものをこのラベルの特徴とする特徴量抽出機能と、
前記パターンマッチング手段による、辞書に記憶された前記特徴とのパターンマッチングにより、五線上に固定の位置を持つ或いは五線をグリッドに持つ記号を認識するパターンマッチング機能と
を実行させるための楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0008】
発明者に、下記部分における審査官が指摘した部分(「五線が作る4区間」)の説明をお願いします。
【作用】
対象とする記号の十分特徴付けできる範囲を、縦の範囲は、五線が作る4区間のうちの任意の区間に設定し(後記図3、4参照)、横の範囲は、前記縦区間内で横軸へのプロジェクションを利用して求めることで、五線を消去することなくラベル抽出ができる。この時、へ音記号等の一部の記号で分割が予想されるが、これは隣接しているため、後処理で結合することが可能である。
上記のようにして求められたラベルは、縦方向位置は五線位置そのものであり、ラベル抽出時の誤差はないが、横方向位置はプロジェクション切り出しによるものなので、ある程度の誤差が考えられる。しかしパターンマッチングに利用する特徴として、本構成では上記のような左右端からのペリフェラル特徴を利用しているため、横方向位置の誤差を参照パターンとの相対的な誤差に転換できることになる。
又ペリフェラル特徴を求める区間を五線の影響を受けない区間に設定し、更に区間を互いに一部重なり合うメッシュに分割し、メッシュ内での平均を特徴量とすることで、イメージ変形・かすみ・滲み・位置ずれに影響を受け難い特徴量とすることが可能になる。
実イメージで画素が連続していない記号(ハ音記号、省略記号、調号等)を認識する場合、通常の認識手法では、画素が連続するラベル単位で認識した後に、個々のラベル位置関係を調べ、認識結果を確定しなければならないが、上記構成におけるラベル抽出手法(機能)は、上記記号を1つのラベルとして抽出できるので、認識処理の簡易化、認識精度の向上が図られる。
【0009】
【発明の実施の形態】
以下本発明の一実施形態を添付図面に基づき説明する。図1は本発明に係る楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体を後述するフレキシブルディスクドライブFDD5等の外部記憶装置(或いはCD−ROMドライブ等)で読み込ませて稼動する楽譜認識装置の実施例構成を示すブロック図である。この装置は、パソコンなどの電子計算機の構成に、スキャナやMIDIインターフェース回路を付加したものである。CPU1は、ROM2或いはRAM3に格納されるプログラムに基づき、楽譜認識装置全体の制御を行う中央演算処理装置である。また予め設定された所定の周期でCPU1に割り込みをかけるタイマ回路を内蔵している。RAM3はプログラムエリアの他、画像データバッファ、ワークエリア等として使用される。ハードディスク装置HDD4及びフレキシブルディスクドライブFDD5は、プログラム及び画像データ、演奏データ等を格納する。CRT6はCPU1の制御に基づき、CRTインターフェース回路7から出力される映像情報を表示し、キーボード8から入力された情報は、キーボードインターフェース回路9を経てCPU1に取り込まれる。プリンタ10は、CPU1の制御に基づき、プリンタインターフェース回路11から出力される印字情報を印字する。
【0010】
スキャナ12は、例えば(印刷された)楽譜を光学的に走査して、2値或いはグレースケールの画像データに変換するものであり、フラットベッド型、ハンディ型、フィーダ型等任意のタイプのスキャナを使用できる。スキャナ12によって読み取られた画像情報は、スキャナインターフェース回路13を介して、RAM3或いはHDD4に取り込まれる。MIDIインターフェース回路14は、音源モジュール等の外部のMIDI機器との間でMIDIデータの送受信を行う回路である。バス15は、本楽譜認識装置内の各回路を接続し、各種データ、プログラム、アドレス等をやり取りさせている。なお、この他にマウスなどのポインティングデバイスやRS232C等のシリアルインターフェース回路等を備えていても良い。
【0011】
本構成では、予めパターンマッチングに用いる参照パターンを、下記表1に示すように、特徴を抽出する五線区間毎に用意する。これらの参照パターンは、後述するように、五線区間数によって、特徴ベクトルデータの次数が異なる。
【0012】
【表1】
【0013】
図2はCPU1のメイン処理を示すフローチャートである。ステップS1においては、スキャナ12によって楽譜のイメージをRAM3に取り込む。画像は2値の画像データとして取り込む。ステップS2においては、このようにして2値化されて取り込まれた楽譜イメージで五線を検出する。ステップS3において、夫々の五線で水平線に対するずらし量に基づいた傾き補正を行う。この時点で五線位置(例えば第5線をL0、第4線をL1、…第5線をL4)をL(5)に、五線幅(五線の各線そのものの幅)をLthに保存する。
【0014】
記号認識の順序は、なるべく認識精度の高い抽出区間から始め(抽出区間の広い順)、認識に成功したラベル内の元イメージは順次消していく。このような認識を行う前提としてラベル抽出を行わなければならないが、本構成では、ラベル抽出手段により以下のステップS4〜ステップS8までが、特徴量抽出手段により以下のステップS9〜ステップS12までが、パターンマッチング手段により以下のステップS13が、実施される。
ステップS4において、図3及び図4に示すL0〜L4の五線位置L(5)で囲まれる4つの五線区間(請求項1及び2における縦区間y1〜y2に相当する)における、夫々の横軸へのプロジェクション(投影量)を五線開始位置xsから五線終了位置xeまで求め、P(4)(x)に保存する。
【0015】
L0〜L4で囲まれる上記五線区間内の記号(音部記号、省略記号、一部の拍子記号)を認識する場合、ステップS5において、五線区間4つ全てのプロジェクションデータを加算したものをP’(x)とし、プロジェクション切り出ししきい値thr1、切り出し対象幅しきい値thr2を五線幅より設定する(thr2=Lth)。
【0016】
ステップS6において、x=0からプロジェクションをスキャンし、ステップS7において、P’(x)>thr1となるxをx1とすると共に、P’(x)<thr1となるxをx2とし、x2−x1>thr2であれば、x1、x2、L0、L4で囲まれる矩形をラベル矩形とする(図3では、網線で囲まれた部分が切り出されたラベルを示している)。以上の処理を五線終了位置まで行い、ラベリングを終了する。この時、へ音記号が正確に抽出できないことがあるので、隣り合うラベルの位置が近ければ、ラベル結合を行う(このプロジェクション範囲での記号認識が終了した後、リジェクトとなったラベルに限定して結合し、再度、結合ラベルで認識を行っても良い)。
【0017】
ステップS8において、図4に示すように、前記ラベル矩形からラベルイメージを抽出し、元イメージで五線位置L(5)に相当する位置を、ラベルイメージ上での座標値でL’(5)とする。
【0018】
ステップS9において、図4に示すように、L’(5)が作る4区間夫々に、ペリフェラル特徴を求める範囲を、[L’(n)+Lth/2]から[L’(n+1)−Lth/2]に設定する。ここでLth/2のオフセットは、特徴を求める区間を、五線の影響を受けない区間に置くためのものである。
【0019】
ステップS10において、前記各区間で、左右端からのペリフェラル特徴を3次まで求める。各ペリフェラルデータは、図4に示すように、左右端から反対の端まで横走査し、白画素から黒画素に変化する点での走査線の長さを3次まで求め(1次ペリフェラル、2次ペリフェラル、3次ペリフェラル)、これを全区間で求めたものを保存しておく。
【0020】
次にステップS11において、図5に示すように、各区間に4つのメッシュ区間を設定する。このメッシュ区間は隣り合うメッシュ区間と、メッシュ幅の半分が重なるように設定し、左右端で16ずつ、計32メッシュ区間が設定される。
【0021】
各メッシュでの特徴量を格納するバッファをV(d)(n):(d:ペリフェラル次数、n:メッシュ)とし、ステップS12において、前記メッシュ区間でのペリフェラルデータを各次毎に平均化し、そうして得た値をこのバッファに保存する。
【0022】
ステップS13において、このようにして得られる3×32=96次の特徴量を、予め同様の処理で用意されている、前記参照パターン[L0〜L4で囲まれた五線区間を特徴区間とする記号用の参照パターン]とパターンマッチングする。該マッチングにおける比較法は、プロジェクション切り出しの横方向の誤差を考慮して、特徴量の変化分に重みを付けた比較法にする。
【0023】
他の五線区間での認識手法も上と同様に行う。この場合、抽出される特徴量の次数は、(五線区間数)×2(左右から)×4(各区間のメッシュ数)×3(ペリフェラル次数)となる。
【0024】
本構成におけるラベル抽出手法では、抽出ラベルの横方向位置を正確なものにするために、記号別に設定されている五線区間の任意の区間(例えば図4に示されるようにト音記号であれば、L0〜L4の区間)に範囲を絞ったプロジェクションが利用できる。更に特徴抽出位置やメッシュ区間(但し五線位置そのものはメッシュ区間に入れない)も五線位置を基準としたものなので、得られる特徴分布は五線位置に対して正確で、縦の配置が五線によって決まる記号に対して一貫性のある特徴を求めることができる。以上のようにして、表1に示されるような楽譜イメージで五線上に固定の位置を持つ或いは五線をグリッドに持つ記号を認識することができるようになる。
【0025】
(他の実施形態1)
前記実施形態のプロジェクションによるラベル切り出しにおいて切り出された範囲でのプロジェクションデータと同様な処理で用意された参照用のプロジェクションデータとのパターンマッチング手段によるパターンマッチングを、前記ペリフェラル特徴を用いたパターンマッチングのプリマッチング処理とすることができる。このプリマッチング処理での整合度が低いものは、その後のステップS8以下を回避することで、認識処理の高速化が図られ、プリマッチングでの整合度が基準値を満たす場合は、ステップS13において、その整合度を含めたパターンマッチングを行うことで、認識精度の向上が図られる。
【0026】
(他の実施形態2)
前記実施形態で、パターンマッチングに用いる特徴として横方向のペリフェラルデータを使用したが、認識精度の向上を考えて、縦方向のペリフェラルデータを前記特徴に追加する。縦方向のペリフェラルデータは、抽出区間の上辺、下辺(夫々任意の五線位置に等しい)からの3次までの走査データを使用し、プロジェクションによるラベル切り出しでは、ラベル矩形の横方向誤差があるために、ラベル矩形の横方向位置を基準に特徴抽出位置を設定すると、うまく認識できないことが多いと思われる。そこで切り出された矩形範囲内でのプロジェクションデータの正のピークを得る横方向位置をxpm、負のピークを得る横方向位置をxpfとし、夫々の位置を中心とする区間でのペリフェラルデータを利用することで、ラベル矩形の横方向誤差に影響を受けない記号特徴を、特徴量抽出手段により、抽出することができる。
【0027】
(他の実施形態3)
またこれまでの認識方法では、♭等の個々の臨時記号を認識した後、夫々の位置関係で調号を認識しているが、この位置関係が正確に認識することができないために、調号の認識は難しいとされてきた。本発明の構成では、図3に示されるように、調号が一塊りで抽出できる(図中3つの♭臨時記号で示される例)ので、同手法で、このような調号等の認識が可能となる。
【0028】
(他の実施形態4)
更に罫線上に固定的に配置されたテキストに対し、五線位置の代わりに、罫線位置を用いることで、上記本発明の構成によって、テキストの認識が可能となる。
【0029】
【発明の効果】
以上詳述した本発明の構成によれば、縦の範囲につき、五線が作る4区間のうちの任意の区間に設定し、横の範囲について、前記縦区間内で横軸へのプロジェクションを利用して求めているため、五線を消去することなくラベル抽出ができるようになる。このようにして求められたラベルは、縦方向位置は五線位置そのものであり、ラベル抽出時の誤差はなく、他方ある程度の誤差が考えられる横方向位置でのプロジェクション切り出しによるラベル抽出でも、左右端からのペリフェラル特徴を利用して、パターンマッチングを行っているため、横方向位置の誤差を参照パターンとの相対的な誤差に転換できるようになる。またペリフェラル特徴を求める区間を五線の影響を受けない区間に設定し、更に区間を互いに一部重なり合うメッシュに分割し、メッシュ内での平均を特徴量とすることで、イメージ変形・かすみ・滲み・位置ずれに影響を受け難い特徴量とすることが可能になる。
【図面の簡単な説明】
【図1】本発明に係る楽譜認識プログラムを記緑したコンピュータ読み取り可能な記録媒体を外部記憶装置で読み込ませて稼動する楽譜認識装置の実施例構成を示すブロック図である。
【図2】CPUのメイン処理を示すフローチャートである。
【図3】横軸へのプロジェクションを利用したラベリングの方法を示す説明図である。
【図4】ラベルデータ上のペリフェラル特徴抽出区間とペリフェラルデータ抽出方法を示す説明図である。
【図5】ラベルデータ上のペリフェラル特徴抽出区間に更にメッシュ区間を設定した状態を示す説明図である。
【符号の説明】
1 CPU
2 ROM
3 RAM
4 ハードディスク装置
5 フレキシブルディスクドライブ
6 CRT
7 CRTインターフェース回路
8 キーボード
9 キーボードインターフェース回路
10 プリンタ
11 プリンタインターフェース回路
12 スキャナ
13 スキャナインターフェース回路
14 MIDIインターフェース回路
15 バス[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a music score recognition method capable of obtaining a high recognition rate without deleting staffs, and a computer-readable recording medium storing a music score recognition program.
[0002]
[Prior art]
When recognizing notes, rests, and other symbols on a score using a personal computer and a scanner, the score image is binarized and read, and the staff and paragraphs are recognized. After performing line erasure, a label for reading having an arbitrary rectangular shape is set for each symbol, and the label data is subjected to pattern matching with label data prepared in a dictionary in advance, and recognition is performed. I was
[0003]
[Problems to be solved by the invention]
However, in the above-described recognition method, a portion of a symbol on the staff that is in contact with the staff is removed from the image by staff elimination, so that when the symbol is labeled, the continuity of pixels is lost, and such division is performed. Can not be labeled. As a result, there is a problem that a symbol to be recognized is not accurately recognized as one grouped symbol. In order to solve this problem, a method of retaining images on the divided staff is used. However, since this method is not a perfect method, labeling failure due to staff erasure is inevitable, causing a decrease in recognition rate. Also, if noise remains during staff erasure, a plurality of symbols that should be different labels are connected by pixels with noise (label connection) and are extracted as one label, which adversely affects recognition. Will be.
[0004]
The present invention has been made in view of the above-described problems of the prior art, and provides a music score recognition method and a computer-readable recording medium storing a music score recognition program capable of obtaining a high recognition rate without deleting staffs. It's something you want.
[0005]
[Means for Solving the Problems]
The present inventors have analyzed the above problems, clef, time signature, abbreviated symbol, such as accidentals and rests in the staff, symbols whose vertical position on the staff is fixed, Alternatively, if the vertical position is fixed using the staff as a grid and its characterizable range is within the staff, the target image can be adequately deleted without erasing the staff if it is narrowed down as the recognition target. It is considered that accurate extraction can be performed by accurately extracting a label that can be characterized as a part, extracting characteristics that are not easily affected by deformation, rubbing, and bleeding from the obtained label, and considering that accurate recognition can be performed. Reached.
[0006]
That is, the configuration of the present invention (the same applies to the configuration of the computer-readable recording medium according to claim 2) includes a label extracting unit, a feature amount extracting unit, and a pattern matching unit, and reads an image of a musical score. In a music score recognition method for recognizing the music symbol and creating data for performance and musical score display, as shown in FIG. 3, which will be described later, the label extracting means uses a staff position set for each symbol. In the given vertical sections y1 to y2, the projection (projection amount) on the horizontal axis from the staff start position xs to the staff end position xe is obtained, and the section x1 to the projection value exceeding the given threshold th1 is obtained. If the width of x2 is equal to or greater than an arbitrary threshold value th2, a rectangle surrounded by x1, x2, y1, and y2 is used as a label for extracting the feature of the symbol (label extraction function). , By the feature extraction means, in the label, a section that does not overlap the staff image in the vertical interval Y1~y2, as shown in FIG. 4 to be described later, is set as the extraction section to obtain a lateral peripheral features, In each extraction section, a plurality of peripheral features from the left and right ends are obtained multiple times, and each extraction section is further divided into meshes of several sections that are set to partially overlap in the vertical direction, as shown in FIG. and the average value of each order of peripheral features within these mesh with the feature amount of each mesh section, ones determined this right and left ends, for each mesh and features of the label (feature extraction function), the the pattern matching means, a pattern matching between the feature stored in the dictionary, lifting the or staves with fixed position on the staff in the score image on the grid It is basically characterized by recognizing the symbols (pattern matching function).
[0007]
According to a second aspect of the present invention, the configuration of the first aspect is configured to have a label extracting function, a feature amount extracting function, and a pattern matching function, and a score recognition program for executing these functions is recorded. Provided as a computer-readable recording medium.
More specifically, it is a computer-readable recording medium storing a music score recognition program for reading an image of a music score, recognizing a music symbol thereof, and creating data for performing and displaying the music score. By execution, a label extracting unit, a feature amount extracting unit, and a pattern matching unit are realized on the computer,
In the arbitrary vertical section y1 to y2 based on the staff position set for each symbol by the label extracting means, the projection to the horizontal axis from the staff start position xs to the staff end position xe is obtained. If the width of the section x1 to x2 whose value exceeds an arbitrary threshold value th1 is equal to or greater than any other threshold value th2, a rectangle surrounded by x1, x2, y1, and y2 is a label for extracting the feature of the symbol. Label extraction function and
In the label, a section that does not overlap the staff image in the vertical section y1 to y2 is set as an extraction section to obtain a peripheral feature in the horizontal direction, and the peripheral feature from the left and right ends is set in each extraction section. Multiple orders are obtained, and each extracted section is further divided into meshes of several sections that are set so as to partially overlap in the vertical direction, and an average value for each order of peripheral features in these meshes is obtained to obtain each mesh section. And a feature amount extraction function that uses the values obtained for each of the right and left ends and each mesh as features of this label.
A pattern matching function of recognizing a symbol having a fixed position on a staff or a grid having a staff, by pattern matching with the feature stored in the dictionary by the pattern matching means.
Is a computer-readable recording medium on which a musical score recognition program for executing the program is recorded.
[0008]
I would like the inventor to explain the following points ("4 sections made by staff") pointed out by the examiner in the following sections.
[Action]
The range in which the target symbol can be sufficiently characterized is set in the vertical range to any of the four sections made by the staff (see FIGS. 3 and 4 described later), and the horizontal range is set in the vertical section. By using the projection on the horizontal axis, the label can be extracted without deleting the staff. At this time, division may be expected for some symbols such as a clef, but since these are adjacent to each other, they can be combined in post-processing.
In the label obtained as described above, the vertical position is the staff position itself, and there is no error at the time of label extraction. However, since the horizontal position is based on the projection cutout, some error may be considered. However, since the configuration uses the above-described peripheral feature from the left and right ends as a feature used for pattern matching, an error in the horizontal position can be converted into an error relative to the reference pattern.
Also, by setting the section for obtaining the peripheral features to a section not affected by the staff, and further dividing the section into meshes that partially overlap each other, and using the average in the mesh as the feature amount, image deformation, haze, and bleeding -It is possible to obtain a feature amount that is hardly affected by the displacement.
When recognizing symbols in which pixels are not continuous in a real image (eg, treble clef, abbreviation, key signature, etc.), in a normal recognition method, after recognizing pixels in continuous label units, the individual label positional relationship is determined. Although it is necessary to check and determine the recognition result, the label extraction method (function) in the above configuration can extract the symbol as one label, thereby simplifying the recognition process and improving the recognition accuracy.
[0009]
BEST MODE FOR CARRYING OUT THE INVENTION
An embodiment of the present invention will be described below with reference to the accompanying drawings. FIG. 1 shows an embodiment of a musical score recognizing apparatus that operates by reading a computer-readable recording medium storing a musical score recognizing program according to the present invention into an external storage device (or a CD-ROM drive or the like) such as a flexible disk drive FDD5 described later. It is a block diagram showing an example composition. This device is obtained by adding a scanner and a MIDI interface circuit to the configuration of an electronic computer such as a personal computer. The
[0010]
The scanner 12 optically scans a (printed) score and converts it into binary or grayscale image data. For example, a scanner of any type such as a flatbed type, a handy type, and a feeder type can be used. Can be used. The image information read by the scanner 12 is taken into the RAM 3 or the
[0011]
In this configuration, a reference pattern used for pattern matching is prepared in advance for each staff section from which features are extracted, as shown in Table 1 below. These reference patterns have different degrees of feature vector data depending on the number of staff sections, as described later.
[0012]
[Table 1]
[0013]
FIG. 2 is a flowchart showing the main processing of the
[0014]
The order of symbol recognition starts from the extraction section with the highest recognition accuracy as much as possible (in the order of the extraction section), and the original images in the labels that have been successfully recognized are sequentially deleted. Label extraction must be performed on the premise of performing such recognition. In this configuration, the following steps S4 to S8 are performed by the label extracting unit, and the following steps S9 to S12 are performed by the feature amount extracting unit. The following step S13 is performed by the pattern matching means .
In step S4, each of the four staff sections (corresponding to the vertical sections y1 to y2 in
[0015]
When recognizing symbols (clefs, abbreviations, and some time signatures) in the staff section surrounded by L0 to L4, in step S5, the sum of the projection data of all four staff sections is added. P ′ (x) is set, and a projection cutout threshold thr1 and a cutout target width threshold thr2 are set based on the staff width (thr2 = Lth).
[0016]
In step S6, the projection is scanned from x = 0, and in step S7, x satisfying P '(x)> thr1 is set to x1, and x satisfying P' (x) <thr1 is set to x2, x2-x1 If> thr2, a rectangle surrounded by x1, x2, L0, and L4 is set as a label rectangle (FIG. 3 shows a cut-out label in a portion surrounded by a mesh line). The above processing is performed up to the staff end position, and the labeling ends. At this time, it may not be possible to accurately extract the syllabary. If adjacent labels are close to each other, label combination is performed. (After the recognition of symbols in this projection range is completed, only labels that have been rejected are limited.) And re-cognize with the binding label again).
[0017]
In step S8, as shown in FIG. 4, a label image is extracted from the label rectangle, and a position corresponding to the staff position L (5) in the original image is represented by a coordinate value L '(5) on the label image. And
[0018]
In step S9, as shown in FIG. 4, in each of the four sections created by L '(5), the range for obtaining the peripheral feature is changed from [L' (n) + Lth / 2] to [L '(n + 1) -Lth / 2]. Here, the offset of Lth / 2 is for placing the section for obtaining the feature in a section not affected by the staff.
[0019]
In step S10, peripheral features from the left and right ends are obtained up to the third order in each section. As shown in FIG. 4, each peripheral data is horizontally scanned from the left and right ends to the opposite end, and the length of a scanning line at a point where a white pixel changes to a black pixel is obtained up to the third order (primary peripheral, Next peripherals and tertiary peripherals), and those obtained in all sections are stored.
[0020]
Next, in step S11, as shown in FIG. 5, four mesh sections are set for each section. This mesh section is set so that half of the mesh width overlaps with the adjacent mesh section, and a total of 32 mesh sections are set, each having 16 at the left and right ends.
[0021]
The buffer for storing the feature value of each mesh is set to V (d) (n): (d: peripheral order, n: mesh). In step S12, the peripheral data in the mesh section is averaged for each order, The resulting value is stored in this buffer.
[0022]
In step S13, the 3 × 32 = 96-order feature amount obtained in this manner is defined as a staff section surrounded by the reference pattern [L0 to L4] prepared in advance by the same processing. Reference pattern for symbols]. The comparison method in the matching is a comparison method in which a change in the feature amount is weighted in consideration of the horizontal error of the projection cutout.
[0023]
The recognition method in other staff sections is performed in the same manner as above. In this case, the degree of the extracted feature amount is (number of staff sections) × 2 (from left and right) × 4 (number of meshes in each section) × 3 (peripheral degree).
[0024]
In the label extraction method according to the present configuration, in order to make the horizontal position of the extracted label accurate, an arbitrary section of the staff section set for each symbol (for example, as shown in FIG. For example, a projection whose area is limited to L0 to L4) can be used. Further, the feature extraction position and the mesh section (however, the staff position itself is not included in the mesh section) are based on the staff position, so that the obtained feature distribution is accurate with respect to the staff position, and the vertical arrangement is five. Consistent features can be found for symbols determined by lines. As described above, it is possible to recognize a symbol having a fixed position on a staff or a grid having a staff as a grid in a score image as shown in Table 1.
[0025]
(Other Embodiment 1)
The pattern matching by the pattern matching means with the projection data for reference prepared by the same processing as the projection data in the range cut out by the label cutout by the projection of the above-described embodiment is performed in advance of the pattern matching using the peripheral feature. A matching process can be performed. If the degree of consistency in the pre-matching process is low, the recognition process is speeded up by avoiding subsequent steps S8 and subsequent steps. If the degree of consistency in the pre-matching satisfies the reference value, the process proceeds to step S13. By performing pattern matching including the degree of matching, the recognition accuracy can be improved.
[0026]
(Other Embodiment 2)
In the above-described embodiment, the peripheral data in the horizontal direction is used as a feature used for pattern matching. However, in order to improve recognition accuracy, the peripheral data in the vertical direction is added to the above-described feature. The vertical peripheral data uses up to the third scan data from the upper side and the lower side (each equal to an arbitrary staff position) of the extraction section, and label cutting by projection has a horizontal error in the label rectangle. If the feature extraction position is set on the basis of the horizontal position of the label rectangle, it is likely that the recognition cannot be performed well. Therefore, the horizontal position at which the positive peak of the projection data in the cut-out rectangular range is obtained is xpm, the horizontal position at which the negative peak is obtained is xpf, and the peripheral data in the section centered on each position is used. Thus, a symbol feature which is not affected by the horizontal error of the label rectangle can be extracted by the feature amount extracting means .
[0027]
(Other Embodiment 3)
Also, in the conventional recognition method, after recognizing individual accidentals such as ♭, the key signature is recognized based on each positional relationship. However, since this positional relationship cannot be accurately recognized, the key signature is not recognized. Recognition has been considered difficult. According to the configuration of the present invention, as shown in FIG. 3, the key signature can be extracted in a lump (an example indicated by three temporary symbols in the figure). It becomes possible.
[0028]
(Other Embodiment 4)
Furthermore, by using the ruled line position instead of the staff position for the text fixedly arranged on the ruled line, the configuration of the present invention enables the text to be recognized.
[0029]
【The invention's effect】
According to the configuration of the present invention described in detail above, the vertical range is set to any of the four sections formed by the staff, and the horizontal range uses the projection to the horizontal axis in the vertical section. As a result, label extraction can be performed without erasing staffs. In the label obtained in this way, the vertical position is the staff position itself, there is no error at the time of label extraction, and the label extraction by projection cutout at the horizontal position where some error is considered Since the pattern matching is performed using the peripheral features from the reference pattern, the error in the horizontal position can be converted into an error relative to the reference pattern. Also, by setting the section where the peripheral features are determined to be unaffected by the staff, further dividing the section into meshes that partially overlap each other, and using the average in the mesh as the feature amount, image deformation, haze, and blurring -It is possible to obtain a feature amount that is hardly affected by the displacement.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an embodiment of a musical score recognizing apparatus which operates by reading a computer-readable recording medium storing a musical score recognizing program according to the present invention into an external storage device.
FIG. 2 is a flowchart illustrating main processing of a CPU.
FIG. 3 is an explanatory diagram showing a labeling method using projection on a horizontal axis.
FIG. 4 is an explanatory diagram showing a peripheral feature extraction section on label data and a peripheral data extraction method.
FIG. 5 is an explanatory diagram showing a state in which a mesh section is further set in a peripheral feature extraction section on label data.
[Explanation of symbols]
1 CPU
2 ROM
3 RAM
4
7 CRT interface circuit 8 Keyboard 9
Claims (2)
前記ラベル抽出手段により、記号別に設定される五線位置を基にした任意の縦区間y1〜y2で、五線開始位置xsから五線終了位置xeまでの横軸へのプロジェクションを求め、該プロジェクション値が任意のしきい値th1を超える区間x1〜x2の幅が任意の別のしきい値th2以上であれば、x1、x2、y1、y2で囲まれる矩形をその記号の特徴を抽出するラベルとし、
前記特徴量抽出手段により、該ラベルにおける、前記縦区間y1〜y2で五線イメージに重ならない区間を横方向のペリフェラル特徴を得る抽出区間として設定し、各抽出区間で左右端からのペリフェラル特徴を複数次求め、更に各抽出区間を、縦方向で一部が重なり合うように設定された数区間のメッシュに分割し、これらのメッシュ内でのペリフェラル特徴の次数毎の平均値を求めて各メッシュ区間の特徴量とし、これを左右両端、各メッシュ別に求めたものをこのラベルの特徴とし、
前記パターンマッチング手段により、辞書に記憶された前記特徴とのパターンマッチングにより、楽譜イメージで五線上に固定の位置を持つ或いは五線をグリッドに持つ記号を認識する
ことを特徴とする楽譜認識方法。A music score recognition method comprising: a label extraction unit, a feature amount extraction unit, and a pattern matching unit , reads an image of a music score, recognizes the music symbol thereof, and creates data for performing and displaying the music score.
The label extracting means obtains a projection on the horizontal axis from the staff start position xs to the staff end position xe in an arbitrary vertical section y1 to y2 based on the staff position set for each symbol. If the width of the section x1 to x2 whose value exceeds an arbitrary threshold value th1 is equal to or greater than any other threshold value th2, a rectangle surrounded by x1, x2, y1, and y2 is a label for extracting the feature of the symbol. age,
The feature amount extracting means sets, in the label, a section which does not overlap with the staff image in the vertical section y1 to y2 as an extraction section for obtaining a peripheral feature in the horizontal direction, and sets a peripheral feature from the left and right ends in each extraction section. Multiple orders are obtained, and each extracted section is further divided into meshes of several sections that are set so as to partially overlap in the vertical direction, and an average value for each order of peripheral features in these meshes is obtained to obtain each mesh section. The characteristic amount of this label, and what is obtained for each of the left and right ends and each mesh is the characteristic of this label.
A music score recognizing method characterized by recognizing a symbol having a fixed position on a staff or a grid having a staff in a score image by pattern matching with the feature stored in a dictionary by the pattern matching means .
前記ラベル抽出手段による、記号別に設定される五線位置を基にした任意の縦区間y1〜y2で、五線開始位置xsから五線終了位置xeまでの横軸へのプロジェクションを求め、該プロジェクション値が任意のしきい値th1を超える区間x1〜x2の幅が任意の別のしきい値th2以上であれば、x1、x2、y1、y2で囲まれる矩形をその記号の特徴を抽出するラベルとするラベル抽出機能と、
前記特徴量抽出手段による、該ラベルにおける、前記縦区間y1〜y2で五線イメージに重ならない区間を横方向のペリフェラル特徴を得る抽出区間として設定し、各抽出区間で左右端からのペリフェラル特徴を複数次求め、更に各抽出区間を、縦方向で一部が重なり合うように設定された数区間のメッシュに分割し、これらのメッシュ内でのペリフェラル特徴の次数毎の平均値を求めて各メッシュ区間の特徴量とし、これを左右両端、各メッシュ別に求めたものをこのラベルの特徴とする特徴量抽出機能と、
前記パターンマッチング手段による、辞書に記憶された前記特徴とのパターンマッチングにより、五線上に固定の位置を持つ或いは五線をグリッドに持つ記号を認識するパターンマッチング機能と
を実行させるための楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体。Reading the music score image, recognize the musical symbols, a computer-readable recording medium storing a music recognition program for creating data for playing and score display, by executing the program, a label extraction means And a feature amount extracting unit and a pattern matching unit are realized on the computer,
In the arbitrary vertical section y1 to y2 based on the staff position set for each symbol by the label extracting means , the projection to the horizontal axis from the staff start position xs to the staff end position xe is obtained. If the width of the section x1 to x2 whose value exceeds an arbitrary threshold value th1 is equal to or greater than any other threshold value th2, a rectangle surrounded by x1, x2, y1, and y2 is a label for extracting the feature of the symbol. Label extraction function and
In the label, a section that does not overlap the staff image in the vertical section y1 to y2 is set as an extraction section to obtain a peripheral feature in the horizontal direction, and the peripheral feature from the left and right ends is set in each extraction section. Multiple orders are obtained, and each extracted section is further divided into meshes of several sections that are set so as to partially overlap in the vertical direction, and an average value for each order of peripheral features in these meshes is obtained to obtain each mesh section. And a feature amount extraction function that uses the values obtained for each of the right and left ends and each mesh as features of this label.
A pattern matching function of recognizing a symbol having a fixed position on a staff or a grid having a staff, by pattern matching with the feature stored in the dictionary by the pattern matching means.
A computer-readable recording medium on which a musical score recognition program for executing the program is recorded.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19797097A JP3558834B2 (en) | 1997-07-09 | 1997-07-09 | Music score recognition method and computer readable recording medium recording music score recognition program |
PCT/JP1998/002807 WO1999003090A1 (en) | 1997-07-09 | 1998-06-24 | Method of recognizing music score and computer-readable recording medium stored with music score recognizing program |
DE19881155T DE19881155B4 (en) | 1997-07-09 | 1998-06-24 | Method for recognizing musical scores and computer-readable recording medium for storing a program for recognizing musical scores |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19797097A JP3558834B2 (en) | 1997-07-09 | 1997-07-09 | Music score recognition method and computer readable recording medium recording music score recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1145088A JPH1145088A (en) | 1999-02-16 |
JP3558834B2 true JP3558834B2 (en) | 2004-08-25 |
Family
ID=16383362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP19797097A Expired - Fee Related JP3558834B2 (en) | 1997-07-09 | 1997-07-09 | Music score recognition method and computer readable recording medium recording music score recognition program |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP3558834B2 (en) |
DE (1) | DE19881155B4 (en) |
WO (1) | WO1999003090A1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5248074B2 (en) * | 2007-09-28 | 2013-07-31 | 株式会社河合楽器製作所 | Music score recognition apparatus, music score recognition method, and computer program |
JP2014228628A (en) | 2013-05-21 | 2014-12-08 | ヤマハ株式会社 | Musical performance recording device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01304497A (en) * | 1988-06-02 | 1989-12-08 | Casio Comput Co Ltd | Method and device for score recognition |
US5042079A (en) * | 1988-08-12 | 1991-08-20 | Casio Computer Co., Ltd. | Method of recording/reproducing data of mesh pattern, and apparatus therefor |
JP2650605B2 (en) * | 1992-08-03 | 1997-09-03 | ヤマハ株式会社 | Music score recognition device |
JPH06150001A (en) * | 1992-11-09 | 1994-05-31 | Meidensha Corp | Method for separating and extracting musical note symbol |
JP3445039B2 (en) * | 1995-09-29 | 2003-09-08 | 株式会社河合楽器製作所 | Music score recognition device |
-
1997
- 1997-07-09 JP JP19797097A patent/JP3558834B2/en not_active Expired - Fee Related
-
1998
- 1998-06-24 DE DE19881155T patent/DE19881155B4/en not_active Expired - Fee Related
- 1998-06-24 WO PCT/JP1998/002807 patent/WO1999003090A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JPH1145088A (en) | 1999-02-16 |
DE19881155B4 (en) | 2007-04-19 |
WO1999003090A1 (en) | 1999-01-21 |
DE19881155T1 (en) | 1999-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8008562B2 (en) | Image processing apparatus, musical score editing method executed thereon, and storage medium storing program | |
US7965293B2 (en) | Image processing device, image processing method, and image processing program for reconstructing data | |
JP5154886B2 (en) | Music score recognition apparatus and computer program | |
JP2001109844A (en) | Character string extracting method, handwritten character extracting method, character string extraction device, and image processor | |
JP2012138009A (en) | Musical score recognition device, and computer program | |
JP7234495B2 (en) | Image processing device and program | |
JP3558834B2 (en) | Music score recognition method and computer readable recording medium recording music score recognition program | |
US6046394A (en) | Music score recognizing method and computer-readable recording medium storing music score recognizing program | |
JP4893643B2 (en) | Detection method and detection apparatus | |
CN116824607A (en) | High-precision answer sheet identification method | |
JP2003242438A (en) | Musical score recognizing device | |
JP3608674B2 (en) | Score recognition device | |
JP2020071619A (en) | Optical-character-recognition-result correction assisting apparatus and correction assisting program | |
JP3445039B2 (en) | Music score recognition device | |
JP3812836B2 (en) | Score recognition device | |
JP3613356B2 (en) | Score recognition device | |
US6580805B1 (en) | Method and recognizing music and computer-readable recording medium having music-recognizing program recorded therein | |
JP3812835B2 (en) | Score recognition device | |
JP3411736B2 (en) | Music score recognition device | |
JP2003187186A (en) | Music score recognition device | |
JP5248074B2 (en) | Music score recognition apparatus, music score recognition method, and computer program | |
JP3597354B2 (en) | Music score recognition method and computer readable recording medium recording music score recognition program | |
JPH11316797A (en) | Method and device for discriminating area of document image | |
JP4517667B2 (en) | Document image collation device, document image alignment method and program | |
JPH11250179A (en) | Character reocognition device and its method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040518 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040519 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080528 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090528 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090528 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100528 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100528 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110528 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110528 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120528 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130528 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140528 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |