JPH04591A - Method for feature extraction - Google Patents
Method for feature extractionInfo
- Publication number
- JPH04591A JPH04591A JP2100832A JP10083290A JPH04591A JP H04591 A JPH04591 A JP H04591A JP 2100832 A JP2100832 A JP 2100832A JP 10083290 A JP10083290 A JP 10083290A JP H04591 A JPH04591 A JP H04591A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- character
- sub
- inclination
- subpattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims description 78
- 238000000034 method Methods 0.000 title description 14
- 239000000284 extract Substances 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 abstract description 10
- 239000011159 matrix material Substances 0.000 description 27
- 230000015654 memory Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000005259 measurement Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、媒体上の文字を光電変換して得られる文字パ
タンを、複数方向に走査して該文字パタンから特徴を抽
出する特徴抽出方法、特に高速で、安定な特徴抽出方法
に関するものである。Detailed Description of the Invention (Industrial Application Field) The present invention provides a feature extraction method for scanning a character pattern obtained by photoelectrically converting characters on a medium in multiple directions and extracting features from the character pattern. , especially regarding a fast and stable feature extraction method.
(従来の技術)
従来、この種の特徴抽出方法としては、特開昭57−2
3185号公報(文献1〉、及び特公昭38−5555
1号公報(文献2〉に記載されるものがあった。(Prior art) Conventionally, this type of feature extraction method was disclosed in Japanese Patent Application Laid-open No. 57-2.
Publication No. 3185 (Reference 1) and Special Publication No. 38-5555
There was one described in Publication No. 1 (Reference 2).
文献1の技術では、媒体上の文字を光電変換して得られ
た文字パタンより、各方向の線素成分(ストローク成分
)を表わすサブパタンを抽出する。そして、該サブパタ
ンを複数の領域に分割してその分割された各領域毎に、
前記サブパタンの線素の量を表わす特徴を抽出して特徴
マトリクスを生成する。その後、該特徴マトリクスと、
予め用意した辞書とを、照合して前記文字を認識するも
のであった。In the technique of Document 1, subpatterns representing line element components (stroke components) in each direction are extracted from a character pattern obtained by photoelectrically converting characters on a medium. Then, the sub-pattern is divided into multiple regions, and for each divided region,
A feature matrix is generated by extracting features representing the amount of line elements in the sub-pattern. Then, the feature matrix and
The characters were recognized by comparing them with a dictionary prepared in advance.
また、文献2の技術では、文字パタンの走査により、走
査線とストロークの交差数を特徴量として抽出するもの
であった。Further, in the technique of Document 2, the number of intersections between a scanning line and a stroke is extracted as a feature amount by scanning a character pattern.
(発明が解決しようとする課題)
しかしなから、上記の特徴抽出方法では、次のような課
題があった。(Problems to be Solved by the Invention) However, the above feature extraction method has the following problems.
(i) 第2図は、印刷文字の斜体字の例を示す図で
ある。この図における数字゛○゛を模式化した図を第3
図(a)〜(d)に示す。即ち、第3図(a)は斜体で
ない文字パタン′○゛の例、同図(b)は斜体字“0°
の例、同図(C)は前記文献1の方法を用いて同図(a
)の文字パタンから抽出した垂直サブパタン、及び同図
(d)は前記文献1の方法を用いて同図(b)の文字パ
タンから抽出した垂直サブバタンである。(i) FIG. 2 is a diagram showing an example of printed characters in italics. The third diagram is a schematic diagram of the numbers ゛○゛ in this figure.
Shown in Figures (a) to (d). That is, FIG. 3(a) is an example of the non-italic character pattern '○゛, and FIG. 3(b) is an example of the italic character pattern "0°".
An example of the same figure (C) is the same figure (a
), and (d) in the same figure is a vertical sub-pattern extracted from the character pattern in (b) using the method of Document 1.
前記文献1の特徴抽出方法を用いて第3図(a>の文字
パタンの垂直サブパタンを抽出すると、第3図(C)の
ように、垂直成分を忠実に抽出できる。When the vertical sub-patterns of the character pattern shown in FIG. 3 (a>) are extracted using the feature extraction method of Reference 1, the vertical components can be faithfully extracted as shown in FIG. 3 (C).
しかし、第3図(b)の斜体字に対して垂直サブパタン
を抽出すると、第3図(d)に示すように、線素成分が
傾く。その上、第3図(d)の破線で示すような線素成
分が抽出されるべきところが、傾いた線素に対して垂直
に走査しているため、線素の両端部が欠けてしまう。そ
のなめ、同し字形“0°でありなから、抽出される特徴
が異なる(つまり、抽出される特徴が不安定となる)と
いう問題があった。また、手書文字の変形としては、一
般に右上がりのものが多く、水平線素が傾いているため
、前記と同様に、抽出される特徴が不安定となるという
問題があった。However, when a vertical sub-pattern is extracted for the italic letters in FIG. 3(b), the line element components are tilted as shown in FIG. 3(d). Moreover, since the line element component shown by the broken line in FIG. 3(d) is to be extracted, the line element is scanned perpendicularly to the inclined line element, so both ends of the line element are missing. Because of this, there was a problem that the extracted features were different (in other words, the extracted features were unstable) because the same glyph shape was "0°".In addition, as a deformation of handwritten characters, Since most of the features are upward-sloping to the right and the horizontal line elements are tilted, there is a problem that the extracted features are unstable, similar to the above.
従って、特徴抽出後、辞書と照合して文字認識を行う場
合、文字傾斜の変形に対応した多数の辞書を用意しなけ
ればならない。そのため、辞書容量が増大し、照合の長
時間化による処理速度の低下と、ハード規模(装置規模
)の増大を招くという不都合があった。Therefore, when character recognition is performed by comparing characters with dictionaries after feature extraction, it is necessary to prepare a large number of dictionaries corresponding to the deformation of the character slope. As a result, the dictionary capacity increases, the processing speed decreases due to longer verification times, and the hardware scale (device scale) increases, which are disadvantageous.
(ii) 前記文献2の技術では、走査線と線素の交
差数を特徴量としているので、第3図(b)のように線
素に傾斜があると、走査方向を固定したとき、抽出され
る交差数(特徴量)が大きく変動し、前記(i)と同様
の問題が生じる。(ii) In the technique of Document 2, the number of intersections between a scanning line and a line element is used as a feature quantity, so if a line element has an inclination as shown in Fig. 3(b), it is difficult to extract when the scanning direction is fixed. The number of intersections (features) that are generated varies greatly, and the same problem as in (i) above occurs.
本発明は前記従来技術が持っていた課題として、抽出さ
れる特徴が不安定となる点と、処理速度の低下及び装置
の大型化の点について解決した特徴抽出方法を提供する
ものである。The present invention provides a feature extraction method that solves the problems of the prior art, such as instability of extracted features, reduction in processing speed, and increase in device size.
(課題を解決するための手段)
前記課題を解決するために、第1の発明は、媒体上の文
字を光電変換して得られる文字パタンを、複数の方向に
走査して該文字パタンから特徴を抽出する特徴抽出方法
において、次のような手段を講じたものである。(Means for Solving the Problem) In order to solve the problem, a first invention scans a character pattern obtained by photoelectrically converting characters on a medium in a plurality of directions and extracts features from the character pattern. In this feature extraction method, the following measures are taken.
即ち、前記文字パタンを垂直方向及び水平方向の双方又
はいずれか一方の方向に走査し、該走査方向の黒画素の
連続数と前記文字パタンの線幅との関係により、該走査
方向の線素成分を表わす補助サブパタンを抽出し、前記
補助サブパタンに含まれる線素の傾斜より、前記補助サ
ブパタンの傾斜を抽出した後、前記補助サブパタンの傾
斜に基づき、前記文字パタンを複数の方向に走査して前
記文字パタンから特徴を抽出するようにしている。That is, the character pattern is scanned in the vertical direction and/or the horizontal direction, and line elements in the scanning direction are determined based on the relationship between the number of consecutive black pixels in the scanning direction and the line width of the character pattern. After extracting an auxiliary sub-pattern representing the component and extracting the slope of the auxiliary sub-pattern from the slope of line elements included in the auxiliary sub-pattern, the character pattern is scanned in a plurality of directions based on the slope of the auxiliary sub-pattern. Features are extracted from the character pattern.
第2の発明では、媒体上の文字を光電変換して得られる
文字パタンを複数の方向に走査し、該走査方向の黒画素
の連続数と線幅との関係により、該走査方向の線素成分
を表わすサブパタンを抽出した後、耐記サブパタンを複
数の領域に分割してその分割された領域毎に、前記サブ
パタンの線素量を表わす特徴を抽出する特徴抽出方法に
おいて、次のような手段を講したものである。In the second invention, a character pattern obtained by photoelectrically converting characters on a medium is scanned in multiple directions, and line elements in the scanning direction are determined based on the relationship between the number of consecutive black pixels in the scanning direction and the line width. In a feature extraction method of extracting a subpattern representing a component, dividing the memorized subpattern into a plurality of regions, and extracting a feature representing the amount of line elements of the subpattern for each divided region, the following means is used. This is a lecture on
即ち、前記文字バタンを垂直方向及び水平方向の双方又
はいずれか一方の方向に走査し、該走査方向の黒画素の
連続数と前記文字パタンの線幅との関係により、該走査
方向の線素成分を表わす補助サブバタンを抽出し、前記
補助サブパタンに含まれる線素の傾斜より、前記補助サ
ブパタンの傾斜を抽出した後、前記補助サブパタンの傾
斜に基づき、前記サブバタンを抽出するようにしている
。That is, the character button is scanned in both the vertical direction and the horizontal direction, and the line elements in the scanning direction are determined based on the relationship between the number of consecutive black pixels in the scanning direction and the line width of the character pattern. After extracting an auxiliary sub-pattern representing a component and extracting the slope of the auxiliary sub-pattern from the slope of a line element included in the auxiliary sub-pattern, the sub-pattern is extracted based on the slope of the auxiliary sub-pattern.
(作用)
第1及び第2の発明によれば、以上のように特徴抽出方
法を構成しなので、文字パタンが入力されると、その文
字パタンを垂直方向及び水平方向の双方又はいずれか一
方の方向を走査し、該走査方向の線素成分を表わす補助
サブパタンを抽出した後、その補助サブパタンの傾斜を
抽出する。(Operation) According to the first and second inventions, the feature extraction method is configured as described above, so that when a character pattern is input, the character pattern is moved vertically and/or horizontally. After scanning the direction and extracting an auxiliary sub-pattern representing a line element component in the scanning direction, the slope of the auxiliary sub-pattern is extracted.
そして第1の発明では、抽出された傾斜に従って前記文
字パタンを走査し、走査線とストロークの交差数等とい
った特徴量を抽出する。In the first invention, the character pattern is scanned according to the extracted slope, and feature quantities such as the number of intersections between scanning lines and strokes are extracted.
また第2の発明では、抽出された傾斜に従ってサブパタ
ンを抽出し、その後、そのサブパタンを複数の領域に分
割してその分割された領域毎に前記サブパタンの特徴を
抽出する。Further, in the second invention, a sub-pattern is extracted according to the extracted slope, and then the sub-pattern is divided into a plurality of regions, and the characteristics of the sub-pattern are extracted for each of the divided regions.
これにより、手書文字や印刷文字において傾斜がある文
字パタンについても、抽出される特徴が安定となり、前
記課題を解決できるのである。This makes it possible to stabilize the extracted features even for character patterns with slants in handwritten characters or printed characters, and to solve the above-mentioned problem.
(実施例)
第1図は、本発明の実施例を示す特徴抽出方法を用いた
文字認識装置の機能ブロック図である。(Embodiment) FIG. 1 is a functional block diagram of a character recognition device using a feature extraction method showing an embodiment of the present invention.
この文字認識装置は、帳票等の媒体上の文字画像の光信
号INを量子化された電気信号(ディジタル信号)に変
換する光電変換部1を有し、その出力側には、行バッフ
ァ2が接続されている。行バッファ2は、例えば福20
48x高さ128ビツトの大きさを有し、1行分の文字
画像のディジタル信号を格納する構成になっており、そ
の出力側には、文字切出部3を介してバタンレジスタ4
が接続されている。文字切出部3は、メモリを有し、行
バッファ2の出力から1文字分のディジタル信号(これ
を、1文字パタン」という)をバタンレジスタ4に格納
する機能を有している。This character recognition device has a photoelectric conversion unit 1 that converts an optical signal IN of a character image on a medium such as a form into a quantized electric signal (digital signal), and a line buffer 2 is provided on the output side of the photoelectric conversion unit 1. It is connected. Row buffer 2 is, for example, Fuku 20
It has a size of 48 bits x height of 128 bits, and is configured to store the digital signal of one line of character image, and the output side is connected to a button register 4 via a character cutting section 3.
is connected. The character cutting section 3 has a memory, and has a function of storing a digital signal for one character (hereinafter referred to as a "one character pattern") from the output of the line buffer 2 into the button register 4.
バタンレジスタ4は、例えば64x64ビツトの記憶容
量を有し、その出力側には、線幅測定部ヲ及び第1のサ
ブバタン抽出部6が接続されている。第1のサブバタン
抽出部6の出力側には、文字傾斜抽出部7が接続されて
いる。また、バタンレジスタ4の出力側には、文字枠検
出部8を介して分割点決定部9が接続されると共に、第
2のサブバタン抽出部10が接続されている。分割点決
定部9及び第2のサブバタン抽出部10の出力側には、
特徴マトリクス抽出部11が接続され、その出力側に、
識別部12が接続されている。The button register 4 has a storage capacity of, for example, 64x64 bits, and a line width measuring section and a first sub-button extracting section 6 are connected to its output side. A character slope extraction section 7 is connected to the output side of the first sub-battle extraction section 6 . Further, to the output side of the button register 4, a dividing point determining section 9 is connected via a character frame detecting section 8, and a second sub-butter extracting section 10 is also connected. On the output side of the dividing point determining unit 9 and the second sub-battle extracting unit 10,
A feature matrix extraction unit 11 is connected, and on its output side,
An identification unit 12 is connected.
線幅測定部5は、バタンレジスタ4の出力に対する線幅
を測定し、その測定結果を第1および第2のサブバタン
抽出部6.10に与える機能を有している。第1のサブ
バタン抽出部6は、バタンレジスタ4を垂直及び水平方
向に走査して第1の垂直サブバタン(補助垂直サブバタ
ン)及び第1の水平サブパタン(補助水平サブバタン)
を抽出するもので、垂直サブバタン抽出部6a及び水平
サブバタン抽出部6bより構成されている。各抽出部6
+a、6bは、それぞれバタン格納用のメモリを有して
いる。The line width measurement section 5 has a function of measuring the line width of the output of the button register 4 and providing the measurement results to the first and second sub-button extraction sections 6.10. The first sub-pattern extraction unit 6 scans the button register 4 in the vertical and horizontal directions to extract a first vertical sub-pattern (auxiliary vertical sub-pattern) and a first horizontal sub-pattern (auxiliary horizontal sub-pattern).
It is composed of a vertical sub-pattern extraction section 6a and a horizontal sub-pattern extraction section 6b. Each extraction part 6
+a and 6b each have a memory for storing a button.
文字傾斜抽出部7は、第1のサブバタン抽出部6で抽出
された第1の垂直サブバタン及び第1の水平サブバタン
について傾斜を抽出し、その抽出結果を第2のサブバタ
ン抽出部10及び特徴マトリクス抽出部11へ出力する
機能を有している。The character slant extraction unit 7 extracts the slants of the first vertical sub-battens and first horizontal sub-battens extracted by the first sub-pattern extraction unit 6, and transmits the extraction results to the second sub-pattern extraction unit 10 and the feature matrix extraction. It has a function of outputting to the section 11.
文字枠検出部8は、バタンレジスタ4内の文字パタンを
走査して外接枠、つまり文字枠を検出し、その検出結果
を分割点検出部9に与える機能を有している。分割点決
定部9は、外接枠内を複数の部分領域に分割するための
分割点座標を決定し、その決定結果を特徴マトリクス抽
出部11へ出力する機能を有している。The character frame detection unit 8 has a function of scanning the character pattern in the button register 4 to detect a circumscribed frame, that is, a character frame, and providing the detection result to the division point detection unit 9. The division point determination unit 9 has a function of determining division point coordinates for dividing the inside of the circumscribed frame into a plurality of partial regions, and outputs the determination result to the feature matrix extraction unit 11.
第2のサブバタン抽出部10は、文字傾斜抽出部7で抽
出された傾斜に基づき、バタンレジスタ4を複数方向に
走査して第2の垂直サブバタン及び第2の水平サブパタ
ンを抽出すると共に、右斜めサブパタン及び左斜めサブ
バタンを抽出するもので、垂直サブバタン抽出部10a
、水平サブバタン抽出部10b、右斜めサブバタン抽出
部10C5及び左斜めサブバタン抽出部10dより構成
されている。各抽出部10a〜10dは、それぞれバタ
ン格納用のメモリを有している。The second sub-pattern extraction unit 10 scans the button register 4 in a plurality of directions based on the slope extracted by the character slope extraction unit 7 to extract a second vertical sub-pattern and a second horizontal sub-pattern, and also extracts a second vertical sub-pattern and a second horizontal sub-pattern. Vertical sub-pattern extractor 10a extracts sub-patterns and left diagonal sub-patterns.
, a horizontal sub-pattern extraction section 10b, a right diagonal sub-pattern extraction section 10C5, and a left diagonal sub-pattern extraction section 10d. Each of the extraction units 10a to 10d has a memory for storing a button.
特徴マトリクス抽出部11は、サブバタン抽出部10か
ら出力される垂直、水平、右斜め、及び左斜めサブパタ
ンの各バタンから、特徴量を抽出して特徴マトリクスを
作成し、それを識別部12へ与える機能を有している。The feature matrix extraction unit 11 extracts features from each of the vertical, horizontal, right diagonal, and left diagonal sub-patterns output from the sub-pattern extraction unit 10 to create a feature matrix, and provides it to the identification unit 12. It has a function.
識別部12は、標準文字の特徴マトリクス(標準文字マ
スク)G(k)と、この特徴マトリクスG(k>を有す
る標準文字の文字名とを、格納する辞書メモリを有して
いる。そして、特徴マトリクス抽出部11で抽出された
特徴マトリクスF (k)と、辞書メモリの特徴マトリ
クスG (k>とを、照合することにより、該特徴マト
リクスF (k>を得た外接枠内領域の文字図形の認識
を行い、文字名OUTを出力する機能を有している。The identification unit 12 has a dictionary memory that stores a standard character feature matrix (standard character mask) G(k) and the character name of the standard character having the feature matrix G(k>). By comparing the feature matrix F (k) extracted by the feature matrix extraction unit 11 with the feature matrix G (k>) in the dictionary memory, the characters in the circumscribed frame area from which the feature matrix F (k> was obtained) are It has the function of recognizing figures and outputting character names OUT.
次に、以上のように構成される文字認識装置を用いた特
徴抽出方法と、その抽出結果から文字認識を行う方法に
ついて、各機能ブロックの処理(I)〜(X)について
説明する。Next, processes (I) to (X) of each functional block will be described regarding a feature extraction method using the character recognition device configured as described above and a method of performing character recognition from the extraction results.
(I> 文字バタン生成処理
根票上に記入された文字画像の光信号INが光電変換部
1に入力されると、光電変換部1では、光信号INを2
値のデジタル信号、つまり文字線部を“1° (これを
「黒ビット」という)、背景部をO゛ (これを「白ビ
ットJという)に変換する。光電変換部1で変換された
1行分の文字画像のデジタル信号は、行バッファ2に格
納される。(I> Character stamp generation processing When the optical signal IN of the character image written on the root slip is input to the photoelectric conversion unit 1, the optical signal IN is converted into 2
The digital signal of the value, that is, the character line part is converted to "1°" (this is called "black bit"), and the background part is converted to "0" (this is called "white bit J)". Digital signals of character images for lines are stored in the line buffer 2.
文字切出部3では、行バッファ2に格納された文字画像
のデジタル信号から、1文字分のデジタル信号(文字バ
タン)を切出し、バタンレジスタ4に格納する。本実施
例では、帳票フォーマットが予め指定されており、文字
切出部3のメモリに、行バツフア2内の文字位置を示す
アドレスが格納されている。そのため、文字切出し動作
は、該アドレスで指定さhf:行バッファ2の内容を読
み出すことにより実行される。The character cutting section 3 cuts out a digital signal for one character (character slam) from the digital signal of the character image stored in the line buffer 2, and stores it in the button register 4. In this embodiment, the form format is specified in advance, and the address indicating the character position within the line buffer 2 is stored in the memory of the character cutting section 3. Therefore, the character extraction operation is executed by reading the contents of the hf:line buffer 2 specified by the address.
(II) 線幅測定処理
線幅測定部5は、バタンレジスタ4からのディジタル信
号を入力し、例えば2×2の窓の全ての点が黒ビットと
なる状態の個数Qと、全黒ビットの個数Aとを計数し、
従来周知の(1)式に従って線幅WLを算出する。(II) Line Width Measurement Process The line width measurement unit 5 inputs the digital signal from the button register 4 and calculates, for example, the number Q of states in which all points in a 2×2 window are black bits, and the number of all black bits. Count the number A,
The line width WL is calculated according to the conventionally known equation (1).
WL=A/(A−Q> ・・・・・・(1)(
I[I) 第1のサブバタン抽出処理第1のサブバタ
ン抽出部6では、次のような処理を行う。WL=A/(A-Q> ・・・・・・(1)(
I[I] First sub-battle extraction process The first sub-battle extraction unit 6 performs the following process.
垂直サブバタン抽出部6aでは、垂直方向を主走査方向
としてバタンレジスタ4を全面走査し、垂直方向の走査
線上で連続する黒ビット(黒ラン)を検出する。そして
、検出した黒ランの中から、次式(2)を満足する長さ
pの黒ランを抽出する。The vertical sub-butter extractor 6a scans the entire surface of the button register 4 with the vertical direction as the main scanning direction, and detects continuous black bits (black runs) on the vertical scanning line. Then, from among the detected black runs, a black run with a length p that satisfies the following equation (2) is extracted.
1≧N、WL
・・・・・・(2〉
但し、9;主走査方向における黒ラ
ンの長さ
N:各サブパタンに対する任
意定数(例えば、2)
垂直サブバタン抽出部6aは、(2)式を満足する黒ラ
ンを、サブパタンを構成する黒ランとみなして、内部に
設けられた垂直サブバタンメモリに格納する。(2)式
を満足しない黒ランは、白ビットとみなす。1≧N, WL (2> However, 9; Length of black run in the main scanning direction N: An arbitrary constant for each sub-pattern (for example, 2) The vertical sub-pattern extraction unit 6a is calculated using the formula (2) A black run that satisfies the equation (2) is regarded as a black run constituting a sub-pattern and is stored in an internal vertical sub-pattern memory.A black run that does not satisfy formula (2) is regarded as a white bit.
また、水平サブバタン抽出部6bでは、垂直サブバタン
抽出部6aと同様の動作により、水平方向を主走査方向
としてバタンレジスタ4を走査し、水平方向の走査線上
の黒ランのなかから(2〉式を満足する黒ランを抽出す
る。そして、抽出した黒ランを、サブパタンを構成する
黒ランとみなして、内部に設けられた水平サブバタンメ
モリに格納する。In addition, the horizontal sub-battle extracting unit 6b scans the button register 4 with the horizontal direction as the main scanning direction by the same operation as the vertical sub-battle extracting unit 6a, and extracts the formula (2>) from among the black runs on the horizontal scanning line. A satisfying black run is extracted.The extracted black run is regarded as a black run constituting a sub-pattern and is stored in an internal horizontal sub-pattern memory.
(1v〉 文字傾斜抽出処理
文字傾斜抽出部7は、サブバタン抽出部6より得られる
第1の垂直サブバタン(補助垂直サブバタン)及び第1
の水平サブバタン(補助水平サブバタン)のそれぞれに
ついて、該サブバタンの文字線素成分(これを「ストロ
ークjという)を抽出する。次に、抽出した各ストロー
クの両端の座標値より、各ストロークの傾きを計算し、
それらを平均して、第1の垂直サブバタンからは垂直ス
トロークの平均傾斜θV、第1の水平サブバタンからは
水平ストロークの平均傾斜θhを、それぞれ抽出する。(1v> Character slant extraction processing The character slant extraction section 7 extracts the first vertical sub-pattern (auxiliary vertical sub-pattern) obtained from the sub-pattern extraction section 6 and the first
For each of the horizontal sub-battens (auxiliary horizontal sub-battens), extract the character line element component (this is referred to as "stroke j") of the sub-pattern.Next, from the coordinate values of both ends of each extracted stroke, calculate the slope of each stroke. calculate,
By averaging them, the average inclination θV of the vertical stroke is extracted from the first vertical sub-button, and the average inclination θh of the horizontal stroke is extracted from the first horizontal sub-button.
次に、この平均傾斜θV、θhの具体的な抽出方法につ
いて説明する。Next, a specific method for extracting the average slopes θV and θh will be explained.
まず、第1の垂直サブバタンについて、水平走査を全面
について行い、白ビットから黒ビ・ソト、及び黒ビット
から白ビットへの変化点を検出する。First, horizontal scanning is performed over the entire surface of the first vertical sub-pattern, and points of change from white bits to black bits and from black bits to white bits are detected.
そして、1ライン前の走査線と、現在の走査線における
変化点座標との関係より、ストロークの両端座標を抽出
する。Then, the coordinates of both ends of the stroke are extracted from the relationship between the scanning line one line before and the coordinates of the change point in the current scanning line.
抽出したストロークの両端座標を(VXSi。The coordinates of both ends of the extracted stroke are (VXSi.
VYSi)と(VXE i 、 VYE i )とした
とき、(3)式を用いて垂直ストロークの平均傾斜θ■
を計算する。但し、i−1,・・・・・・、Pv、Pv
は第1の垂直サブバタンより抽出したストローク数、ま
たVYSi<VYEiである。VYSi) and (VXE i , VYE i ), the average inclination of the vertical stroke θ■ is calculated using equation (3).
Calculate. However, i-1,..., Pv, Pv
is the number of strokes extracted from the first vertical sub-button, and VYSi<VYEi.
θ■= =1 ・・・・・・(3) ここで、VLGiは次式(4)より求められる。θ■= =1 ・・・・・・(3) Here, VLGi is obtained from the following equation (4).
VLGi=
HAX I、 j VXEi−VXSi 1.
、: VYEi−VYSi i)トローク数、またH
XSj<HXEjである。VLGi=HAX I, j VXEi-VXSi 1.
,: VYEi-VYSi i) Number of strokes, also H
XSj<HXEj.
θh=
この(4)式は、2点間の距離を、その2点間の水平及
び垂直座標差のうちで小さい方の1/2と他の一方との
和とする近似式である。θh= Equation (4) is an approximate expression in which the distance between two points is the sum of 1/2 of the smaller of the horizontal and vertical coordinate differences between the two points and the other one.
また、第1の水平サブバタンより水平ストロークの平均
傾斜θhを、次のようにして抽出する。Further, the average slope θh of the horizontal stroke is extracted from the first horizontal sub-button as follows.
第1の水平サブバタンについて垂直走査を行い、水平ス
トロークの両端座標を抽出する。その両端座標を、(H
XSj、HYSj )と(HXEj。Vertical scanning is performed for the first horizontal sub-button, and coordinates of both ends of the horizontal stroke are extracted. The coordinates of both ends are (H
XSj, HYSj ) and (HXEj.
HYEj)としたとき、水平ストロークの平均座標θh
を(ヲ)式で計算する。但し、j=1.・・・・・・、
Ph、Phは水平サブバタンより抽出したスここで、H
LGjは次式(6)より求められる。HYEj), the average coordinate of the horizontal stroke θh
Calculate using formula (wo). However, j=1.・・・・・・、
Ph, Ph is the value extracted from the horizontal sub-button, where H
LGj is obtained from the following equation (6).
)ILGj=
MAX I I HXEJ−HXSJHvEj−hv
sj口
なお、ストローク数がOのときは、傾斜を0とする。即
ち、Pv=OのときはθV=O1ph=Oのときはθh
=○とする。) ILGj= MAX I I HXEJ-HXSJHvEj-hv
Note that when the number of strokes is O, the slope is set to 0. That is, when Pv=O, θV=O1 When ph=O, θh
=○.
(V) 文字枠検出処理
文字枠検出部8では、バタンレジスタ4のパタンを走査
してそのパタンの左端座標χM、右端座標Xr、上端座
標Yt及び下端座標Ybを検出する。外接枠、つまり文
字枠は(xfJ、yt>、(X、Q 、 Yb)、(X
r、Yt)、(Xr、Yb)の4点を結ぶ矩形枠となる
。(V) Character frame detection processing The character frame detection unit 8 scans the pattern of the button register 4 and detects the left end coordinate χM, right end coordinate Xr, upper end coordinate Yt, and lower end coordinate Yb of the pattern. The circumscribing frame, that is, the character frame is (xfJ, yt>, (X, Q, Yb), (X
This is a rectangular frame connecting the four points r, Yt) and (Xr, Yb).
また、文字枠検出後は、特徴量の正規化を行うために、
必要な文字枠の大きさを算出する。即ち、バタンレジス
タ4のX軸に対し、平行な方向(水平方向〉の文字枠の
大きさをWPhとしてwph=Xr−XJI↑1を、垂
直な方向く垂直方向)の文字枠の大きさをWPvとして
WPv=Yt−Yb+1を、それぞれ算出する。さらに
、右斜め及び左斜め45°方向の文字枠の大きさをWP
r及びWPJIとして
WPh−i−WPv
WPr=WPjl =
を算出する。これらの算出結果は、分割点決定部9に与
えられる。In addition, after character frame detection, in order to normalize the feature amount,
Calculate the size of the required character frame. In other words, let WPh be the size of the character frame in the parallel direction (horizontal direction) to the X axis of the button register 4, and let wph=Xr-XJI↑1 be the size of the character frame in the perpendicular direction (vertical direction). WPv=Yt-Yb+1 is calculated as WPv. Furthermore, the size of the character frame in the diagonal right and 45° left diagonal directions is set to WP.
WPh-i-WPv WPr=WPjl = is calculated as r and WPJI. These calculation results are given to the division point determining section 9.
(VI) 分割点決定処理
分割点決定部9は、外接文字枠内をNXxNY個の部分
領域に分割するためのX軸上及びY軸上の分割点座標を
、各外接枠毎に決定する。但し、NXはX軸方向におけ
る分割数、及びNYはX軸方向における分割数である。(VI) Division Point Determination Process The division point determination unit 9 determines division point coordinates on the X-axis and Y-axis for dividing the inside of the circumscribed character frame into NX×NY partial regions for each circumscribed frame. However, NX is the number of divisions in the X-axis direction, and NY is the number of divisions in the X-axis direction.
分割数NX及びNYは、文字の複雑さに応して任意好適
な値に設定するのが好ましい。例えば、漢字・カタカナ
等の画数の少ない文字を認識対象とする場合は、(2X
2)〜(3X3)程度の少ない数の部分領域に、外接枠
内領域を分割する。The numbers of divisions NX and NY are preferably set to arbitrary suitable values depending on the complexity of the characters. For example, when recognizing characters with a small number of strokes such as kanji and katakana, (2X
2) Divide the area within the circumscribing frame into a small number of partial areas of about 3×3.
漢字が認識対象となる場合には、(4X4)〜(8X8
)程度の部分領域に、外接枠内領域を分割することが多
い。しかし、本実施例では、認識対象の複雑さにかかわ
らず、外接枠内領域を等分割、例えば(4x4)個に分
割するようにした。When kanji are to be recognized, (4X4) to (8X8
) The area within the circumscribing frame is often divided into partial areas of approximately However, in this embodiment, regardless of the complexity of the recognition target, the area within the circumscribed frame is divided into equal parts, for example, into (4x4) parts.
X軸上の分割座標DX(n)、及びY軸上の分割座標D
Y(n)は、次式(7)、(8)で決定される。Division coordinate DX(n) on the X axis and division coordinate D on the Y axis
Y(n) is determined by the following equations (7) and (8).
DX (n>
NX
・・・・・・(7)
DY (m)
但し、n=1.2.=・=−、NX−lm=1.2.・
・・・・・、NY−1
本実施例では、例えば
NX=NY=4
F) サブバタン抽出処理
第4図(a)、(b)は、サブパタンの抽出方法を示す
図であり、同図(a>は文字パタンの例、及び同図(b
)は垂直サブパタンの例である。第4図(a)中の矢印
Pは、垂直サブバタン抽出時の走査経路を示す。DX (n> NX...(7) DY (m) However, n=1.2.=・=-, NX-lm=1.2.・
..., NY-1 In this embodiment, for example, NX=NY=4F) Sub-pattern extraction process FIGS. a> is an example of a character pattern, and the same figure (b
) is an example of a vertical sub-pattern. An arrow P in FIG. 4(a) indicates a scanning path when vertical sub-battles are extracted.
第2のサブバタン抽出部10では、文字傾斜抽出部7で
得られた平均傾斜θ■、θhに基づき、垂直サブバタン
抽出部10a、水平サブバタン抽山部10b、右斜めサ
ブバタン抽出部10c及び左斜めサブバタン抽出部10
dにより、文字傾斜抽出部7で得られた傾斜に対応して
、それぞれバタンレジスタ4上に設定したX軸方向にほ
ぼ垂直な方向(垂直方向)及びほぼ平行な方向(水平方
向)と、X軸から反時計方向45°の方向(右斜め45
°方向)及び時計方向45°の方向(左斜め45°方向
)とを、主走査方向としてバタンレジスタ4を走査し、
各主走査方向に対応する第2の垂直サブバタン、第2の
水平サブバタン、右斜めサブパタン、及び左斜めサブバ
タンを抽出する。The second sub-pattern extraction section 10 extracts a vertical sub-pattern extraction section 10a, a horizontal sub-pattern extraction section 10b, a right diagonal sub-pattern extraction section 10c, and a left diagonal sub-pattern extraction section based on the average slopes θ■ and θh obtained by the character slope extraction section 7. Extraction part 10
d, a direction approximately perpendicular to the X-axis direction (vertical direction) and a direction approximately parallel to the X-axis direction (horizontal direction) set on the button register 4, and 45° counterclockwise from the axis (45° diagonally to the right)
45° clockwise direction (45° diagonal direction to the left) as the main scanning direction, and scans the button register 4,
A second vertical sub-pattern, a second horizontal sub-pattern, a right diagonal sub-pattern, and a left diagonal sub-pattern corresponding to each main scanning direction are extracted.
まず、垂直サブバタン抽出部10aの動作を説明する。First, the operation of the vertical sub-button extraction section 10a will be explained.
この垂直サブバタン抽出部10aでは、文字傾斜抽出部
7で得られた平均傾斜θVに基づき、第4図(a)の文
字パタンを走査し、走査線上で連続する黒ビット(黒ラ
ン〉を検出する。そして、検出した黒ランのなかから次
式(9)を満足する長さ9の黒ランを抽出する。The vertical sub-pattern extraction unit 10a scans the character pattern shown in FIG. 4(a) based on the average slope θV obtained by the character slope extraction unit 7, and detects continuous black bits (black runs) on the scanning line. Then, a black run with a length of 9 that satisfies the following equation (9) is extracted from the detected black runs.
p≧N・WL
・・・・・(9)
但し、g;主走査方向における黒ラ
ンの長さ
N;各サブパタンに対する任
意定数(例えば、2)
走査経路Pは次のとおりである。垂直走査は上辺から走
査を開始する。走査開始アドレス(XaYT>からの走
査経路Pの座標(x−、y・)は、次式(10)で表わ
すことができる。p≧N·WL (9) However, g: length N of the black run in the main scanning direction; arbitrary constant for each sub-pattern (for example, 2) The scanning path P is as follows. Vertical scanning starts from the top edge. The coordinates (x-, y.) of the scanning path P from the scanning start address (XaYT>) can be expressed by the following equation (10).
xl=xa
yl=YT
x j=Xa−i−θv x (y iY T )’j
i=’5’j 1;1
・・・・・・(10)
但し、θVは実数、θvx (y 1−YT)の結果は
小数点以下切捨て、座標は全て整数である。xl=xa yl=YT x j=Xa-i-θv x (y iY T )'j
i='5'j 1;1 (10) However, θV is a real number, the result of θvx (y 1 - YT) is rounded down to the decimal point, and all coordinates are integers.
垂直サブバタン抽出部10aは、(9)式を満足する黒
ランを、第2の垂直サブバタンを構成する黒ランとみな
して図示しない垂直サブバタンメモリに格納する。(9
)式を満足しない黒ランは白ビットとみなす。The vertical sub-battle extracting unit 10a stores the black runs that satisfy equation (9) in a vertical sub-battle memory (not shown), regarding them as black runs constituting the second vertical sub-battan. (9
) Black runs that do not satisfy the formula are considered white bits.
また、水平サブバタン抽出部10bは、文字傾斜抽出部
7で得られた平均傾斜θhを用い、垂直サブバタン抽出
部10aと同様の動作により、第2の水平サブバタンを
抽出する。同様に、右斜め及び左斜めサブバタン抽出部
10c、10dは、右斜め及び左斜め方向を主走査方向
として原パタンを走査し、それぞれの主走査方向の走査
線上の黒ランのなかから、(9)式を満足する黒ランを
抽出し、抽出した黒ランを、サブパタンを構成する黒ラ
ンとみなして図示しない右斜め及び左斜めサブバタンメ
モリに格納する。Further, the horizontal sub-pattern extracting section 10b extracts a second horizontal sub-pattern using the average slope θh obtained by the character slope extracting section 7 by the same operation as the vertical sub-pattern extracting section 10a. Similarly, the right diagonal and left diagonal sub-pattern extraction units 10c and 10d scan the original pattern with the right diagonal and left diagonal directions as the main scanning directions, and select (9) from among the black runs on the scanning lines in the respective main scanning directions. ), and store the extracted black runs in right diagonal and left diagonal sub-pattern memories (not shown) as black runs constituting a sub-pattern.
本実施例では、右斜め、及び左斜めサブパタンの抽出時
には、文字の傾きは考慮しない。In this embodiment, when extracting right diagonal and left diagonal sub-patterns, the inclination of characters is not considered.
(■) 特徴マトリクス抽出処理
文字枠検出部8が文字バタンの外接枠を規定する座標X
j 、Xr、’r’t、Ybを検出し、さらに分割点決
定部9が文字パタンについて対象分割点座標を検出する
と、特徴マトリクス抽出部11では、垂直、水平、右斜
め、及び左斜めサブパタンの各バタンから特徴量を抽出
し、特徴マトリクスを作成する。(■) Character frame extraction processing character frame detection unit 8 determines the coordinates
j, Extract features from each button and create a feature matrix.
即ち、特徴マトリクス抽出部11は、一つの外接枠内領
域を、対象分割点座標と座標XJ)、Xr。That is, the feature matrix extraction unit 11 extracts one circumscribed frame area from the target dividing point coordinates and the coordinates XJ) and Xr.
Yt、YbとによってNXXNY個の部分領域に分割し
、各部分領域内のサブパタンの文字線量を表す特徴量を
抽出する。そして、一つの外接枠領域内の各サブパタン
から抽出したNXxNYx4個の特徴量から成る特徴マ
トリクスを、当該外接枠内領域の特徴量マトリクスとし
て抽出する。The area is divided into NXXNY partial areas based on Yt and Yb, and feature amounts representing the character dose of the subpattern in each partial area are extracted. Then, a feature matrix consisting of NXxNYx4 feature quantities extracted from each sub-pattern within one circumscribed frame area is extracted as a feature quantity matrix for the circumscribed frame area.
まず、水平サブバタン(H3P>からの特徴量抽出につ
き説明する。First, feature extraction from the horizontal sub-panel (H3P>) will be explained.
特徴マトリクス抽出部11は、対象分割点座標と座標X
、Q 、Xr、Yt、Ybとに基づき、外接枠内領域を
NXxNY個の部分領域に分割しく対象分割点座標及び
座標XI 、Xr、Yt、Ybは分割点座標である)、
各部分領域毎に部分領域内の水平サブパタン)(SPの
黒ビット数BH(i。The feature matrix extraction unit 11 extracts target division point coordinates and coordinates
, Q, Xr, Yt, Yb, the area within the circumscribing frame is divided into NXxNY partial areas.The coordinates of the target dividing point and the coordinates XI, Xr, Yt, Yb are the dividing point coordinates),
Horizontal sub-pattern within the partial area for each partial area) (number of black bits of SP BH(i.
j〉を計数する。Count j〉.
分割点座標から分割領域の決定は、次のように行う。ま
ず、X軸上の分割点座標DX (n>を、文字パタンの
外接枠の上端と下端の中点を通りX軸に平行な直線上に
設定する。この座標を起点として、次式(11)〜(1
3)で求められる座標系列の左側を、第4図(b)に示
すような分割境界Sとする。The division area is determined from the division point coordinates as follows. First, set the division point coordinates DX (n>) on the X-axis on a straight line parallel to the X-axis passing through the midpoint of the upper and lower edges of the circumscribed frame of the character pattern. From this coordinate as a starting point, use the following equation (11 )~(1
Let the left side of the coordinate series obtained in 3) be a division boundary S as shown in FIG. 4(b).
x o = Dχ(n)
y () = (Y T 了Y B ) / 2・・・
・・・(11)
(x□、y□)から、下方への座標系列は、x 、=D
X (n)
TI NT (θ■べ(y i−y○)=0.5)yi
=yi 171
・・・・・・(12)
但し、i=1.2,3.・・・・・
< (YT−YB)/2−YT)
(x o 、 y o )から、上方への座標系列は、
x−=DX (n>
」
−INT(θv×(y Oy J ) 十〇 −5)y
j=yj士1−1
・・・・・・(13)
但し、j=−1,−2,−3,・・・・・・(YB−(
YT−YB)、/2)
で求める。但し、IN”IN +は、その()内の演
算を実数値を用いて行い、結果の小数点以下を切捨てて
、整数値とすることを表す。x o = Dχ(n) y () = (Y T completed Y B ) / 2...
...(11) From (x□, y□), the downward coordinate series is x, = D
X (n) TI NT (θ■be(y i-y○)=0.5)yi
=yi 171 (12) However, i=1.2, 3. ...< (YT-YB)/2-YT) From (x o , y o ), the upward coordinate series is
x−=DX (n> ”−INT(θv×(y Oy J ) 10 −5)y
j=yj 1-1 (13) However, j=-1,-2,-3,...(YB-(
YT-YB), /2). However, IN"IN + indicates that the operation in parentheses is performed using a real value, and the result is rounded down to an integer value.
水平方向の分割境界Sも同様に、DY (m)とθhを
用いて設定する。Similarly, the horizontal division boundary S is set using DY (m) and θh.
以上のように分割された分割領域毎に、水平サブパタン
H8Pの黒ビット数BH(i、j>を計数する。このB
H(i、j)は、一つの外接枠内領域に関する第i行第
j列の部分領域の黒ビット数である。次に、(14)式
に従って第i行第j列の部分領域に関する特徴量FH(
i、j>を計算する。For each divided area divided as described above, count the number of black bits BH (i, j>) of the horizontal sub-pattern H8P.
H(i,j) is the number of black bits in the partial area at the i-th row and j-th column regarding one circumscribed frame area. Next, according to equation (14), the feature amount FH(
Calculate i, j>.
BH(i、j)
FH(i、 j>= wt、、−wph・・・・・・(
14)
但し、i=1.2.・・・・・・、NXj=1.2.・
・・・・・、NY
WL;線幅
wph、文字幅(=Xr−XJI −i−1)さらに、
H8Pの場合と同様にして、第i行第j列の部分領域の
VSP、R8P、LSPの黒ビット数BV(i、j)、
BR(i、j)、BL(i、j)を計数し、次式(15
)〜(17)に従って第i行第j列の部分領域に関する
vsp。BH(i, j) FH(i, j>= wt,, -wph......(
14) However, i=1.2. ......, NXj=1.2.・
..., NY WL; line width wph, character width (=Xr-XJI-i-1), and
In the same manner as in the case of H8P, the number of black bits BV(i, j) of VSP, R8P, and LSP in the partial area of the i-th row and j-th column,
BR (i, j) and BL (i, j) are counted and the following formula (15
) to (17) for the partial region in the i-th row and j-th column.
R3P、LSPの特徴量FV(i、j)、FR<i、j
>、FL(i、j)を算出する。R3P, LSP feature quantity FV (i, j), FR<i, j
>, calculate FL(i,j).
FL(i、j)=
WL −WPJ
・・・・・・(17)
但し、
WPv:文字高さ(=Yb−Yt下1)WPr=WP、
l! = (WPv+WPh>/2以上のようにして、
外接枠内領域の各部分領域毎にVSP、H3P、H3P
、LSPの特徴量を抽出し、これらNXxNYx4個の
特徴量から成る特徴マトリクスF (k>(k=1.2
.・・・・・NXXNYX4)を得る。特徴マトリクス
抽出部11は、特徴マトリクスF (k)を各外接枠領
域毎に抽出し、その抽出結果を識別部12へ送る。FL (i, j) = WL - WPJ (17) However, WPv: character height (=Yb - Yt bottom 1) WPr = WP,
l! = (WPv+WPh>/2 or more,
VSP, H3P, H3P for each partial area of the area within the circumscribed frame
, LSP features are extracted, and a feature matrix F (k>(k=1.2
.. ...NXXNYX4) is obtained. The feature matrix extraction unit 11 extracts the feature matrix F (k) for each circumscribed frame area, and sends the extraction result to the identification unit 12 .
(IX) 識別処理
識別部12は、抽出された特徴マトリクスF(k)と、
内部に設けられた辞書メモリ内の特徴マトリクスG(k
>とを、照合することにより、該特徴マトリクスF (
k)を得た外接枠内領域の文字図形の認識を行う。この
認識では、次式(18)に従って特徴マトリクスF (
k)とG (k)間の距離りを求め、距離りが最小とな
る特徴マトリクスG(k>の標準文字の文字名(例えば
、JIS規格に定められた文字コード>OUTを認識結
果として出力する。(IX) The identification processing identification unit 12 uses the extracted feature matrix F(k),
Feature matrix G(k
>, the feature matrix F (
k) Recognize the characters and figures in the area within the circumscribed frame obtained. In this recognition, the feature matrix F (
Find the distance between k) and G (k), and output the character name of the standard character of the feature matrix G(k> with the minimum distance (for example, character code>OUT specified in the JIS standard) as a recognition result. do.
以上のように、本実施例では、次のような利点を有して
いる。As described above, this embodiment has the following advantages.
本実施例では、バタンレジスタ4内の文字パタンについ
て、第1のサブバタン抽出部6により、垂直方向及び水
平方向の双方の走査を行い、その走査線上の黒ビットの
連続と該文字パタンの線幅との関係により、当該走査方
向の線素成分を表わすサブパタンを抽出する。さらに、
文字傾斜抽出部7により、前記サブパタンに含まれる線
素の傾斜より、該サブパタンの傾斜θV、θhを求める
。In this embodiment, the character pattern in the button register 4 is scanned in both the vertical and horizontal directions by the first sub-button extractor 6, and the sequence of black bits on the scanning line and the line width of the character pattern are Based on the relationship, a sub-pattern representing the line element component in the scanning direction is extracted. moreover,
The character slope extraction unit 7 calculates the slopes θV and θh of the sub-pattern from the slopes of the line elements included in the sub-pattern.
そして、第2のサブバタン抽出部10で、該傾斜θV、
θhに基づき前記文字パタンを各方向に走査してサブパ
タンを抽出した後、特徴を抽出している。そのため、傾
斜を有する文字パタンについても、抽出される特徴が安
定となる。従って、文字傾斜の変形に対応した辞書を識
別部12内に用意する必要がなく、辞書容量の減少によ
り、照合時間の短縮と、それによる処理速度の高速化が
図れると共に、ハード規模が小さく、認識精度の良い文
字認識が可能となる。Then, in the second sub-battle extraction unit 10, the slope θV,
The character pattern is scanned in each direction based on θh to extract sub-patterns, and then features are extracted. Therefore, the extracted features are stable even for character patterns having an inclination. Therefore, there is no need to prepare a dictionary corresponding to the deformation of the character slope in the identification unit 12, and by reducing the dictionary capacity, it is possible to shorten the collation time and thereby increase the processing speed, and the hardware size is small. Character recognition with high recognition accuracy becomes possible.
なお、本発明は、上記実施例に限定されず、種々の変形
が可能ある。その変形例としては、例えば次のようなも
のがある。Note that the present invention is not limited to the above embodiments, and various modifications are possible. Examples of such modifications include the following.
(i) 本実施例では、水平、垂直の両方向について、
ストロークの傾斜を抽出する場合について説明した。し
かし、手書文字については、一般に右上がりの文字が多
いので、水平ストロークの傾斜抽出のみで十分である。(i) In this example, in both horizontal and vertical directions,
The case of extracting the slope of a stroke has been explained. However, since handwritten characters generally have many characters that slope upward to the right, it is sufficient to extract only the slope of horizontal strokes.
また、印刷文字の斜体字を対象とする場合は、垂直スト
ロークの傾斜抽出を行えば良い。このように、読取り対
象により、適宜、傾斜抽出方向を選択し、構成の簡略化
を図ることが可能である。Moreover, when the target is an italic character of a printed character, it is sufficient to extract the inclination of a vertical stroke. In this way, the tilt extraction direction can be selected as appropriate depending on the object to be read, and the configuration can be simplified.
(ii) 上記実施例の特徴抽出方法は、例えば前記
文献2に記載されたような、文字パタンの走査により特
徴の抽出を行う方法にも適用できる。例えば、前記文献
2の方法では、走査線とストロークの交差数を特徴量と
しているので、ストロークに傾斜があると、走査方向を
固定したとき、抽出される交差数が大きく変動する。そ
こで、上記実施例の方法によって傾斜を抽出し、該傾斜
に従って特徴抽出を行えば、上記実施例とほぼ同様の効
果が得られる。(ii) The feature extraction method of the above embodiment can also be applied to a method of extracting features by scanning a character pattern, such as that described in Document 2 above. For example, in the method of Document 2, the number of intersections between a scanning line and a stroke is used as a feature, so if the stroke has an inclination, the number of intersections extracted will vary greatly when the scanning direction is fixed. Therefore, by extracting the slope using the method of the above embodiment and performing feature extraction according to the slope, substantially the same effect as that of the above embodiment can be obtained.
(iii ) 第1図の機能ブロックを、個別回路で
構成する以外に、コンピュータを用いたプログラム制御
等で実行する構成にしてもよい。(iii) The functional blocks shown in FIG. 1 may be configured to be executed by program control using a computer, instead of being configured by individual circuits.
(発明の効果)
以上詳細に説明したように、第1の発明によれば、文字
パタンについて垂直方向及び水平方向の双方又はいずれ
か一方の方向の走査を行って、走査線上の黒ビットの連
続と該文字パタンの線幅との関係により、該走査方向の
線素成分を表わす補助サブパタンを抽出する。そして、
該サブパタンに含ま1する線素の傾斜より、該サブパタ
ンの傾斜を求める。次に、その傾斜に従って文字パタン
を各方向に走査し、該文字バタンから、走査線とストロ
ークの交差数等といった特徴を抽出するようにしている
。そのため、手書文字のように水平線素が右上がりに傾
いた文字や、印刷文字のように垂直線素が右に傾いた斜
体字等を対象とする場合でも、安定な特徴を抽出するこ
とができる。従って、文字傾斜の変形に対応した辞書を
用意する必要がなく、処理速度が速く、小さなハード規
模で、認識精度の良い文字認識が可能となる。(Effects of the Invention) As described in detail above, according to the first invention, a character pattern is scanned in both the vertical direction and the horizontal direction, or in either one or both of the vertical and horizontal directions, so that the black bits on the scanning line are continuous. Based on the relationship between and the line width of the character pattern, an auxiliary sub-pattern representing the line element component in the scanning direction is extracted. and,
The slope of the sub-pattern is determined from the slope of one line element included in the sub-pattern. Next, the character pattern is scanned in each direction according to the inclination, and features such as the number of intersections between a scanning line and a stroke are extracted from the character pattern. Therefore, it is possible to extract stable features even when dealing with characters such as handwritten characters in which the horizontal line elements are tilted upward to the right, or italic characters in which the vertical line elements are tilted to the right such as in printed characters. can. Therefore, there is no need to prepare a dictionary that accommodates the deformation of the character slope, and character recognition with high processing speed and small hardware scale is possible with high recognition accuracy.
第2の発明では、抽出された傾斜に従ってサブバタンを
抽出し、その後、そのサブパタンの特徴を抽出している
ので、前記第1の発明とほぼ同様の効果が得られる。In the second invention, sub-patterns are extracted according to the extracted slopes, and then the features of the sub-patterns are extracted, so that substantially the same effect as the first invention can be obtained.
第1図は本発明の実施例を示す特徴抽出方法を用いた文
字認識装置の機能ブロック図、第2図は斜体字の例を示
す図、第3図(a)〜(d)は従来の特徴抽出方法を説
明するための図、第4図(a)、(b)はサブバタン抽
出方法を説明するための図である。
1・・・・・・光電変換部、2・・・・・・行バッファ
、3・・・・・文字切出部、4・・・・・・バタンレジ
スタ、5・・・・・・線幅測定部、6・・・・・・第1
のサブバタン抽出部、7・・・・・・文字傾斜抽出部、
8・・・・・・文字枠検出部、9・・・・・・分割点決
定部、10・・・・・・第2のサブバタン抽出部、11
・・・・・・特徴マトリクス抽出部、12・・曲識別部
。FIG. 1 is a functional block diagram of a character recognition device using a feature extraction method showing an embodiment of the present invention, FIG. 2 is a diagram showing an example of italic characters, and FIGS. FIGS. 4(a) and 4(b) are diagrams for explaining the feature extraction method. FIGS. 4(a) and 4(b) are diagrams for explaining the sub-pattern extraction method. 1...Photoelectric conversion unit, 2...Line buffer, 3...Character cutting unit, 4...Bun register, 5...Line Width measurement section, 6...1st
sub-battle extraction section, 7...character slope extraction section,
8...Character frame detection unit, 9...Division point determination unit, 10...Second sub-button extraction unit, 11
... Feature matrix extraction section, 12... Song identification section.
Claims (1)
、複数の方向に走査して該文字パタンから特徴を抽出す
る特徴抽出方法において、 前記文字パタンを垂直方向及び水平方向の双方又はいず
れか一方の方向に走査し、該走査方向の黒画素の連続数
と前記文字パタンの線幅との関係により、該走査方向の
線素成分を表わす補助サブパタンを抽出し、 前記補助サブパタンに含まれる線素の傾斜より、前記補
助サブパタンの傾斜を抽出した後、 前記補助サブパタンの傾斜に基づき、前記文字パタンを
複数の方向に走査して前記文字パタンから特徴を抽出す
ることを特徴とする特徴抽出方法。 2、媒体上の文字を光電変換して得られる文字パタンを
複数の方向に走査し、該走査方向の黒画素の連続数と線
幅との関係により、該走査方向の線素成分を表わすサブ
パタンを抽出した後、 前記サブパタンを複数の領域に分割してその分割された
領域毎に、前記サブパタンの線素量を表わす特徴を抽出
する特徴抽出方法において、前記文字パタンを垂直方向
及び水平方向の双方又はいずれか一方の方向に走査し、
該走査方向の黒画素の連続数と前記文字パタンの線幅と
の関係により、該走査方向の線素成分を表わす補助サブ
パタンを抽出し、 前記補助サブパタンに含まれる線素の傾斜より、前記補
助サブパタンの傾斜を抽出した後、 前記補助サブパタンの傾斜に基づき、前記サブパタンを
抽出することを特徴とする特徴抽出方法。[Claims] 1. A feature extraction method in which a character pattern obtained by photoelectrically converting characters on a medium is scanned in a plurality of directions to extract features from the character pattern, comprising: scanning in both or one of the horizontal directions, and extracting an auxiliary sub-pattern representing a line element component in the scanning direction based on the relationship between the number of consecutive black pixels in the scanning direction and the line width of the character pattern; After extracting the slope of the auxiliary sub-pattern from the slope of the line elements included in the auxiliary sub-pattern, the character pattern is scanned in a plurality of directions based on the slope of the auxiliary sub-pattern to extract features from the character pattern. A feature extraction method characterized by. 2. A character pattern obtained by photoelectrically converting characters on a medium is scanned in multiple directions, and a sub-pattern representing a line element component in the scanning direction is created based on the relationship between the number of consecutive black pixels in the scanning direction and the line width. In a feature extraction method that divides the sub-pattern into a plurality of regions and extracts a feature representing the amount of line elements of the sub-pattern for each divided region, the character pattern is divided into vertical and horizontal directions. scan in both or either direction,
Based on the relationship between the number of consecutive black pixels in the scanning direction and the line width of the character pattern, an auxiliary sub-pattern representing a line element component in the scanning direction is extracted, and from the slope of the line element included in the auxiliary sub-pattern, A feature extraction method, comprising: extracting the slope of the sub-pattern, and then extracting the sub-pattern based on the slope of the auxiliary sub-pattern.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2100832A JPH04591A (en) | 1990-04-17 | 1990-04-17 | Method for feature extraction |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2100832A JPH04591A (en) | 1990-04-17 | 1990-04-17 | Method for feature extraction |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04591A true JPH04591A (en) | 1992-01-06 |
Family
ID=14284293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2100832A Pending JPH04591A (en) | 1990-04-17 | 1990-04-17 | Method for feature extraction |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04591A (en) |
-
1990
- 1990-04-17 JP JP2100832A patent/JPH04591A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH03122773A (en) | Image forming device | |
JPH05242292A (en) | Separating method | |
Jung et al. | Multifont classification using typographical attributes | |
JPH05501776A (en) | Automatically centered text thickening for optical character recognition | |
JPH04591A (en) | Method for feature extraction | |
KR100315428B1 (en) | Character Feature Extraction Apparatus And Method For Recognition Of Multi-Language Printed Document | |
JP2749947B2 (en) | Character recognition method | |
JP3083609B2 (en) | Information processing apparatus and character recognition apparatus using the same | |
JPH04590A (en) | Method for character recognition | |
JP2747136B2 (en) | Character recognition device | |
JPH03126188A (en) | Character recognizing device | |
JP2001314820A (en) | Device for detecting address region | |
JPH01152586A (en) | Character graphic recognizing method | |
JPH09120430A (en) | Image processor | |
JP2708604B2 (en) | Character recognition method | |
JP3084833B2 (en) | Feature extraction device | |
JP2616994B2 (en) | Feature extraction device | |
JPH04589A (en) | Method for extracting feature | |
JP2973892B2 (en) | Character recognition method | |
JPH05250518A (en) | Character recognizing method | |
JPH03246779A (en) | Character recognizing device | |
JP2616995B2 (en) | Character recognition device | |
JP2918363B2 (en) | Character classification method and character recognition device | |
KR930007083B1 (en) | Candidate character classification method | |
JPH0433074B2 (en) |