JP4885112B2 - Document processing apparatus, document processing method, and document processing program - Google Patents
Document processing apparatus, document processing method, and document processing program Download PDFInfo
- Publication number
- JP4885112B2 JP4885112B2 JP2007293392A JP2007293392A JP4885112B2 JP 4885112 B2 JP4885112 B2 JP 4885112B2 JP 2007293392 A JP2007293392 A JP 2007293392A JP 2007293392 A JP2007293392 A JP 2007293392A JP 4885112 B2 JP4885112 B2 JP 4885112B2
- Authority
- JP
- Japan
- Prior art keywords
- distribution state
- document
- image
- document image
- collated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
本発明は、文書画像間の照合を行う文書処理装置、文書処理方法および文書処理プログラムに関する。 The present invention relates to a document processing apparatus, a document processing method, and a document processing program that perform collation between document images.
従来、文字列が画像(文字行)として記録された文書画像中から文字列を抽出する方法として、種々の技術が提案されている。例えば、文書画像に含まれた文字行に外接する矩形の形状及び位置に関する特徴(大きさ、間隔等)について、複数の制約を適用することにより文字行を文字列として認識することが可能な技術が提案されている(例えば、特許文献1、2参照)。
Conventionally, various techniques have been proposed as a method for extracting a character string from a document image in which the character string is recorded as an image (character line). For example, a technique capable of recognizing a character line as a character string by applying a plurality of restrictions on features (size, spacing, etc.) related to the shape and position of a rectangle circumscribing the character line included in the document image Has been proposed (see, for example,
しかしながら、特許文献1、2に記載の技術では、文字行の認識を精度よく行うために外接矩形に関数する複数の制約を人手によって最適値に調整する必要がある。また、文字行らしさを判定することはできるものの、文字行の内容に関する特徴を認識することはできないため、文書画像間の照合に用いたとしても十分な精度を得ることができない可能性がある。また、複数行間の相対的な位置関係の利用については何等言及されていないため、文書画像の一部分となる部分画像を照合対象とした場合には、対応することができないという問題がある。
However, in the techniques described in
本発明は、上記に鑑みてなされたものであって、文書画像間の類似性をより効率的且つ高精度に判定することが可能な文書処理装置、文書処理方法及び文書処理プログラムを提供することを目的とする。 The present invention has been made in view of the above, and provides a document processing apparatus, a document processing method, and a document processing program capable of determining similarity between document images more efficiently and with high accuracy. With the goal.
上述した課題を解決し、目的を達成するために、請求項1に係る発明は、文書画像間の照合を行う文書処理装置において、前記文書画像に含まれた文字画像毎の外接矩形に基づいて、当該外接矩形を連結した文字行を切り出す文字行切出手段と、前記文字行内における前記外接矩形の特性を表す配置情報を固定段階に量子化する量子化手段と、前記量子化された配置情報の各々を固定種類のシンボルにシンボル化するシンボル生成手段と、所定個の前記シンボルの組合せからなるシンボル系列の出現頻度を算出する出現頻度算出手段と、照合対象の文書画像と、当該文書画像の被照合対象となる複数の文書画像とについて、前記出現頻度算出手段により算出された出現頻度を照合し、より高い相関を有した被照合対象の文書画像を所定数選定する被照合対象選定手段と、前記照合対象の文書画像と、前記被照合対象選定手段により選定された被照合対象の文書画像の各々とで一致した前記シンボル系列に対応する各配置情報に基づいて、当該各配置情報の何れか又は全てが表す外接矩形の出現位置の分布状態を文書画像毎に導出する分布状態導出手段と、前記分布状態導出手段により導出された前記照合対象の文書画像についての分布状態と、前記被照合対象の文書画像についての分布状態との類似度を判定し、最も高い類似度を有した被照合対象の文書画像を照合結果として選定する照合結果選定手段と、を備えたことを特徴とする。
In order to solve the above-described problems and achieve the object, the invention according to
また、請求項2に係る発明は、請求項1に係る発明において、前記分布状態導出手段は、前記文書画像の水平方向及び/又は垂直方向について、前記外接矩形の出現位置の分布状態を導出することを特徴とする。
The invention according to
また、請求項3に係る発明は、請求項1又は2に係る発明において、前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を度数分布ヒストグラムとして導出することを特徴とする。
The invention according to
また、請求項4に係る発明は、請求項1又は2に係る発明において、前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を正規分布とみなし、当該正規分布の平均、標準偏差、歪度及び尖度を導出することを特徴とする。
The invention according to
また、請求項5に係る発明は、請求項4に係る発明において、前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおける前記文字行に含まれた各文字画像の前記外接矩形のサイズを集計し、当該サイズの平均値又は最頻値により前記正規分布を規定する数値を正規化することを特徴とする。
The invention according to
また、請求項6に係る発明は、請求項5に係る発明において、前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおいて一致した前記シンボル系列に対応する配置情報が表す外接矩形のサイズを集計することを特徴とする。
Further, the invention according to
また、請求項7に係る発明は、文書画像間の照合を行う文書処理装置で実行される文書処理方法であって、文字行切出手段が、前記文書画像に含まれた文字画像毎の外接矩形に基づいて、当該外接矩形を連結した文字行を切り出す文字行切出ステップと、量子化手段が、前記文字行内における前記外接矩形の特性を表す配置情報を固定段階に量子化する量子化ステップと、シンボル系列生成手段が、前記量子化された配置情報の各々を固定種類のシンボルにシンボル化するシンボル生成ステップと、出現頻度算出手段が、所定個の前記シンボルの組合せからなるシンボル系列の出現頻度を算出する出現頻度算出ステップと、被照合対象選定手段が、照合対象の文書画像と、当該文書画像の被照合対象となる複数文書画像とについて、前記出現頻度算出手段により算出された出現頻度を照合し、より高い相関を有した被照合対象の文書画像を所定数選定する被照合対象選定ステップと、分布状態導出手段が、前記照合対象の文書画像と、前記被照合対象選定ステップで選定された被照合対象の文書画像の各々とで一致した前記シンボル系列に対応する各配置情報に基づいて、当該各配置情報の何れか又は全てが表す外接矩形の出現位置の分布状態を文書画像毎に導出する分布状態導出ステップと、照合結果選定手段が、前記分布状態導出ステップで導出された前記照合対象の文書画像についての分布状態と、前記被照合対象の文書画像についての分布状態との類似度を判定し、最も高い類似度を有した被照合対象の文書画像を照合結果として選定する照合結果選定ステップと、を含むことを特徴とする。 The invention according to claim 7 is a document processing method executed by a document processing apparatus that performs collation between document images, wherein the character line cut-out means is connected to each character image included in the document image. A character line cutting step for cutting out a character line connecting the circumscribed rectangles based on the rectangle, and a quantization step for quantizing the arrangement information representing the characteristics of the circumscribed rectangle in the character line to a fixed stage. A symbol generation step in which the symbol sequence generation means converts each of the quantized arrangement information into symbols of a fixed type, and an appearance frequency calculation means generates an appearance of a symbol sequence consisting of a combination of the predetermined number of symbols The appearance frequency calculating step for calculating the frequency, and the matching target selecting means, for the document image to be verified and the plurality of document images to be compared with the document image, A collation target selection step for collating the appearance frequencies calculated by the degree calculation means and selecting a predetermined number of document images to be collated with higher correlation; and a distribution state deriving means for comparing the document images to be collated The circumscribed rectangle represented by any or all of the arrangement information based on the arrangement information corresponding to the symbol series matched with each of the document images to be checked selected in the check target selection step A distribution state deriving step for deriving a distribution state of appearance positions for each document image, and a collation result selection unit, the distribution state for the document image to be collated derived in the distribution state deriving step; A collation result selection step of determining a similarity between the document image and the distribution state, and selecting a collation target document image having the highest similarity as a collation result. And wherein the door.
また、請求項8に係る発明は、請求項7に係る発明において、前記分布状態導出手段は、前記文書画像の水平方向及び/又は垂直方向について、前記外接矩形の出現位置の分布状態を導出することを特徴とする。 The invention according to claim 8 is the invention according to claim 7, wherein the distribution state deriving means derives the distribution state of the appearance position of the circumscribed rectangle in the horizontal direction and / or the vertical direction of the document image. It is characterized by that.
また、請求項9に係る発明は、請求項7又は8に係る発明において、前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を度数分布ヒストグラムとして導出することを特徴とする。
The invention according to
また、請求項10に係る発明は、請求項7又は8に係る発明において、前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を正規分布とみなし、当該正規分布の平均、標準偏差、歪度及び尖度を導出することを特徴とする。
The invention according to
また、請求項11に係る発明は、請求項10に係る発明において、前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおける前記文字行に含まれた各文字画像の前記外接矩形のサイズを集計し、当該サイズの平均値又は最頻値により前記正規分布を規定する数値を正規化することを特徴とする。
The invention according to claim 11 is the invention according to
また、請求項12に係る発明は、請求項11に係る発明において、前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおいて一致した前記シンボル系列に対応する配置情報が表す外接矩形のサイズを集計することを特徴とする。 The invention according to a twelfth aspect is the invention according to the eleventh aspect, wherein the distribution state deriving means corresponds to the symbol series matched in the document image to be collated and the document image to be collated. The size of the circumscribed rectangle represented by the arrangement information is totaled.
また、請求項13に係る発明は、文書画像間の照合を行うコンピュータを、前記文書画像に含まれた文字画像毎の外接矩形に基づいて、当該外接矩形を連結した文字行を切り出す文字行切出手段と、前記文字行内における前記外接矩形の特性を表す配置情報を固定段階に量子化する量子化手段と、前記量子化された配置情報の各々を固定種類のシンボルにシンボル化するシンボル生成手段と、前記シンボル系列内における、所定個のシンボルの組合せからなるシンボル系列の出現頻度を算出する出現頻度算出手段と、照合対象の文書画像と、当該文書画像の被照合対象となる複数の文書画像とについて、前記出現頻度算出手段により算出された出現頻度を照合し、より高い相関を有した被照合対象の文書画像を所定数選定する被照合対象選定手段と、前記照合対象の文書画像と、前記被照合対象選定手段により選定された被照合対象の文書画像の各々とで一致した前記シンボル系列に対応する各配置情報に基づいて、当該各配置情報の何れか又は全てが表す外接矩形の出現位置の分布状態を文書画像毎に導出する分布状態導出手段と、前記分布状態導出手段により導出された前記照合対象の文書画像についての分布状態と、前記被照合対象の文書画像についての分布状態との類似度を判定し、最も高い類似度を有した被照合対象の文書画像を照合結果として選定する照合結果選定手段と、して機能させることを特徴とする。 According to a thirteenth aspect of the present invention, a computer that performs collation between document images, based on a circumscribed rectangle for each character image included in the document image, cuts out a character line that connects the circumscribed rectangles. Output means, quantization means for quantizing the arrangement information representing the characteristics of the circumscribed rectangle in the character line in a fixed stage, and symbol generation means for symbolizing each of the quantized arrangement information into a fixed type of symbol And an appearance frequency calculating means for calculating an appearance frequency of a symbol series composed of a combination of a predetermined number of symbols in the symbol series, a document image to be collated, and a plurality of document images to be collated with the document image The matching target selection is performed by collating the appearance frequency calculated by the appearance frequency calculating unit and selecting a predetermined number of document images to be compared having higher correlation. Each piece of arrangement information based on the arrangement information corresponding to the symbol series matched in the stage, the document image to be collated, and each document image to be collated selected by the collation target selection unit A distribution state deriving unit for deriving the distribution state of the appearance position of the circumscribed rectangle represented by any or all of each document image, a distribution state for the document image to be collated derived by the distribution state deriving unit, and It is characterized by functioning as a collation result selecting means for determining a similarity with a distribution state of a collation target document image and selecting a collation target document image having the highest similarity as a collation result. And
また、請求項14に係る発明は、請求項13に係る発明において、前記分布状態導出手段は、前記文書画像の水平方向及び/又は垂直方向について、前記外接矩形の出現位置の分布状態を導出することを特徴とする。 The invention according to claim 14 is the invention according to claim 13, wherein the distribution state deriving means derives the distribution state of the appearance position of the circumscribed rectangle in the horizontal direction and / or the vertical direction of the document image. It is characterized by that.
また、請求項15に係る発明は、請求項13又は14に係る発明において、前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を度数分布ヒストグラムとして導出することを特徴とする。 The invention according to claim 15 is the invention according to claim 13 or 14, wherein the distribution state deriving means derives the distribution state of the appearance position of the circumscribed rectangle as a frequency distribution histogram.
また、請求項16に係る発明は、請求項13又は14に係る発明において、前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を正規分布とみなし、当該正規分布の平均、標準偏差、歪度及び尖度を導出することを特徴とする。 The invention according to claim 16 is the invention according to claim 13 or 14, wherein the distribution state deriving means regards the distribution state of the appearance position of the circumscribed rectangle as a normal distribution, and calculates an average and a standard deviation of the normal distribution. The method is characterized by deriving skewness and kurtosis.
また、請求項17に係る発明は、請求項16に係る発明において、前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおける前記文字行に含まれた各文字画像の前記外接矩形のサイズを集計し、当該サイズの平均値又は最頻値により前記正規分布を規定する数値を正規化することを特徴とする。 The invention according to claim 17 is the invention according to claim 16, wherein the distribution state deriving means includes each of the character lines included in the document image to be collated and the document image to be collated. The size of the circumscribed rectangle of the character image is totaled, and a numerical value defining the normal distribution is normalized by an average value or a mode value of the size.
また、請求項18に係る発明は、請求項17に係る発明において、前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおいて一致した前記シンボル系列に対応する配置情報が表す外接矩形のサイズを集計することを特徴とする。 The invention according to claim 18 is the invention according to claim 17, wherein the distribution state deriving means corresponds to the symbol series that matches in the document image to be collated and the document image to be collated. The size of the circumscribed rectangle represented by the arrangement information is totaled.
本発明によれば、照合対象の文書画像と被照合対象の文書画像とについて、文字行内における外接矩形の特徴を表した配置情報を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく文字行の特徴の抽出が可能となり、被照合対象の文書画像から、照合対象の文書画像と相関の高い被照合対象の文書画像を所定の数だけ選定することができる。また、照合対象の文書画像と、選定された被照合対象の文書画像とについて、一致するシンボル系列の出現位置の分布状態を照合することで、当該シンボル系列の相対的な位置関係の類似性を判定することができるため、照合対象の文書画像と被検照合対象の文書画像との類似性を高精度に判定することができる。これにより、文書画像中の部分画像が照合対象の文書画像とされた場合であっても、この部分画像に含まれた文字画像の外接矩形の位置関係に基づいて、当該部分画像と類似する文書画像を高精度に検索することが可能となる。 According to the present invention, with respect to a document image to be collated and a document image to be collated, arrangement information representing features of a circumscribed rectangle in a character line is extracted, and these are quantized to a fixed stage to generate a symbol. Thus, it is possible to extract the characteristics of the character line without recognizing characters, and it is possible to select a predetermined number of document images to be verified that have a high correlation with the document image to be verified from the document images to be verified. . Further, by comparing the distribution state of the appearance positions of the matching symbol series between the document image to be verified and the selected document image to be verified, the similarity of the relative positional relationship of the symbol series can be obtained. Since it can be determined, the similarity between the document image to be verified and the document image to be verified can be determined with high accuracy. As a result, even if a partial image in the document image is a document image to be collated, a document similar to the partial image based on the positional relationship of the circumscribed rectangle of the character image included in the partial image Images can be searched with high accuracy.
以下に添付図面を参照して、本発明に係る文書処理装置、文書処理方法及び文書処理プログラムの最良な実施の形態を詳細に説明する。 Exemplary embodiments of a document processing apparatus, a document processing method, and a document processing program according to the present invention are explained in detail below with reference to the accompanying drawings.
(文書処理装置のハードウェア構成)
図1は、本発明の第1の実施形態にかかる文書処理装置100のハードウェア構成を示したブロック図である。図1に示したように、文書処理装置100は、PC(Personal Computer)などのコンピュータであり、文書処理装置100の各部を制御するCPU(Central Processing Unit)1、CPU1を起動するためのプログラムが記憶されるROM(Read Only Memory)2、後述する画像入力部21により入力された文書画像やオペレーティングシステム、種々のプログラム等を記憶するハードディスク3、CPU1のワークエリアとして機能するRAM(Random Access Memory)4、オペレータからの各種入力を受け付けるキーボード5、入力状況等を表示する表示装置6、CD−ROMなどの各種光情報記録メディア(図示せず)に記憶されたプログラム等を読み取る光ディスクドライブ7、インターネットやLAN(Local Area Network)等の電気通信回線を介して文書画像を送受信する通信装置8、原稿画像の光学的な読み取りを行うスキャナ9等から構成されており、これらの各部間で入出力されるデータをバスコントローラ10が調停して動作する。
(Hardware configuration of document processing device)
FIG. 1 is a block diagram showing a hardware configuration of a
文書処理装置100では、オペレータが電源を投入するとCPU1がROM2内のローダーというプログラムを起動させ、ハードディスク3よりオペレーティングシステムというコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM4に読み込み、このオペレーティングシステムを起動させる。このようなオペレーティングシステムは、オペレータの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。オペレーティングシステムのうち代表的なものとしては、Windows(登録商標)、UNIX(登録商標)等が知られている。これらのオペレーティングシステム上で走る動作プログラムをアプリケーションプログラムと呼んでいる。
In the
ここで、文書処理装置100は、CPU1が実行するプログラムとして、後述する文書照合処理)にかかる文書処理プログラムをハードディスク3に記憶している。この意味で、ハードディスク3は、文書処理プログラムを記憶する記憶媒体として機能する。
Here, the
また、一般的には、文書処理装置100のハードディスク3にインストールされるプログラムは、CD−ROMなどの各種光情報記録メディアやFD等の磁気メディア等の記憶媒体に記録され、この記憶媒体に記録されたプログラムがハードディスク3にインストールされる。このため、CD−ROMなどの各種光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体も、文書処理プログラムを記憶する記憶媒体となり得る。さらには、文書処理プログラムは、例えば通信装置8を介して外部から取り込まれ、ハードディスク3にインストールされても良い。
In general, a program installed in the
CPU1は、オペレーティングシステム上で動作する文書処理プログラムが起動すると、この文書処理プログラムとの協働により後述する各機能部を実現させる。以下、文書処理装置100の機能的構成について説明する。
When the document processing program operating on the operating system is activated, the
(文書処理装置の機能的構成)
図2は、文書処理装置100の機能的構成を示したブロック図である。図2に示したように、文書処理装置100は機能部として、画像入力部21、照合画像選択部22、矩形抽出部23、行切出部24、量子化部25、シンボル生成部26、出現頻度集計部27、候補画像選定部28、出現位置分布導出部29、照合結果選定部30及び表示部31を含み構成される。
(Functional configuration of document processing device)
FIG. 2 is a block diagram illustrating a functional configuration of the
画像入力部21は、外部から入力される文書画像を受け付け、ハードディスク3に記憶する。具体的に、画像入力部21の機能は、図1に示した光ディスクドライブ7、通信装置8、スキャナ9により実現することができる。
The
照合画像選択部22は、画像入力部21から入力される文書画像や、キーボード5を介して指定されたハードディスク3に記憶された文書画像を、照合対象の文書画像として選択する。以下、照合対象の文書画像を「照合画像」という。なお、照合画像選択部22は、文書画像中の特定の領域がキーボード5を介して指定された場合には、この領域内に含まれる部分的な文書画像(部分画像)を照合画像として選択するものとする。
The collation
また、照合画像選択部22は、照合画像の照合先となる被照合対象の文書画像を選択する。ここで、被照合対象の文書画像は、例えば、ハードディスク3に予め記憶された一部又は全ての文書画像としてもよいし、キーボード5を介して指定された文書画像を被照合対象の文書画像としてもよい。以下、被照合対象の文書画像を「被照合画像」という。
The collation
矩形抽出部23は、文書画像に含まれた各文字画像の外接矩形を抽出する。ここで「文字画像」とは、所定の言語からなる文字が画像として表されたものを意味する。行切出部24は、矩形抽出部23で抽出された外接矩形を連結することで文字行の切り出しを行う。以下、文字行に含まれる外接矩形を「行内矩形」という。
The
量子化部25は、行切出部24で切り出された文字行に含まれる各行内矩形の特性を表す配置情報を固定段階に量子化する。ここで、行内矩形の特性とは、各行内矩形に対応する文字画像の黒画素密度や文字行内における行内矩形の高さ、始点位置等のパラメータ群であって、行内矩形に固有の配置状態を表すものである。なお、配置情報の量子化については後述する。
The
シンボル生成部26は、量子化部25により量子化された配置情報の各々を固定種類のシンボルにシンボル化し、文書画像を構成する各文字行に対応する一連のシンボル系列を生成する。以下、文書画像全体についてのシンボル系列を全体シンボル系列という。
The
出現頻度集計部27は、全体シンボル系列内において、所定個のシンボルの組合せからなるシンボル系列が出現する頻度(出現頻度)を算出する。候補画像選定部28は、照合画像と、当該照合画像の照合先となる被照合画像とについて、出現頻度集計部27により算出された出現頻度を照合し、より高い相関を有した被照合画像を所定個数選定する。以下、候補画像選定部28により選定された被照合画像を「候補画像」という。
The appearance
出現位置分布導出部29は、照合画像と候補画像との各文書画像において、両文書画像で一致した各シンボル系列に対応する配置情報の何れか又は全てが表す行内矩形に基づき、当該行内矩形の出現位置の分布状態を文書画像毎に夫々導出する。また、出現位置分布導出部29は、照合画像についての分布状態と、候補画像についての分布状態との類似度を算出し、算出した類似度を対応する候補画像と対応付けてRAM4等に保持する。
The appearance position distribution deriving unit 29, in each document image of the collation image and the candidate image, based on the in-line rectangle represented by any or all of the arrangement information corresponding to each symbol series matched in both document images, The appearance state distribution state is derived for each document image. Further, the appearance position distribution deriving unit 29 calculates the similarity between the distribution state for the collation image and the distribution state for the candidate image, and stores the calculated similarity in association with the corresponding candidate image in the
照合結果選定部30は、出現位置分布導出部29により算出された類似度に基づいて、最も高い類似度を有した候補画像を照合結果として選定する。
The matching
表示部31は、画像入力部21から入力された文書画像や各処理の経過状況等の表示を行うとともに、照合結果選定部30により選定された候補画像の表示を行う。なお、表示部31の機能は、図1に示した表示装置6により実現できる。
The
以下、文書処理装置100が実行する各種の処理のうち、本実施の形態に特長的な処理である文書照合処理について以下に説明する。
Hereinafter, a document collation process which is a characteristic process of the present embodiment among various processes executed by the
図3は、文書照合処理の手順を示したフローチャートである。まず、照合画像選択部22は、画像入力部21から入力される文書画像や、キーボード5を介して指定された文書画像を照合画像として選択する(ステップS1)。次いで、照合画像選択部22は、ステップS1で選択した照合画像の照合先となる、被照合画像を選択する(ステップS2)。
FIG. 3 is a flowchart showing the procedure of the document matching process. First, the collation
続いて、矩形抽出部23、行切出部24、量子化部25、シンボル生成部26及び出現頻度集計部27は、ステップS1、S2で選択された各文書画像について、出現頻度集計処理を実行する(ステップS3)。以下、図4を参照して、ステップS3の出現頻度集計処理について説明する。なお、出現頻度集計処理は、照合画像及び被照合画像の各々について行われるものとするが、以下の説明では「文書画像」と総称して説明する。
Subsequently, the
図4は、出現頻度集計処理の手順を示したフローチャートである。まず、矩形抽出部23は、文書画像に含まれた各文字画像の黒画素に外接する外接矩形を抽出する(ステップS31)。続いて、行切出部24は、水平方向に隣接する外接矩形同士を連結して文字行に成長させた後、この文字行を夫々切り出す(ステップS32)。
FIG. 4 is a flowchart showing the procedure of the appearance frequency counting process. First, the
ここで、文書画像の行の切り出しについて、図5−1〜図5−3を参照して説明する。矩形抽出部23は、文書画像(図5−1)について、黒画素の連結成分を求め、それと外接する外接矩形A,B,C・・・を求める(図5−2)。そして、行切出部24は、矩形抽出部23により求められた外接矩形を、水平方向に隣接する外接矩形同士を連結して文字行Zに成長させる(図5−3)。行内矩形の生成及び文字行の切り出しにかかる処理自体は、公知の手法を用いることができるため詳細な説明は省略する。
Here, extraction of a line of a document image will be described with reference to FIGS. The
なお、文書画像から一つの文字行として切り出す単位は、行単位や段落単位、章単位等で切り出すことが好ましい。一般的に文書画像に含まれる文字画像のサイズは、行単位や段落単位、章単位で均一となるため、このような纏まりで文字行を切り出すことで、当該文字行内に含まれる文字画像のサイズ(文字サイズ)を揃えることが可能となる。また、本実施形態では、外接矩形の成長を水平方向で実施する態様としたが、これに限らず、文字方向等に応じて垂直方向、或いは、水平方向及び垂直方向の両方で実施する態様としてもよい。 It should be noted that it is preferable to cut out a single character line from a document image in line units, paragraph units, chapter units, or the like. In general, the size of a character image included in a document image is uniform for each line, paragraph, or chapter. Therefore, by cutting out a character line in such a group, the size of the character image included in the character line is as follows. (Character size) can be made uniform. In this embodiment, the circumscribed rectangle is grown in the horizontal direction. However, the present invention is not limited to this. As an aspect in which the growth is performed in the vertical direction or in both the horizontal direction and the vertical direction according to the character direction. Also good.
図4に戻り、量子化部25及びシンボル生成部26は、ステップS32で切り出した各文字行について、シンボル生成処理を実行する。以下、図6を参照してステップS33のシンボル生成処理について説明する。
Returning to FIG. 4, the
図6は、シンボル生成処理の手順を示したフローチャートである。まず、量子化部25は、ステップS32で切り出された各文字行の高さを計測する(ステップS331)。
FIG. 6 is a flowchart showing a procedure of symbol generation processing. First, the
次いで、量子化部25は、各文字行に含まれる各行内矩形の水平方向の始点(Xs)に基づいて、当該行内矩形を昇順にソートすることで配置順序を整列する(ステップS332)。続いて、量子化部25は、整列した各行内矩形の配置状態を表す配置情報を夫々取得し、この配置情報を固定段階に量子化する(ステップS333)。以下、図7−1、図7−2、図8および図9を参照して、ステップS332、S333の処理を説明する。
Next, the
図7−1および図7−2は、行内矩形の配置例を示す説明図である。欧米系文字行は、図7−1に示すように、大文字と小文字とが混在していることに加え、アポストロフィー、アクサンテギュ、ウムラウトなど、記号類の有無が存在するので、行内矩形の始点の高さは、図7−1のaの位置とbの位置との2カ所に集中することは明らかである。つまり、矩形の配置位置は上下に対称ではない。一方、アジア系文字行は、図7−2に示すように、漢字、ひらがな、カタカナ、ハングルなど、文字の構造が複雑であり、行内矩形の始点の高さは、欧米系文字行で見られるような、2カ所への明確な集中はない。しかし、矩形の配置位置が上下左右、対称ではないことは、欧米系行と同じである。 FIG. 7A and FIG. 7B are explanatory diagrams illustrating an example of arrangement of in-row rectangles. As shown in Fig. 7-1, Western character lines have mixed uppercase and lowercase letters, and there are symbols such as apostrophe, axis, umlaut, etc. It is clear that the heights are concentrated at two positions, a position and b position in FIG. That is, the rectangular arrangement positions are not symmetrical vertically. Asian character lines, on the other hand, have a complicated character structure such as kanji, hiragana, katakana, and hangul, as shown in Fig. 7-2. There is no clear concentration in two places. However, the arrangement position of the rectangle is not symmetrical in the up / down / left / right direction, which is the same as the Western line.
図7−1の欧文文字の行内矩形と、図7−2のアジア系文字の行内矩形とを比較してみると、行内矩形の並び方は言語の種類に関わらず、その文字行の内容に応じて変化していることがわかる。そこで、文字の外接矩形を抽出することで、文字の大まかな特徴を捉えることができる。すなわち、文字そのものを特定しなくても、例えば図8に示すように、矩形座標の始点(Xs,Ys)と終点(Xe,Ye)を求め、これを利用した文字画像の外接矩形の配置状態を表す特徴を取得するだけで各文字行の画像特徴を捉えることができる。 Comparing the in-line rectangle of the European characters in Fig. 7-1 with the in-line rectangle of the Asian characters in Fig. 7-2, the arrangement of the in-line rectangles depends on the contents of the character line, regardless of the language type. It can be seen that it has changed. Therefore, by extracting the circumscribed rectangle of the character, it is possible to capture a rough feature of the character. That is, even if the character itself is not specified, for example, as shown in FIG. 8, the start point (Xs, Ys) and end point (Xe, Ye) of the rectangular coordinates are obtained, and the arrangement state of the circumscribed rectangle of the character image using this The image feature of each character line can be captured simply by acquiring the feature representing
行内矩形の配置位置が同じであっても、欧米系文字は構造が単純なためアジア系文字と較べて矩形内の黒画素密度は低くなる。なお、アジア系文字においても、構造が簡単なひらがな、カタカナの黒画素密度は低く、構造が複雑な漢字の黒画素密度が高くなることは言うまでもない。 Even if the arrangement positions of the in-line rectangles are the same, Western characters have a simple structure, so the density of black pixels in the rectangles is lower than that of Asian characters. Of course, even in Asian characters, the black pixel density of hiragana and katakana with a simple structure is low, and the black pixel density of kanji with a complicated structure is high.
このように、文字行内における一つの矩形の配置状態は、行内矩形の始点の高さ、矩形サイズ(幅、高さ)行内矩形中の黒画素密度等を計測することによって唯一に定義することができる。ステップS333の処理では、これら計測結果を配置情報として各文字行の行内矩形毎に取得し、固定段階に量子化する。 Thus, the arrangement state of one rectangle in a character line can be uniquely defined by measuring the height of the start point of the in-line rectangle, the rectangle size (width, height), the black pixel density in the in-line rectangle, and the like. it can. In the process of step S333, these measurement results are acquired as arrangement information for each in-line rectangle of each character line, and quantized to a fixed stage.
以下では、行内矩形の始点の高さを基準にして行内矩形の配置状態を定義する一例を示す。図9は、行内矩形の配置状態を示す特徴を量子化する方法を示す説明図である。原稿を特定していない状況下では、行高さは可変であり、処理が行高さの値に依存しないように、行内矩形の高さを次式で正規化する。なお、ysは行内矩形始点の高さ、HはステップS332で取得した行高を意味する。
YsRate=ys/H ・・・(1)
In the following, an example of defining the arrangement state of the in-line rectangle with reference to the height of the start point of the in-line rectangle is shown. FIG. 9 is an explanatory diagram showing a method of quantizing the feature indicating the arrangement state of the in-line rectangle. Under the situation where the document is not specified, the line height is variable, and the height of the in-line rectangle is normalized by the following expression so that the processing does not depend on the value of the line height. In addition, ys means the height of the in-line rectangle start point, and H means the line height acquired in step S332.
YsRate = ys / H (1)
ここで、0<YsRate≦1であるから、YsRateを固定段階に量子化することは容易である。例えば、N段階に量子化するなら、
YsVal=INT(YsRate*(N−1)) ・・・(2)
(ただし、INT():小数点以下切捨て)
とすればよい。各段階は、0〜(N−1)とラベル付けされる。矩形幅wおよび矩形高さhも同様の手順で量子化される。
Here, since 0 <YsRate ≦ 1, it is easy to quantize YsRate in a fixed stage. For example, if you quantize to N stages,
YsVal = INT (YsRate * (N−1)) (2)
(However, INT (): rounded down to the nearest decimal point)
And it is sufficient. Each stage is labeled 0- (N-1). The rectangular width w and the rectangular height h are also quantized in the same procedure.
ところで、記憶容量節約および演算量低減のためなどの理由で、画像処理においては原画像そのものではなく圧縮画像を処理対象にする場合が多い。圧縮画像は、画素数が減るために文字画像の細部に関する情報は失われる。本発明は、図9に示すように、文字画像の外接矩形に注目するものであり、画像そのものの詳細な特徴に基づくものではない。したがって、原画像だけでなく、圧縮画像に対しても有効に機能しうる。 By the way, in order to save storage capacity and reduce the amount of calculation, in image processing, a compressed image is often used as a processing target instead of an original image itself. Since the compressed image has a reduced number of pixels, information on the details of the character image is lost. As shown in FIG. 9, the present invention focuses on the circumscribed rectangle of the character image, and is not based on the detailed features of the image itself. Therefore, it can function effectively not only for the original image but also for the compressed image.
なお、上記では文字行画像の特徴として行内矩形の始点の高さを基準としたが、これに限定されない。例えば、文字行画像の特徴として行内矩形の高さを用いる場合は、図9において、次のとおりである。
HeightRate=h/H ・・・(3)
HeightVal
=INT(HeightRate*(N−1))+0.5 ・・・(4)
(ただし、INT():小数点以下切捨て)
各段階は、0〜(N−1)とラベル付けされる。
In the above description, the character line image is characterized by the height of the start point of the in-line rectangle, but the present invention is not limited to this. For example, in the case where the height of the in-line rectangle is used as the feature of the character line image, it is as follows in FIG.
HeightRate = h / H (3)
HeightVal
= INT (HeightRate * (N-1)) + 0.5 (4)
(However, INT (): rounded down to the nearest decimal point)
Each stage is labeled 0- (N-1).
また、文字行画像の特徴として行内矩形の幅を用いる場合は、次のとおりである。
WidthRate=w/H ・・・(5)
WidthVal
=INT(WidthRate*(N−1))+0.5 ・・・(6)
(ただし、INT():小数点以下切捨て)
各段階は、0〜(N−1)とラベル付けされる。
Further, when the width of the in-line rectangle is used as a feature of the character line image, it is as follows.
WidthRate = w / H (5)
WidthVal
= INT (WidthRate * (N-1)) + 0.5 (6)
(However, INT (): rounded down to the nearest decimal point)
Each stage is labeled 0- (N-1).
図5に戻り、続いて、シンボル生成部26は、ステップS333で量子化された配置情報の各々を固定種類のシンボルにシンボル化した後(ステップS334)、図4のステップS34の処理に移行する。
Returning to FIG. 5, subsequently, the
以下、図10および図11を参照し、ステップS334の処理について説明する。上述したとおり、ステップS333で取得された配置情報は、対応する行内矩形の配置状態を特徴付けるものとなっている。ステップS334の処理では、量子化された配置情報に含まれる複数種類の測定結果を一つにまとめてシンボル化することで、一つの行内矩形を一つのシンボルに対応させる。 Hereinafter, the processing in step S334 will be described with reference to FIGS. As described above, the arrangement information acquired in step S333 characterizes the arrangement state of the corresponding in-line rectangle. In the process of step S334, a plurality of types of measurement results included in the quantized arrangement information are grouped into one symbol to make one in-line rectangle correspond to one symbol.
例えば、矩形の始点の高さ、矩形高さ、矩形幅の3種の情報をまとめる。仮に、前述の処理で、矩形の始点の高さ(ys/H)を15段階、矩形高さ(h/H)を8段階、矩形幅(w/H)を2段階に量子化するとする。この結果、図10に示すように、各情報は、矩形の始点の高さ(ys/H)は15段階であるから4bits、矩形高さ(h/H)は8段階であるから3bits、矩形幅(w/H)は2段階であるから1bitで表現することができる。また、
4bits+3bits+1bit=8bits
であるから、1byteの各ビットに全情報を格納することができる。そして、これらの3種の情報を一つにまとめたシンボルの種類は、
15段階×8段階×2段階=240種
となる。
For example, three kinds of information of the height of the start point of the rectangle, the rectangle height, and the rectangle width are collected. Suppose that the height of the rectangular starting point (ys / H) is quantized to 15 levels, the rectangular height (h / H) is quantized to 8 levels, and the rectangular width (w / H) is quantized to 2 levels. As a result, as shown in FIG. 10, each piece of information has a rectangular start point height (ys / H) of 15 levels, 4 bits, and a rectangular height (h / H) of 8 levels, 3 bits, a rectangle. Since the width (w / H) has two stages, it can be expressed by 1 bit. Also,
4bits + 3bits + 1bit = 8bits
Therefore, all information can be stored in each bit of 1 byte. And the type of symbol that combines these three types of information into one,
15 stages × 8 stages × 2 stages = 240 types.
ところで、矩形の配置状態を表す複数の特徴を多次元ベクトルの各次元とみなせば、矩形は、その各特徴を用いて一つのベクトルデータに変換(ベクトル量子化)できる。ベクトル量子化とは、周知のように、ベクトルデータの多数のバラエティから、それらを代表する少数のベクトルデータを求めることである。求められた代表ベクトルに順にラベル付けすれば、ベクトルデータの系列を単なる一次元のシンボルデータの系列に変換することができる。ベクトル量子化に関しては、「ベクトル量子化と情報圧縮」(コロナ社)Allen Gersho,Robert M.Gray著、田崎三郎ほか訳、に詳しい。 By the way, if a plurality of features representing a rectangular arrangement state are regarded as each dimension of a multidimensional vector, the rectangle can be converted into one vector data (vector quantization) using each feature. As is well known, vector quantization is to obtain a small number of vector data representing them from a large variety of vector data. By labeling the obtained representative vectors in order, the vector data series can be converted into a simple one-dimensional symbol data series. For vector quantization, see “Vector quantization and information compression” (Corona) Allen Gersho, Robert M. et al. Familiar with Gray, Saburo Tazaki et al.
なお、まとめる情報の種類及びその格納のための記憶エリアは、記憶サイズは固定ではなく、識別対象である文字行を特定するのに好適な情報を適宜選択し、決定することが可能であることは言うまでもない。また、図10では、矩形の始点の高さ、矩形高さ、矩形幅についてシンボル化する例を示したが、これに限らず、上述した黒画素密度などの配置情報を含めてシンボル化する態様としてもよい。 Note that the type of information to be collected and the storage area for storing the information are not fixed in storage size, and it is possible to appropriately select and determine information suitable for specifying the character line to be identified. Needless to say. In addition, in FIG. 10, an example in which the height of the start point of the rectangle, the height of the rectangle, and the rectangle width are symbolized is shown. It is good.
以上の作業を経ることによって、シンボル生成部26は、各文字行に含まれる行内矩形を、固定個のシンボル(ラベル)に変換することができる。したがって、実際の行内矩形の配置は、図11に示すような単なるシンボルの並びとみなすことができる。これで、シンボル系列の並び傾向を記録することができ、行内矩形の並び傾向を記録することと等価となる。
Through the above operation, the
図4に戻り、出現頻度集計部27は、ステップS34でシンボル化した各配置情報に対して、所定個のシンボルの組合せからなるシンボル系列の出現頻度を照合画像及び被照合画像の各々について夫々算出、集計し(ステップS34)、図3のステップS4の処理に移行する。
Returning to FIG. 4, the appearance
以下、ステップS34の処理について説明する。配置情報がシンボル化された後には、テキスト検索と同様に、一般的な検索手法によって検索することが可能になる。つまり、照合画像と被照合画像についてシンボル系列間の完全一致を求めればよい。ただし、文字行画像の読み取り誤差によって、文字矩形の特徴の計測結果は異なるので、文字行が同一であっても、そのシンボル変換結果が同一にならない場合もある。よって、シンボル系列の完全一致を求めるのみでは、同一文字行画像を検索できない虞がある。 Hereinafter, the process of step S34 will be described. After the arrangement information is symbolized, the search can be performed by a general search method as in the text search. That is, it is only necessary to obtain complete matching between symbol sequences for the collation image and the collation image. However, since the measurement result of the feature of the character rectangle differs depending on the reading error of the character line image, the symbol conversion result may not be the same even if the character lines are the same. Therefore, there is a possibility that the same character line image cannot be searched only by obtaining a complete match of the symbol series.
そこで、ステップS34の処理では、シンボル系列の完全一致ではなく、シンボル系列の並び傾向の相関を求める。具体的には、照合画像及び被照合画像について生成された全シンボル系列の各々における、所定個のシンボルの組みからなるシンボル系列の出現頻度を算出し集計する。
以下、詳述する。
Therefore, in the process of step S34, not the complete matching of the symbol series but the correlation of the arrangement tendency of the symbol series is obtained. Specifically, the appearance frequency of a symbol series composed of a predetermined number of symbols in each of all the symbol series generated for the collation image and the collation image is calculated and aggregated.
Details will be described below.
並びの傾向を記録する手段としては、n−gramモデルがある。n−gramモデルは、クロード・エルウッドシャノンによって提案された言語モデルである。このモデルでは、系列中のシンボルの出現が、直前のn個(nは自然数)のシンボルに影響されるとしている。現在の状態がn個前の入力に依存して決まる確率プロセスをn重マルコフ過程と呼び、n−gramモデルは(n−1)重マルコフモデルとも呼ばれる。特に、n=3の場合をtrigramと呼び、広く使用されている。 There is an n-gram model as a means for recording the tendency of arrangement. The n-gram model is a language model proposed by Claude Elwood Shannon. In this model, the appearance of a symbol in a sequence is influenced by the immediately preceding n symbols (n is a natural number). A stochastic process whose current state is determined depending on the n-th previous input is called an n-fold Markov process, and the n-gram model is also called an (n-1) -fold Markov model. In particular, the case of n = 3 is called trigram and is widely used.
具体的には、下記式(7)で示されるモデルである。さらに、式(8)にしたがって、照合画像及び被照合画像の各全シンボル系列から3つのシンボルの組みからなるシンボル系列(trigram)の出現頻度を夫々算出する。
一方で、trigramの出現頻度順位を求め、出現頻度の高い順にtrigramを集計する。表1に、trigram集計結果の一例を示す。
表1において、出現頻度はtrigramに示した3つ組みのシンボル系列、即ち三つの行内矩形を表す配置情報が、全体シンボル系列中にこの順序で出現する頻度を表している。例えば、trigram[s013,s045,s032]では、s013,s045の後ろにs032が出現する頻度が324であり、trigram[s013,s064,s033]では、s013,s064の後ろにs033が出現する頻度が312であることを示している。このように、文書画像の全シンボル系列に関して表1に示したようなtigram集計結果を求めることが、各文書画像の特徴を求めること(学習)に相当する。 In Table 1, the appearance frequency represents the frequency at which arrangement information representing the triple symbol series shown in the trigram, that is, three in-line rectangles, appears in this order in the entire symbol series. For example, in trigram [s013, s045, s032], the frequency of s032 appearing after s013, s045 is 324, and in trigram [s013, s064, s033], the frequency of s033 appearing after s013, s064 312 is shown. As described above, obtaining the tiger count result as shown in Table 1 for all the symbol sequences of the document image corresponds to obtaining (learning) the characteristics of each document image.
以上の動作を経ることによって、出現頻度集計部27は、照合画像および被照合画像の各文書画像について、表1に示したようなtrigramの出現確率の集計結果を導出する。
Through the above operation, the appearance
続いて、候補画像選定部28は、ステップS3の処理で導出された照合画像に対応する集計結果(照合画像集計結果)と、被照合画像に対応する集計結果(被照合画像集計結果)とを照合し、より高い相関を有した上位n個の被照合画像を候補画像として選定する(ステップS4)。ここで、「n」は1以上の整数であって、任意の値を設定することが可能であるものとする。
Subsequently, the candidate
照合画像集計結果と、被照合画像集計結果とを照合する場合、一つの文字行に含まれる行内矩形の個数は同値とならないことが多いため、出現頻度そのものを比較することは有意ではない。そのため、ステップS4では、下記式(9)に示した順位相関係数を用いることで、照合画像集計結果と、被照合画像集計結果との相関を判定する。
Rxy=1−(6*Σ(Rxi−Ryi)^2)/(n*(n^2−1)) ・・・(9)
When the collation image aggregation result and the collated image aggregation result are collated, since the number of in-line rectangles included in one character line often does not have the same value, it is not significant to compare the appearance frequencies themselves. Therefore, in step S4, the correlation between the collation image aggregation result and the collated image aggregation result is determined by using the rank correlation coefficient expressed by the following equation (9).
Rxy = 1− (6 * Σ (Rxi−Ryi) ^ 2) / (n * (n ^ 2-1)) (9)
ここで、nはデータ数、Rxiは照合画像集計結果の順位毎の出現頻度、Ryiは被照合画像集計結果の順位毎の出現頻度を意味しており、各順位についてRxiとRyiとの差を二乗した値の総和がΣにより演算されるようになっている。なお、順位相関係数に関しては、「ノンパラメトリック法」(培風館)柳川尭著に詳しい。 Here, n means the number of data, Rxi means the appearance frequency for each rank of the collated image aggregation results, and Ryi means the appearance frequency for each rank of the collated image aggregation results, and the difference between Rxi and Ryi for each rank. The sum of the squared values is calculated by Σ. The rank correlation coefficient is detailed in “Non-parametric method” (Baifukan) by Yanagawa.
候補画像選定部28は、照合画像集計結果と、被照合画像集計結果とに含まれる各出現頻度について、順位相関係数Rxyを算出し、被照合画像のうち、Rxyの値が“1”に近いものからn個分の被照合画像を候補画像として選定する。なお、順位相関係数を統計的に検定し、最大の順位相関係数が有意な値を示さない場合には、照合画像に類似する被照合画像はない、と判断することとしてもよい。
The candidate
ここで、図12を参照して、上述したステップS1〜S4迄の処理の概要を説明する。ステップS1、S2の処理において、照合画像Xと、複数の被照合画像Yとが選択されると、ステップS3の処理では、これら文書画像を構成する各文字行に含まれた行内矩形の各々が、配置情報に基づいてシンボル化され、照合画像Xについての全シンボル系列X1と、各被照合画像Yについての全シンボル系列Y1とが夫々生成される。そして、全シンボル系列中における、trigramの出現頻度が集計されることで照合画像Xに対応する照合画像集計結果X2と、被照合画像Yの夫々に対応する被照合画像集計結果Y2とが導出される。続いて、照合画像集計結果A2に含まれた順位毎の出現頻度と、被照合画像集計結果B2の夫々に含まれた順位毎の出現頻度と、に基づいて順位相関係数Rxyが算出される。 Here, with reference to FIG. 12, the outline | summary of the process to step S1-S4 mentioned above is demonstrated. When a collation image X and a plurality of collated images Y are selected in the processes of steps S1 and S2, in the process of step S3, each of the in-line rectangles included in each character line constituting these document images is displayed. The symbols are converted into symbols based on the arrangement information, and all symbol sequences X1 for the matching image X and all symbol sequences Y1 for each matching image Y are generated. Then, by summing up the appearance frequency of the trigram in all the symbol sequences, a collation image aggregation result X2 corresponding to the collation image X and a collation image aggregation result Y2 corresponding to each of the collation images Y are derived. The Subsequently, the rank correlation coefficient Rxy is calculated based on the appearance frequency for each rank included in the collation image aggregation result A2 and the appearance frequency for each rank included in the collated image aggregation result B2. .
続くステップS4において、ステップS3で算出された被照合画像Y毎の順位相関係数Rxyの値に基づいて、この値が “1”に近いものからn個分の被照合画像Yが候補画像として選定されることになる。 In subsequent step S4, based on the value of the rank correlation coefficient Rxy for each image to be verified Y calculated in step S3, n images to be verified Y having the value close to “1” are used as candidate images. Will be selected.
図3に戻り、出現位置分布導出部29は、出現位置分布照合処理を実行する(ステップS5)。以下、ステップS5の出現位置分布照合処理について説明する。 Returning to FIG. 3, the appearance position distribution deriving unit 29 executes an appearance position distribution matching process (step S5). Hereinafter, the appearance position distribution matching process in step S5 will be described.
図13は、出現位置分布照合処理の手順を示したフローチャートである。まず、出現位置分布導出部29は、ステップS4の処理で選定されたn個の候補画像から、本処理の対象とする候補画像を一つ選択する(ステップS51)。 FIG. 13 is a flowchart showing the procedure of the appearance position distribution matching process. First, the appearance position distribution deriving unit 29 selects one candidate image as a target of the present process from the n candidate images selected in the process of Step S4 (Step S51).
続いて、出現位置分布導出部29は、ステップS51で処理対象とした候補画像の被照合画像集計結果と、照合画像の照合画像集計結果とに基づいて、両文書画像の間で一致するtrigram、即ち三つのシンボルの組みからなるシンボル系列を選択する(ステップS52)。ここで、選択するtrigramの個数は特に問わないものとするが、より出現頻度の高いtrigramを選択することが好ましい。また、trigramを構成する三つのシンボルのうち、何れかのシンボルを選択する態様としてもよい。 Subsequently, the appearance position distribution deriving unit 29 matches the trigrams between the two document images based on the collated image aggregation result of the candidate image to be processed in step S51 and the collation image aggregation result of the collation image. That is, a symbol series composed of a set of three symbols is selected (step S52). Here, the number of trigrams to be selected is not particularly limited, but it is preferable to select a trigram having a higher appearance frequency. Moreover, it is good also as an aspect which selects any symbol among the three symbols which comprise trigram.
次いで、出現位置分布導出部29は、照合画像と処理対象の候補画像とについて、文書画像の水平方向および垂直方向における、ステップS52で選択したシンボル系列に対応する行内矩形の出現位置の分布状態をヒストグラム(度数分布ヒストグラム)として導出する(ステップS53)。 Next, the appearance position distribution deriving unit 29 determines the distribution state of the appearance position of the in-line rectangle corresponding to the symbol series selected in step S52 in the horizontal direction and the vertical direction of the document image for the collation image and the candidate image to be processed. Derived as a histogram (frequency distribution histogram) (step S53).
図8に示したように、行内矩形は始点(Xs、Ys)と終点(Xe、Ye)との2点により表現される。そのため、水平方向(X軸)に関して分布をとる場合、始点Xsについてヒストグラムを生成すればよく、垂直方向(Y軸)に関しては分布をとる場合、始点Ysについてヒストグラムを生成すればよい。 As shown in FIG. 8, the in-line rectangle is represented by two points, a start point (Xs, Ys) and an end point (Xe, Ye). Therefore, when taking a distribution in the horizontal direction (X axis), a histogram may be generated for the start point Xs, and when taking a distribution in the vertical direction (Y axis), a histogram may be generated for the start point Ys.
図14は、行内矩形の存在位置の分布状態をヒストグラムで表現した一例を示した図である。同図に示したように、照合画像と被照合画像との両文書画像の間で一致した行内矩形(図中K)について、文書画像の水平方向と垂直方向でのヒストグラムを夫々導出する。ヒストグラム集計にあたっての集計幅は、特に問わないものとするが、例えば、ステップS3の処理で切り出した各文字行の高さの平均値程度とすることとしてもよい。 FIG. 14 is a diagram showing an example in which the distribution state of the existence positions of the in-line rectangles is represented by a histogram. As shown in the figure, the histograms in the horizontal direction and the vertical direction of the document image are derived for the in-line rectangles (K in the figure) that coincide between the document images of the collation image and the collation image. The total width for the histogram total is not particularly limited, but may be, for example, about the average value of the height of each character line cut out in the process of step S3.
図13に戻り、次に出現位置分布導出部29は、ステップS53で求めた両ヒストグラムを照合し、その類似度を算出する(ステップS54)。なお、本実施形態では両ヒストグラムの照合方法として、メジアン(中央値)、モード(最頻値)、平均の各々が属するデータ区間のヒストグラム値を、両ヒストグラムの間で比較するものとする。 Returning to FIG. 13, next, the appearance position distribution deriving unit 29 collates both histograms obtained in step S53, and calculates the similarity (step S54). In this embodiment, as a method for comparing both histograms, the histogram values of the data section to which each of median (median value), mode (mode), and average belong are compared between the two histograms.
具体的には、ヒストグラムのデータ区間を座標の小さいものから順次番号付けし、メジアン、モード、平均の所属するデータ区間の番号を求める。ここで、メジアン、モード、平均の所属するデータ区間番号を(MedianClassNo, ModeClassNo, AvClassNo)と表現すれば、以下の4種の組が求められる。
(MedianClassNoXaxQuery,ModeClassNoXaxQuery,AvClassNoXaxQuery) ・・・(10)
(MedianClassNoYaxQuery,ModeClassNoYaxQuery,AvClassNoYaxQuery) ・・・(11)
(MedianClassNoXaxDB,ModeClassNoXaxDB,AvClassNoXaxDB) ・・・(12)
(MedianClassNoYaxDB,ModeClassNoYaxDB,AvClassNoYaxDB) ・・・(13)
Specifically, the data sections of the histogram are sequentially numbered from the smallest coordinate, and the number of the data section to which the median, mode, and average belong is obtained. Here, if the data section number to which the median, mode, and average belong is expressed as (MedianClassNo, ModeClassNo, AvClassNo), the following four types of sets are obtained.
(MedianClassNoXaxQuery, ModeClassNoXaxQuery, AvClassNoXaxQuery) (10)
(MedianClassNoYaxQuery, ModeClassNoYaxQuery, AvClassNoYaxQuery) (11)
(MedianClassNoXaxDB, ModeClassNoXaxDB, AvClassNoXaxDB) (12)
(MedianClassNoYaxDB, ModeClassNoYaxDB, AvClassNoYaxDB) (13)
なお、「XaxQuery」は、照合画像の水平方向のヒストグラムを意味するものであり、上記(10)式は、照合画像の水平方向のヒストグラムにおける、該当するデータ区間番号のヒストグラム値を夫々意味する。また、「YaxQuery」は、照合画像の垂直方向のヒストグラムを意味するものであり、上記(11)式は、照合画像の垂直方向のヒストグラムにおける、該当するデータ区間番号のヒストグラム値を夫々意味する。また、「XaxDB」は、被照合画像の水平方向のヒストグラムを意味するものであり、上記(12)式は、被照合画像の水平方向のヒストグラムにおける、該当するデータ区間番号のヒストグラム値を夫々意味する。また、「YaxDB」は、被照合画像の垂直方向のヒストグラムを意味するものであり、上記(13)式は、被照合画像の垂直方向のヒストグラムにおける、該当するデータ区間番号のヒストグラム値を夫々意味する。 “XaxQuery” means a horizontal histogram of the collation image, and the above equation (10) means a histogram value of the corresponding data section number in the horizontal histogram of the collation image. “YaxQuery” means a vertical histogram of the collation image, and the above equation (11) means a histogram value of the corresponding data section number in the vertical histogram of the collation image. “XaxDB” means a horizontal histogram of the image to be verified, and the above equation (12) means a histogram value of the corresponding data section number in the horizontal histogram of the image to be verified. To do. “YaxDB” means the vertical histogram of the image to be verified, and the above equation (13) means the histogram value of the corresponding data section number in the vertical histogram of the image to be verified. To do.
出現位置分布導出部29は、上記4種の組の値を算出した後、下記(14)〜(16)式を用いて、垂直方向についての照合画像のヒストグラムと、被照合画像のヒストグラムとの形状の類似度を算出する。
MedianClassNoXaxDB+CA=MedianClassNoXaxQuery ・・・(14)
ModeClassNoXaxDB+CA=ModeClassNoXaxQuery ・・・(15)
AvClassNoXaxDB+CA=AvClassNoXaxQuery ・・・(16)
After calculating the above four types of values, the appearance position distribution deriving unit 29 uses the following equations (14) to (16) to calculate the matching image histogram and the matching image histogram in the vertical direction. Calculate the similarity of shapes.
MedianClassNoXaxDB + CA = MedianClassNoXaxQuery (14)
ModeClassNoXaxDB + CA = ModeClassNoXaxQuery (15)
AvClassNoXaxDB + CA = AvClassNoXaxQuery (16)
上記(14)〜(16)式において、「CA」は定数であって、最初に処理する1式(例えば(14)式)から求まる値である。出現位置分布導出部29は、この定数CAの値が残りの2式にて成立するか否か、つまり、残り2式での定数CAからのずれの度合いを、照合画像のヒストグラムと、被照合画像のヒストグラムとの形状の類似度として算出する。なお、定数CAからのずれの度合いは、例えば、CA’/CAを算出することで導出できる。ここで、CA’は、CA+α(αは定数CAからのずれ値)であり、完全一致する際のずれの度合い、即ち類似度は“1”となる。 In the above formulas (14) to (16), “CA” is a constant and is a value obtained from one formula (for example, formula (14)) to be processed first. The appearance position distribution deriving unit 29 determines whether or not the value of the constant CA is satisfied by the remaining two expressions, that is, the degree of deviation from the constant CA in the remaining two expressions, the histogram of the collation image, and the collation target It is calculated as the similarity of the shape with the histogram of the image. The degree of deviation from the constant CA can be derived, for example, by calculating CA ′ / CA. Here, CA ′ is CA + α (α is a deviation value from the constant CA), and the degree of deviation when completely matching, that is, the similarity is “1”.
また、同様に出現位置分布導出部29は、下記(17)〜(19)式を用いて、垂直方向についての、照合画像のヒストグラムと、被照合画像のヒストグラムとの形状の類似度を算出する。
MedianClassNoYaxDB+CB=MedianClassNoYaxQuery ・・・(17)
ModeClassNoYaxDB+CB=ModeClassNoYaxQuery ・・・(18)
AvClassNoYaxDB+CB=AvClassNoYaxQuery ・・・(19)
Similarly, the appearance position distribution deriving unit 29 calculates the similarity between the shapes of the matching image histogram and the matching image histogram in the vertical direction using the following equations (17) to (19). .
MedianClassNoYaxDB + CB = MedianClassNoYaxQuery (17)
ModeClassNoYaxDB + CB = ModeClassNoYaxQuery (18)
AvClassNoYaxDB + CB = AvClassNoYaxQuery (19)
上記(17)〜(19)式において、「CB」は定数であって、上述したCAと同様、最初に処理する1式(例えば(17)式)から求まる値である。出現位置分布導出部29は、この定数CBの値が残りの2式にて成立するか否か、つまり、残り2式での定数CBからのずれの度合いを、照合画像のヒストグラムと、被照合画像のヒストグラムとの形状の類似度として算出する。なお、定数CBからのずれの度合いは、上述した定数CAについてと同様に導出することができる。 In the above formulas (17) to (19), “CB” is a constant, and is a value obtained from the first formula (for example, formula (17)) to be processed first, similarly to the CA described above. The appearance position distribution deriving unit 29 determines whether or not the value of the constant CB is satisfied by the remaining two expressions, that is, the degree of deviation from the constant CB in the remaining two expressions, the histogram of the collation image, and the collation target It is calculated as the similarity of the shape with the histogram of the image. The degree of deviation from the constant CB can be derived in the same manner as for the constant CA described above.
出現位置分布導出部29は、上記の手続きにより算出した水平方向および垂直方向での類似度を、処理対象の被照合画像と対応付けてRAM4等に保持する。ここで、水平方向(又は垂直方向)に対して導出されるずれの度合いの個数は、2式(或いは3式)分となるが、これらを個別に類似度として保持する態様としてもよいし、これらの平均値を類似度として保持する態様としてもよい。
The appearance position distribution deriving unit 29 stores the similarity in the horizontal direction and the vertical direction calculated by the above procedure in the
なお、本実施形態では、文書画像の水平方向および垂直方向の両方向について、ヒストグラムの形状の類似度を算出したが、何れか一方向のみについて算出する態様としてもよい。また、本実施形態では、行内矩形の出現位置の分布状態をヒストグラムで表すものとしたが、これに限らず、例えば正規分布を用いて表すものとしてもよい。 In the present embodiment, the similarity of the histogram shape is calculated for both the horizontal direction and the vertical direction of the document image, but it may be calculated only for one direction. In the present embodiment, the distribution state of the appearance position of the in-line rectangle is represented by a histogram. However, the present invention is not limited to this, and may be represented using, for example, a normal distribution.
図15は、行内矩形の存在位置の分布状態を正規分布で表現した一例を示した図である。同図に示したように、正規分布を用いて表す場合には、各行内矩形の始点に基づいた集計結果から、水平方向(X軸)に関して、平均μx、標準偏差σx、歪度、尖度を算出し、また同様に垂直方向(Y軸)に関して、平均μy、標準偏差σy、歪度、尖度を算出すればよい。 FIG. 15 is a diagram illustrating an example in which the distribution state of the position of the in-line rectangle is expressed by a normal distribution. As shown in the figure, when the normal distribution is used, the average μx, the standard deviation σx, the skewness, the kurtosis in the horizontal direction (X axis) are obtained from the aggregation result based on the start point of each in-line rectangle. Similarly, average μy, standard deviation σy, skewness, and kurtosis may be calculated in the vertical direction (Y-axis).
この場合、平均値については、照合画像と被照合画像とで画像サイズが異なる可能性があるため、直接比較することは有意ではない。正規分布の形状が一致しているか否かを求めるには、標準偏差、歪度、尖度が類似しているかを判定すればよい。例えば、検索画像の標準偏差、歪度、尖度と、被検索画像の標準偏差、歪度、尖度との各々を比較し、比率が1に近いものほど正規分布の形状が類似するものと判断することができる。 In this case, as for the average value, there is a possibility that the image size may be different between the collation image and the collation image, so that direct comparison is not significant. In order to determine whether the shapes of the normal distribution match, it is only necessary to determine whether the standard deviation, skewness, and kurtosis are similar. For example, the standard deviation, skewness, and kurtosis of the search image are compared with the standard deviation, skewness, and kurtosis of the image to be searched. Judgment can be made.
なお、照合画像の解像度と、被照合画像の解像度とが一致している場合には、同一文字を構成するドット数は同じになるが、解像度が異なる場合にはドット数は同じにならない。つまり、ヒストグラムや正規分布の形状の一致を評価する場合にも、解像度が同じ場合には両者の数値をそのまま利用しても構わないが、解像度が異なる場合には、ドット数に基づく数値をそのまま利用することができない。 In addition, when the resolution of the collation image and the resolution of the collated image match, the number of dots constituting the same character is the same, but when the resolution is different, the number of dots is not the same. In other words, when evaluating the coincidence of the shape of the histogram or normal distribution, both numerical values may be used as they are when the resolution is the same, but when the resolutions are different, the numerical value based on the number of dots is used as it is. It cannot be used.
そこで、両文書画像の解像度が異なる場合、或いは解像度自体が未知の場合には、数値の正規化を行う必要がある。一般的な文書画像においては段落単位では文字のサイズは同一であるため、同じ段落に属する文字行は行高さが等しくなる。また、照合画像が被照合画像の一部分であれば、同じ行高さになる可能性が高いことは明らかである。よって、被検索画像および検索画像において、各文字行の行高さを集計し、最頻出となる行高さについて、ヒストグラムを規定する数値(平均、モード、メジアン)を除算する。なお、正規分布の場合も同様である。また、最頻出の行高さではなく、各文字行の行高さの平均値で除算してもよい。いずれを選択するかは設計事項であり、使用する環境に応じて決定すればよい。 Therefore, when the document images have different resolutions or when the resolution itself is unknown, it is necessary to normalize numerical values. In a general document image, the character size is the same for each paragraph, so that the character lines belonging to the same paragraph have the same line height. In addition, if the collation image is a part of the collation image, it is clear that there is a high possibility that the row height will be the same. Therefore, in the search target image and the search image, the line height of each character line is totaled, and the numerical value (average, mode, median) that defines the histogram is divided for the line height that occurs most frequently. The same applies to the normal distribution. Moreover, you may divide by the average value of the line height of each character line instead of the most frequent line height. Which to select is a design matter and may be determined according to the environment to be used.
また、照合画像が被照合画像の一部分であっても、その一部分の特異な部分だけが照合画像となった場合には、全体画像において最頻出する行高さが、部分画像において最頻出となる行高さと一致しないことが考えられる。例えば、本文行と見出し行とは行高さが大きく異なる文書画像において、全体画像の行数としては本文行が圧倒的に多いと予想される。その文書の部分画像には見出し行だけしか含まれていない場合には、最頻出行は見出し行となり、全体画像の最頻出行から推定した行高さとは一致しないため、この一致しない結果に基づいて正規化しても正しい比較結果を得ることができないのは明らかである。 Further, even if the collation image is a part of the image to be collated, when only a specific part of the collation image becomes the collation image, the line height that appears most frequently in the entire image becomes the most frequent in the partial image. It is possible that the line height does not match. For example, in a document image in which the text line and the headline line have greatly different line heights, it is expected that the text line is overwhelmingly large as the number of lines of the entire image. If the partial image of the document contains only the heading line, the most frequent line becomes the heading line and does not match the line height estimated from the most frequent line of the whole image. It is clear that correct comparison results cannot be obtained even if normalized.
このような場合、照合画像と被照合画像との両文書画像内において、一致した行内矩形(シンボル系列)だけを対象に矩形サイズの集計を行い、最頻出した矩形サイズのドット数に基づいて、数値(平均、モード、メジアン)を正規化することで対応することができる。 In such a case, in both document images of the collation image and the collation image, the rectangular size is aggregated only for the matching in-line rectangle (symbol series), and based on the number of rectangular size dots that appear most frequently, This can be dealt with by normalizing numerical values (average, mode, median).
図13に戻り、出現位置分布導出部29は、ステップS54の処理で求めた類似度を、処理対象の候補画像に対応付けてハードディスク3又はRAM4に保持する(ステップS55)。続いて、出現位置分布導出部29は、ステップS4の処理で選定されたn個の被候補画像の全てに対して、本処理の処理対象としたか否かを判定する(ステップS56)。ここで、本処理の対象としていない未処理の候補画像が存在すると判定した場合には(ステップS56;No)、ステップS51へと再び戻り、未処理の候補画像のうち一つを処理対象として選択する。
Returning to FIG. 13, the appearance position distribution deriving unit 29 stores the similarity obtained in the process of step S54 in the
一方、ステップS56において、全ての候補画像を処理対象としたと判定した場合(ステップS56;Yes)、図3のステップS6の処理に移行する。 On the other hand, if it is determined in step S56 that all candidate images have been processed (step S56; Yes), the process proceeds to step S6 in FIG.
図3に戻り、照合結果選定部30は、ステップS5の処理によりRAM4等に保持されたn個の候補画像の類似度に基づいて、最も高い類似度を有した候補画像、即ち類似度の値が“1”に最も近かった候補画像を照合結果として選定する(ステップS6)。
Returning to FIG. 3, the collation
続いて、表示部31は、ステップS6の処理で照合結果に選定された文書画像を、照合画像に対する照合結果として表示装置6に表示し(ステップS7)、本処理を終了する。
Subsequently, the
図16は、上記文書照合処理の動作を説明するための図である。同図において、D11は照合画像であって、特定の文書画像中の一部分となる部分画像が照合画像に選択された場合を示している。また、D21〜D24は、ステップS4までの処理により選定された4つの候補画像を示している。なお、照合画像D11は、候補画像D24の部分画像となっている。即ち、候補画像D24が照合画像D11に最も類似する文書画像となっている。 FIG. 16 is a diagram for explaining the operation of the document collation process. In the drawing, D11 is a collation image, and shows a case where a partial image that is a part of a specific document image is selected as the collation image. D21 to D24 indicate four candidate images selected by the processing up to step S4. The collation image D11 is a partial image of the candidate image D24. That is, the candidate image D24 is a document image that is most similar to the collation image D11.
上述したようにステップS4の処理では、行内矩形の配置情報に対応するシンボル系列を照合することで、照合画像D11と相関関係にある文書画像として、候補画像D21〜D24までを絞り込むことが可能である。なお、照合画像D11、候補画像D21〜D24中矩形Kで表した部分が、各文書画像で一致したシンボル系列(或いはシンボル)の行内矩形を意味している。 As described above, in the process of step S4, it is possible to narrow down candidate images D21 to D24 as document images correlated with the collation image D11 by collating the symbol series corresponding to the in-line rectangle arrangement information. is there. In addition, the part represented by the rectangle K in the collation image D11 and the candidate images D21 to D24 means the in-line rectangle of the symbol series (or symbol) that matches in each document image.
しかしながら、ステップS4の処理ではシンボル系列の出現頻度に基づいて類似度を判断するのみであるため、候補画像D24が照合画像D11に最も類似する文書画像であること、即ち、照合画像D11が候補画像D24の一部分であることまでを判断することはできない。そのため、ステップS5の処理では、各文書画像で一致したシンボル系列の相対的な位置関係、即ち出現位置の分布状態を照合することで、候補画像D24が照合画像D11に最も類似する文書画像であることを特定することが可能となる。 However, since the degree of similarity is only determined based on the appearance frequency of the symbol series in the process of step S4, the candidate image D24 is the document image most similar to the collation image D11, that is, the collation image D11 is the candidate image. It cannot be determined that it is a part of D24. Therefore, in the process of step S5, the candidate image D24 is the document image that is most similar to the collation image D11 by collating the relative positional relationship of the symbol series that matched in each document image, that is, the distribution state of the appearance positions. It becomes possible to specify.
以上のように、本実施形態によれば、照合画像と被照合画像とについて、文字行内における外接矩形の特徴を表した配置情報を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく文字行の特徴の抽出が可能となり、被照合画像から、照合画像と相関の高い被照合画像を所定の数だけ候補画像として選定することができる。また、照合画像と候補画像とについて、一致するシンボル系列の出現位置の分布状態を照合することで、当該シンボル系列の相対的な位置関係の類似性を判定することができるため、照合対象画像と候補画像との類似性を高精度に判定することができる。これにより、文書画像中の部分画像が照合対象の文書画像とされた場合であっても、この部分画像に含まれた文字画像の外接矩形の位置関係に基づいて、当該部分画像と類似する文書画像を高精度に検索することが可能となる。 As described above, according to the present embodiment, the arrangement information representing the characteristics of the circumscribed rectangle in the character line is extracted from the collation image and the collation image, and these are quantized to a fixed stage to generate a symbol. Thus, it is possible to extract the characteristics of the character line without recognizing characters, and it is possible to select, as a candidate image, a predetermined number of images to be verified that have a high correlation with the verification image. Further, by comparing the distribution state of the appearance positions of the matching symbol series for the matching image and the candidate image, the similarity of the relative positional relationship of the symbol series can be determined. Similarity with a candidate image can be determined with high accuracy. As a result, even if a partial image in the document image is a document image to be collated, a document similar to the partial image based on the positional relationship of the circumscribed rectangle of the character image included in the partial image Images can be searched with high accuracy.
なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。 It should be noted that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
例えば、本実施形態で実行される文書照合処理にかかるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の文書処理装置100で実行される文書照合処理にかかるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
For example, the program relating to the document matching process executed in the present embodiment may be stored on a computer connected to a network such as the Internet and provided by being downloaded via the network. In addition, a program related to document collation processing executed by the
また、本実施形態で実行される文書照合処理にかかるプログラムを、ROM等の記憶媒体に予め組み込んで提供するように構成してもよい。 Further, the program relating to the document matching process executed in the present embodiment may be provided by being incorporated in advance in a storage medium such as a ROM.
また、上記実施形態では、図2に示した各機能部をCPU1とROM2に記憶された所定のプログラムとの協働により実現する態様としたが、これに限らず、ハードウェア構成により実現する態様としてもよい。具体的には、リアルタイム性が重要視される場合には、処理を高速化する必要があるため、論理回路(図示せず)を別途設け、論理回路の動作により各種の演算処理を実行するようにすることが好ましい。
In the above-described embodiment, each functional unit illustrated in FIG. 2 is realized by cooperation with the
また、上記実施形態では、文字行よりも小さな単位として行内矩形に着目したが、これに限らず、他の単位でも適用可能である。例えば、文字(文字画像)単位や単語単位の画像特徴でも数値化し量子化することで、上記と同様にシンボル化することが可能であり、照合することが可能である。この場合、黒画画素に基づいて文字画像を切り出したのち、当該文字画像の外接矩形を文字単位又は単語単位で用いることで対応することが可能である。なお、文字単位又は単語単位での分割は、OCR(Optical Character Recognition)等で用いられる公知の文字切り出し手法を用いればよい。 In the above embodiment, the in-line rectangle is focused on as a unit smaller than the character line. However, the present invention is not limited to this, and other units are applicable. For example, by characterizing and quantizing image characteristics in units of characters (character images) or words, it is possible to symbolize and collate as described above. In this case, it is possible to cope by cutting out the character image based on the black image pixels and then using the circumscribed rectangle of the character image in character units or word units. In addition, what is necessary is just to use the well-known character extraction method used by OCR (Optical Character Recognition) etc. for the division | segmentation in a character unit or a word unit.
代表的な文字切り出し手法として、射影を利用する方法がある。この方法では、水平行について、垂直方向に黒画素数を集計し、その分布を求め、ある黒画素数がしきい値以下の部分を分割位置候補とする。また、分割位置候補に対しては、行高さから推定した文字幅、隣接する分割位置との距離、行全体に亘る分割位置の周期性等の観点から妥協点を評価し、適当な分割位置の選択を行う(垂直行も同様)。 As a typical character segmentation method, there is a method using projection. In this method, the number of black pixels in the horizontal direction is counted in the vertical direction, the distribution is obtained, and a portion where a certain number of black pixels is equal to or smaller than a threshold value is determined as a division position candidate. In addition, for the division position candidates, a compromise point is evaluated from the viewpoint of the character width estimated from the line height, the distance from the adjacent division position, the periodicity of the division position over the entire line, and the like. Is selected (the same applies to the vertical row).
また、単語単位に分割する他の方法としては、欧文等分かち書きの習慣のある言語については、単語間の空白に基づいて容易に実現することが可能である。このように、文字単位、単語単位等の単位で分割された場合であっても、その範囲の画像に外接する矩形を求めることが可能であり、その外接矩形の開始位置、終点位置を用いることで行内矩形に対する場合と同様な手順で量子化を行うことができる。 In addition, as another method of dividing into words, it is possible to easily realize a language that has a habit of dividing equally into European sentences based on a space between words. In this way, even when divided in units of characters, words, etc., it is possible to obtain a rectangle that circumscribes the image in that range, and use the start position and end point position of the circumscribed rectangle Thus, quantization can be performed in the same procedure as for the in-line rectangle.
以上のように、本発明に係る文書処理装置、文書処理方法および文書処理プログラムは、文書画像間を照合する文字処理装置に有用であり、特に、文書画像の一部分となる部分画像を照合対象とし、この部分画像に類似する文書画像の検索を行う文書処理装置に適している。 As described above, the document processing apparatus, the document processing method, and the document processing program according to the present invention are useful for a character processing apparatus that collates between document images, and particularly, a partial image that is a part of a document image is a collation target. It is suitable for a document processing apparatus that searches for a document image similar to this partial image.
100 文書処理装置
1 CPU
2 ROM
3 ハードディスク
4 RAM
5 キーボード
6 表示装置
7 光ディスクドライブ
8 通信装置
9 スキャナ
10 バスコントローラ
21 画像入力部
22 照合画像選択部
23 矩形抽出部
24 行切出部
25 量子化部
26 シンボル生成部
27 出現頻度集計部
28 候補画像選定部
29 出現位置分布導出部
30 照合結果選定部
31 表示部
100
2 ROM
3
DESCRIPTION OF
Claims (18)
前記文書画像に含まれた文字画像毎の外接矩形に基づいて、当該外接矩形を連結した文字行を切り出す文字行切出手段と、
前記文字行内における前記外接矩形の特性を表す配置情報を固定段階に量子化する量子化手段と、
前記量子化された配置情報の各々を固定種類のシンボルにシンボル化するシンボル生成手段と、
所定個の前記シンボルの組合せからなるシンボル系列の出現頻度を算出する出現頻度算出手段と、
照合対象の文書画像と、当該文書画像の被照合対象となる複数の文書画像とについて、前記出現頻度算出手段により算出された出現頻度を照合し、より高い相関を有した被照合対象の文書画像を所定数選定する被照合対象選定手段と、
前記照合対象の文書画像と、前記被照合対象選定手段により選定された被照合対象の文書画像の各々とで一致した前記シンボル系列に対応する各配置情報に基づいて、当該各配置情報の何れか又は全てが表す外接矩形の出現位置の分布状態を文書画像毎に導出する分布状態導出手段と、
前記分布状態導出手段により導出された前記照合対象の文書画像についての分布状態と、前記被照合対象の文書画像についての分布状態との類似度を判定し、最も高い類似度を有した被照合対象の文書画像を照合結果として選定する照合結果選定手段と、
を備えたことを特徴とする文書処理装置。 In a document processing apparatus that performs collation between document images,
Based on a circumscribed rectangle for each character image included in the document image, character line cutting means for cutting out a character line connecting the circumscribed rectangles;
Quantization means for quantizing the arrangement information representing the characteristics of the circumscribed rectangle in the character line in a fixed stage;
Symbol generating means for symbolizing each of the quantized arrangement information into a fixed type of symbol;
Appearance frequency calculating means for calculating the appearance frequency of a symbol series composed of a predetermined number of symbol combinations;
The document image to be collated has a higher correlation by collating the appearance frequency calculated by the appearance frequency calculating means for the document image to be collated and a plurality of document images to be collated with the document image. A check target selection means for selecting a predetermined number,
Based on each piece of arrangement information corresponding to the symbol series matched between the document image to be collated and each document image to be collated selected by the collation target selection unit, any one of the pieces of arrangement information Or a distribution state deriving means for deriving the distribution state of the appearance position of the circumscribed rectangle that all represents, for each document image;
A collation target having the highest similarity by determining a similarity between the distribution state of the collation target document image derived by the distribution state deriving unit and the distribution state of the collation target document image; Collation result selection means for selecting a document image of
A document processing apparatus comprising:
文字行切出手段が、前記文書画像に含まれた文字画像毎の外接矩形に基づいて、当該外接矩形を連結した文字行を切り出す文字行切出ステップと、
量子化手段が、前記文字行内における前記外接矩形の特性を表す配置情報を固定段階に量子化する量子化ステップと、
シンボル系列生成手段が、前記量子化された配置情報の各々を固定種類のシンボルにシンボル化するシンボル生成ステップと、
出現頻度算出手段が、所定個の前記シンボルの組合せからなるシンボル系列の出現頻度を算出する出現頻度算出ステップと、
被照合対象選定手段が、照合対象の文書画像と、当該文書画像の被照合対象となる複数文書画像とについて、前記出現頻度算出手段により算出された出現頻度を照合し、より高い相関を有した被照合対象の文書画像を所定数選定する被照合対象選定ステップと、
分布状態導出手段が、前記照合対象の文書画像と、前記被照合対象選定ステップで選定された被照合対象の文書画像の各々とで一致した前記シンボル系列に対応する各配置情報に基づいて、当該各配置情報の何れか又は全てが表す外接矩形の出現位置の分布状態を文書画像毎に導出する分布状態導出ステップと、
照合結果選定手段が、前記分布状態導出ステップで導出された前記照合対象の文書画像についての分布状態と、前記被照合対象の文書画像についての分布状態との類似度を判定し、最も高い類似度を有した被照合対象の文書画像を照合結果として選定する照合結果選定ステップと、
を含むことを特徴とする文書処理方法。 A document processing method executed by a document processing apparatus that performs collation between document images,
A character line cutting step for cutting out a character line obtained by connecting the circumscribed rectangles based on a circumscribed rectangle for each character image included in the document image;
A quantization step, wherein the quantization means quantizes the arrangement information representing the characteristic of the circumscribed rectangle in the character line in a fixed stage;
A symbol sequence generating means for symbolizing each of the quantized arrangement information into a fixed type of symbol; and
An appearance frequency calculating means for calculating an appearance frequency of a symbol series comprising a combination of a predetermined number of the symbols;
The collation target selecting means collates the appearance frequencies calculated by the appearance frequency calculation means for the document image to be collated and the plurality of document images to be collated with the document image, and has a higher correlation. A verification target selection step for selecting a predetermined number of document images to be verified;
The distribution state deriving means, based on each arrangement information corresponding to the symbol series matched between the document image to be collated and each document image to be collated selected in the collation target selection step, A distribution state deriving step for deriving a distribution state of appearance positions of circumscribed rectangles represented by any or all of the respective pieces of arrangement information for each document image;
The collation result selecting means determines the similarity between the distribution state for the document image to be collated derived in the distribution state deriving step and the distribution state for the document image to be collated, and the highest similarity A matching result selection step for selecting a document image to be verified as a matching result,
A document processing method comprising:
前記文書画像に含まれた文字画像毎の外接矩形に基づいて、当該外接矩形を連結した文字行を切り出す文字行切出手段と、
前記文字行内における前記外接矩形の特性を表す配置情報を固定段階に量子化する量子化手段と、
前記量子化された配置情報の各々を固定種類のシンボルにシンボル化するシンボル生成手段と、
前記シンボル系列内における、所定個のシンボルの組合せからなるシンボル系列の出現頻度を算出する出現頻度算出手段と、
照合対象の文書画像と、当該文書画像の被照合対象となる複数の文書画像とについて、前記出現頻度算出手段により算出された出現頻度を照合し、より高い相関を有した被照合対象の文書画像を所定数選定する被照合対象選定手段と、
前記照合対象の文書画像と、前記被照合対象選定手段により選定された被照合対象の文書画像の各々とで一致した前記シンボル系列に対応する各配置情報に基づいて、当該各配置情報の何れか又は全てが表す外接矩形の出現位置の分布状態を文書画像毎に導出する分布状態導出手段と、
前記分布状態導出手段により導出された前記照合対象の文書画像についての分布状態と、前記被照合対象の文書画像についての分布状態との類似度を判定し、最も高い類似度を有した被照合対象の文書画像を照合結果として選定する照合結果選定手段と、
して機能させることを特徴とする文書処理プログラム。 A computer that performs collation between document images
Based on a circumscribed rectangle for each character image included in the document image, character line cutting means for cutting out a character line connecting the circumscribed rectangles;
Quantization means for quantizing the arrangement information representing the characteristics of the circumscribed rectangle in the character line in a fixed stage;
Symbol generating means for symbolizing each of the quantized arrangement information into a fixed type of symbol;
Appearance frequency calculating means for calculating the appearance frequency of a symbol sequence consisting of a combination of a predetermined number of symbols in the symbol sequence;
The document image to be collated has a higher correlation by collating the appearance frequency calculated by the appearance frequency calculating means for the document image to be collated and a plurality of document images to be collated with the document image. A check target selection means for selecting a predetermined number,
Based on each piece of arrangement information corresponding to the symbol series matched between the document image to be collated and each document image to be collated selected by the collation target selection unit, any one of the pieces of arrangement information Or a distribution state deriving means for deriving the distribution state of the appearance position of the circumscribed rectangle that all represents, for each document image;
A collation target having the highest similarity by determining a similarity between the distribution state of the collation target document image derived by the distribution state deriving unit and the distribution state of the collation target document image; Collation result selection means for selecting a document image of
Document processing program characterized in that it functions as a computer program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007293392A JP4885112B2 (en) | 2007-11-12 | 2007-11-12 | Document processing apparatus, document processing method, and document processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007293392A JP4885112B2 (en) | 2007-11-12 | 2007-11-12 | Document processing apparatus, document processing method, and document processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009122758A JP2009122758A (en) | 2009-06-04 |
JP4885112B2 true JP4885112B2 (en) | 2012-02-29 |
Family
ID=40814876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007293392A Expired - Fee Related JP4885112B2 (en) | 2007-11-12 | 2007-11-12 | Document processing apparatus, document processing method, and document processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4885112B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5298830B2 (en) * | 2008-12-19 | 2013-09-25 | 富士ゼロックス株式会社 | Image processing program, image processing apparatus, and image processing system |
CN101944091A (en) * | 2009-07-07 | 2011-01-12 | 夏普株式会社 | Image retrieving device |
JP6187237B2 (en) * | 2013-12-19 | 2017-08-30 | 富士通株式会社 | Document image retrieval apparatus, method, and program |
US10579707B2 (en) * | 2017-12-29 | 2020-03-03 | Konica Minolta Laboratory U.S.A., Inc. | Method for inferring blocks of text in electronic documents |
-
2007
- 2007-11-12 JP JP2007293392A patent/JP4885112B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009122758A (en) | 2009-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4504702B2 (en) | Document processing apparatus, document processing method, and document processing program | |
US11804056B2 (en) | Document spatial layout feature extraction to simplify template classification | |
US8416982B2 (en) | Image processing apparatus, image processing method and program | |
JP3345350B2 (en) | Document image recognition apparatus, method thereof, and recording medium | |
JP5188334B2 (en) | Image processing apparatus, image processing method, and program | |
JP2001167131A (en) | Automatic classifying method for document using document signature | |
JP2014232533A (en) | System and method for ocr output verification | |
JP2006260274A (en) | Character direction identification device, image forming device, program, storage medium, and character direction identification method | |
JP4300098B2 (en) | Object identification method and apparatus, program and recording medium | |
JP2008287439A (en) | Image processing device and image retrieval method | |
JP2004139484A (en) | Form processing device, program for implementing it, and program for creating form format | |
CN112151014B (en) | Speech recognition result evaluation method, device, equipment and storage medium | |
JP2006031546A (en) | Character direction identifying device, character processing device, program and storage medium | |
KR20170004983A (en) | Line segmentation method | |
JP4885112B2 (en) | Document processing apparatus, document processing method, and document processing program | |
CN112560849A (en) | Neural network algorithm-based grammar segmentation method and system | |
JP4678712B2 (en) | Language identification device, program, and recording medium | |
US20030123730A1 (en) | Document recognition system and method using vertical line adjacency graphs | |
JP3187899B2 (en) | Character recognition device | |
JP5046241B2 (en) | Image processing apparatus, image processing method, and program | |
JP5712415B2 (en) | Form processing system and form processing method | |
JP5683287B2 (en) | Pattern recognition apparatus and pattern recognition method | |
JPH11328417A (en) | Image processor and method therefor and computer readable recording medium for recording image processing program | |
CN112084979A (en) | Food component identification method, device, equipment and storage medium | |
JPH06223121A (en) | Information retrieving device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111115 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111207 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141216 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4885112 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |