JP2002170079A - 文書書式識別装置および識別方法 - Google Patents

文書書式識別装置および識別方法

Info

Publication number
JP2002170079A
JP2002170079A JP2000367675A JP2000367675A JP2002170079A JP 2002170079 A JP2002170079 A JP 2002170079A JP 2000367675 A JP2000367675 A JP 2000367675A JP 2000367675 A JP2000367675 A JP 2000367675A JP 2002170079 A JP2002170079 A JP 2002170079A
Authority
JP
Japan
Prior art keywords
document
similarity
document format
scaling factor
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000367675A
Other languages
English (en)
Other versions
JP2002170079A5 (ja
JP4046941B2 (ja
Inventor
Kenichi Kazumi
健一 数見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000367675A priority Critical patent/JP4046941B2/ja
Publication of JP2002170079A publication Critical patent/JP2002170079A/ja
Publication of JP2002170079A5 publication Critical patent/JP2002170079A5/ja
Application granted granted Critical
Publication of JP4046941B2 publication Critical patent/JP4046941B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 異なる複数の変倍率で拡大または縮小された
文書が混在する環境でも、多種類の文書書式を正しく識
別する。 【解決手段】 文書画像の特徴量に基づいて、文書書式
識別のための文書書式データを作成する書式データ作成
手段12bと、文書書式データを保存するディスク14
と、文書書式を識別したい文書の画像について書式デー
タ作成手段12bを用いて文書書式データを得て、これ
をディスク14で保存した文書書式データと相似関係が
あるか否かを判断し、相似と判断された場合に、前記識
別したい文書と、ディスク14で保存した文書との相似
状態を表す相似情報及び文書書式データに基づいて文書
書式の類似度を計算し、前記識別したい文書の文書書式
を識別する類似度計算手段12cとを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、大量の帳票を処理
する分野で、帳票の書式ごとに分類する装置を構築する
際に、自動分類を可能にする帳票識別に関するものであ
る。
【0002】
【従来の技術】帳票内に記載された情報をOCR等の光
学式文字認識装置で読みとるためには、帳票の書式を識
別し、帳票内の情報記載位置を正確に把握する必要があ
る。帳票の書式を識別する方法として、あらかじめ登録
されたマスタ帳票と、識別したい帳票の帳票内のテーブ
ルや文字を比較し、識別したい帳票と一致するマスタ帳
票を抽出する方法がある。
【0003】帳票内のテーブルや文字を比較するには、
識別したい帳票のテーブルブロックおよびテキストブロ
ックに、最も近い座標位置にあるマスタ帳票のブロック
を検出し、テーブルブロックおよびテキストブロックご
との詳細情報のマッチングを取る手法が一般的である。
そのブロック位置の検出には、帳票ページの左上角を原
点として、各ブロックの左上角位置の座標値を使用して
いた。
【0004】
【発明が解決しようとする課題】しかしながら、識別し
たい帳票がFAX等により送信された場合、FAX等の
給紙制約から、識別したい帳票が拡大または縮小される
ことがある。そして、図2の(A)、(B)に示すよう
にマスタ帳票Bに対して、拡大または縮小した識別した
い帳票Aを比較すると、識別したい帳票の各ブロックの
左上角位置は変倍されているため、識別したい帳票のブ
ロックに対応するマスタ帳票のブロックを正確に検出す
ることができない。また、ブロックごとの詳細構造のマ
ッチングでも、テーブルブロックのサイズ、テーブル内
の罫線の位置情報も、前記と同様に変倍されているの
で、相似形のテーブルブロックでもテーブル構造のマッ
チング計算では、異なるテーブルだと識別されることに
なる。その結果、拡大または縮小した帳票は、類似度が
非常に低くなり、異なる帳票として判断されることにな
る。
【0005】本発明は、上記課題を鑑みてなされたもの
であり、異なる変倍率で拡大または縮小された複数の文
書が混在する環境でも、文書書式を正しく識別すること
を目的とする。
【0006】
【課題を解決するための手段】かかる課題を解決するた
め、例えば本発明の文書書式識別装置は以下の構成を備
える。すわなち、文書画像の特徴量に基づいて、文書書
式識別のための文書書式データを作成する作成手段と、
前記文書書式データを保存する保存手段と、文書書式を
識別したい文書の画像について前記作成手段を用いて文
書書式データを得て、これを前記保存手段で保存した文
書書式データと比較し、相似関係があるか否かを判断す
る判断手段と、前記判断手段にて相似と判断された場合
に、前記識別したい文書と、前記保存手段で保存した文
書との相似状態を表す相似情報を抽出する相似情報抽出
手段と、前記相似情報抽出手段にて抽出した相似情報及
び文書書式データに基づいて文書書式の類似度を計算
し、前記識別したい文書の文書書式を識別する識別手段
とを備える。
【0007】
【発明実施の形態】[実施形態1]以下、図面を参照し
て本発明の実施の形態を詳細に説明する。
【0008】図1は、本発明の実施の形態に係る帳票書
式自動識別装置の概略構成を示すブロック図である。
【0009】11はスキャナーであり、帳票イメージを
光学的に読み取り、帳票イメージデータを出力する。1
2はプロセッサでありメモリ15に格納された制御プロ
グラム15dを実行することにより、画像特徴量抽出手
段12a、書式データ作成手段12b、類似度計算手段
12cとして機能する。スキャナー11で読み取った画
像は、帳票イメージ15cとしてメモリ15に格納され
る。帳票イメージ15cは、2値化処理されて画像特徴
量抽出手段12aに送られ、黒ドットのヒストグラム法
などの手法により、テーブル、テキスト、ピクチャなど
ブロックごとに属性分類される。テーブルブロックにつ
いては、さらに罫線追跡手法などで、テーブルの詳細構
造を求める。また、テキストブロックについては、さら
に文字コードに変換するなどの処理を行う。
【0010】このようにして取得した情報から、書式デ
ータ作成手段12bにて、図3に示す帳票のページ書式
およびテーブル書式を作成し、メモリ15およびディス
ク14に保存する。図3は、画像特徴量抽出手段12a
で抽出した後の帳票サンプル31を示す。テーブル・ブ
ロック3個(311〜313)、ピクチャ・ブロック1
個(314)が抽出されている。この帳票の書式データ
32は、ページ書式321とテーブル書式322に階層
化して保存する。ページ書式321は、ヘッダ部321
aに帳票ページ幅、帳票ページ高さを所有する。
【0011】また、データ部322aにはブロック毎に
各種情報が記憶される。例えば、ブロック属性がテーブ
ルの場合には、位置情報としてブロック左端位置、ブロ
ック上端位置、大きさ情報としてブロック幅、ブロック
高さの情報を所有する。また、比較帳票をピックアップ
するのに使用するためのページ原点からの距離および類
似度の計算に使用するための当該ブロックの面積を全テ
ーブル・ブロックで割った値も所有する。さらに、テー
ブル詳細情報とリンクするためにテーブルIDを所有す
る。このテーブルIDにリンクしたテーブルのセルの詳
細構造をテーブル書式322で示す。テーブル内のセル
個数、セルの位置、大きさ情報を所有する。
【0012】帳票書式識別装置は、キーボードから帳票
の登録、帳票の識別などの命令が入力されると、各々の
命令に対応する処理をプロセッサ12が上記の書式デー
タ32を使用して行う。そして、その識別結果をディス
プレイ16に表示する。
【0013】図4を参照して、本実施形態の帳票書式識
別装置、特に図1のプロセッサ12が実行する各種制御
処理の動作を説明する。
【0014】図4は、帳票書式識別装置による書式識別
処理の概略フローチャートを示す。ステップS101に
て、識別したい帳票をスキャナーで読み取り、ステップ
S103で、テーブルブロック、テキストブロックの座
標値等の特徴量データを抽出する。ステップS105で
は、これらの特徴量データを類似度を計算するための書
式データに変換する。この書式データを元にして、ステ
ップS107にてマスター帳票の中から、当該識別した
い帳票の書式データと同じ帳票である可能性のある帳票
を絞り込む。ステップS109で絞り込んだ帳票のすべ
てについて書式の類似度を計算する(ステップS11
1)。計算の結果、類似度の高い方の所定数のマスター
帳票を類似帳票の候補とし、その識別コードと類似度を
出力する(ステップS113)。
【0015】本発明の帳票レイアウトの相似形チェック
は、ステップS108にて行う。図5〜図8を使用し
て、詳細にその処理を説明する。
【0016】ステップS108で帳票レイアウト相似形
チェック処理が開始され、ステップS203で識別した
い帳票およびマスタ帳票のフレームおよびテーブルブロ
ックを整列する。本実施形態では、ブロック左上角のX
座標の昇順にブロック情報を並べる。但し、図3に示す
ような、ブロック左上角座標のX成分がほとんど同じ位
置にある場合には、X座標の誤差により識別したい帳票
とマスタ帳票のブロック情報の並びを必ずしも対応付け
ることができない。識別したい帳票のブロック情報がテ
ーブル1(311)→テーブル2(312)→ピクチャ
ブロック(314)→テーブルブロック3(313)と
整列しても、マスタ帳票のブロック情報がテーブル2
(312)→テーブル1(311)→ピクチャブロック
(314)→テーブルブロック3(313)のように整
列する可能性は十分にある。そこで、X座標の位置が5
ピクセル以内の差のブロックに関しては、別途Y成分の
昇順に整列させる。この結果、識別したい帳票およびマ
スタ帳票のブロック情報をテーブル1(311)→テー
ブル2(312)→ピクチャブロック(314)→テー
ブルブロック3(313)の順に整列することが保証さ
れる。
【0017】ステップS205では、比較するブロック
の個数が同じであるかをチェックしている。ブロックの
個数が異なる場合は、相似形でないと判断して、帳票レ
イアウト相似形チェック処理を終了し、ステップS10
9へ戻る。
【0018】ステップS205でブロック個数が同じで
あった場合には、ステップS207にて、ブロック個数
が3個以上かをチェックしている。3個以上の場合と、
2個以下の場合では、相似形判定プログラムが異なるか
らである。
【0019】3個以上の場合は、ステップS208_1
に進み、ブロック左上角X座標の比較処理を行う。ステ
ップS208_1の詳細を図6のフローチャートを用い
て説明する。
【0020】ステップS209では、ブロック情報のX
成分の相似形チェック処理をする。すなわち、識別した
い帳票の左上角X座標を縦軸に、マスタ帳票の左上角X
座標を横軸にして、下式より相関係数を計算する。
【0021】
【数1】
【0022】ここで、相関係数の算出にあたっては、上
式の相関係数の分子の値をチェックし(ステップS21
1)、相関係数の分子が14以下であれば、別プログラ
ムで変倍率δXを求めている。これは、以下に述べるよ
うに相関係数の誤差が大きくなるからである。
【0023】図3の帳票では、テーブルブロック1(3
11)、テーブルブロック2(312)、ピクチャブロ
ック314の各左上角のX座標はほとんど同じ位置にあ
るため、Xi、YiともにXave、 Yaveに近い
値となる。従って、Xi、 Yiが誤差の為に変動した
場合、相関係数の変動も大きくなる。このため、Xi、
Yiの誤差が大きいと考えられる環境では、相関係数の
信頼度が落ちる。誤差の要因としては、スキャナで読み
取るときに発生する誤差、傾斜補正等の画像処理を行っ
たときに発生する誤差、マッチング(すべての画像を1
00dpiに正規化してマッチングを行っている)の為
に解像度変換を行ったときに発生する誤差などがあげら
れる。それらの誤差を考慮して、上式の相関係数の分子
が14以下の場合は、信頼できないとして(識別したい
帳票のページ幅)/(マスタ帳票のページ幅)=変倍率
δXとしている(ステップS211_2)。ただし、帳
票をはさみ等で切り取った場合にできるズレによる誤差
を考慮して、帳票ページ幅の差分が10ピクセル以内で
あれば、変倍率δXを1.0とする(ステップS211
_1、S211_3)。
【0024】ステップS211にて相関係数の分子が1
4以上であり、かつ相関係数が0.9996以上あれ
ば、X成分に関しては相似形と判断する(ステップS2
13)。
【0025】一方、ステップS211にて相関係数の分
子が14以上であっても、相関係数が0.9996より
小さい場合には、相似形でないと判断して相似形チェッ
ク処理を終了し、ステップS109へもどる。
【0026】相関係数が1に近いほど、前記の情報が直
線上に並んでいるとみなすことができる。つまり、変倍
されている可能性はあるが、X成分の並びは相似形であ
ると考える。
【0027】次に、これらのデータが直線上に並んでい
るので、その傾きを計算する。この傾きがX成分の変倍
率δXを示す(ステップS215)。傾き=1の時は、
識別したい帳票とマスタ帳票のX成分は同じであり、傾
きが1より小さいと、マスタ帳票のX成分の増加率が識
別したい帳票の比べて大きいことになり、マスタ帳票の
幅が識別したい帳票の幅に比べて拡大しているといえ
る。つまり、傾き=(識別したい帳票のページ幅)/
(マスタ帳票のページ幅)の関係が成り立つ。
【0028】ステップS217では、前記の誤差を考慮
して、変倍率δXが1±0.028以内であれば変倍が
ないとみなし、変倍率δXを1にリセットする。
【0029】次に、ステップS219でこの変倍率δX
が、テーブルブロックのサイズまで適用できるかをチェ
ックしている。すなわち、ステップS203で整列した
帳票のブロック情報を順に1個ずつ、「(識別したい帳
票のブロック幅)/(マスタ帳票のブロック幅)<変倍
率δX+0.027+1.9/(マスタ帳票のブロック
幅)」を満たすかどうかをチェックし、満たさない場合
には、ブロックレイアウトは相似でないとして当該処理
を終了し、ステップS109にもどる。また、満たす場
合には、変倍率δXのテーブルブロックサイズへの適用
可と判断し、処理を終了する。
【0030】ステップS208_1と同様に、ステップ
S208_2ではブロック左上角Y座標の比較処理を行
う。ステップS208_2の詳細フローチャートを図7
に示す。
【0031】ステップS210では、ブロック情報のY
成分の相似形チェック開始する。すなわち、識別したい
帳票の左上角Y座標を縦軸に、マスタ帳票の左上角Y座
標を横軸にして、相関係数を計算する。
【0032】ここで、相関係数の算出にあたっては、相
関係数の分子の値をチェックし(ステップS212)、
相関係数の分子が14以下であれば、別プログラムで変
倍率δYを求めている。相関係数の分子が14以下の場
合は、信頼できないとして(識別したい帳票のページ高
さ)/(マスタ帳票のページ高さ)=変倍率δYとして
いる(ステップS212_2)。ただし、帳票をはさみ
等で切り取った場合にできるズレによる誤差を考慮し
て、帳票ページ幅の差分が10ピクセル以内であれば、
変倍率δYを1.0とする(ステップS212_1、S
212_3)。
【0033】ステップS212にて相関係数の分子が1
4以上であり、かつ相関係数が0.9996以上あれ
ば、Y成分に関しては相似形と判断する(ステップS2
14)。
【0034】一方、ステップS212にて相関係数の分
子が14以上であっても、相関係数が0.9996より
小さい場合には、相似形でないと判断して相似形チェッ
ク処理を終了し、ステップS109へもどる。
【0035】相関係数が1に近いほど、前記の情報が直
線上に並んでいるとみなすことができる。つまり、変倍
されている可能性はあるが、Y成分の並びは相似形であ
ると考える。
【0036】次に、これらのデータが直線上に並んでい
るので、その傾きを計算する。この傾きがY成分の変倍
率δYを示す(ステップS216)。傾き=1の時は、
識別したい帳票とマスタ帳票のY成分は同じであり、傾
きが1より小さいと、マスタ帳票のY成分の増加率が識
別したい帳票の比べて大きいことになり、マスタ帳票の
幅が識別したい帳票の幅に比べて拡大しているといえ
る。つまり、傾き=(識別したい帳票のページ高さ)/
(マスタ帳票のページ高さ)の関係が成り立つ。
【0037】ステップS218では、誤差を考慮して、
変倍率δYが1±0.028以内であれば変倍がないと
みなし、変倍率δYを1にリセットする。
【0038】次に、ステップS220でこの変倍率δY
が、テーブルブロックのサイズまで適用できるかをチェ
ックしている。すなわち、ステップS203で整列した
帳票のブロック情報を順に1個ずつ、「(識別したい帳
票のブロック高さ)/(マスタ帳票のブロック高さ)<
変倍率δY+0.027+1.9/(マスタ帳票のブロ
ック高さ)」を満たすかどうかをチェックし、満たさな
い場合には、ブロックレイアウトは相似でないとして当
該処理を終了し、ステップS109にもどる。また、満
たす場合には、変倍率δYのテーブルブロックサイズへ
の適用可と判断し、処理を終了する。
【0039】ステップS221では、X成分、Y成分両
方ともに相似形であり、変倍率(δX、δY)を取得で
きた帳票のみ、レイアウトが相似形であると判断し、そ
れ以外の場合には、相似でないとして当該処理を終了
し、ステップS109にもどる。
【0040】さて、ステップS207でブロックの個数
が2個以下の場合は、図8のブロック個数が2個以下の
場合の処理を行う(ステップS301)。
【0041】すなわち、ステップS301でブロック個
数が2個以下の場合の処理が開始され、ステップS30
2にて識別したい帳票のページ幅とマスター帳票のペー
ジ幅を比較し、差分が10ピクセルより大きい場合に
は、変倍率δX=(識別したい帳票のページ幅)/(マ
スタ帳票のページ幅)とし、差分が10ピクセル以内の
場合には変倍率δX=1.0とする(ステップS30
2、S303、S304)。
【0042】さらにステップS305にてこの変倍率δ
Xが、テーブルブロックのサイズまで適用できるかをチ
ェックしている。すなわち、ステップS203で整列し
た帳票のブロック情報を順に1個ずつ、「(識別したい
帳票のブロック幅)/(マスタ帳票のブロック幅)<変
倍率δX+0.027+1.9/(マスタ帳票のブロッ
ク幅)」を満たすかどうかをチェックし、満たさない場
合には、ブロックレイアウトは相似でないとして当該処
理を終了し、ステップS109にもどる。また、満たす
場合には、変倍率δXのテーブルブロックサイズへの適
用可と判断する。
【0043】同様に、ステップS306にて識別したい
帳票のページ高さとマスター帳票のページ高さを比較
し、差分が10ピクセルより大きい場合には、変倍率δ
Y=(識別したい帳票のページ高さ)/(マスタ帳票の
ページ高さ)とし、差分が10ピクセル以内の場合には
変倍率δY=1.0とする(ステップS306、S30
7、S308)。
【0044】さらにステップS309にてこの変倍率δ
Yが、テーブルブロックのサイズまで適用できるかをチ
ェックしている。すなわち、ステップS203で整列し
た帳票のブロック情報を順に1個ずつ、「(識別したい
帳票のブロック高さ)/(マスタ帳票のブロック高さ)
<変倍率δY+0.027+1.9/(マスタ帳票のブ
ロック高さ)」を満たすかどうかをチェックし、満たさ
ない場合には、ブロックレイアウトは相似形でないとし
て当該処理を終了し、ステップS109にもどる。ま
た、満たす場合には、変倍率δYのテーブルブロックサ
イズへの適用可と判断する。
【0045】ステップS305およびステップS309
にてテーブルブロックサイズへの適用可能と判断された
変倍率(δX、δY)について、ステップS310で、
ブロックの左上角、「マスタ帳票のX座標×変倍率(δ
X)≦識別したい帳票のX座標±10、かつマスタ帳票
のY座標×変倍率(δY)≦識別したい帳票のY座標±
10」の条件式を満たしていれば、識別したい帳票とマ
スタ帳票のレイアウトは相似形であると判断し、帳票レ
イアウト相似形チェック処理のステップS223へ進む
(ステップS311)。また、条件を満たさない場合に
は、相似形でないとして当該処理を終了し、ステップS
109にもどる。
【0046】ステップS221またはステップS311
にて相似形であると判断された場合には、ステップS2
23でページレイアウトの変倍によるペナルティを以下
の式で決定する。
【0047】
【数2】
【0048】PX、PYは各成分の変倍によるペナルテ
ィ、PXYは、両成分の変形度によるペナルティをあら
わす。
【0049】変倍率δX、δYが1ならば、PX、PY
は0である。つまり、変倍していないのでペナルティを
課せないことを意味する。
【0050】PXYは、X、Y成分が均等に変倍したと
きには0になるし、X成分が1より大きく、Y成分が1
より小さく変倍するように、変倍によるレイアウトの変
形が大きくなればペナルティが大きくなるように調整す
る式である。
【0051】レイアウトが相似形である場合は、以上の
計算式でペナルティを与えて、従来のページ書式のマッ
チングによるペナルティを0とする。逆に、相似形でな
い場合は、従来通りのページ書式のマッチングによるペ
ナルティを与える。
【0052】ページ書式のマッチングの次に、テーブル
ブロックの詳細構造、その次にテキストブロックの文字
比較を行うが、これらのブロックを検出する際には、相
似形チェックで求めた変倍率を使用した計算式を使用す
る。
【0053】例えば、図2の(A)、(B)に示すよう
な識別したい帳票とマスタ帳票について、本実施形態に
よる帳票レイアウト相似形チェック処理で、相似形だと
判定され、変倍率(δX、δY)が得られたとする。
【0054】マスタ帳票の(X1、Y1)のブロックに
対応する識別したい帳票のブロックは、(δX×X1、
δY×Y1)で正確な位置を求めることができる。
【0055】この計算式で検出したブロックがテーブル
ブロックの場合は、テーブルの各罫線情報が帳票ページ
の変倍率と同様に変倍されているので、マスタ帳票の罫
線情報(Lx、Ly)を(Lx×δX、Ly×δy)に
変倍して、識別したい帳票の罫線情報と比較すること
で、正確なテーブルブロックの詳細構造のマッチングを
行うことができる。
【0056】以上、記述した中での数値は、数多くの帳
票サンプルを使用した統計値であり、帳票識別の環境に
よっては、変更してもかまわない。
【0057】[実施形態2]原点ずれが生じると、変倍
のみでは正しく認識できない恐れがある。
【0058】以下に図面を参照して本発明の実施形態の
うち、識別したい帳票とマスタ帳票の原点位置がずれた
場合の識別処理について詳細を説明する。
【0059】なお、帳票書式識別装置は図1と同様のも
のを使用し、図3と同様の書式データを作成する。した
がって、図1と図3の内容は実施形態1と重複すること
から説明は省略する。
【0060】本実施形態の帳票書式識別装置、特に図1
のプロセッサ12が実行する各種制御処理のうち、実施
形態1と異なる処理を中心に説明する。
【0061】本実施形態の帳票レイアウトの相似形チェ
ックは、ステップS108にて行う。図10〜図13を
使用して、詳細にその処理を説明する。
【0062】図10のステップS403からS407ま
では、図5のステップS203からS207までと同じ
処理を行う。
【0063】ステップS408_1ではブロック左上角
X座標の比較処理を行う。この処理の詳細を図11を参
照して説明する。
【0064】すなわち、ステップS409では、ブロッ
ク情報のX成分の相似形チェックをすべく、識別したい
帳票の左上角X座標を縦軸に、マスタ帳票の左上角X座
標を横軸にして、相関係数を計算する。
【0065】ここで、相関係数の算出にあたっては、相
関係数の分子の値をチェックし(ステップS411)、
相関係数の分子が14以下であれば、別プログラムで変
倍率δXを求めている。これは、相関係数の誤差が大き
くなるからで、詳細は実施形態1と同じであるため、説
明は省略する。
【0066】相関係数の分子が14以下の場合は、信頼
できないとして(識別したい帳票のページ幅)/(マス
タ帳票のページ幅)=変倍率δXとしている(ステップ
S411_2)。ただし、帳票をはさみ等で切り取った
場合にできるズレによる誤差を考慮して、帳票ページ幅
の差分が10ピクセル以内であれば、変倍率δXを1.
0とする(ステップS411_1、S411_3)。
【0067】上記でもとめた変倍率δXを用いて、ステ
ップS411_4にて、原点ずれ量shiftXを
「(識別したい帳票の先頭ブロックの左上角X座標)−
(マスタ帳票の先頭ブロックの左上角X座標)×変倍率
δX」より算出する。
【0068】ステップS411にて相関係数の分子が1
4以上であり、かつ相関係数が0.9996以上あれ
ば、X成分に関しては相似形と判断する(ステップS4
13)。
【0069】一方、ステップS411にて相関係数の分
子が14以上であっても、相関係数が0.9996より
小さい場合には、相似形でないと判断して相似形チェッ
ク処理を終了し、ステップS109へもどる。
【0070】相関係数が1に近いほど、前記の情報が直
線上に並んでいるとみなすことができる。つまり、変倍
されている可能性はあるが、X成分の並びは相似形であ
ると考える。
【0071】次に、これらのデータが直線上に並んでい
るので、その傾きを計算する(回帰直線の傾き)。この
傾きがX成分の変倍率δXを示す(ステップS41
5)。傾き=1の時は、識別したい帳票とマスタ帳票の
X成分は同じであり、傾きが1より小さいと、マスタ帳
票のX成分の増加率が識別したい帳票の比べて大きいこ
とになり、マスタ帳票の幅が識別したい帳票の幅に比べ
て拡大しているといえる。一方、回帰直線の縦軸との切
片がX座標の原点ずれ量shiftXになる(ステップ
S417)。
【0072】ステップS419でこの変倍率δXが、テ
ーブルブロックのサイズまで適用できるかをチェックし
ている。すなわち、ステップS203で整列した帳票の
ブロック情報を順に1個ずつ、「(識別したい帳票のブ
ロック幅)/(マスタ帳票のブロック幅)=変倍率δ
X」を満たすかどうかをチェックし、満たさない場合に
は、ブロックレイアウトは相似でないとして当該処理を
終了し、ステップS109にもどる。また、満たす場合
には、変倍率δXのテーブルブロックサイズへの適用可
と判断し、処理を終了する。
【0073】ステップS408_1と同様に、ステップ
S408_2では、ブロック左上角Y座標の比較処理を
行う。ステップS408_2の詳細フローチャートを図
12に示す。
【0074】すなわち、ステップS410では、ブロッ
ク情報のX成分の相似形チェックをすべく、識別したい
帳票の左上角Y座標を縦軸に、マスタ帳票の左上角Y座
標を横軸にして、相関係数を計算する。
【0075】ここで、相関係数の算出にあたっては、相
関係数の分子の値をチェックし(ステップS412)、
相関係数の分子が14以下であれば、別プログラムで変
倍率δYを求めている。これは、相関係数の誤差が大き
くなるからで、詳細は実施形態1と同じであるため、説
明は省略する。
【0076】相関係数の分子が14以下の場合は、信頼
できないとして(識別したい帳票のページ高さ)/(マ
スタ帳票のページ高さ)=変倍率δYとしている(ステ
ップS412_2)。ただし、帳票をはさみ等で切り取
った場合にできるズレによる誤差を考慮して、帳票ペー
ジ幅の差分が10ピクセル以内であれば、変倍率δYを
1とする(ステップS412_1、S412_3)。
【0077】上記でもとめた変倍率δYを用いて、ステ
ップS412_4にて、原点ずれ量shiftYを
「(識別したい帳票の先頭ブロックの左上角Y座標)−
(マスタ帳票の先頭ブロックの左上角Y座標)×変倍率
δY」より算出する。
【0078】ステップS412にて相関係数の分子が1
4以上であり、かつ相関係数が0.9996以上あれ
ば、Y成分に関しては相似形と判断する(ステップS4
14)。
【0079】一方、ステップS412にて相関係数の分
子が14以上であっても、相関係数が0.9996より
小さい場合には、相似形でないと判断して相似形チェッ
ク処理を終了し、ステップS109へもどる。
【0080】相関係数が1に近いほど、前記の情報が直
線上に並んでいるとみなすことができる。つまり、変倍
されている可能性はあるが、Y成分の並びは相似形であ
ると考える。
【0081】次に、これらのデータが直線上に並んでい
るので、その傾きを計算する(回帰直線の傾き)。この
傾きがY成分の変倍率δYを示す(ステップS41
6)。傾き=1の時は、識別したい帳票とマスタ帳票の
Y成分は同じであり、傾きが1より小さいと、マスタ帳
票のY成分の増加率が識別したい帳票の比べて大きいこ
とになり、マスタ帳票の高さが識別したい帳票の高さに
比べて拡大しているといえる。一方、回帰直線の縦軸と
の切片がY座標の原点ずれ量shiftYになる(ステ
ップS418)。
【0082】ステップS420でこの変倍率δYが、テ
ーブルブロックのサイズまで適用できるかをチェックし
ている。すなわち、ステップS203で整列した帳票の
ブロック情報を順に1個ずつ、「(識別したい帳票のブ
ロック高さ)/(マスタ帳票のブロック高さ)=変倍率
δY」を満たすかどうかをチェックし、満たさない場合
には、ブロックレイアウトは相似でないとして当該処理
を終了し、ステップS109にもどる。また、満たす場
合には、変倍率δYのテーブルブロックサイズへの適用
可と判断し、処理を終了する。
【0083】ステップS421では、X成分、Y成分両
方ともに相似形であり、変倍率(δX、δY)を取得で
きた帳票のみ、レイアウトが相似形であると判断し、そ
れ以外の場合には相似でないとして、当該処理を終了
し、ステップS109にもどる。
【0084】さて、ステップS407でブロックの個数
が2個以下の場合は、図13のブロック個数が2個以下
の場合の処理を行う(ステップS501)。
【0085】すなわち、ステップS501でブロック個
数が2個以下の場合の処理が開始され、ステップS50
2にて識別したい帳票のページ幅とマスター帳票のペー
ジ幅を比較し、差分が10ピクセルより大きい場合に
は、変倍率δX=(識別したい帳票のページ幅)/(マ
スタ帳票のページ幅)とし、差分が10ピクセル以内の
場合には変倍率δX=1.0とする(ステップS50
2、S503、S504)。
【0086】さらにステップS505にてこの変倍率δ
Xが、テーブルブロックのサイズまで適用できるかをチ
ェックしている。すなわち、ステップS403で整列し
た帳票のブロック情報を順に1個ずつ、「(識別したい
帳票のブロック幅)/(マスタ帳票のブロック幅)=変
倍率δX」を満たすかどうかをチェックし、満たさない
場合には、ブロックレイアウトは相似でないとして当該
処理を終了し、ステップS109にもどる。また、満た
す場合には、変倍率δXのテーブルブロックサイズへの
適用可と判断する。
【0087】同様に、ステップS507にて識別したい
帳票のページ高さとマスター帳票のページ高さを比較
し、差分が10ピクセルより大きい場合には、変倍率δ
Y=(識別したい帳票のページ高さ)/(マスタ帳票の
ページ高さ)とし、差分が10ピクセル以内の場合には
変倍率δY=1.0とする(ステップS507、S50
8、S509)。
【0088】さらにステップS510にてこの変倍率δ
Yが、テーブルブロックのサイズまで適用できるかをチ
ェックしている。すなわち、ステップS403で整列し
た帳票のブロック情報を順に1個ずつ、「(識別したい
帳票のブロック高さ)/(マスタ帳票のブロック高さ)
=変倍率δY」を満たすかどうかをチェックし、満たさ
ない場合には、ブロックレイアウトは相似形でないとし
て当該処理を終了し、ステップS109にもどる。ま
た、満たす場合には、変倍率δYのテーブルブロックサ
イズへの適用可と判断する。
【0089】ステップS506およびステップS511
にてテーブルブロックサイズへの適用可能と判断された
変倍率(δX、δY)について、ステップS512で、
ブロックの左上角が、「マスタ帳票のX座標×変倍率
(δX)+原点ずれ量shiftX≦識別したい帳票の
X座標±10、かつマスタ帳票のY座標×変倍率(δ
Y)+原点ずれ量shiftY≦識別したい帳票のY座
標±10」の条件式を満たしていれば、識別したい帳票
とマスタ帳票のレイアウトは相似形であると判断し、帳
票レイアウト相似形チェック処理のステップS422へ
進む(ステップS513)。また、条件を満たさない場
合には、相似形でないとして当該処理を終了し、ステッ
プS109にもどる。
【0090】ステップS421またはステップS513
にて相似形であると判断された場合には、ステップS4
22でページレイアウトの変倍によるペナルティを以下
の式で決定する。
【0091】
【数3】 PX、PYは各成分の変倍によるペナルティ、PXY
は、両成分の変形度によるペナルティをあらわす。
【0092】変倍率δX、δYが1ならば、PX、PY
は0である。つまり、変倍していないのでペナルティを
課せないことを意味する。
【0093】PXYは、X、Y成分が均等に変倍したと
きには0になるし、X成分が1より大きく、Y成分が1
より小さく変倍するように、変倍によるレイアウトの変
形が大きくなればペナルティが大きくなるように調整す
る式である。
【0094】また、原点ずれ量によるペナルティは、P
X1=原点ずれ量(shiftX)×0.22、PY1
=原点ずれ量(shiftY)×0.22よりもとめ
る。
【0095】レイアウトが相似形である場合は、以上の
計算式でペナルティを与えて、従来のページ書式のマッ
チングによるペナルティを0とする。逆に、相似形でな
い場合は、従来通りのページ書式のマッチングによるペ
ナルティを与える。
【0096】ページ書式のマッチングの次に、テーブル
ブロックの詳細構造、その次にテキスト・ブロックの文
字比較を行うが、これらのブロックを検出する際には、
相似形チェックで求めた変倍率を使用した計算式を使用
する。
【0097】例えば、図9のような帳票AとBがあり、
帳票Aが識別したい帳票、帳票Bがマスタ帳票と仮定す
る。
【0098】本実施形態による帳票レイアウト相似形チ
ェック処理で、相似形だと判定され、変倍率(δX、δ
Y)、原点ずれ量(shiftX、shiftY)が得
られたとする。
【0099】帳票Bの(X1、Y1)のブロックに対応
する帳票Aのブロックは、(δX×X1+shift
X、δY×Y1+shiftY)で正確な位置を求める
ことができる。
【0100】この計算式で検出したブロックがテーブル
ブロックの場合は、テーブルの各罫線情報が帳票ページ
の変倍率と同様に変倍されているので、帳票Bの罫線情
報(Lx、Ly)を(Lx×δX、Ly×δy)に変倍
して、帳票Aの罫線情報と比較することで、正確なテー
ブルブロックの詳細構造のマッチングを行うことができ
る。罫線情報は、テーブルブロックの左上角を原点にし
ているので、帳票ページ原点ずれ量は、テーブルブロッ
クの詳細構造には影響を与えない。
【0101】なお、上述した中での数値は、数多くの帳
票サンプルを使用した統計値であり、帳票識別の環境に
よっては、変更してもかまわない。
【0102】[実施形態3]図14に示すように、レイ
アウト構造が変倍されている場合には、その帳票内のテ
ーブルの罫線情報も同じ率で変倍されている。従って、
テーブルブロックの詳細構造である罫線情報の比較に、
この変倍率を使用することで、より正確な詳細構造の比
較を行うことができる。
【0103】罫線情報をLiとすれば、識別したい帳票
のテーブルブロックの詳細構造Li= ( マスタ帳票のテ
ーブルの詳細構造Li )×変倍率(δX、δY)の関係
が成り立つ。
【0104】テキストブロックの位置の検出する際に、
変倍率(δX、δY)を使用することで、比較すべき文
字列を正確に知ることができる。しかし、文字の比較
は、単なる文字コードの照合だから、変倍率(δX、δ
Y)は不要ではあるが、ペナルティ要素として、文字の
大きさを取り入れている場合には、マスタ帳票の文字の
大きさに変倍率をかけることで、より正確なマッチング
をおこなえる。
【0105】[実施形態4]識別したい帳票の一部分だ
け文字認識を行うために、帳票認識を利用する方法があ
る。図14(A)、(B)に示すように、マスタ帳票に
文字認識を行う領域をあらかじめ設定しているとする。
図14(A)、(B)では、網掛け部分の銀行口座に登
録している氏名欄が文字認識する領域である。
【0106】まず、識別したい帳票を帳票認識すること
で、マスタ帳票のIDを取得できる。そのIDには、文
字認識する領域が対応づけられている。本実施形態で
は、帳票のX、Y方向の変倍率と帳票ページ原点ずれ量
をIDとともに出力することができるので、識別したい
帳票の文字認識する領域は、下記の式から修正すること
ができる。
【0107】IDに対応つけてマスタに登録している文
字認識領域を左上角座標(X、Y)、幅W、高さHとす
る。
【0108】受け取った変倍率が(δX、δY)、原点
ずれ量(shiftX、shiftY)であれば、識別
したい帳票の文字認識領域は、左上角座標(X×δX+
shiftX、Y×δY+shiftY)、幅(W×δ
X)、高さ(H×δY)となる。
【0109】
【他の実施形態】また、本発明の目的は、前述した実施
形態の機能を実現するソフトウェアのプログラムコード
を記録した記憶媒体を、システムあるいは装置に供給
し、そのシステムあるいは装置のコンピュータ(または
CPUやMPU)が記憶媒体に格納されたプログラムコ
ードを読出し実行することによっても、達成されること
は言うまでもない。
【0110】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
【0111】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク、ハードディス
ク、光ディスク、光磁気ディスク、CD−ROM、CD
−R、磁気テープ、不揮発性のメモリカード、ROMな
どを用いることができる。
【0112】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
【0113】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0114】
【発明の効果】以上説明したように、本発明によれば、
異なる変倍率で拡大または縮小された複数の文書が混在
する環境でも文書書式を正しく識別することができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態に係わる帳票識別装置の
概略構成を示すブロック図である。
【図2】本発明の相似形帳票の一例を示す図である。
【図3】本発明のマッチング対象となる帳票の一例を示
す図である。
【図4】本発明の処理の概要を示すフローチャートであ
る。
【図5】本発明の相似形チェック処理を示すフローチャ
ートである。
【図6】本発明の相似形チェック処理で、ブロック左上
角X座標の比較処理を示すフローチャートである。
【図7】本発明の相似形チェック処理で、ブロック左上
角Y座標の比較処理を示すフローチャートである。
【図8】本発明の相似形チェック処理で、ブロック個数
が2個以下の場合の処理を示すフローチャートである。
【図9】本発明の相似形帳票の一例を示す図である。
【図10】本発明の相似形チェック処理を示すフローチ
ャートである。
【図11】本発明の相似形チェック処理で、ブロック左
上角X座標の比較処理を示すフローチャートである。
【図12】本発明の相似形チェック処理で、ブロック左
上角Y座標の比較処理を示すフローチャートである。
【図13】本発明の相似形チェック処理で、ブロック個
数が2個以下の場合の処理を示すフローチャートであ
る。
【図14】本発明の相似形帳票の一例を示す図である。

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 文書画像の特徴量に基づいて、文書書式
    識別のための文書書式データを作成する作成手段と、 前記文書書式データを保存する保存手段と、 文書書式を識別したい文書の画像について前記作成手段
    を用いて文書書式データを得て、これを前記保存手段で
    保存した文書書式データと比較し、相似関係があるか否
    かを判断する判断手段と、 前記判断手段にて相似と判断された場合に、前記識別し
    たい文書と、前記保存手段で保存した文書との相似状態
    を表す相似情報を抽出する相似情報抽出手段と、 前記相似情報抽出手段にて抽出した相似情報及び文書書
    式データに基づいて文書書式の類似度を計算し、前記識
    別したい文書の文書書式を識別する識別手段とを備える
    ことを特徴とする文書書式識別装置。
  2. 【請求項2】 前記識別手段は、前記相似情報に基づい
    て、前記類似度の計算に用いる文書書式データを補正
    し、類似度の計算を行うことを特徴とする請求項1記載
    の文書書式識別装置。
  3. 【請求項3】 前記識別手段において、前記相似情報
    は、前記識別したい文書と前記保存手段で保存した文書
    との変倍率を含み、該変倍率を類似度の計算に用いる文
    書書式データに乗算することを特徴とする請求項2記載
    の文書書式識別装置。
  4. 【請求項4】 前記識別手段において、前記相似情報
    は、前記識別したい文書と前記保存手段で保存した文書
    との原点ずれ量を含み、該原点ずれ量を類似度の計算に
    用いる文書書式データに加算することを特徴とする請求
    項3記載の文書書式識別装置。
  5. 【請求項5】 前記識別手段において、前記相似情報
    は、前記変倍率に基づいて算出したペナルティを含み、
    該ペナルティを類似度の計算に課すことを特徴とする請
    求項2記載の文書書式識別装置。
  6. 【請求項6】 前記相似情報抽出手段は、 前記識別したい文書を構成する構成要素と前記保存手段
    で保存した文書を構成する構成要素とが互いに対応する
    ように配列する配列手段と、 前記配列手段によって配列した前記構成要素の個数が互
    いに等しく、かつ所定数以上の場合に、前記各構成要素
    の各文書上の特定位置座標に基づいて相関係数を算出
    し、該相関係数によって得られる回帰直線に基づいて文
    書画像の変倍率をもとめる変倍率算出手段と、 前記変倍率算出手段によりもとめた変倍率から類似度の
    計算に加算するペナルティを算出するペナルティ算出手
    段とを備えることを特徴とする請求項2記載の文書書式
    識別装置。
  7. 【請求項7】 前記相似情報抽出手段は、前記変倍率算
    出手段によりもとめた変倍率の適正を判定する判定手段
    を更に備え、 前記判別手段は、前記判定手段にて変倍率が不適正であ
    ると判定した場合、前記相似情報を用いずに前記類似度
    計算を行うことを特徴とする請求項6記載の文書書式識
    別装置。
  8. 【請求項8】 前記相似情報抽出手段は、 前記変倍率算出手段によって算出された前記相関係数に
    基づく前記回帰直線のY軸切片を前記各文書上の原点位
    置のずれ量とするずれ量算出手段を更に備えることを特
    徴とする請求項6記載の文書書式識別装置。
  9. 【請求項9】 文書画像の特徴量に基づいて、文書書式
    識別のための文書書式データを作成する作成工程と、 前記文書書式データを保存する保存工程と、 文書書式を識別したい文書の画像について前記作成工程
    を用いて文書書式データを得て、これを前記保存工程で
    保存した文書書式データと比較し、相似関係があるか否
    かを判断する判断工程と、 前記判断工程にて相似と判断された場合に、前記識別し
    たい文書と、前記保存工程で保存した文書との相似状態
    を表す相似情報を抽出する相似情報抽出工程と、 前記相似情報抽出工程にて抽出した相似情報及び文書書
    式データに基づいて文書書式の類似度を計算し、前記識
    別したい文書の文書書式を識別する識別工程とを備える
    ことを特徴とする文書書式識別方法。
  10. 【請求項10】 前記識別工程は、前記相似情報に基づ
    いて、前記類似度の計算に用いる文書書式データを補正
    し、類似度の計算を行うことを特徴とする請求項9記載
    の文書書式識別方法。
  11. 【請求項11】 前記識別工程において、前記相似情報
    は、前記識別したい文書と前記保存工程で保存した文書
    との変倍率を含み、該変倍率を類似度の計算に用いる文
    書書式データに乗算することを特徴とする請求項10記
    載の文書書式識別方法。
  12. 【請求項12】 前記識別工程において、前記相似情報
    は、前記識別したい文書と前記保存工程で保存した文書
    との原点ずれ量を含み、該原点ずれ量を類似度の計算に
    用いる文書書式データに加算することを特徴とする請求
    項11記載の文書書式識別方法。
  13. 【請求項13】 前記識別工程において、前記相似情報
    は、前記変倍率に基づいて算出したペナルティを含み、
    該ペナルティを類似度の計算に課すことを特徴とする請
    求項10記載の文書書式識別方法。
  14. 【請求項14】 前記相似情報抽出工程は、 前記識別したい文書を構成する構成要素と前記保存工程
    で保存した文書を構成する構成要素とが互いに対応する
    ように配列する配列工程と、 前記配列工程によって配列した前記構成要素の個数が互
    いに等しく、かつ所定数以上の場合に、前記各構成要素
    の各文書上の特定位置座標に基づいて相関係数を算出
    し、該相関係数によって得られる回帰直線に基づいて文
    書画像の変倍率をもとめる変倍率算出工程と、 前記変倍率算出工程によりもとめた変倍率から類似度の
    計算に加算するペナルティを算出するペナルティ算出工
    程とを備えることを特徴とする請求項10記載の文書書
    式識別方法。
  15. 【請求項15】 前記相似情報抽出工程は、前記変倍率
    算出工程によりもとめた変倍率の適正を判定する判定工
    程を更に備え、 前記判別工程は、前記判定工程にて変倍率が不適正であ
    ると判定した場合、前記相似情報を用いずに前記類似度
    計算を行うことを特徴とする請求項14記載の文書書式
    識別方法。
  16. 【請求項16】 前記相似情報抽出工程は、 前記変倍率算出工程によって算出された前記相関係数に
    基づく前記回帰直線のY軸切片を前記各文書上の原点位
    置のずれ量とするずれ量算出工程を更に備えることを特
    徴とする請求項14記載の文書書式識別方法。
  17. 【請求項17】 請求項9乃至16のいずれか1つに記
    載の文書書式識別方法をコンピュータによって実現させ
    るための制御プログラムを格納する記憶媒体。
JP2000367675A 2000-12-01 2000-12-01 文書書式識別装置および識別方法 Expired - Fee Related JP4046941B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000367675A JP4046941B2 (ja) 2000-12-01 2000-12-01 文書書式識別装置および識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000367675A JP4046941B2 (ja) 2000-12-01 2000-12-01 文書書式識別装置および識別方法

Publications (3)

Publication Number Publication Date
JP2002170079A true JP2002170079A (ja) 2002-06-14
JP2002170079A5 JP2002170079A5 (ja) 2007-01-18
JP4046941B2 JP4046941B2 (ja) 2008-02-13

Family

ID=18838061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000367675A Expired - Fee Related JP4046941B2 (ja) 2000-12-01 2000-12-01 文書書式識別装置および識別方法

Country Status (1)

Country Link
JP (1) JP4046941B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005157520A (ja) * 2003-11-21 2005-06-16 Nippon Yunishisu Kk 書式認識システムおよびプログラム
JP2012074078A (ja) * 2007-06-01 2012-04-12 Primax Electronics Ltd イメージ分析プログラムを用いて同じイメージブロックを有する複数のイメージを分析する方法
JP2018036835A (ja) * 2016-08-31 2018-03-08 富士ゼロックス株式会社 フォーム管理装置及びプログラム
EP4064227A1 (en) 2021-03-24 2022-09-28 Fujifilm Business Innovation Corp. Information processing apparatus, information processing program, and information processing method
JP7435118B2 (ja) 2020-03-24 2024-02-21 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7437837B2 (ja) 2020-08-21 2024-02-26 アジャイルソーダ インコーポレイテッド 仮想セルを用いたocrベースの文書分析システム及び方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005157520A (ja) * 2003-11-21 2005-06-16 Nippon Yunishisu Kk 書式認識システムおよびプログラム
JP2012074078A (ja) * 2007-06-01 2012-04-12 Primax Electronics Ltd イメージ分析プログラムを用いて同じイメージブロックを有する複数のイメージを分析する方法
JP2018036835A (ja) * 2016-08-31 2018-03-08 富士ゼロックス株式会社 フォーム管理装置及びプログラム
JP7435118B2 (ja) 2020-03-24 2024-02-21 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7437837B2 (ja) 2020-08-21 2024-02-26 アジャイルソーダ インコーポレイテッド 仮想セルを用いたocrベースの文書分析システム及び方法
EP4064227A1 (en) 2021-03-24 2022-09-28 Fujifilm Business Innovation Corp. Information processing apparatus, information processing program, and information processing method

Also Published As

Publication number Publication date
JP4046941B2 (ja) 2008-02-13

Similar Documents

Publication Publication Date Title
US6970601B1 (en) Form search apparatus and method
KR100390264B1 (ko) 폼처리중자동페이지등록및자동영역검출을위한시스템및방법
US5907631A (en) Document image processing method and system having function of determining body text region reading order
JP7013182B2 (ja) 情報処理装置、情報処理方法およびプログラム
US7970213B1 (en) Method and system for improving the recognition of text in an image
US20020021840A1 (en) Apparatus for extracting ruled line from multiple-valued image
US8571359B2 (en) Image processing device, method and storage medium for storing and displaying an electronic document
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JPH08255236A (ja) 画像のファイリング装置及びファイリング方法
CN112487859A (zh) 信息处理装置、信息处理方法和计算机可读介质
US7146047B2 (en) Image processing apparatus and method generating binary image from a multilevel image
US20210286991A1 (en) Image processing apparatus, image processing method, and storage medium
EP1202213B1 (en) Document format identification apparatus and method
JP4046941B2 (ja) 文書書式識別装置および識別方法
CN109409180B (zh) 图像分析装置和图像分析方法
JPH11328306A (ja) 文書画像の論理要素抽出方法、装置および記録媒体
JP7404625B2 (ja) 情報処理装置、及びプログラム
CN115131806B (zh) 一种基于深度学习的各类证件ocr图像信息识别方法、系统
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP7417116B2 (ja) 情報処理システム、情報処理方法、プログラム
JP4697387B2 (ja) 原稿画像判定装置、原稿画像判定方法及びそのプログラム
JP4974794B2 (ja) 文書認識装置、文書認識方法、コンピュータプログラム
JPH0689330A (ja) 画像ファイリングシステム
JP3412998B2 (ja) 画像処理装置及びその方法
JP2004030340A (ja) 帳票識別装置及びその識別方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040611

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20040611

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070515

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071010

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20071022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4046941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131130

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees