JP6559415B2 - Document image processing apparatus, information processing apparatus including the same, program, and recording medium - Google Patents
Document image processing apparatus, information processing apparatus including the same, program, and recording medium Download PDFInfo
- Publication number
- JP6559415B2 JP6559415B2 JP2014235989A JP2014235989A JP6559415B2 JP 6559415 B2 JP6559415 B2 JP 6559415B2 JP 2014235989 A JP2014235989 A JP 2014235989A JP 2014235989 A JP2014235989 A JP 2014235989A JP 6559415 B2 JP6559415 B2 JP 6559415B2
- Authority
- JP
- Japan
- Prior art keywords
- document image
- line
- document
- image
- row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Editing Of Facsimile Originals (AREA)
- Character Input (AREA)
- Processing Or Creating Images (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は、文書画像の再構成を行う文書画像処理装置、それを備えた情報処理装置、コンピュータプログラム、及び記録媒体に関する。 The present invention relates to a document image processing apparatus that reconstructs a document image, an information processing apparatus including the same, a computer program, and a recording medium.
近年、複写機又は複合機等の画像形成装置は高機能化が進められており、スキャナにより読み取った文書を文書画像データ(以下、文書画像)として保存し、保存した文書画像を管理する機能等が求められている。スキャナにより読み取った文書は画像データとして保存されるが、この画像データの形式は、フィックス型と呼ばれる固定の幅及び高さを持つファイル形式となっている。 2. Description of the Related Art In recent years, image forming apparatuses such as copiers and multifunction peripherals have advanced functions, and a function of storing a document read by a scanner as document image data (hereinafter referred to as a document image) and managing the stored document image, etc. Is required. A document read by a scanner is stored as image data. The format of the image data is a file format having a fixed width and height called a fixed type.
代表的なファイル形式として、例えば、PDF(Portable Document Format)ファイルやTIFF(Tagged Image File Format)ファイル等が挙げられる。これらのファイル形式の文書画像を、携帯電話、スマートフォン、タブレット等表示領域の小さな画像表示装置で表示すると、その表示領域に収まりきらず、垂直方向のスクロール操作と水平方向のスクロール操作の両方が必要となる場合がある。この場合、操作が非常に煩雑になる。 Typical file formats include, for example, PDF (Portable Document Format) files and TIFF (Tagged Image File Format) files. When document images in these file formats are displayed on an image display device with a small display area such as a mobile phone, smartphone, tablet, etc., they will not fit in the display area and both vertical and horizontal scroll operations are required. There is a case. In this case, the operation becomes very complicated.
そこで、例えば、表示領域の画素数に合わせて表示倍率を調整することにより、文書画像の幅を表示領域の幅に合わせて縮小表示することで、行方向のスクロール操作の省略が可能となる。しかし、縮小処理を実施することで文書画像中の文字の可読性が低下してしまう。そのため、読み取られた文書画像を、フィックス型のファイルではなく、表示領域に合わせて折り返し表示することが可能なリフロー型のファイルとして提供することが望ましい。 Therefore, for example, by adjusting the display magnification according to the number of pixels in the display area and reducing the width of the document image according to the width of the display area, the scroll operation in the row direction can be omitted. However, the readability of characters in the document image is reduced by performing the reduction process. Therefore, it is desirable to provide the read document image as a reflow type file that can be displayed in a folded manner in accordance with the display area, not a fixed type file.
リフロー型のファイルは固定の幅及び高さを持たず、画像表示装置の表示領域の範囲で行を自動的に折り返すことで、1行の文を表示領域からはみ出させることなく表示できる。よって、行方向にスクロールすることなく、行方向と直交する方向のスクロール操作のみで文書を読むことが可能となる。HTML(Hyper Text Markup Language)や、スマートフォンやタブレット向けに展開されている電子書籍機能が提供するファイル形式は、リフロー型の表示が可能なファイル形式の例である。前記読み取られた文書画像をリフロー型のファイル形式に変換することにより、上記の可読性の問題は解決される。 A reflow type file does not have a fixed width and height, and by automatically folding lines within the range of the display area of the image display device, a single line of text can be displayed without protruding from the display area. Therefore, it is possible to read the document only by scrolling in the direction orthogonal to the line direction without scrolling in the line direction. A file format provided by HTML (Hyper Text Markup Language) and an electronic book function developed for smartphones and tablets is an example of a file format that can be displayed in a reflow type. The readability problem is solved by converting the read document image into a reflow type file format.
ファイル形式を変換する装置として、例えば、特許文献1の文書ファイル表示装置がある。特許文献1の表示装置は、構造化された文書ファイル(doc、txt、odf、xls等)を文書画像のファイル(jpeg、tiff、bmp等)に変換し、変換した文書画像から、文書を構成する個々の要素の存在領域及び要素の並び方向を含むレイアウト情報を検出する。そして、検出したレイアウト情報に基づき、個々の要素の存在領域に相当する要素画像(部分画像)を文書画像から抽出し、抽出した各要素画像の要素の並び方向に沿ったサイズに基づき、行情報を作成する。次に、作成した行情報のスクロール方向を決定し、決定したスクロール方向に沿って複数の行情報を配列することで、段落情報を作成する。そして、作成した段落情報を、表示部の表示範囲内でスクロール表示する。よって、特許文献1の文書ファイル表示装置では、表示領域と同じ横幅の文書画像を表示するため、一方向のスクロール操作のみで文書画像を閲覧することが可能となる。
As an apparatus for converting the file format, for example, there is a document file display apparatus disclosed in
しかしながら、特許文献1に記載の文書ファイル表示装置は、ユーザが指定した文書ファイルであれば、リフロー型に不向きな文書でも関係なくリフロー型の文書に変換してしまう。そのため、表やインデントを多用して文章を構成している文書など、元々意味を持っていたレイアウトの文書では、レイアウトが崩れてしまい、リフロー型の文書に変換したために内容が理解できなくなるといったことが起こり得る。
However, the document file display device described in
そこで、本発明は、前述した問題に鑑みなされたものであり、文書画像をリフロー型に変換するか否かを判断し、常に最適なフォーマットでの表示が可能なように文書画像を処理する文書画像処理装置等を提供することを目的とする。 Accordingly, the present invention has been made in view of the above-described problems, and determines whether or not to convert a document image to a reflow type and processes a document image so that it can always be displayed in an optimal format. An object is to provide an image processing apparatus and the like.
上記の課題を解決するために、本発明の一態様に係る文書画像処理装置は、文書を電子化した文書画像の再構成を行う文書画像処理装置において、前記文書画像の構造解析を行う構造解析部と、前記構造解析により前記文書画像から抽出した文字列あるいは図又は表の特徴量に基づいて、前記文書画像に含まれる各文字、図、及び/又は表である各要素を再構成するか否かの判定を行う変換判定部と、前記変換判定部が前記文書画像の各要素を再構成すると判定すると、前記構造解析部による解析結果に基づいて、前記文書画像を再構成した際の上記各要素の順序を記述した参照リストを生成する参照リスト生成部と、を備えることを特徴とする。 In order to solve the above problems, a document image processing apparatus according to an aspect of the present invention provides a structure analysis that performs a structure analysis of a document image in a document image processing apparatus that reconstructs a document image obtained by digitizing a document. Or each element included in the document image is reconstructed based on the character string extracted from the document image by the structural analysis and the feature amount of the figure or table If the conversion determination unit that determines whether or not the conversion determination unit determines to reconstruct each element of the document image, the document image is reconstructed based on the analysis result by the structure analysis unit. And a reference list generation unit that generates a reference list describing the order of each element.
上記構成によると、文書画像をリフロー型に変換するか否かを判断し、常に最適なフォーマットでの表示が可能なように文書画像を処理することができる。 According to the above configuration, it is possible to determine whether or not to convert the document image to the reflow type, and to process the document image so that it can always be displayed in the optimum format.
以下に、本発明の実施の形態を図面に基づき詳述する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
〔実施の形態1:画像形成装置〕
以下の説明では、本発明に係る文書画像処理装置が変換処理部として画像処理装置の一部を成し、また、その画像処理装置が画像形成装置の一部を成す形態を例示する。
[Embodiment 1: Image forming apparatus]
In the following description, a document image processing apparatus according to the present invention forms a part of an image processing apparatus as a conversion processing unit, and the image processing apparatus forms a part of an image forming apparatus.
[1.画像形成装置]
図1は、実施の形態1に係る画像形成装置(情報処理装置)100の機能的構成を示すブロック図である。画像形成装置100は、コピー機能及びスキャナ機能等を有するデジタル複合機である。画像形成装置100は、画像処理装置1、画像入力装置2、画像出力装置3、及び送信装置4を備えている。
[1. Image forming apparatus]
FIG. 1 is a block diagram illustrating a functional configuration of an image forming apparatus (information processing apparatus) 100 according to the first embodiment. The
画像入力装置2、画像処理装置1、画像出力装置3及び送信装置4には、操作パネル6が接続されている。操作パネル6は、ユーザが画像形成装置100の動作モードを設定するための設定ボタン及びテンキー等の操作部(図示せず)と、液晶ディスプレイ等で構成される表示部(図示せず)とを備える。
An
画像形成装置100で実行される各種処理は、図示しない制御部(CPU(Central Processing Unit)あるいはDSP(Digital Signal Processor)等のプロセッサを含むコンピュータ)が制御する。画像形成装置100の制御部は、図示しないネットワークカード及びLANケーブルを介して、ネットワークに接続されたコンピュータ及び他のデジタル複合機等とデータ通信を行う。
Various processes executed by the
以下、画像形成装置100の各部について詳述する。
Hereinafter, each part of the
画像入力装置2は、原稿から画像を光学的に読み取る。画像入力装置2は、例えばCCD(Charge Coupled Device)を有するカラースキャナよりなり、原稿からの反射光像を、CCDを用いてRGB(R:赤,G:緑,B:青)のアナログ信号として読み取り、画像処理装置1へ出力する。画像入力装置2は、スキャナでなくてもよく、例えばデジタルカメラ等であってもよい。
The
画像処理装置1は、画像入力装置2が読み取った画像データに処理を施し、処理を施した画像データを保存、あるいは、送信するために圧縮ファイルを生成する。
The
画像処理装置1は、画像入力装置2から入力されたRGBのアナログ信号に対して、A/D変換部11、シェーディング補正部12、原稿種別判別部13、入力階調補正部14、及び領域分離処理部15にて各後述する画像処理を実行することによって、RGBのデジタル信号(以下、RGB信号という)からなる画像データを生成する。
The
また、画像処理装置1は、領域分離処理部15が出力したRGB信号に対して色補正部16、黒色生成下色除去部17、空間フィルタ処理部18、出力階調補正部19、及び階調再現処理部20にて各後述する画像処理を実行することによって、CMYK(C:シアン,M:マゼンタ,Y:イエロー,K:ブラック)のデジタル信号からなる画像データを生成して、ストリームとして画像出力装置3へ出力する。なお、画像出力装置3へ出力される前に、画像データが記憶部5に一旦記憶されてもよい。記憶部5は、不揮発性の記憶装置(例えばハードディスク)である。
In addition, the
画像出力装置3は、画像処理装置1が生成した画像データに基づいて画像を出力する。画像出力装置3は、画像処理装置1から入力された画像データに基づいて、熱転写、電子写真、又はインクジェット等の方式により、記録シート(例えば記録用紙等)上にカラー画像を形成(印刷)して出力する。
The
本実施形態では、画像出力装置3はカラー画像を出力する構成とするが、記録シート上にモノクローム(白黒)画像を形成して出力する構成であってもよい。この場合、画像処理装置1にて、カラー画像の画像データがモノクローム画像の画像データに変換されてから画像出力装置3へ出力される。
In the present embodiment, the
更にまた、画像処理装置1は、領域分離処理部15が出力したRGB信号に対して圧縮処理部21にて画像圧縮処理を実行することによって、圧縮されたカラー画像の画像データを有する圧縮ファイルを生成し、送信装置4へ出力する。なお、送信装置4へ出力される前に、圧縮ファイルが記憶部5に一旦記憶されてもよい。
Furthermore, the
画像処理装置1は、操作パネル6においてフォーマット変換モードが選択されている場合、領域分離処理部15が出力したRGB信号に対して、変換処理部22にてフォーマット変換処理を実行する。後述のように、変換処理部22の処理によって、画像が有する文書レイアウトを解析して文書構造ツリーを生成する。
In the
変換処理部22は、本発明に係る文書画像処理装置として機能する。また、送信装置4へ出力する前に、変換されたファイルを記憶部5に一旦記憶してもよい。また、画像入力装置2から入力される文書画像が複数ページにわたる場合、操作パネル6において指定したページのみ、後述のように、文書レイアウトを解析して文書の再構成を行うようにすることができる。例えば、表紙ページは再構成の対象とせず、そのままページ全体を画像として出力するといった方法も可能とする。
The
送信装置4は、画像処理装置が生成した圧縮ファイルを外部へ送信する。送信装置4は、図示しない公衆回線網、LAN(Local Area Network)又はインターネット等の通信ネットワークに接続可能であり、ファクシミリ又は電子メール等の通信方法により、通信ネットワークを介して外部へ圧縮ファイルを送信する。例えば、操作パネル6においてscan to e-mailモードが選択されている場合、ネットワークカード、モデム等を用いてなる送信装置4は、圧縮ファイルをe-mailに添付し、設定された送信先へ送信する。
The
なお、ファクシミリ送信を行う場合は、画像形成装置100の制御部が、モデムを用いてなる送信装置4にて、相手先との通信手続きを行い、送信可能な状態が確保されたときに、圧縮ファイルに対して圧縮形式の変更等の必要な処理を施してから、相手先に通信回線を介して順次送信する。
When facsimile transmission is performed, the control unit of the
また、ファクシミリを受信する場合、画像形成装置100の制御部は、送信装置4にて通信手続きを行いながら、相手先から送信されてくる圧縮ファイルを受信して、画像処理装置1に入力する。画像処理装置1では、受信した圧縮ファイルに対し、不図示の圧縮/伸張処理部で伸張処理が施される。圧縮ファイルを伸張することによって得られた画像データには、必要に応じて、不図示の処理部で回転処理及び/又は解像度変換処理等が施され、また、出力階調補正部19で出力階調補正が施され、階調再現処理部20で階調再現処理が施される。各種画像処理が施された画像データは、画像出力装置3へ出力され、画像出力装置3にて、記録シート上に画像が形成される。
When receiving a facsimile, the control unit of the
[2.画像処理装置]
以下では、画像処理装置1の構成について、画像処理装置1における画像処理及びフォーマット変換処理を説明しながら詳述する。
[2. Image processing apparatus]
Hereinafter, the configuration of the
A/D変換部11は、画像入力装置2から画像処理装置1へ入力されたRGBのアナログ信号をRGBのデジタル信号(即ちRGB信号)に変換する。
The A /
シェーディング補正部12は、A/D変換部11から入力されたRGB信号に対して、画像入力装置2の照明系、結像系及び撮像系で生じる各種の歪みを取り除く。
The
原稿種別判別部13は、シェーディング補正部12から入力されたRGB信号をRGB各色の濃度を示す濃度信号に変換し、文字、写真、又は印画紙等の原稿のモードを判別する原稿種別判別処理を実行する。原稿種別をユーザが操作パネル6を用いてマニュアル設定する場合、原稿種別判別部13はシェーディング補正部12から入力されたRGB信号をそのまま後段の入力階調補正部14に出力する。原稿種別判別処理の処理結果(原稿種別)は、後段の画像処理に反映される。
The document
入力階調補正部14は、原稿種別判別部13から入力されたRGB信号に対して、カラーバランスの調整、下地濃度の除去、及びコントラストの調整等の画質調整処理を行う。
The input
領域分離処理部15は、入力階調補正部14から入力されたRGB信号が表す画像中の各画素を、文字領域、網点領域、又は写真領域のいずれかに分離する。また、領域分離処理部15は、分離結果に基づき、各画素がいずれの領域に属しているかを示す領域識別信号を、黒色生成下色除去部17、空間フィルタ処理部18、階調再現処理部20、及び圧縮処理部21へ出力する。更に、領域分離処理部15は、入力階調補正部14から入力されたRGB信号を、そのまま後段の色補正部16、圧縮処理部21及び変換処理部22へ出力する。
The region
色補正部16は、領域分離処理部15から入力されたRGB信号をCMYのデジタル信号(以下、CMY信号という)へ変換し、色再現の忠実化実現のために、不要吸収成分を含むCMY色材の分光特性に基づいた色濁りをCMY信号から取り除く。
The
黒色生成下色除去部17は、色補正部16から入力されたCMY信号に基づき、CMY信号から黒色(K)信号を生成する黒色生成処理と、CMY信号から黒色生成処理で得たK信号を差し引いて新たなCMY信号を生成する処理とを行う。この結果、CMY3色のデジタル信号は、CMYK4色のデジタル信号(以下、CMYK信号という)に変換される。
Based on the CMY signal input from the
黒色生成処理の一例としては、一般に、スケルトン・ブラックによる黒色生成を行う方法が用いられる。この方法では、スケルトン・カーブの入出力特性をy=f(x)、入力されるデータをC,M,Y、出力されるデータをC',M',Y',K'、UCR(Under Color Removal)率をα(0<α<1)とすると、黒色生成下色除去処理は、下記の式(1)〜式(4)で表わされる。
K'=f(min(C,M,Y)) ・・・(1)
C'=C−αK' ・・・(2)
M'=M−αK' ・・・(3)
Y'=Y−αK' ・・・(4)
ここで、UCR率α(0<α<1)とは、CMYが重なっている部分をKに置き換えてCMYをどの程度削減するかを示すものである。式(1)は、CMYの各信号強度の内の最も小さい信号強度に応じてK信号が生成されることを示している。
As an example of the black color generation process, a method of generating black color using skeleton black is generally used. In this method, the input / output characteristic of the skeleton curve is y = f (x), the input data is C, M, Y, the output data is C ′, M ′, Y ′, K ′, UCR (Under When the color removal rate is α (0 <α <1), the black color generation and under color removal processing is expressed by the following equations (1) to (4).
K ′ = f (min (C, M, Y)) (1)
C ′ = C−αK ′ (2)
M ′ = M−αK ′ (3)
Y ′ = Y−αK ′ (4)
Here, the UCR rate α (0 <α <1) indicates how much CMY is reduced by replacing the portion where CMY overlaps with K. Equation (1) indicates that the K signal is generated in accordance with the smallest signal strength among the signal strengths of CMY.
空間フィルタ処理部18は、黒色生成下色除去部17から入力されたCMYK信号の画像データに対して、領域分離処理部15から入力された領域識別信号に基づいてデジタルフィルタによる空間フィルタ処理を行い、空間周波数特性を補正することによって、画像のぼやけ又は粒状性劣化を改善する。例えば、領域分離処理部15にて文字に分離された領域に対しては、空間フィルタ処理部18は、文字の再現性を高めるために、高周波成分の強調量が大きいフィルタを用いて空間フィルタ処理を行う。また、領域分離処理部15にて網点に分離された領域に対しては、空間フィルタ処理部18は、入力網点成分を除去するためのローパス・フィルタ処理を行う。
The spatial
出力階調補正部19は、空間フィルタ処理部18から入力されたCMYK信号に対して、画像出力装置3の特性である網点面積率に基づく出力階調補正処理を行う。
The output
階調再現処理部20は、出力階調補正部19から入力されたCMYK信号に対して、領域分離処理部15から入力された領域識別信号に基づいて、領域に応じた中間調処理を行う。例えば、領域分離処理部15にて文字に分離された領域に対しては、階調再現処理部20は、高域周波成分の再現に適した高解像度のスクリーンによる二値化又は多値化の処理を行う。また、領域分離処理部15にて網点に分離された領域に対しては、階調再現処理部20は、階調再現性を重視したスクリーンでの二値化又は多値化の処理を行う。次いで、階調再現処理部20は、処理後の画像データを画像出力装置3へ出力する。
The gradation
圧縮処理部21は、領域分離処理部15から入力された領域識別信号とRGB信号からなる画像データとに基づき、圧縮ファイルを生成する。圧縮処理部21に入力される画像データは、マトリクス状に配置されている複数の画素で構成されている。圧縮処理部21は、この画像データを、前景レイヤと背景レイヤとに分離する。そして、前景レイヤを更に2値画像に変換し、各2値画像を例えばMMR(Modified Modified READ)で可逆圧縮する。他方、背景レイヤを例えばJPEGで非可逆圧縮する。最後に、可逆圧縮された2値画像及び非可逆圧縮された背景レイヤと、これらを伸張してカラー画像の画像データと成すための伸張情報とを一つのファイルにまとめる。このファイルが圧縮ファイルである。また、この伸張情報としては、圧縮形式を示す情報、及びインデックス・カラー・テーブル(以下、ICテーブルという)等が用いられる。画素毎に生成された領域識別信号の圧縮は、例えば、可逆圧縮方法であるMMR方式、MR(Modified READ)方式に基づいて行われる。
The
変換処理部22は、入力された文書画像に対してフォーマット変換処理を実行する。変換処理部22の詳細について、以下で説明する。
The
以上の処理は、画像形成装置100に備えられる図示しない制御部により制御される。
The above processing is controlled by a control unit (not shown) provided in the
[3.変換処理部]
図2は、変換処理部(文書画像処理装置)22の構成を示すブロック図である。変換処理部22は、行解析処理部(構造解析部)31と、行ブロック解析処理部(構造解析部)32と、レイアウト解析処理部(構造解析部)33と、変換可否判定処理部(変換判定部)34、再配置処理部(参照リスト生成部)35と、を備える。以下では、文書を構成する個々の文字、図、表を要素(要素画像)と称する。図はグラフを含むものとする。
[3. Conversion processing unit]
FIG. 2 is a block diagram illustrating a configuration of the conversion processing unit (document image processing apparatus) 22. The
行解析処理部31は、文書画像から各要素を抽出して、文字(文字画像)から構成される文字列の行(文字列行)と、図(図画像)又は表(表画像)から成る行(図表行)に分類する。更に、文書の横書き、縦書きといった記述方向を示す文書第1方向を解析する。
The line
行ブロック解析処理部32は、行解析処理部31で抽出された行を、少なくとも1つ以上有する行ブロックに統合する処理を行う。
The row block
レイアウト解析処理部33は、行ブロック解析処理部32で分類された行ブロック同士の位置関係から、段組構成を解析して文書全体の行の順序付けを行い、行の前後関係から改行位置を検出することで、文書を1つ以上の段落に分類し、段落毎に行の情報を格納した文書構造ツリーを生成する。詳細は後述する。文書構造ツリーの各段落は、文字列の行の順序の情報と、図表の順序の情報をそれぞれ分けて格納することで、図表の配置を段落内で修正できるようにする。
The layout
変換可否判定処理部34は、行解析処理部31からレイアウト解析処理部33までの処理にて得られた情報から、文書画像をリフロー型に変換するか否かを判定する。変換可否判定処理部34は、リフロー型に変換しないと判定した場合は、圧縮処理部21に判定信号を出力する。圧縮処理部21では、上記判定信号を受信すると、RGBの画像データを例えば、JPEGファイルフォーマットに変換して出力する。すなわち、送信装置4の送信先の表示装置にてフィックス型で表示されるように送信装置4の送信先の表示装置での表示に適したフォーマットに変換して出力する。なお、圧縮処理部21は、JPEGファイルフォーマット以外に、例えば、PNGファイルフォーマットあるいはGIFファイルフォーマットに変換してもよい。
The conversion possibility
再配置処理部35は、変換可否判定処理部34にてリフロー型に変換すると判定された文書画像に対して、レイアウト解析処理部33で生成された文書構造ツリーに従って、文書画像の文字、図、表の各要素を順序通り参照するための命令と、段落の開始及び終了を宣言するための命令を列記した参照リストとを生成する。参照リストのフォーマットは特に固定されておらず、例えばHTML等のマークアップ言語で記述した文書の形式として生成したものをファイル出力してもよい。
The
なお、本実施形態では、変換処理部22の処理について、画像入力装置2が読み取った画像データ(文書画像)を処理する場合を用いて説明するが、ネットワークを介して受信した、あるいは、USBメモリ等のメモリに格納されているデータ(PDFファイル又は構造化された文書ファイル(doc、txt、odf、xls等))については、次のように処理を行う。受信した、あるいは、メモリに格納されているデータを、不図示のソフトウェア処理部において、文書画像ファイル(jpeg、tiff、bmp等)に変換し、文書画像ファイルに変換されたデータを変換処理部22に入力する。受信した、あるいは、メモリに格納されたデータが文書画像ファイルである場合は、ソフトウェア処理部において、何ら処理は行わない。
In the present embodiment, the processing of the
文書画像ファイルに変換されたデータについては、変換可否判定処理部34において、リフロー型に変換するか否かの判定を行う。リフロー型に変換しないと判定された場合、圧縮処理部21に文書画像ファイルに変換されたデータが出力される。圧縮処理部21は、文書画像ファイルに変換されたデータが、JPEGファイルフォーマットである場合は、何も処理を行わずにそのまま出力する。文書画像ファイルに変換されたデータが、tiff又はbmpデータである場合は、文書画像ファイルに変換されたデータを、例えば、JPEGファイルフォーマットに変換して出力する。つまり、送信装置4の送信先の表示装置での表示に適したフォーマットに変換して出力する。
For the data converted into the document image file, the conversion possibility
以下、変換処理部22の各処理部について詳述する。
Hereinafter, each processing unit of the
[4.行解析処理部]
<4−1.行解析処理部の構成>
行解析処理部31は、文書画像から各要素画像を抽出し、文字列行と図表行とに分類する。なおグラフは図表行に含まれるものとする。行解析処理部31は、文字列抽出処理部31a及び図表抽出処理部31bを備えて構成される。行解析処理部31は、更に、文書の横書き又は縦書きといった記述方向を示す文書第1方向を解析する。
[4. Line analysis processing section]
<4-1. Configuration of line analysis processing section>
The line
<4−2.文字列抽出処理部>
文字列抽出処理部31aは、文書画像から個々の文字を抽出(検出して切り出す)すると共に、文字が複数並べられて構成される文字列を抽出する。文字及び文字列の抽出は、次の方法により行う。文書画像から文字領域の画素を抽出し、その中から1つの文字を構成していると思われる画素の集合を囲む最小外接矩形を文字構成要素として抽出する。更に、上下左右の各方向における近隣の各文字構成要素の矩形同士の距離から文字列として連続する文字構成要素の関係にあるかを判定し、その連続する矩形の連続数から、文字列領域を特定する。このとき、左右方向における連続数が上下方向における連続数を上回る場合は横書きの文字列領域として、上下方向における連続数が左右方向における連続数を上回る場合は縦書きの文字列領域として、文字列の持つ方向(文字列の方向、記述方向)を同時に取得する。
<4-2. Character string extraction processing section>
The character string
なお、文字及び文字列の抽出方法は、上記に記載の方法に限らず他の方法を用いることができる。例えば、光学式文字読取装置(Optical Character Recognition;以下OCR)で個々の文字及び文字列を抽出してもよい。 The method for extracting characters and character strings is not limited to the method described above, and other methods can be used. For example, individual characters and character strings may be extracted by an optical character reader (hereinafter referred to as OCR).
<4−3.図表抽出処理部>
図表抽出処理部31bは、文書画像から図(図領域)及び表(表領域)を抽出する。
<4-3. Chart Extraction Processing Unit>
The chart
図領域の抽出は次の方法により行う。文書画像の所定領域毎に画素値の出現頻度(即ち、ヒストグラム)を求めた場合に、図領域の一つである写真領域上の各画素では濃度変化が広範囲に及ぶヒストグラムが得られることを利用して、ヒストグラムのエントロピー(平均情報量)を算出する。このようにエントロピーが高い領域を抽出することで精度よく写真領域を抽出することが可能となる。図領域の抽出方法は、上記に記載の方法に限らず他の方法を用いてもよい。 The drawing area is extracted by the following method. Utilizing the fact that when a pixel value appearance frequency (that is, a histogram) is obtained for each predetermined area of a document image, a histogram with a wide range of density changes is obtained for each pixel on the photographic area, which is one of the figure areas. Then, the entropy (average information amount) of the histogram is calculated. Thus, by extracting a region with high entropy, it is possible to accurately extract a photographic region. The method for extracting the figure region is not limited to the method described above, and other methods may be used.
また、表領域の抽出は、次の方法により行う。文書画像からラインとなる可能性のある候補画素を抽出し、前記候補画素が水平方向もしくは垂直方向に所定画素数以上連続する場合に前記連続する候補画素の集合をラインとして抽出し、前記抽出された水平方向及び垂直方向のラインの位置関係から、各ラインが表を構成する罫線であるか単一のラインであるかを判定し、同一の表を構成するラインの集合について、それら全てを囲む最小外接矩形を表領域として抽出する。このように抽出することで、精度よく表領域を検出することが可能である。なお、表領域の抽出方法は、上記に記載の方法に限らず他の方法を用いてもよい。 The table area is extracted by the following method. Extracting candidate pixels that may be lines from the document image, and extracting the set of consecutive candidate pixels as a line when the candidate pixels continue for a predetermined number of pixels in the horizontal or vertical direction, the extracted From the positional relationship between the horizontal and vertical lines, it is determined whether each line is a ruled line or a single line constituting the table, and all of the sets of lines constituting the same table are enclosed. The minimum circumscribed rectangle is extracted as a table area. By extracting in this way, it is possible to detect the table area with high accuracy. Note that the table region extraction method is not limited to the method described above, and other methods may be used.
グラフは図の一種であるが、以下のようにグラフ領域を抽出することができる。円グラフの様にその形状だけでグラフが構成されているグラフや、棒グラフ等の様にグラフの軸の線と繋がっており、ベタや網掛け等のあるグラフの場合は、前述したエントロピー値を用いてグラフ領域を抽出することが可能である。また、折れ線グラフのような線ベースのグラフでグラフの軸から離れているようなグラフの場合は、次のように、抽出可能である。図32の(a)〜(c)に示すように、前記エントロピー値と並行して表を構成する罫線ほどの水平又は垂直ラインではないが、単一の直線とは異なり、矩形やL字型やU字型のような水平又は垂直ラインの繋がりのある領域に対して、その領域の最外郭を矩形化処理し、その矩形の大きさが、予め定められた閾値以上の面積を持つ矩形であり、かつ、その矩形領域内にエントロピー値がある程度高い領域が存在するかを判定することでグラフ領域を抽出することが可能である。なお、グラフ領域の抽出方法は、上記に記載の方法に限らず他の方法を用いてもよい。 Although the graph is a kind of diagram, the graph region can be extracted as follows. In the case of a graph that is composed only of its shape, such as a pie graph, or a graph that is connected to the axis line of a graph, such as a bar graph, etc. It is possible to extract a graph area by using it. Further, in the case of a graph that is separated from the graph axis by a line-based graph such as a line graph, it can be extracted as follows. As shown in (a) to (c) of FIG. 32, it is not as horizontal or vertical as the ruled lines constituting the table in parallel with the entropy value, but is different from a single straight line in a rectangle or L-shape. For areas with horizontal or vertical line connections such as U-shaped or U-shaped, the outermost outline of the area is rectangularized, and the size of the rectangle is a rectangle having an area equal to or greater than a predetermined threshold. It is possible to extract a graph region by determining whether there is a region having a certain degree of entropy value in the rectangular region. Note that the graph region extraction method is not limited to the method described above, and other methods may be used.
なお、文字列抽出処理部31aで抽出した文字が、図表抽出処理部31bで抽出した図又は表として抽出した範囲と重複する場合、該抽出した文字をキャンセルする。特に、抽出された表には文字が含まれる可能性が高いが、表のサイズを表示領域の幅に合わせるためには表を構成する各列の幅を調整する必要がある。結果として、調整後の列幅に合わせて、表内の文字列は折り返し表示され、かえって可読性を低下させる原因となる。そのため、本実施の形態では、表として抽出された領域については、文字も含めたまま図表として抽出して表示する。
If the character extracted by the character string
<4−4.行IDの設定>
行解析処理部31は、以上のようにして抽出された文字列行及び図表行に対して、各行を識別する重複しない識別記号として行ID(Identification)を設定する。1つの行IDについて、その行IDを有する行が2つ以上存在しなければ、必ずしも文書の順序に従って行IDを割り振る必要は無い。行IDの設定方法として、行IDが「0」の場合を存在しない行である無効行とし、例えば、各ページの文書画像において、読み取った原稿の左上を原点(0,0)とし、原点に対して、右方向をX座標、下方向をY座標となる座標系を採用し、行の範囲を表わす最も左上のY座標が小さい順に行IDを連番で割り振る方法が挙げられる。なお、Y座標が同じ行同士はX座標が小さい方の行を割り振りにおいて優先する。この方法を用いる場合、段組構成により必ずしも文書の読み順序通りに行IDが割り振られる訳ではないが、横書き文書であれば行が上にあるほど順序が先である可能性が高いため、比較的文書の順序を反映した行IDの割り振り方になると言える。行IDの設定方法はこれに限らず、自由に選択することができる。
<4-4. Setting of row ID>
The row
<4−5.文書第1方向及び文書第2方向の決定>
さらに、行解析処理部31は、1ページの文書画像における全ての行について、文字列行か図表行かの分類が終わると、文字列の方向から、文書全体の方向を示す文書第1方向を決定する。文書第1方向は、横書きのとき水平となり、縦書きのとき垂直となる。文書第1方向は、取得した全ての文字列の持つ方向を分類し、その比率により決定する。文書第1方向を決定するための比率の算出方法の簡単な例として、単純に横書きもしくは縦書きの文字列の数をカウントして、その数の比率を算出する方法が挙げられる。この方法の場合、例えば横書きの行数と縦書きの行数を比較して、多い方の方向を文書第1方向として決定(設定)する。文書第1方向の決定は上記の方法に限らず様々な方法を採用することができる。
<4-5. Determination of document first direction and document second direction>
Further, when the line
ここで、算出した比率が所定閾値(例えば、0.7)以下である場合、文書には縦書きの行と横書きの行とが無視できない比率で混在しており文書全体の方向を一意に判別できないとして、行ブロック解析処理部32及びレイアウト解析処理部33での処理を行わず、変換可否判定処理部34にて入力文書画像をリフロー型に変換しないと判定する。
Here, when the calculated ratio is equal to or less than a predetermined threshold (for example, 0.7), the vertical writing line and the horizontal writing line are mixed in a ratio that cannot be ignored in the document, and the direction of the entire document is uniquely determined. If it is not possible, the line block
さらに、上記の方法によって文書第1方向を決定すると、文書第1方向に直交する方向として文書第2方向を決定(設定)する。すなわち、文書第1方向が水平(横書き)の場合、文書第2方向は垂直、文書第1方向が垂直(縦書き)の場合、文書第2方向は水平となる。 Further, when the document first direction is determined by the above method, the document second direction is determined (set) as a direction orthogonal to the document first direction. That is, when the document first direction is horizontal (horizontal writing), the document second direction is vertical, and when the document first direction is vertical (vertical writing), the document second direction is horizontal.
<4−6.記号(約物)の統合処理>
個々の文字の切り出しにおいて、以下に示すような記号(約物)の統合処理を追加することができる。記号には、例えば行頭に来ることが禁止とされる(行頭禁則)ものや、行末に来ることが禁止とされる(行末禁則)ものがあり、図3に示すような文字がその一部として挙げられる。切り出した個々の文字を表示した際、行の折り返しによりこれらのルールが守られず可読性が低下する場合がある。そこで、行頭禁則の記号については、1つ前の文字と統合し、行末禁則の記号については、1つ後の文字と統合することで、単独で行頭もしくは行末に来ることがなくなる。
<4-6. Integrated processing of symbols (about items)>
In the extraction of individual characters, a symbol (about object) integration process as shown below can be added. There are, for example, symbols that are prohibited from coming to the beginning of a line (prohibition at the beginning of a line) and symbols that are prohibited from coming to the end of a line (prohibition at the end of line), and characters as shown in FIG. Can be mentioned. When individual cut out characters are displayed, these rules may not be observed due to line wrapping, and readability may deteriorate. Therefore, by combining the preceding character with the preceding character for the prohibition symbol and integrating with the succeeding character for the prohibition symbol, the character at the beginning or the end of the line can be prevented.
各文字が、前述したルールを持つ記号であるかの判定方法は公知の方法を使用することができる。例えば、OCR処理を利用して文字種を照合してもよいし、文字の大きさや、文字を構成する画素の特徴から判別してもよい。例えば句読点の場合、図4のように横書きである場合に、行の下半分のみで構成され、また行の高さ(矢印で示された範囲)に比べて半分程度の幅を持つ場合、その文字が句読点である可能性が高いとして、1つ前の文字と統合してもよい。 A known method can be used as a method for determining whether each character is a symbol having the above-described rule. For example, the character type may be collated using OCR processing, or may be determined from the size of the character and the characteristics of the pixels constituting the character. For example, in the case of a punctuation mark, when it is horizontal writing as shown in FIG. 4, it is composed of only the lower half of the line and has a width about half the height of the line (the range indicated by the arrow). Assuming that the character is likely to be a punctuation mark, it may be integrated with the previous character.
図4では横書きの例を示したが、縦書きの場合も同様に統合を行うことができる。半角英小文字と区別するため、行を構成する他の文字の高さや幅の傾向から和文、英文の判定を加え、和文の場合のみ句読点と判定するようにする等の処理を追加してもよい。例えば、和文ではひらがな、カタカナ及び漢字等の全角文字が文章の大半を占めており、行の上半分もしくは下半分のみで構成される文字が少なくなる傾向がある。また、半角文字に比べて、全角文字では行の高さに対して文字の横幅が半分より大きい文字の種類が多い。従って、(1)行を上下に分割する水平方向の直線をまたぎ、(2)文字の横幅が行の高さに所定係数(例えば0.6)を乗算した値以上である、文字数をカウントし、行を構成する文字数に対して前記(1)及び(2)を満たす文字数の割合が所定閾値(例えば0.5)以上である場合に、その行が和文であるとして判定する処理を適用することができる。和文、英文の判定方法はこの方法に限らず、他の方法により判定してもよい。また、縦書きの文書である場合は自動的に和文とみなしてもよい。 Although an example of horizontal writing is shown in FIG. 4, integration can be similarly performed in the case of vertical writing. In order to distinguish it from single-byte lower-case letters, processing such as adding Japanese and English sentences based on the tendency of the height and width of other characters that make up the line, and determining punctuation marks only for Japanese sentences may be added. . For example, in Japanese, full-width characters such as hiragana, katakana, and kanji occupy most of the sentence, and there is a tendency that characters composed of only the upper half or the lower half of a line are reduced. In addition, compared to half-width characters, there are many types of characters with full-width characters whose width is greater than half of the line height. Therefore, (1) straddling a horizontal straight line that divides the line up and down, and (2) counting the number of characters whose horizontal width is equal to or greater than the value obtained by multiplying the line height by a predetermined coefficient (for example, 0.6). When the ratio of the number of characters satisfying the above (1) and (2) with respect to the number of characters constituting the line is equal to or greater than a predetermined threshold (for example, 0.5), a process for determining that the line is a Japanese sentence is applied. be able to. The determination method of Japanese and English is not limited to this method, and may be determined by other methods. If the document is vertically written, it may be automatically regarded as a Japanese sentence.
ここで、句読点と、「ァ」等小さい和字との区別がつかない可能性もあるが、これらの小さい和字も行頭禁則であるため句読点と同様に統合しても問題無い。そのため、厳密に句読点専用の処理とする必要はない。 Here, there is a possibility that punctuation marks cannot be distinguished from small Japanese characters such as “a”. However, since these small Japanese characters are also prohibited from beginning of line, there is no problem even if they are integrated in the same manner as punctuation marks. Therefore, it is not necessary to strictly process punctuation.
<4−7.処理例>
行解析処理部31が実行する処理の具体例として、図5に示す構造の文書画像(1ページ)に対して行解析処理を適用する場合について説明する。行解析処理部31は、図6に示すように、その行の要素を全て含んだ最小サイズの外接矩形の範囲を各行の領域として分離し、それぞれの行に、行IDを、外接矩形の左上の垂直座標(Y座標)位置の順で割り当てる。図6に示す文書画像では、行IDが105の行が図表の行であることを除いては、残りの行はいずれも横書きの文字列の行であり、縦書きの文字列の行は1つも含まれていない。そのため、行解析処理部31は、この文書画像における文書第1方向は水平方向であると決定する。
<4-7. Processing example>
As a specific example of the process executed by the line
[5.行ブロック解析処理部]
<5−1.行ブロック解析処理部の処理>
行ブロック解析処理部32は、行解析処理部31で分類された文字列行を、少なくとも1つ以上の文字列行から成る文字列の行ブロックに統合し、重複しない行ブロックIDを持つ新規行ブロックとして記憶部5に記憶(登録)する。行ブロック解析処理部32は、図表行については、単一行で1つの行ブロックを構成するものとし、それぞれ重複しない行ブロックIDを持つ新規行ブロックとして登録する。
[5. Row block analysis processing unit]
<5-1. Processing of line block analysis processing section>
The row block
行ブロック解析処理部32による文字列の行ブロック統合処理について以下で詳細に説明する。初めに、行解析処理部31で分類された行のうち文字列行のグループから、注目行L1を選択する。続いて、注目行L1に関して、前方及び後方(定義は、後述の<5−5>章を参照)に連続する文字列行を探索する。具体的には、文字列行のグループの、注目行L1とは異なる文字列行から、注目行L1の前方もしくは後方に連続する文字列行を最大1つずつ選択する。注目行L1の連続行の候補となる文字列行は注目行L1を除く全ての文字列行であり、連続行の候補となる条件については後述する。
The character string row block integration processing by the row block
全ての文字列行について、前方及び後方に連続する文字列行を選択すると、連続する文字列行同士の繋がりから、前方及び後方の両方において連続する文字列行がなくなるまで1つの行ブロックとして分類、統合し、未割り当ての行ブロックIDを持つ新規行ブロックとして記憶部5に登録する。全ての文字列行がいずれかの行ブロックに登録されるまで処理を繰り返し、全ての文字列行についての登録が完了すると、行ブロック解析処理部32は処理を終了する。
For all the character string lines, if a character string line that is continuous forward and backward is selected, it is classified as one line block from the connection of consecutive character string lines until there is no continuous character string line in both the forward and backward directions. Then, they are integrated and registered in the
<5−2.連続行の候補の判定>
ここで、注目行L1とは別に選択された文字列行L2が、注目行L1の連続行の候補であるか否かを判定する方法について説明する。行L2が行L1の連続行の候補である条件として、少なくとも下記2つの条件を満たすものとする。
条件1:一方の行の先頭から末尾までの範囲において、もう一方の行の先頭もしくは末尾のうち少なくとも一方が存在する。
条件2:2つの行の行間変位量linespace(L1,L2)が下記の式(5)を満たす。
TH_MIN_LS≦linespace(L1,L2)≦TH_MAX_LS ・・・(5)
(TH_MIN_LS、TH_MAX_LSは、予め設定される閾値)
なお、条件1は、異なる段に属する行を連続行の候補として判定しないために用いる。条件2は、行間が広過ぎる又は狭過ぎる行を連続行の候補として判定しないために用いる。
<5-2. Judgment of candidates for continuous lines>
Here, a method for determining whether or not the character string row L2 selected separately from the attention row L1 is a candidate for a continuous row of the attention row L1 will be described. It is assumed that at least the following two conditions are satisfied as a condition that the row L2 is a candidate for a continuous row of the row L1.
Condition 1: In the range from the beginning to the end of one line, at least one of the beginning or the end of the other line exists.
Condition 2: The inter-line displacement amount linespace (L1, L2) of the two rows satisfies the following expression (5).
TH_MIN_LS ≦ linespace (L1, L2) ≦ TH_MAX_LS (5)
(TH_MIN_LS and TH_MAX_LS are preset threshold values)
図7の(a)は、2段組の横書きの文書の例、図7の(b)は、2段組の縦書きの文書の例である。条件1を満たすために、行L1と行L2とは、文書第1方向で一部もしくは全部が重複している必要がある。例えば、図7の例の場合、行aと行b、行cと行d、行eと行f、行gと行hは、条件1を満たすため、これらの組合せは互いに連続行の候補となる。しかし、行aと行d、行eと行h等の組合せでは条件1を満たさないため、これらの組合せは互いに連続行の候補とならない。
FIG. 7A shows an example of a horizontally written document with two columns, and FIG. 7B shows an example of a vertically written document with two columns. In order to satisfy the
条件2で示す行L1と行L2との行間変位量linespace(L1,L2)は、図8に示すように、横書きであれば行L1と行L2とのうち下側にある方の行の上端座標と、もう一方の行の下端座標との差分値(図8の(a)〜(c)参照)、縦書きであれば行L1と行L2とのうち左にある方の行の右端座標ともう一方の行の左端座標との差分値(図8の(d)〜(f)参照)である。行L1と行L2とが重複しないとき、行間変位量linespace(L1,L2)は2つの行の行間距離を示す。また、TH_MIN_LS及びTH_MAX_LSは、連続行同士の行間変位量として許容される差分値の最小値及び最大値を示す所定係数である。例えば、行L1の文字サイズに所定係数r1(例えばr1=0.1)を乗算したものを閾値TH_MIN_LSと設定し、所定係数r2(r2は正の数とする、例えばr2=1.5)を乗算したものを閾値TH_MAX_LSとして設定する。
As shown in FIG. 8, the interline displacement amount linespace (L1, L2) between the rows L1 and L2 shown in the
閾値TH_MIN_LS及び閾値TH_MAX_LSは、他の方法により設定されてもよく、例えば行L1と行L2の文字サイズの平均値に所定係数を乗算したものとしてもよい。また閾値TH_MIN_LSを正値に設定することで、重複のある2つの行同士を連続行として認めないようにすることができる。逆に閾値TH_MIN_LSを負値に設定することで、図8の(c)及び(f)のように、行L1と行L2とが多少重複する場合も許容することができる。 The threshold value TH_MIN_LS and the threshold value TH_MAX_LS may be set by other methods. For example, the average value of the character sizes of the lines L1 and L2 may be multiplied by a predetermined coefficient. Moreover, by setting the threshold value TH_MIN_LS to a positive value, it is possible to prevent two overlapping rows from being recognized as continuous rows. Conversely, by setting the threshold value TH_MIN_LS to a negative value, it is also possible to allow a case where the row L1 and the row L2 slightly overlap as shown in (c) and (f) of FIG.
<5−3.条件の強化:インデントの範囲指定>
また、連続行の候補を判定する条件を強化するために、上記条件1,2に加えて、別の条件を設定してもよい。例えば、次式(6)を満たすことを条件として追加することができる。
indent(L1,L2)≦TH_INDENT ・・・(6)
ここで、indent(L1,L2)は行L1の開始位置の文書第1方向成分と行L2の開始位置の文書第1方向成分の差の大きさであり、すなわちインデントの大きさを意味する。また、閾値TH_INDENTは行の先頭のインデントとして許容される距離を示す所定係数である。閾値TH_INDENTは、例えば行L1の文字サイズに所定係数α(αは正の数とする、例えばα=1.5)を乗算した値を与え、α文字以内のインデントを許容することができる。閾値TH_INDENTは他の方法により設定してもよく、例えば行L1と行L2との文字サイズの平均値に所定係数αを乗算したものとしてもよい。
<5-3. Strengthening of conditions: Specifying the indent range>
In addition to the
indent (L1, L2) ≦ TH_INDENT (6)
Here, indent (L1, L2) is the magnitude of the difference between the document first direction component at the start position of line L1 and the document first direction component at the start position of line L2, that is, the magnitude of indentation. Further, the threshold value TH_INDENT is a predetermined coefficient indicating a distance allowed as an indent at the beginning of a line. The threshold value TH_INDENT, for example, gives a value obtained by multiplying the character size of the line L1 by a predetermined coefficient α (α is a positive number, for example α = 1.5), and allows indentation within α characters. The threshold value TH_INDEX may be set by other methods, for example, an average value of the character sizes of the lines L1 and L2 may be multiplied by a predetermined coefficient α.
<5−4.条件の強化:行終了位置の差異の許容範囲指定>
連続行の候補を判定する条件を強化する他の条件として、例えば次式(7)を満たすことを条件として追加することで、行の終了位置がある程度近い行同士を連続行の候補とすることができる。
|L1MAX1−L2MAX1|≦TH_DIFF_ENDPOS ・・・(7)
ここで、L1MAX1は行L1の文書第1方向成分の最大値、L2MAX1は行L2の文書第1方向成分の最大値である。例えば、文書第1方向が水平方向(横書き)である場合、L1MAX1及びL2MAX1は、行L1及び行L2の右端のX座標を指す。また、閾値TH_DIFF_ENDPOSは行の終了位置の差として許容される距離を示す所定係数である。例えば行L1の文字サイズの平均値に所定係数β(βは正の数とする、例えばβ=0.5)を乗算したものを閾値TH_DIFF_ENDPOSとすることで、β文字以内のインデントを許容することになる。
<5-4. Strengthening of conditions: Specifying tolerance range for line end position differences>
As another condition for strengthening the condition for determining the candidate for the continuous line, for example, by adding the condition that the following expression (7) is satisfied as a condition, the lines where the end positions of the lines are close to a certain extent are made candidates for the continuous line. Can do.
| L1MAX1-L2MAX1 | ≦ TH_DIFF_ENDPOS (7)
Here, L1MAX1 is the maximum value of the document first direction component of the row L1, and L2MAX1 is the maximum value of the document first direction component of the row L2. For example, when the first direction of the document is the horizontal direction (horizontal writing), L1MAX1 and L2MAX1 indicate the X coordinates of the right ends of the rows L1 and L2. The threshold value TH_DIFF_ENDPOS is a predetermined coefficient indicating a distance allowed as a difference between the end positions of rows. For example, the threshold value TH_DIFF_ENDPOS can be used to allow indentation within β characters by multiplying the average value of the character size of the line L1 by a predetermined coefficient β (β is a positive number, for example, β = 0.5). become.
<5−5.前方又は後方の連続行の選択>
行L1の連続行の候補として抽出された行から、行L1の前方で最も近い位置にある行、及び、後方で最も近い位置にある行を、それぞれ最大1つずつ選択する。なお、文書第1方向が水平方向(横書き)である場合、行L1より上にある行を前方の行、行L1より下にある行を後方の行とし、文書第1方向が垂直方向(縦書き)である場合、行L1より右にある行を前方の行、行L1より左にある行を後方の行とする。また、行の近さを表わす値として、例えば、前述の行間変位量linespace(L1,L2)を使用し、linespace(L1,L2)が小さい程、行が近いとみなすことができる。なお前方、後方とも、連続行は最大で1つずつであり、必ずしも連続行が存在する必要はない。
<5-5. Select forward or backward continuous lines>
From the rows extracted as candidates for the continuous row of the row L1, the row closest to the front of the row L1 and the row closest to the rear are selected one at a time. When the document first direction is the horizontal direction (horizontal writing), the line above the line L1 is the front line, the line below the line L1 is the back line, and the document first direction is the vertical direction (vertical). In the case of writing), a line on the right side of the line L1 is a front line, and a line on the left side of the line L1 is a rear line. Further, for example, the above-described interline displacement amount linespace (L1, L2) is used as a value representing the closeness of the rows, and the smaller the linespace (L1, L2), the closer the rows can be considered. Note that there is a maximum of one continuous line for both the front and rear, and it is not always necessary to have a continuous line.
<5−6.行ブロックへの分類及び統合>
行ブロック解析処理部32は、以上のようにして、全ての文字列行について前方及び後方の連続行を選択すると、行ブロックへの分類、統合を行う。但し、複数の行から連続行として選択されるケースもあり得るため、相互に連続行であるとされていない行のペアについては、その間の連続関係を事前に解消しておく。例えば、文書画像が図9の(a)である場合、前方の連続行として行L3を選択する行は、行L4と行L5との2つ存在するが、行L5は行L3の後方の連続行として選択されていない。そのため、行L3と行L5との間の連続関係は解消される。同様にして行L4と行L6との間の連続関係も解消される。このことにより、図9の(a)に示すような例では、行L3及び行L4において注目行L1からの連続関係が断たれるため、注目行L1と同一の行ブロックとして分類できなくなるケースも起こり得る。しかし、図9の(b)に示すように複数の行ブロックとして分類することができ、後段のレイアウト解析処理部33における段組解析処理部37で、同一の段組、及びその段組を構成する同一の段(カラム)として統合できるため、この時点でブロックが分かれてしまっても、問題とはならない。
<5-6. Classification and integration into row blocks>
As described above, when the line block
行ブロックへの分類及び統合処理は、次のように行う。まず。行ブロックとして分類されていない文字列行のうち任意の行L1(注目行L1)について、まず、行L1を新規の行ブロックとして設定する。続いて、行L1から前後の連続行をたどり、行ブロックの範囲を拡大する。前方及び後方とも、連続行が無くなると、行ブロックの拡大を終了し、その行ブロックに含まれる先頭の行から順に行IDを取得する。また、行ブロックの情報として、行ブロックに含まれる全ての行に外接する最小矩形の左上座標、幅及び高さ、並びに含まれる行数を取得する。以上のようにして得られた行の順序と各種情報とを持つ行ブロックを、既に登録済みの行ブロックと重複しないIDを持つ新規の行ブロックとして登録を行い、またその行ブロックに含まれる各行の所属行ブロックIDを更新する。行ブロック解析処理部32は、このようにして行われる行ブロックへの分類及び統合処理を、全ての文字列行がいずれかの行ブロックに分類されるまで繰り返す。
The classification and integration processing into row blocks is performed as follows. First. Regarding an arbitrary line L1 (target line L1) among character string lines not classified as a line block, first, the line L1 is set as a new line block. Subsequently, the continuous line before and after the line L1 is traced to expand the range of the line block. When there are no consecutive rows in both the front and rear, the expansion of the row block is terminated, and row IDs are acquired in order from the first row included in the row block. Further, as the row block information, the upper left coordinates, the width and the height of the smallest rectangle circumscribing all the rows included in the row block, and the number of included rows are acquired. The row block having the row order and various information obtained as described above is registered as a new row block having an ID that does not overlap with an already registered row block, and each row included in the row block is registered. Update the belonging row block ID. The row block
<5−7.同一の行ブロックに分類できる(連続行の候補とできる)行の条件>
なお、文書第1方向の文字列行は文書第1方向の文字列行とのみ、文書第2方向の文字列行は文書第2方向の文字列行とのみ、行ブロックを構成する。すなわち、1つの行ブロックに、文書第1方向の文字列行と文書第2方向の文字列行とが混在することは無い。従って、注目行L1の連続行の候補を探索する際、注目行L1の文字列方向と異なる方向の文字列行は連続行の候補としない。
<5-7. Conditions for rows that can be classified into the same row block (can be candidates for continuous rows)>
A character string line in the first direction of the document constitutes a line block only with a character string line in the first direction of the document, and a character string line in the second direction of the document constitutes a character string line in the second direction of the document. That is, the character string line in the document first direction and the character string line in the document second direction are not mixed in one line block. Therefore, when searching for a candidate for a continuous line of the target line L1, a character string line in a direction different from the character string direction of the target line L1 is not a candidate for a continuous line.
<5−8.処理例>
行ブロック解析処理部32が実行する行ブロック解析処理を、具体例を用いて説明する。既に示した図6のように文書画像から検出された複数の行に対して行ブロック解析処理を適用すると、文書画像は、図10のように行ブロックとして分類される。図10に示す例では、行ブロックB3は、章の見出しの行であり、行ブロックB4に比べて文字が大きい。このように文字のサイズが大きく異なる2つの行同士を連続行の候補として選択しないような、連続行の候補の判定の条件を追加することも有効な手段である。
<5-8. Processing example>
The row block analysis processing executed by the row block
[6.レイアウト解析処理部]
<6−1.レイアウト解析処理部の構成>
図11は、レイアウト解析処理部33の詳細構成を示すブロック図である。レイアウト解析処理部33は、前段の行ブロック解析処理部32で分類された行ブロック同士の上下左右の位置関係から、行ブロック構成を解析し、文書画像中の文章(本文)の読み順を推定する処理を行うものである。レイアウト解析処理部33は、段組解析処理部37、行順序付け処理部38、段落解析処理部39を備えて構成される。
[6. Layout analysis processing unit]
<6-1. Configuration of layout analysis processing unit>
FIG. 11 is a block diagram showing a detailed configuration of the layout
<6−2.段組解析処理部>
段組解析処理部37は、複数の行ブロックの上下及び左右の位置関係から、段組及び段組を構成する各段(カラム)を分類する段組解析処理を実行する。文書は文書第2方向に段組が配置され、各段組構成内で文書第1方向にカラムが配置されているものとして、ページ内の行ブロックの集合を、適切に境界線を設定して行ブロックをまたぐことなく分割して初期段組とする。そして、同一の初期段組に含まれる行ブロックの集合を、適切に境界線を設定して行ブロックをまたぐことなく分割して、該初期段組を構成する初期カラムとする。
<6-2. Multi-column analysis processing section>
The column
境界線の設定方法は特に指定はなく、最も簡単な例として、初期段組の分類には文書第2方向と平行な直線を使用し、初期カラムの分類には文書第1方向と平行な直線を使用することが挙げられる。例えば、図12の(a)のように横書きの文書画像から行ブロックの構造が解析された場合、図12の(b)のように行ブロックを初期段組に分類され、さらに初期段組は図12の(c)のようにそれぞれ初期カラムとして分類される。なお、図12の(b)及び(c)では、段組間の境界線は実線で、カラム間の境界線は一点鎖線で示されている。 The method of setting the boundary line is not particularly specified. As the simplest example, a straight line parallel to the second direction of the document is used for classification of the initial column, and a straight line parallel to the first direction of the document is used for classification of the initial column. Can be used. For example, when the structure of a row block is analyzed from a horizontally written document image as shown in FIG. 12A, the row block is classified into an initial column as shown in FIG. Each is classified as an initial column as shown in FIG. In FIGS. 12B and 12C, the boundary lines between the columns are indicated by solid lines, and the boundary lines between the columns are indicated by alternate long and short dash lines.
<6−3.段組の分割禁止(同一段組として許容される行ブロック間距離の算出)>
本来は同一段組であるが、偶然、行ブロックを分割することができるために複数の段組に分かれてしまうようなケースもまれに存在する。こうしたケースに対応するため、例えば連続する2つの行ブロック間の距離を算出し、その距離が所定値(例えば行ブロックの平均行間距離の2倍)以下の2つのブロック間には境界線を引くことを禁止する条件を追加することができる。
<6-3. Prohibition of column division (calculation of distance between row blocks allowed for the same column)>
Although it is originally the same column, there is a rare case where a row block can be divided by chance and thus divided into a plurality of columns. In order to cope with such a case, for example, a distance between two consecutive row blocks is calculated, and a boundary line is drawn between two blocks whose distance is equal to or less than a predetermined value (for example, twice the average inter-row distance of the row blocks). You can add a condition that prohibits this.
図13は、行ブロックB10,B11,B12を左側のカラム、行ブロックB20,B21を右側のカラムとした2段組構成の例を示す。行ブロックB10と行ブロックB11との間、行ブロックB20と行ブロックB21との間が空いているため、行ブロックB10と行ブロックB20から成る2段組構成、及び、行ブロックB11とB12と行ブロックB21とから成る2段組構成として分割してしまう恐れもある。しかし、行ブロックB20の平均行間距離(20)に対して、行ブロックB20と行ブロックB21とのブロック間距離(30)が所定値(20×2=40)以下であるとして、行ブロックB20と行ブロックB21との間に境界線を引くことを禁止することで、これらの行ブロックが2つの異なる段組に分かれることを防ぐことができる。 FIG. 13 shows an example of a two-column configuration in which the row blocks B10, B11, and B12 are on the left column, and the row blocks B20 and B21 are on the right column. Since the space between the row block B10 and the row block B11 and the space between the row block B20 and the row block B21 are vacant, the two-stage configuration including the row block B10 and the row block B20, and the row blocks B11 and B12 and the row block There is also a possibility that it is divided as a two-stage configuration composed of the block B21. However, assuming that the inter-block distance (30) between the row block B20 and the row block B21 is equal to or less than a predetermined value (20 × 2 = 40) with respect to the average inter-row distance (20) of the row block B20, By prohibiting the boundary line from being drawn with the row block B21, it is possible to prevent these row blocks from being divided into two different columns.
<6−4.位置関係以外の情報の活用>
また、行ブロックの位置関係に加えて、行ブロックが持つ各種情報を利用して、段組及びカラムの分類(すなわち境界線の設定)を行うことができる。行ブロックが持つ各種情報の例として、行の長さや主要な文字のサイズ等が挙げられる。隣り合う行ブロック同士でこれらの情報が大きく異なる場合は、同一の段組に分類することを避けるようにすることができる。逆に位置が大きく離れた行ブロック同士でも、例えば同じカラム境界線を共有することができ、かつ類似する情報を持つ場合、同一段組として分類してもよい。
<6-4. Utilization of information other than positional relationships>
Further, in addition to the positional relationship of the row blocks, it is possible to classify columns and columns (that is, set boundary lines) by using various information held by the row blocks. Examples of various information held by the line block include the length of the line and the size of main characters. If these pieces of information differ greatly between adjacent row blocks, it can be avoided to classify them into the same column set. On the other hand, even when the row blocks are far apart from each other, for example, the same column boundary line can be shared and similar information may be classified as the same column.
<6−5.行ブロックが0個もしくは1個しかない場合>
なお、段組解析処理部37に入力されたページ画像が、ただ1つの行ブロックを持つ場合、そのページ画像は1段構成の文書であるとして、境界線の設定は行わない。また、該ページ画像が、1つも行ブロックを持たない場合(すなわち白紙ページの場合)も境界線の設定は行わない。
<6-5. When there are only 0 or 1 row block>
If the page image input to the column
また、文書画像に文書第1方向の文字列行と文書第2方向の文字列行とが混在する場合は、文書第2方向の文字列行の行ブロックを図表行の行ブロックに置き換える。このことにより、文書第1方向に記述された文章の最中に、文書第2方向に記述された文章が混じることを防ぐことができる。 Further, when the document image includes character string rows in the first direction of the document and character string rows in the second direction of the document, the row block of the character string rows in the second direction of the document is replaced with the row block of the chart row. Thus, it is possible to prevent a sentence described in the second direction of the document from being mixed with a sentence described in the first direction of the document.
<6−6.処理例>
段組解析処理部37が実行する処理の具体例として、例えば既に示した図10に示す文書画像から検出された複数の行ブロックに対して段組解析処理を適用する場合について説明する。段組解析処理部37は、図10に示す文書画像を、図14に示す段組及びカラム(淡いグレー地)に分類する。カラムC1及びカラムC2は、それぞれ1段構成の段組G1及び段組G2を成し、カラムC3及びカラムC4は2段組構成の段組G3における左右のカラムを成している。なお、図14では、行(文字列行及び図表行)を直線、行ブロックを点線、カラムを一点鎖線で囲んでいる。
<6-6. Processing example>
As a specific example of the processing executed by the column
<6−7.行順序付け処理部>
行順序付け処理部38は、段組、カラム、行ブロック、及び行の位置関係から文書全体における行の順序を解析し、行順序リストを生成する処理を、以下のルール(1)〜(9)に従って行う。
(1)同じ行ブロックに属する行同士については、横書き文書であれば上から下、縦書き文書であれば右から左の順に優先順位を設定する。ここでは、上記のように既に、行ブロックに分類する際に、その行ブロックに含まれる行についての順序の情報も取得しているため、この情報を利用する。
(2)同じカラムに属する行ブロック同士については、横書き文書であれば上から下、縦書き文書であれば右から左の順に優先順位を設定する。
(3)連続する2つの行ブロック間では、優先順位の高い方の行ブロックの末尾の行の次に、優先順位の低い方の行ブロックの先頭の行が優先されるように設定する。
(4)同じ段組に属するカラム同士については、横書き文書であれば左から右、縦書き文書であれば上から下の順に優先順位を設定する。
(5)連続する2つのカラム間では、優先順位の高い方のカラムの末尾の行ブロックの次に、優先順位の低い方のカラムの先頭の行ブロックが優先されるように設定する。
(6)同じページに属する段組については、横書き文書であれば上から下、縦書き文書であれば右から左の順に優先順位を設定する。
(7)連続する2つの段組間では、優先順位の高い方の段組の末尾のカラムの次に、優先順位の低い方の段組の先頭のカラムが優先されるように設定する。
(8)同じ文書画像ファイルに属するページ同士については、ページ番号の小さい順に優先順位が高くなるよう設定する。
(9)連続する2つのページ間では、優先順位の高いページの末尾の段組の次に、優先順位の低い方のページの先頭の段組が優先されるように設定する。
<6-7. Line ordering processing section>
The line
(1) For the rows belonging to the same row block, priorities are set in the order from top to bottom for horizontal writing documents and from right to left for vertical writing documents. Here, as described above, since the information on the order of the rows included in the row block is already acquired when the data is classified into the row blocks, this information is used.
(2) For row blocks belonging to the same column, priorities are set in order from top to bottom for horizontal writing documents and from right to left for vertical writing documents.
(3) Between two consecutive row blocks, the first row of the row block with the lower priority is set to be given priority after the last row of the row block with the higher priority.
(4) For columns belonging to the same column, priorities are set in order from left to right for horizontally written documents and from top to bottom for vertically written documents.
(5) Between two consecutive columns, the first row block of the lower priority column is set to be given priority after the last row block of the higher priority column.
(6) For columns belonging to the same page, priorities are set in order from top to bottom for horizontal writing documents and from right to left for vertical writing documents.
(7) Between two consecutive columns, setting is performed so that the first column in the column with the lower priority is given priority after the column at the end of the column with the higher priority.
(8) For pages belonging to the same document image file, settings are made so that the priorities are higher in order of increasing page numbers.
(9) Between two consecutive pages, setting is made so that the top column of the page with the lower priority is given priority after the last column of the page with the higher priority.
行順序付け処理部38は、上記のルール(1)〜(9)に従って、ページの順序、段組の順序、カラムの順序、行ブロックの順序を決定し、それらにより行の順序付けを行う。順序付けされた行は、各行が属する行ブロック、カラム、段組及びページの順序を示す番号を保有すると共に、先頭から順に各行の行IDを行順序リストに格納する。
行順序リストは、下記の規定(a)〜(c)に従う形式であれば特に構造は問わない。
(a)上記順序付けルールに従って決定された順序通りに行を呼び出すことができる。
(b)呼び出した行について、その座標情報や種類(文字列行か図表行か)等の各種情報を参照することができる。
(c)呼び出した行について、段落情報(後述)を格納することができる。
The row ordering
The structure of the line order list is not particularly limited as long as it conforms to the following rules (a) to (c).
(A) Rows can be called in the order determined according to the ordering rules.
(B) With respect to the called line, various information such as coordinate information and type (whether it is a character string line or a chart line) can be referred to.
(C) Paragraph information (described later) can be stored for the called line.
<6−8.処理例>
行順序付け処理部38が、上記の規定(a)〜(c)に従って、図14の構成の文書画像について行順序リストを生成した例を、図15に示す。行順序リストは、決定された順序の先頭から順に、行のIDと、行の情報として、所属する行ブロックID、行の種別(文字列行であるか図表行であるか)、及び行の範囲を示す外接矩形の左上座標及び右下座標、の情報とを格納し、さらに行毎に段落情報を格納している。なお、図15の例では、改行が発生するときに、その行から新たな段落が始まるとして、段落情報を改行の有無を有り(Yes)か無し(No)かの2通りで示しており、事前に「No」で初期化している。図16のように行ブロックの情報やカラムの情報、段組の情報を別途作成し、相互参照により各行及び各行ブロックが所属するカラム、段組、ページを参照できるようにしておくことで、冗長の少ない行順序リストを構成することができる。もちろん、行順序リスト単独で各行に関する情報を全て抽出できるようにしてもよい。
<6-8. Processing example>
FIG. 15 shows an example in which the line
<6−9.段落解析処理部>
段落解析処理部39は、各行の前後の位置関係等の情報から、その行の位置で改行が発生しているかどうかを判定し、文書画像中の各行を1つ以上の段落に分類する処理を行う。具体的には、行順序リストから複数の行を参照して段落の切れ目、すなわち改行位置を判定し(改行判定処理)、段落毎に行の順序を記述した文書構造ツリーを生成する(文書構造ツリー生成処理)。
<6-9. Paragraph analysis processing section>
The paragraph
ところで、文書中の図表は、必ずしも段落の切れ目に配置されるとは限らず、例えばページの端に挿入される場合が多く、それにより文章が図表を挟んで前後に分かれることがある。この順序のまま行を呼び出し、行を構成する要素(文字、図表)を挿入していくと、図表の挿入によって不自然に途切れた文章が出力されてしまう。そこで、本実施の形態では、段落毎に、文字列行と図表行とが混在した順序ではなく、文字列行の順序と図表行の順序をそれぞれ別に保有する文書構造ツリーを生成する。図17は、文書構造ツリーの構造を示す図である。それにより、文書画像を構成する文字列のみの順序を把握しながら、その段落に係る図表を、段落の先頭や末尾等にまとめて配置できるようにする。 By the way, charts in a document are not necessarily arranged at paragraph breaks, and are often inserted, for example, at the end of a page, so that a sentence may be divided before and after the chart. If the lines are called in this order and the elements (characters, charts) constituting the lines are inserted, sentences that are unnaturally interrupted by the insertion of the charts are output. Therefore, in the present embodiment, for each paragraph, a document structure tree is generated in which the order of character string lines and the order of chart lines are held separately, not the order in which character string lines and chart lines are mixed. FIG. 17 is a diagram showing the structure of a document structure tree. Thereby, while grasping the order of only the character strings constituting the document image, the chart relating to the paragraph can be arranged collectively at the beginning or end of the paragraph.
<6−10.改行判定処理>
図18は、段落解析処理部39における、改行判定処理の概要を示すイメージ図である。改行判定処理は、判定の対象となる注目行と、注目行より前に順序づけられるM個の行と、注目行より後に順序づけられるN個の行と、のM+N+1個の行によって判定される。なお、図18に示す例では、M=N=2としている。なお、改行判定の対象となる行、及びその前後の行は、いずれも文字列行である。本実施の形態では、M+N+1個の行IDバッファL[0],L[1]・・・,L[M+N]を記憶部5に備え、行順序リストで参照されるM+N+1個の行IDをそれぞれ格納することで、注目行と、注目行の前後の行との比較を行う。
<6-10. Line feed judgment processing>
FIG. 18 is an image diagram showing an outline of a line feed determination process in the paragraph
以下、段落解析処理部39の処理内容について詳細に説明する。図19は、段落解析処理部39の処理手順を示すフローチャートである。段落解析処理の開始にあたり、事前に初期化を済ませておく。具体的には、リスト参照番号をLNOW=1とし、行IDバッファには全て無効行(0)を格納しておく。初期化が終わると、注目行にあたる行IDバッファL[M]に、行IDを選択して格納する(ステップS1、以下ではS1のように略す)。任意の行IDバッファL[k](k=0,1,・・・,M+N)の選択方法は以下の(1)〜(3)の通り行われる。
(1)行順序リストにおいて、第LNOW番目から順に、文字列行を探索する。
(2)最初に見つかった文字列行の行IDを行IDバッファL[k]に格納し、そのときの行順序リストの位置(リスト番号)に1を加えた番号を新たなリスト参照番号LNOWとして更新する。
(3)文字列行が見つからないまま行順序リストの末尾まで探索が終了した場合、行IDバッファL[k]には無効行(0)を格納する。
Hereinafter, the processing content of the paragraph
(1) In the line order list, the character string lines are searched in order from the LNOWth.
(2) The row ID of the first found character string row is stored in the row ID buffer L [k], and a number obtained by adding 1 to the position (list number) of the row order list at that time is a new list reference number LNOW. Update as.
(3) When the search is completed up to the end of the line order list without finding the character string line, the invalid line (0) is stored in the line ID buffer L [k].
行L[M]の更新後、行L[M]が有効行(ゼロでない行IDを持つ行)であるかどうかを判定し(S2)、有効行である場合(S2の判定がYES)、S3に移る。一方、L[M]が無効行である場合(S2の判定がNO)、入力した文書画像には文字列行が存在しない図表行のみの文書画像であるとして、文書構造ツリーの生成処理(後述)を実行する(S7)。 After updating the row L [M], it is determined whether or not the row L [M] is a valid row (a row having a non-zero row ID) (S2). If the row L [M] is a valid row (YES in S2), Move on to S3. On the other hand, when L [M] is an invalid line (NO in S2), the document structure tree generation process (described later) is performed assuming that the input document image is a document image of only a chart row in which no character string row exists. ) Is executed (S7).
次に、注目行より後の行に当たる行IDバッファL[M+1],・・・,L[M+N]に、行IDを選択して格納する(S3)。各バッファにおける行IDの選択方法は上記と同様であるため省略する。続いて、注目行L[M]の改行判定を実行する(S4)。改行判定は、改行判定対象となる注目行L[M]と、注目行より前に位置する行L[0],・・・,L[M−1]及び注目行より後に位置する行L[M+1],・・・,L[M+N]からなる複数の行を用いた公知の方法で行うことができる。簡単な例として、改行判定対象のインデントの有無を確認する方法がある。行L[M]の開始位置が、他の行に比べて文書第1方向に正値のずれが生じている場合に、行L[M]はインデントを持ち、行L[M]の位置で改行がなされているとみなすことができる。また、改行判定対象行L[M]の1つ前の行L[M−1]が、他の行に比べて短い場合、行L[M]の位置で改行がなされているとみなすことができる。例えば、図18(M=N=2)のような横書きの文字列行が存在している場合、注目行L[2]の開始位置が、他の行に比べて右側(横書きの場合の正方向)にずれており、また1行前の行L[1]が他の行に比べて短いという特徴を持っており、これらの結果から、注目行L[2]は総合的に改行位置であるとして判定され易くなる。なお、文書編集者の好み等により段落の先頭行でインデントが付加されない場合もあり、また1つ前の段落の最終行が必ずしも短くなるとは限らないため注意する。 Next, the row ID is selected and stored in the row ID buffers L [M + 1],..., L [M + N] corresponding to the row after the target row (S3). Since the selection method of the row ID in each buffer is the same as described above, the description is omitted. Subsequently, line feed determination for the target line L [M] is executed (S4). Line break determination is performed by the attention line L [M] to be the line break determination target, the lines L [0],..., L [M−1] positioned before the target line, and the line L [ M + 1],..., L [M + N] can be performed by a known method using a plurality of rows. As a simple example, there is a method of confirming whether or not there is an indent to be detected as a line feed. When the start position of the line L [M] has a positive shift in the first direction of the document compared to the other lines, the line L [M] has an indent, and the position of the line L [M] It can be considered that a line feed has been made. In addition, when the line L [M−1] immediately before the line feed determination target line L [M] is shorter than the other lines, it may be considered that a line break is made at the position of the line L [M]. it can. For example, when there is a horizontally written character string line as shown in FIG. 18 (M = N = 2), the start position of the target line L [2] is on the right side (the correct line in the case of horizontal writing) as compared to the other lines. And the previous line L [1] is shorter than the other lines. From these results, the target line L [2] It becomes easy to determine that there is. Note that indentation may not be added to the first line of a paragraph depending on the preference of the document editor, and the last line of the previous paragraph is not necessarily shortened.
改行位置であるかどうかの判定の他の例としては次のものがある。注目行の文字サイズが周辺の行に比べて大きく異なるかどうかを判定することで、見出し行のように文字サイズが大きくなっている行、また補足コメント等のように逆に文字サイズが小さくなっている行等で改行位置と判定することができる。また、周辺の連続する2つの行の行間距離に比べて、注目行とその1つ前の行との行間距離が大きくなっている場合に、1つ前の行で段落が終了している可能性が高くなる。上記挙げられた条件を例として、様々な条件を複合的に判定して、注目行における改行の有無を設定するのが好ましい。 Another example of determining whether a line feed position is present is as follows. By determining whether the character size of the line of interest is significantly different from the surrounding lines, the character size is reduced, such as a line with a large character size, such as a heading line, or a supplementary comment. It can be determined that the line is at a line break position. In addition, when the distance between the target line and the previous line is larger than the distance between two adjacent consecutive lines, the paragraph may end at the previous line. Increases nature. Taking the above-mentioned conditions as an example, it is preferable to determine whether or not there is a line break in the line of interest by determining various conditions in combination.
行L[M]の改行判定の結果は、行順序リストのL[M]に該当する行情報に段落情報として反映させる。段落情報は段落の切れ目が判るものであれば何でもよく、最も簡単な例として、改行の有無をYesあるいはNoの2通りで示すだけでもよい。 The result of line feed determination for line L [M] is reflected as paragraph information in the line information corresponding to L [M] in the line order list. The paragraph information may be anything as long as the break of the paragraph is known. As the simplest example, the presence / absence of a line feed may be indicated in two ways, Yes or No.
改行判定対象行L[M]の改行判定が終了すると、注目行の次の行L[M+1]が有効行であるかどうかを判定し(S5)、L[M+1]が有効行である場合(S5の判定がYES)、行IDバッファの更新を行い、次の行についての改行判定を行う準備をする(S6)。行IDバッファの更新は、具体的には、図20に示すように、L[0]=L[1],・・・,L[M+N−1]=L[M+N]としてバッファを1つずつずらすとともに、バッファL[M+N]を新たに行順序リストから選択する。バッファL[M+N]の選択方法は前述の方法と同様であるため省略する。バッファの更新後、S4に戻り、更新された注目行L[M]について、改行判定を行う。これを、S5で判定がNOとなるまで繰り返す。S5の判定がNOとなると、全ての文字列行について改行判定が終了したことになり、文書構造ツリーの生成処理を実行する(S7)。 When the line feed determination of the line feed determination target line L [M] is completed, it is determined whether or not the line L [M + 1] next to the target line is a valid line (S5), and if L [M + 1] is a valid line ( If the determination in S5 is YES), the line ID buffer is updated, and preparations are made for line feed determination for the next line (S6). Specifically, as shown in FIG. 20, the row ID buffer is updated with L [0] = L [1],..., L [M + N−1] = L [M + N] one by one. At the same time, the buffer L [M + N] is newly selected from the row order list. Since the method for selecting the buffer L [M + N] is the same as that described above, a description thereof will be omitted. After updating the buffer, the process returns to S4, and a line feed is determined for the updated attention line L [M]. This is repeated until the determination is NO in S5. If the determination in S5 is NO, the line feed determination has been completed for all the character string rows, and the document structure tree generation process is executed (S7).
<6−11.文書構造ツリー生成処理>
段落解析処理部39による文書構造ツリー生成処理は、段落情報を考慮した行順序リストに格納された段落情報に従って実行される。但し、文書構造ツリーは事前に、図21に示すような1つの空の段落(第0段落)を持つ状態に初期化されているものとする。初期段落番号をPNOW=0として、行順序リストの先頭から順に行の情報を参照し、段落情報から該行が段落開始行と判定された場合(段落情報がYES)のみ、PNOW=PNOW+1として段落番号の更新を行い、また文書構造ツリーに空の段落(第PNOW段落)を新たに追加する。そして、該行が文字列行である場合、文書構造ツリーの第PNOW段落が持つ文字列ツリーの末尾に該行の行IDを追加する。一方、該行が図表行である場合、文書構造ツリーの第PNOW段落が持つ図表ツリーの末尾に該行の行IDを追加する。これを行順序リストの各行について反復し、末尾まで探索が終了すると、文書構造ツリーの生成処理を終了する。なお、文字列行の改行位置から次の改行位置までが1つの段落となるので、図表行が段落の分類から漏れるということはない。そのため、ひと固まりの文字列行の後に図表行があり、その後新しい段落が始まる(改行が発生する)場合は、その図表行は1つ前の段落に含まれることになる。
<6-11. Document structure tree generation processing>
The document structure tree generation process by the paragraph
<6−12.処理例>
段落解析処理部39が実行する処理の具体例として、図6の構成の文書画像(図15に示す初期の行順序リストを持つ)に段落解析処理部39での処理を適用する場合について説明する。見出しに当たる行ID:101、行ID104、行ID:129の各行は、行の文字サイズや1つ前の行間距離等の条件から、改行位置と判定される。また行ID:106、行ID:112、行ID:119及び行ID:131の各行は、前後の複数の行に比べ、行の開始位置が文書第1方向において正方向にシフトしている、よってインデントが存在するとして、改行位置と判定される。行ID:102の行も、見出し行の行ID:101の次の行であることから、改行位置と判定することができる。従って、行ID:101、102、104、106、112、129、131、119の各行が改行位置として設定され、行順序リストの段落情報は、図22のように更新される。
<6-12. Processing example>
As a specific example of the processing executed by the paragraph
例えば、行順序リストが図22のように、段落情報として改行の有無(YesもしくはNo)が表されている場合、改行がある行から新しい段落が開始するとみなせるため、改行がある(Yes)場合に該行が段落開始行として判定することができる。また、段落が開始してから、次の改行位置が見つかるまでの行を同一の段落の範囲とみなす。更新された行順序リストの段落情報に従い、図6の文書画像を段落毎に分類すると、図24に示すように分類することができる。図24において、段落R7は、左下の3行の文字列行(行ID:131,133,135)から、右上の図表行(行ID:105)及び4行の文字列行(行ID:111,113,115,117)までを同一の段落の範囲としており、行ID:135と行ID:111との文字列行の間に改行位置は存在しないため、一続きの文章を構成することが可能となる。更に、この行順序リストに従って文書構造ツリーを生成すると、図23に示すような文書構造ツリーを得ることができる。 For example, when the line order list indicates whether or not there is a line break (Yes or No) as paragraph information as shown in FIG. 22, it can be considered that a new paragraph starts from a line with a line break, and therefore there is a line break (Yes). The line can be determined as the paragraph start line. Also, the line from the start of the paragraph until the next line feed position is found is regarded as the same paragraph range. If the document images in FIG. 6 are classified for each paragraph in accordance with the updated paragraph information in the line order list, they can be classified as shown in FIG. In FIG. 24, the paragraph R7 starts from the lower left three character string lines (line ID: 131, 133, 135), the upper right chart line (line ID: 105), and the four character string lines (line ID: 111). , 113, 115, 117) are the same paragraph range, and there is no line break position between the character string lines of line ID: 135 and line ID: 111, so that a series of sentences can be formed. It becomes possible. Furthermore, when a document structure tree is generated according to this line order list, a document structure tree as shown in FIG. 23 can be obtained.
[7.変換可否判定処理部]
<7−1.変換可否判定処理部の処理>
変換可否判定処理部34は、行解析処理部31からレイアウト解析処理部33までの処理にて得られた情報(文書画像から抽出した文字列あるいは図又は表の特徴量)から、文書画像を次に示す条件によってリフロー型に変換するか否か、言い換えれば、文書画像に含まれる各要素を再構成するか否か、を判定する。
第1の条件:行解析処理部31により文書内に縦書きの行と横書きの行とが無視できない比率で混在しており文書全体の方向を一意に判別できないと判定された。
第2の条件:行解析処理部31の処理では図表行しか抽出されなかった。
第3の条件:行解析処理部31にて抽出された文字列の行数が、所定の閾値(THln)(第1閾値)以下である。
第4の条件:行解析処理部31にて抽出された全ての文字列の行に対する、横書きの行の高さ(縦書きの場合は行の幅)が、所定の閾値(THcs)(第2閾値)以上である。
第5の条件:レイアウト解析処理部33にて順序付けられた横書き又は縦書きの行ブロックの位置が、一定の範囲(THrg)内には揃っていない。
[7. Conversion enable / disable determination processing unit]
<7-1. Processing of conversion possibility determination processing unit>
The conversion possibility
First condition: The line
Second condition: In the processing of the row
Third condition: The number of lines of the character string extracted by the line
Fourth condition: The height of the horizontal writing line (the width of the line in the case of vertical writing) for all the character string lines extracted by the line
Fifth condition: The positions of the horizontal writing or vertical writing row blocks ordered by the layout
変換可否判定処理部34は、入力文書画像が以上の5つの条件の何れかに当てはまる場合には、リフロー型に変換しないと判定する。そして、変換可否判定処理部34は、リフロー型に変換しないと判定した場合は、圧縮処理部21に判定信号を出力する。圧縮処理部21では、上記判定信号を受信すると、RGBの画像データを例えば、JPEGファイルフォーマットに変換して出力する。すなわち、フィックス型で表示されるように画像全体をそのまま出力する。このように、本実施形態では、圧縮処理部21が、リフロー型に変換しないと判定された文書画像をフィックス型の表示が可能にフォーマット変換するフォーマット変換処理部として機能する。
The conversion possibility
また、変換可否判定処理部34は、入力文書画像が以上の5つの条件の何れかも当てはまらない場合には、リフロー型に変換すると判定する。リフロー型に変換すると判定された文書画像については、次の再配置処理部35にて、参照リストの生成が行われる。
The conversion possibility
<7−2.判定条件の詳細>
上記5つの条件についてそれぞれ詳細に説明する。
<7-2. Details of judgment conditions>
Each of the above five conditions will be described in detail.
まず、第1の条件について説明する。上記したように、行解析処理部31は、取得した全ての文字列の持つ方向を分類し、その比率により文書第1方向を決定する際に、例えば、単純に横書きもしくは縦書きの文字列の数をカウントする。そして、カウントした数の比率を算出することにより、算出した比率が所定閾値(例えば、0.7)以下である場合、文書画像には縦書きの行と横書きの行とが無視できない比率で混在していると判定する。そのため、文書全体の方向を一意に判別できず、また、レイアウト解析する際にも、縦書きと横書きの行をどう接続していけばよいかの判定が困難になる。よって、リフロー型に変換しないと判定する。
First, the first condition will be described. As described above, the line
次に、第2の条件について説明する。行解析処理部31にて図表行しか抽出されなかった場合、図や表などはその中に文字があったとしても、レイアウトを崩さずにそのまま表示しないと内容がわからなくなってしまう可能性がある。よって、リフロー型に変換しないと判定する。
Next, the second condition will be described. If only the diagram line is extracted by the line
次に、第3の条件について説明する。行解析処理部31にて抽出した文字列の行数が例えば5行以下(THln=5)であった場合には、わざわざリフロー型にして読むほどの行数でもないと考えられる。そのため、リフロー型に変換しないと判定する。この閾値(THln)をいくつにするかは、例えば、表示する画面のサイズと行の文字サイズに応じて1画面で表示できる行数分を閾値とすることが考えられる。
Next, the third condition will be described. If the number of lines in the character string extracted by the line
次に、第4の条件について説明する。行解析処理部31にて抽出した全ての文字列の行に対し、横書きの行の高さ(縦書きの場合は幅)が例えば40画素以上(THcs=40)であった場合には、文字が十分大きいので、縮小表示しても十分可読性があると考えられる。よって、リフロー型に変換しないと判定する。この閾値(THcs)をいくつにするかは、例えば、表示する画面のサイズと画像全体のサイズによる縮小率と、縮小した場合に読める最小のフォントサイズの画素数とから、元の画像での1文字の大きさの画素数を算出し、それを閾値とすることが考えられる。
Next, the fourth condition will be described. If the height of a horizontal writing line (width in vertical writing) is, for example, 40 pixels or more (THcs = 40) with respect to all the character string lines extracted by the line
次に、第5の条件について説明する。レイアウト解析処理部33にて順序付けられた横書き又は縦書きの行ブロックの位置が、一定の範囲内に揃っていない場合には、整理されて段組みされたレイアウトでない可能性が高いため、行ブロックの接続が失敗し、誤った行ブロック同士をつないでしまう可能性が高い。そのため、リフロー型に変換しないと判定する。例えば、図31に示すように縦書きの行ブロックが複数存在し、また、図表も複数存在している文書画像について考える。この文書画像について、行ブロックのブロックサイズと位置情報からレイアウト解析処理部33で順序付けられた行ブロックの位置のずれを求める。ここで、一定の範囲内で揃っているかどうかの閾値(THrg)としてTHrg=40とすると、どの行ブロックも閾値(THrg)を超えており、一定範囲内に揃っていないということになる。このような場合、ブロック単位で上から順に行を接続していくと、縦書き1→縦書き2→縦書き4→縦書き3の順に接続されてしまい、正しい順序にならない。また、ブロック単位で右から順に行を接続した場合には、縦書き1→縦書き3→縦書き2→縦書き4の順に接続されてしまい、こちらも正しい順序にはならない。このように行の接続順序が失敗する可能性が高くなる。そのため、このようにブロック位置が揃っていない文書画像の場合には、リフロー型に変換しないと判定する。
Next, the fifth condition will be described. If the positions of the horizontal or vertical row blocks ordered by the layout
変換可否判定処理部34がリフロー型に変換しないと判定した文書画像(ページ)とリフロー型に変換すると判定した文書画像とを混在して表示させる処理については、後述の<9−3>の章にて説明する。
The processing for displaying the document image (page) determined not to be converted into the reflow type by the conversion possibility
[8.再配置処理部]
<8−1.再配置処理部の処理>
再配置処理部35は、変換可否判定処理部34にてリフロー型に変換すると判定された文書画像に対して、以下の様に参照リストを生成する。
[8. Relocation processing section]
<8-1. Processing of Relocation Processing Unit>
The
再配置処理部35は、レイアウト解析処理部33で定義した順序に従って行を呼び出す。そして、呼び出した行が文字列行である場合は対応する文字列行の先頭から順に文字を呼び出し、呼び出した行が図表行である場合は対応する図又は表を呼び出して、各要素の参照情報(要素を呼び出すための情報)を順に記述する。更に、要素が改行位置が含まれる行の末尾の要素である場合は、改行命令を挿入して参照リストを生成する。
The
つまり、参照リストは、文字列行及び図表行の順序付けに従って、文書画像に含まれる各要素の順序が、文字列中の文字においては文書第1方向に沿って、記述されている。ここで、参照リストは、HTMLに代表されるようなマークアップ言語形式で記述することができる。以下では、HTMLファイルとして記述する場合を例として、再配置処理部35の詳細について説明する。
That is, in the reference list, the order of each element included in the document image is described along the first direction of the document in the character string according to the ordering of the character string line and the chart line. Here, the reference list can be described in a markup language format represented by HTML. Below, the case where it describes as an HTML file is taken as an example, and the detail of the
図25は、再配置処理部35の処理手順を示すフローチャートである。以下、図25に従って再配置処理部35の処理内容を説明する。
FIG. 25 is a flowchart illustrating a processing procedure of the
図25に示すように、まず、ファイルのヘッダの記述を行う(S11)。ファイルのヘッダは、そのファイルの各種情報を記述するものである。例えばHTMLファイルの場合、図26に示すように、そのファイルがHTML言語で記述されていることの宣言(<HTML>タグ)や、本文には記載しないファイルの情報、例えばスタイルの定義やページタイトル等の情報、コメント、本文の記述が開始することの宣言(<BODY>タグ)等が含まれる。 As shown in FIG. 25, first, a file header is described (S11). The file header describes various information of the file. For example, in the case of an HTML file, as shown in FIG. 26, a declaration that the file is described in the HTML language (<HTML> tag), information on a file that is not described in the text, such as a style definition and a page title. Etc., a comment, a declaration that the body description starts (<BODY> tag), and the like.
続いて、本文の記述を行う。ここでは、レイアウト解析処理部33で生成した文書構造ツリーの第0段落を初期呼び出し位置として、呼び出し位置において文書構造ツリーから段落の情報が呼び出し可能であるかどうかを判定する(S12)。呼び出し可能である場合(S12の判定がYES)、文書構造ツリーから段落を呼び出し、該段落が少なくとも1行以上の行を持つかどうか判定する(S13)。該段落が少なくとも1行以上の行を持つ場合(S13の判定がYES)、該段落を構成する全ての行の情報を順次呼び出し、該行に含まれる要素を参照してファイルで表示するための記述を行うファイル記述処理を実行する(S14)。他方、該段落が1つも行を持たない場合(S13の判定がNO)、呼び出し位置を次の段落に移し、S12に戻る。
Next, the body text is described. Here, using the 0th paragraph of the document structure tree generated by the layout
図27は、S14でのファイル記述処理の処理手順を示すフローチャートである。呼び出した段落について、初めに、段落が開始することを宣言する段落開始宣言命令(後述の<8−2>の章を参照)を実行する(S21)。その後、該段落が持つ文字列行を、文書構造ツリーの先頭から順次呼び出し、該行に含まれる文字要素を参照するための要素参照処理を実行する(S22)。つまり、該行の先頭から順に要素(文字)を呼び出し、該要素の参照命令を実行する。具体的には、該行の先頭から順に要素を呼び出して、全ての要素に対して同様の処理を繰り返す。 FIG. 27 is a flowchart showing the procedure of the file description process in S14. For the called paragraph, first, a paragraph start declaration command (see the section <8-2> described later) for declaring that the paragraph starts is executed (S21). Thereafter, the character string lines of the paragraph are sequentially called from the top of the document structure tree, and element reference processing for referring to the character elements included in the line is executed (S22). That is, the elements (characters) are called in order from the top of the line, and the reference instruction for the element is executed. Specifically, the elements are called in order from the top of the line, and the same processing is repeated for all the elements.
全ての要素に対して参照命令を終了すると、該行についての参照処理を終了し、次の文字列行を呼び出して同様の処理を繰り返す。以上の処理を、文書構造ツリーにおける該段落が持つ全ての文字列行(該段落の文字列行ツリーに含まれる全ての文字列行)に対して実行する。該段落の文字列行ツリーに含まれる全ての文字列行に対する要素参照処理を終えると、次に、図表行の要素参照処理を実行する(S23)。図表行は1つの要素しか持たないため、各図表行について1回の参照命令を行うと、該段落の持つ次の図表行(該段落の図表行ツリーに含まれる次の図表行)を呼び出し、同様の参照処理を実行する。該段落の図表行ツリーに含まれる全ての図表行について参照命令を実行すると、最後に、該段落についてのファイル記述処理が終了することを宣言する段落終了宣言(後述の<8−2>の章を参照)を実行し(S24)、ファイル記述処理(S14)を終了する。 When the reference command is completed for all the elements, the reference process for the line is terminated, the next character string line is called, and the same process is repeated. The above processing is executed for all character string rows (all character string rows included in the character string row tree of the paragraph) of the paragraph in the document structure tree. When the element reference processing for all the character string rows included in the character string row tree of the paragraph is completed, the element reference processing for the chart row is executed (S23). Since a chart row has only one element, if a reference instruction is performed once for each chart row, the next chart row (the next chart row included in the paragraph's chart row tree) of the paragraph is called, A similar reference process is executed. When the reference instruction is executed for all the chart rows included in the chart row tree of the paragraph, finally, a paragraph end declaration (chapter <8-2> described later) is declared to end the file description processing for the paragraph. ) Is executed (S24), and the file description process (S14) is terminated.
図25に戻り説明を続ける。S14の後は、呼び出し位置を次の段落に更新し、S12に戻る。 Returning to FIG. 25, the description will be continued. After S14, the call position is updated to the next paragraph, and the process returns to S12.
以上の処理を、S12の判定がNOになる、すなわち、文書構造ツリーの全ての段落に対するファイル記述処理を終了するまで反復する。S12の判定がNOになると、フッタの記述を行う(S15)。図26に示すように、フッタには、ヘッダの記述において開始を宣言した事項(例えば、本文の記述や、HTML言語の記述の開始等)の終了の宣言等が含まれる。フッタ部分の記述を終えるとファイルを保存し(S16)、終了する。なお、当該ファイルは、再配置処理部35から出力される。
The above processing is repeated until the determination in S12 is NO, that is, the file description processing for all the paragraphs in the document structure tree is completed. If the determination in S12 is NO, the footer is described (S15). As shown in FIG. 26, the footer includes a declaration of the end of matters (for example, a description of the body text, a description of the start of HTML language description, etc.) declared to be the start in the header description. When the description of the footer part is finished, the file is saved (S16) and the process ends. The file is output from the
<8−2.各命令の例>
段落開始宣言命令の例として、例えば、段落タグ<p>を挿入する方法が挙げられる。この場合、段落終了宣言命令は必ず段落タグ</p>を挿入する方法とする。また、別の方法として、段落開始宣言命令は特に何も行わず、段落終了宣言命令として改行タグ<br>を挿入する方法も挙げられる。要素の参照命令は、例えば、出力ファイルに画像表示タグ<img>を挿入して、該要素の切り取り画像ファイルのパスを指定して表示させる方法が挙げられる。また、図表要素の参照命令は文字要素の参照命令と同様としてもよいし、図表要素の場合のみ、改行タグ<br>や表タグ<table>及び</table>等の挿入処理と組み合わせることで、より視認性の高いレイアウトを構成することができる。
<8-2. Example of each command>
As an example of a paragraph start declaration command, for example, a method of inserting a paragraph tag <p> can be mentioned. In this case, a paragraph end declaration instruction is always inserted into the paragraph tag </ p>. As another method, there is a method of inserting a line feed tag <br> as a paragraph end declaration command without performing any particular paragraph start declaration command. The element reference command includes, for example, a method in which an image display tag <img> is inserted into an output file, and the path of the cut image file of the element is designated and displayed. In addition, the reference instruction for the chart element may be the same as the reference instruction for the character element, and only in the case of the chart element, it can be combined with insertion processing such as a line feed tag <br>, table tags <table>, and </ table>. A layout with higher visibility can be configured.
<8−3.図表を段落の先頭に配置修正したい場合>
上記では、各段落において図表を本文の後に配置する場合の処理手順について説明した。反対に、図表を本文の前に配置したい場合は、図27において、S22とS23とを入れ替えることで容易に実現できる。また、図表を、段落の末尾に配置、段落の先頭に配置、もしくは図表を表示しない(文字列のみ表示する)等の複数のモードから操作パネル6を通じてユーザが指定できるようにしてもよい。
<8-3. If you want to modify the chart at the beginning of the paragraph>
In the above, the processing procedure in the case of arranging the chart after the text in each paragraph has been described. On the other hand, if it is desired to place the chart in front of the text, it can be easily realized by replacing S22 and S23 in FIG. In addition, the user may be able to specify the chart through the
<8−4.文書のスタイルの定義>
上記命令のほか、スタイルシートを組み込むことで、文書のファイル書式を変更しても構わない。スタイルシートは、HTML言語等で構造化された文書の見栄え、表示形式を効率的に制御する公知の手段である。これらの見栄え等の情報を「スタイル」と呼ぶ。スタイルシートは専用のコンピュータ言語で実現され、その例として、CSS(Cascading Style Sheet)等が挙げられる。また、スタイルシートを定義する場所は大きく分けて3つある。それは、ヘッダ要素内(<head>〜</head>間)にスタイル要素(<style>〜</style>)を追加してスタイルを記述する方法、スタイルを記述した外部ファイルを用意して、参照リストのヘッダ要素内で前記外部ファイルを呼び出す方法、及び本文部分(<body>〜</body>間)における各種タグにおいて、そのタグにのみ有効となるスタイルを記述する方法、である。これらの方法はただ1つに選択されるものではなく、複数の方法を組み合わせてスタイルシートを定義することもできる。本実施の形態では、公知の方法を利用するものとして以下では詳述をせず、簡単な記述例の紹介に留める。
<8-4. Definition of document style>
In addition to the above command, the file format of the document may be changed by incorporating a style sheet. A style sheet is a known means for efficiently controlling the appearance and display format of a document structured in an HTML language or the like. Such information such as appearance is called “style”. The style sheet is realized by a dedicated computer language, and examples thereof include CSS (Cascading Style Sheet). There are three main locations for defining style sheets. It includes a method of describing a style by adding a style element (<style> to </ style>) in a header element (between <head> to </ head>), and an external file describing the style. A method of calling the external file in the header element of the reference list, and a method of describing a style that is valid only for the tag in various tags in the body part (between <body> to </ body>). These methods are not just selected, and a style sheet can be defined by combining a plurality of methods. In this embodiment, it is assumed that a known method is used and will not be described in detail below, but only a simple description example will be introduced.
図28は、CSS形式で記述したスタイルシートの外部ファイルの例である。図中の範囲Aでは、段落を定義するタグ<p>のスタイルを定義しており、この例では各段落の先頭行に、1文字分のインデントを付加することが定義されている。これにより、段落開始宣言タグが呼び出された場合は常に1文字分のインデントを付加することができる。範囲Bと範囲Cでは、ともに画像を参照するタグ<img>のスタイルを定義しているが、範囲Bではgaijiというクラスに属する場合に限定したスタイルであり、範囲Cではfigというクラスに属する場合に限定したスタイルである。 FIG. 28 is an example of an external file of a style sheet described in the CSS format. In the range A in the figure, the style of the tag <p> that defines a paragraph is defined. In this example, it is defined that an indent for one character is added to the first line of each paragraph. Thereby, when the paragraph start declaration tag is called, an indent for one character can always be added. In the range B and the range C, the style of the tag <img> that refers to the image is defined, but in the range B, the style is limited to the case belonging to the class gajii, and in the range C, the style belongs to the class ig This is a limited style.
このように、同じタグに対しても、それぞれ固有のスタイルを持つ複数のクラスを定義して外部ファイルとして保存し(ここではstyle.cssというファイル名をつけている)、図29に示す例(HTML言語で記述、一部のみ抜粋)のように、ヘッダ内で図29の(a)に示すような前記外部ファイル(図28のものと同じ)を読み込み(図29の(b)の3行目)、各タグにおいて所望のスタイルを持つクラスを指定することで、局所的なスタイルの指定を行うことが可能となる。図28及び図29の例では、画像の参照時において、文字を表わす画像である場合に、imgタグ内において、図29の(b)に示すようにclass=”gaiji”と記述することで、gaiji(外字)クラスを指定し、図表を表わす画像である場合にはclass=”fig”と記述することで、fig(図)クラスを指定しており、このように要素毎に適切なスタイルを定義することで、より見栄えのよい文書を表示することが可能となる。 In this way, a plurality of classes having unique styles are defined for the same tag and saved as an external file (here, the file name is style.css), and an example shown in FIG. Read the external file (same as in FIG. 28) as shown in FIG. 29 (a) in the header as described in the HTML language (partially excerpted) (3 lines in FIG. 29 (b)). Eye) By specifying a class having a desired style in each tag, it is possible to specify a local style. In the example of FIG. 28 and FIG. 29, when referring to an image, if it is an image representing a character, by describing class = “gaiji” as shown in FIG. 29B in the img tag, A gaiji (external character) class is specified, and in the case of an image representing a chart, a class (“fig”) is specified by describing class = “fig”, and thus an appropriate style is specified for each element. By defining it, it becomes possible to display a document with better appearance.
また、操作パネル6でこれらのスタイルを選択して指定できるようにしてもよい。例えば、文書画像データから決定した文書第1方向とは別に、再配置する際の文書の方向を、操作パネル6を通じてユーザが指定できるようにしてもよい。具体的には、HTML言語形式のフォーマットにおいてCSS形式によりhtml{ writing−mode: tb−rl;}とスタイルシートを定義することで、本文全体の文書の行方向を上から下、更に行が右から始まり左に進む、すなわち縦書き表記が可能となる。
Further, these styles may be selected and designated on the
従って、縦書きでのリフロー型の表示が選択された場合に、前記のようなスタイルシートの定義を追加するようにすることで、縦書き表示を実現できるようになる。なお、縦書き表記の実現方法は前記の方法以外の方法をとることができる。また、出力時の文書の方向として「自動モード」を準備し、行解析処理部31で得られた文書第1方向と同じ方向で出力するように自動的に選択するようにすることもできる。
Therefore, when the reflow type display in the vertical writing mode is selected, the vertical writing display can be realized by adding the style sheet definition as described above. Note that a method other than the above-described method can be used as a method for realizing vertical writing. In addition, “automatic mode” may be prepared as the document direction at the time of output, and the document may be automatically selected to be output in the same direction as the first direction of the document obtained by the line
<8−5.他のファイル形式>
本実施の形態の再配置処理部35においては、入力された文書画像からHTMLファイルを出力する場合について述べたが、出力するファイルは、HTMLファイルに限らず、リフロー型表示を実現するあらゆるファイル形式(例えば、XMLファイル、XMDFファイル等)から選択できる。
<8-5. Other file formats>
In the
本実施の形態では、以上のように、文書画像からその構造を解析し、行の順序を理解することで、行を順に参照し、さらにその行を構成する文字や図表を先頭から順に参照していくことで、フィックス型の画像ファイルとして生成された文書画像であっても、リフロー型のファイルとして変換するための情報(参照ファイル)を得ることができる。また、改行の有無を判定し、段落の範囲を定義することで、文書画像に行の折り返しがあっても、1つの段落内では改行をしないようにするほか、各段落に従属する図又は表の配置を、その段落の先頭や末尾にまとめて表示する等の修正をすることで、文字列と文字列の間に図又は表が挟まれていても、同一段落内とみなされていれば、そのまま図又は表を挟まずに配置するよう修正することにより、文章の連続性及び可読性を向上することができる。 In the present embodiment, as described above, the structure is analyzed from the document image, the line order is understood by referring to the line order, and the characters and diagrams constituting the line are further referred from the top in order. By doing so, even if the document image is generated as a fixed image file, information (reference file) for conversion as a reflow file can be obtained. In addition, by determining the presence or absence of line breaks and defining the range of paragraphs, in addition to preventing line breaks within a single paragraph even if the document image has line wrapping, a figure or table subordinate to each paragraph If the figure is placed within the beginning or end of the paragraph and the figure or table is sandwiched between the strings, it can be considered to be within the same paragraph. The continuity and readability of the text can be improved by modifying the layout so that the figure or table is not sandwiched as it is.
以上のように、参照リストは、文字列行及び図表行の順序付けと文書の記述方向とに従ったものであり、リフロー型のファイルとして変換するための情報である。参照リストとして、文書画像をリフロー型表示が可能なファイル形式に変換したものを生成することで、処理量を減らして、あらゆる表示装置の表示領域(表示画面)にそれぞれ適したレイアウト配置が可能となる。参照リストを用いることで、表示装置では、文書画像の文書の記述方向に垂直な方向のスクロール操作のみでの表示を実現することが可能となる。 As described above, the reference list is information for conversion as a reflow type file according to the ordering of character string lines and chart lines and the document description direction. As a reference list, a document image converted into a file format that can be displayed in reflow format can be generated, reducing the amount of processing and enabling a layout arrangement suitable for each display area (display screen) of any display device. Become. By using the reference list, the display device can realize display only by scroll operation in a direction perpendicular to the document description direction of the document image.
また、参照リストを、文書構造を列記したテキストデータとして参照リストを生成することで、閲覧用途でなく文書構造の解析用途とすることができる。加えて、出力されたテキスト形式の参照リストから更に所望のファイルフォーマットに変換することで、別のファイルフォーマットで出力したい場合に最初から処理をやり直さなくてもよくなる。 Also, by generating the reference list as text data listing the document structure, the reference list can be used for analyzing the document structure instead of for browsing. In addition, by converting the output text format reference list into a desired file format, it is not necessary to perform the process from the beginning when it is desired to output in another file format.
[9.表示装置]
<9−1.表示装置での参照リストの使用>
前記生成された参照リスト及び切り出した各要素の画像データは、本実施形態の画像形成装置100が備える送信装置4から送信され、図示しない受信側の装置である表示装置(例えば、スマートフォンやタブレット等であってもよい)が備えるアプリケーションである閲覧プログラム(ビューア)を通じて閲覧することができる。参照リストが取るファイル形式によって最適な閲覧プログラムは異なり、例えば、参照リストとしてHTMLファイルの形式をとる場合、Internet Explorer(登録商標)等、良く知られたHTML5をサポートしたウェブブラウザを用いて開くことで、容易にリフロー型の表示を実現することが可能となる。
[9. Display device]
<9-1. Use of reference lists on display devices>
The generated reference list and the image data of each extracted element are transmitted from the
なお、特定のマークアップ言語形式のファイルに変換せず、各要素(文字、図、表)を参照する順序と段落の開始宣言及び終了宣言等、再配置処理部35で得られた文書構造を列記したテキストデータとして参照リストを生成することもできる。この参照リストは、例えば文書構造の解析結果として利用することも可能であるし、受信側の装置が備えるコンピュータプログラム(変換プログラム)等によって、所望のファイル形式に変換することも可能である。また、このようにファイル形式の変換を二段階とすることで、処理ステップ数の増加はあるものの、同じ文書画像データから複数のファイル形式への変換を行いたい場合に参照リストを共通で使用することが可能となる。さらに、前記変換プログラムにおいてレイアウト解析結果の手動による修正も可能となる。
It should be noted that the document structure obtained by the
受信側の表示装置では、画像形成装置100から送信される参照リストとして、表示装置の備えるビューアアプリケーションに適したファイル形式(HTML等)に変換したものを受信すると、そのアプリケーションにおいてファイルを読み込むだけでリフロー型の文書に変換されたものを表示できるので、特別な処理はない。ただし、参照リストが特定のビューアと関連付けされていない、たとえば、最も単純な形式として座標情報等を列記しただけのようなものである場合、そのままではリフロー型の表示はできない。このような参照リストを受信した場合、再配置するための処理は必要となるが、公知の処理を利用することができる。
When the display apparatus on the receiving side receives a reference list transmitted from the
また、表示装置の表示領域の表示幅に合わせて、参照リストが参照する文字は、折り返し部分が変更され、図や表については、表示幅に合わせて縮小又は拡大表示される。例えば、上記<8−4>で説明したように、図又は表にfigクラスを割り当て、HTMLファイル形式で出力する場合、画像の幅(もしくは高さ)を表示装置の表示幅(もしくは高さ)に対する割合として設定することで、表示装置の表示幅や表示倍率が変更となった場合でも、そのときの表示幅(もしくは高さ)に合わせて自動調整させることが可能となる。 In addition, the folded portion of the character referred to by the reference list is changed according to the display width of the display area of the display device, and the figure or table is reduced or enlarged according to the display width. For example, as described in <8-4> above, when assigning a fig class to a figure or table and outputting it in the HTML file format, the width (or height) of the image is set to the display width (or height) of the display device. Thus, even when the display width or display magnification of the display device is changed, it is possible to automatically adjust according to the display width (or height) at that time.
上記のように表示装置の表示幅(横書きの場合)に対する割合として画像の幅を設定する方法の例として、たとえば、imgタグの呼び出し時にfigクラスに属するもののみimgタグのサイズ属性として下記のようにパーセンテージを追加する、
<img class=”fig” src=”〜〜”width=”90%”/> ・・・(8)
もしくはCSS形式でfigクラスのスタイルシートとして下記を追加する。
.fig{width:90%;} ・・・(9)
等の方法がある。上記(8)又は(9)の方法はいずれも、表示幅に対して90%のサイズが図又は表の幅として設定され、表示領域が変更された際には自動で変更後の表示幅の90%を図又は表の幅として再設定する。(8)は、上記のサイズ属性の設定を追加したimgタグのみに適用される、すなわち個別に適用されるのに対し、(9)は、figクラスを割り当てた図表を一括で設定する点で異なる。もちろん、上記以外の公知の方法を利用することも可能である。
As an example of the method for setting the image width as a ratio to the display width (in the case of horizontal writing) of the display device as described above, for example, only those belonging to the fig class when the img tag is called are as the size attribute of the img tag as follows: Add a percentage to the
<Img class = “fig” src = ”˜˜“ width = “90%” /> (8)
Alternatively, add the following as a style sheet for the fig class in the CSS format.
.fig {width: 90%;} (9)
There are methods. In any of the methods (8) and (9), 90% of the display width is set as the width of the figure or table, and the display width after the change is automatically changed when the display area is changed. Reset 90% as the width of the figure or table. (8) applies only to the img tag to which the setting of the size attribute described above is added, that is, it is applied individually, whereas (9) is a point that sets the diagram to which the fig class is assigned collectively. Different. Of course, it is also possible to use known methods other than those described above.
<9−2.図表の表示の別の例>
上記<8−1>、<8−3>では、段落の最後又は最初に図表を表示する方法を開示したが、それらとは別に、図表を本文と同じファイル上に混在して表示せずに、画像へのリンク一覧(先頭の段落から順に図表を並べる)を別途作成し、そのリンク一覧からユーザが所望したときに選択した画像を個別に表示できるようにしてもよい。
<9-2. Another example of chart display>
In the above <8-1> and <8-3>, the method of displaying a chart at the end or the beginning of a paragraph has been disclosed, but separately from that, the chart is not displayed in the same file as the main text. Alternatively, a list of links to images (arrange charts in order from the first paragraph) may be created separately so that images selected by the user when desired from the list of links can be displayed individually.
例えば、画像形成装置100にて生成された参照リスト及び抽出した(切り出した)各要素の画像を受信する表示装置において、コンテンツを表示するコンテンツ表示領域とユーザ操作を受け付ける操作領域とを個別に備え、操作領域に、本文と画像リンク一覧との表示を切り替える操作機能を実行する手段を備える。このような構成とすることで、ユーザが所望するときに、コンテンツ表示領域に表示する内容を本文と図表とで切り替えるようにすることができる。
For example, in a display device that receives a reference list generated by the
また、表示装置において、コンテンツ表示領域と操作領域とを個別に備え、操作領域に、リンク一覧の先頭から順に各画像へのリンクを表示し、選択できるように構成してもよい。リンクの表示の方法は、例えば、符号(図1、図2、・・・等順序を認識できるものが望ましい)や、画像のサムネイル等を利用することができる。リンクを選択すると、選択したリンクに対応する図表を表示する。図表の表示方法は、例えば、コンテンツ表示領域に表示する方法のほかに、コンテンツ表示領域に重畳して図表表示領域を生成し、図表表示領域に該当する図表を表示する、いわゆるポップアップ形式を採用してもよい。 Further, the display device may be configured such that a content display area and an operation area are individually provided, and links to each image are displayed in the operation area in order from the top of the link list. As a method for displaying the link, for example, a code (preferably capable of recognizing the order such as FIG. 1, FIG. 2,...), An image thumbnail, or the like can be used. When a link is selected, a chart corresponding to the selected link is displayed. For example, in addition to the method of displaying in the content display area, the chart display method adopts a so-called pop-up format in which a chart display area is generated by being superimposed on the content display area and the chart corresponding to the chart display area is displayed. May be.
上記のように表示装置がコンテンツ表示領域と操作領域とを備える場合、操作領域は、コンテンツ表示領域と必ずしも分離されている必要は無く、コンテンツ表示領域に重畳して表示してもよく、また、操作領域は常時表示せずに表示の命令が入力された場合にのみ画面上に表示するようにしてもよい。表示の命令の入力方法は、例えば、表示装置が備えるタッチパネルのうち表示領域に該当する範囲において、一定時間以上、タッチ開始時点でのタッチ座標から一定距離以上離れることなくタッチパネルをタッチした状態を継続する(いわゆる長押し)等が挙げられる。 When the display device includes the content display area and the operation area as described above, the operation area does not necessarily have to be separated from the content display area, and may be displayed so as to be superimposed on the content display area. The operation area may not be always displayed but may be displayed on the screen only when a display command is input. For example, in the display command input method, in the range corresponding to the display area of the touch panel included in the display device, the touch panel is kept touched without leaving the touch coordinates at a certain distance or longer for a certain time or longer. (So-called long press).
なお、上記の方法自体は、図表の順序や対応する段落との関連付けの精度を向上するものでは無いが、図表の表示位置を固定せず、「(ほぼ)本文の順序通りに並んだ図表の一覧」からユーザ自身が選択して閲覧することで、対応する段落との関連付けが困難な複雑なレイアウトの文章を読み進める上での違和感を解消させることができる。 Note that the above method itself does not improve the accuracy of the order of the chart and the association with the corresponding paragraph, but does not fix the display position of the chart, and "(almost) of the chart arranged in the order of the text" When the user himself / herself selects and browses from the “list”, it is possible to eliminate a sense of incongruity when reading a sentence having a complicated layout that is difficult to associate with the corresponding paragraph.
<9−3.リフロー型とフィックス型の文書の表示>
変換可否判定処理部34がリフロー型に変換不可と判定したページとリフロー型に変換可能と判定したページとを混在して表示させる処理について以下で説明する。
<9-3. Display of reflow type and fixed type documents>
Processing for displaying the page that the conversion possibility
フィックス型の場合、ページ全体を1つの画像として扱うことで、リフロー型と混在させて表示させることが可能である。ただし、画像として扱われるフィックス型のページをリフロー型と混在させて表示させると画像が全画面表示になってしまう。そのため、文字が読みづらいページもある。その場合には、表示装置をリフロー型とフィックス型の表示を切り替えられる構成にしておくと、各ページに合わせて読みやすいフォーマットで表示させることが可能となる。 In the case of the fixed type, the entire page can be handled as one image, and can be displayed in a mixed manner with the reflow type. However, if a fixed page treated as an image is mixed with the reflow type and displayed, the image is displayed in full screen. For this reason, there are pages where it is difficult to read characters. In that case, if the display device is configured to be able to switch between reflow type and fixed type display, it is possible to display in a format that is easy to read according to each page.
例えば、HTML5などを用いてウェブブラウザで表示させる場合、ブラウザの表示領域内にリフロー型表示とフィックス型表示との切替ボタン(切替部)を表示させ、押されたボタンに合わせて表示領域にリフロー型での表示とフィックス型での表示を切り替えて表示できるようにしておけばよい。例えば、切替ボタンとしては、各型を選択するボタンをそれぞれ設ける、あるいは、トグル状のスイッチを設け、何れかの型を選択できるようにすればよい。 For example, when displaying on a web browser using HTML5 or the like, a switching button (switching unit) between a reflow type display and a fix type display is displayed in the display area of the browser, and the reflow is performed in the display area according to the pressed button. It should be possible to switch between the display in the type and the display in the fixed type. For example, as the switching button, a button for selecting each type may be provided, or a toggle-like switch may be provided so that any type can be selected.
〔実施の形態2:画像読取装置〕
実施の形態1では、本発明に係る文書画像処理装置を画像形成装置が有する画像処理装置に適用した構成について説明したが、これに限るものではない。そこで、本実施の形態では、本発明に係る文書画像処理装置を変換処理部として、フラットベッドスキャナ等の画像読取装置が有する画像処理装置に適用した例について説明する。
[Embodiment 2: Image reading apparatus]
In
なお、実施の形態1の説明に用いた図面に記載されている部材と同じ機能を有する部材については、以下の説明においても同じ符号を付記する。また、それらの各部材の詳細な説明はここでは繰り返さない。
In addition, about the member which has the same function as the member described in drawing used for description of
図30は、実施の形態2に係る画像処理装置1aを備える画像読取装置(情報処理装置)200の構成を示すブロック図である。図30に示すように、画像読取装置200は、画像処理装置1a、画像入力装置2、送信装置4、記憶部5、及び操作パネル6を備えている。画像処理装置1aは、A/D変換部11、シェーディング補正部12、原稿種別判別部13、入力階調補正部14、領域分離処理部15、圧縮処理部21、及び変換処理部(文書画像処理装置)22を備えている。当該変換処理部22にて、実施の形態1にて説明したのと同様に、参照リストが生成される。
FIG. 30 is a block diagram illustrating a configuration of an image reading apparatus (information processing apparatus) 200 including the image processing apparatus 1a according to the second embodiment. As shown in FIG. 30, the
画像読取装置200で実行される各種処理は、画像読取装置200に備えられる図示しない制御部(CPUあるいはDSP等のプロセッサを含むコンピュータ)により制御される。
Various processes executed by the
本実施の形態では、画像読取装置200は、スキャナに限定されることはなく、例えば、デジタルスチルカメラ、書画カメラ、あるいは、カメラを搭載した電子機器類(例えば、携帯電話、スマートフォン、タブレット端末等)であってもよい。これらカメラあるいはカメラを搭載した電子機器類においては、自装置にて文書画像の構造解析を行って、自装置の表示部にてリフロー型あるいはフィックス型で表示することが可能に構成されていてもよい。
In the present embodiment, the
〔実施の形態3:ネットワークを経由した文書画像処理装置〕
上記では、本発明に係る文書画像処理装置を、画像形成装置100が有する画像処理装置1あるいは画像読取装置200が有する画像処理装置1aに適用する例を示したが、これに限るものではない。本発明に係る文書画像処理装置を、例えばサーバ装置に適用してもよい。この場合のサーバ装置の構成の一例は、画像形成装置あるいは画像読取装置により画像読取及び各種画像処理が施された文書画像をネットワークを介して受信する受信装置と、実施の形態1にて説明した変換処理部22での処理を実行する文書画像処理装置と、当該文書画像処理装置から出力されたファイル(文書画像及び参照リスト)をネットワークを介して送信する送信装置と、を備えたサーバ装置(情報処理装置)である。
[Embodiment 3: Document image processing apparatus via network]
In the above description, the document image processing apparatus according to the present invention is applied to the
このようにサーバ装置を構成することにより、画像形成装置あるいは画像読取装置にて画像読取及び各種画像処理が施された文書画像を、ネットワークを経由して受信して、上記の変換処理部22での処理を実行する文書画像処理装置により参照リストを生成し(フォーマット変換を適用し)、出力されたファイルをユーザの端末装置(例えば、スマートフォンやタブレット端末等)に送信する、という使い方が可能となる。また、このサーバ装置により、既に設置された画像形成装置あるいは画像読取装置を交換することなく、フォーマット変換機能を利用することが可能となる。また、フォーマット変換後のファイルをサーバ装置に記憶しておくことで、ユーザが望むときに変換後のファイルを受信して閲覧することも可能となる。
By configuring the server device in this manner, a document image that has been subjected to image reading and various image processing by the image forming device or the image reading device is received via the network, and the
あるいは、本発明に係る文書画像処理装置を、例えば、携帯電話、スマートフォン、タブレット端末、電子書籍専用端末等の通信端末装置に適用してもよい。この場合の通信端末装置の構成の一例は、画像形成装置あるいは画像読取装置により画像読取及び各種画像処理が施された文書画像をネットワークを介して受信する受信部と、実施の形態1にて説明した変換処理部22と、実施の形態1にて説明した表示装置と、を備えた通信端末装置(情報処理装置)である。当該通信端末装置は、電子化された文書画像を受信し、受信した文書画像の構造解析を行って、リフロー型あるいはフィックス型にて表示することが可能である。
Or you may apply the document image processing apparatus which concerns on this invention to communication terminal apparatuses, such as a mobile telephone, a smart phone, a tablet terminal, an electronic book exclusive terminal, for example. An example of the configuration of the communication terminal device in this case will be described in the first embodiment, a receiving unit that receives a document image that has been subjected to image reading and various image processing by the image forming device or the image reading device, and a network. The communication terminal device (information processing device) includes the
なお、上記サーバ装置の受信装置又は上記通信端末装置が受信する文書画像は、画像形成装置や画像読取装置等にて生成された文書画像である必要は無い。例えばWordファイルやPDFファイル等のように、構造化された文書ファイルを電子化したものを文書画像として受信してもよい。 The document image received by the receiving device of the server device or the communication terminal device need not be a document image generated by an image forming device, an image reading device, or the like. For example, an electronic version of a structured document file such as a Word file or a PDF file may be received as a document image.
〔実施の形態4:記録媒体・プログラム〕
上記で説明した画像処理装置1,1a(特に、変換処理部22,22a)、サーバ装置(特に、文書画像処理装置)、通信端末装置(特に、変換処理部)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPUを用いてソフトウェアによって実現してもよい。
[Embodiment 4: Recording Medium / Program]
The
後者の場合、画像処理装置1,1a、サーバ装置、通信端末装置は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラム及び各種データがコンピュータ(又はCPU)で読み取り可能に記録されたROM(Read Only Memory)又は記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)等を備えている。そして、コンピュータ(又はCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
In the latter case, the
なお、上記で説明した文書画像処理装置及び文書画像処理方法は、カラーの画像データを扱う構成としたが、これに限るものではなく、白黒の画像データを扱う構成であってもよい。 The document image processing apparatus and the document image processing method described above are configured to handle color image data, but are not limited thereto, and may be configured to handle monochrome image data.
本発明は上述した各実施の形態に限定されるものではなく、種々の変更が可能である。すなわち、本発明の要旨を逸脱しない範囲内において適宜変更した技術的手段を組み合わせて得られる実施の形態についても本発明の技術的範囲に含まれる。 The present invention is not limited to the above-described embodiments, and various modifications can be made. That is, embodiments obtained by combining technical means appropriately changed within the scope not departing from the gist of the present invention are also included in the technical scope of the present invention.
〔まとめ〕
本発明の態様1に係る文書画像処理装置(変換処理部22)は、文書を電子化した文書画像の再構成を行う文書画像処理装置において、前記文書画像の構造解析を行う構造解析部(行解析処理部31、行ブロック解析処理部32、レイアウト解析処理部33)と、前記構造解析により前記文書画像から抽出した文字列あるいは図又は表の特徴量に基づいて、前記文書画像に含まれる各文字、図、及び/又は表である各要素を再構成するか否かの判定を行う変換判定部(変換可否判定処理部34)と、前記変換判定部が前記文書画像の各要素を再構成すると判定すると、前記構造解析部による解析結果に基づいて、前記文書画像を再構成した際の前記各要素の順序を記述した参照リストを生成する参照リスト生成部(再配置処理部35)と、を備える。
[Summary]
A document image processing apparatus (conversion processing unit 22) according to an
上記構成によると、構造解析により前記文書画像から抽出した文字列あるいは図又は表の特徴量に基づいて、前記文書画像に含まれる各要素を再構成するか否かの判定を行うことができる。このように、文書画像に含まれる各要素を再構成するか、つまり、文書画像をリフロー型のファイル形式にするか、文書画像に含まれる各要素を再構成しないか、つまり、フィックス型(固定レイアウト)のファイル形式にするか、を文書画像処理装置にて判断することで、常に最適なファイル形式での表示を行うことが可能となる。また、構造解析部による解析結果に基づいて、文書画像を再構成した際の各要素の順序を記述した参照リストの生成により、文書画像をリフロー型のファイル形式にするための情報を生成することができる。 According to the above configuration, it is possible to determine whether or not each element included in the document image is to be reconfigured based on the character string extracted from the document image by structural analysis, or the feature quantity of the figure or table. In this way, each element included in the document image is reconfigured, that is, the document image is made into a reflow type file format, or each element included in the document image is not reconfigured, that is, a fixed type (fixed type) It is possible to always display in the optimum file format by determining in the document image processing apparatus whether the file format is layout). Also, based on the analysis result by the structure analysis unit, generating information for converting the document image into a reflow file format by generating a reference list describing the order of each element when the document image is reconstructed Can do.
本発明の態様2に係る文書画像処理装置は、態様1において、前記構造解析により抽出された前記文字列からは前記文書画像での文書の記述方向を決定できない場合に、前記変換判定部は、前記文書画像を再構成しないと判定する。
In the document image processing apparatus according to
文書画像に縦書きの行と横書きの行とが無視できない比率で混在していると、文書画像全体の方向を一意に判別できず、また、レイアウト解析する際にも、縦書きと横書きの行をどう接続すればよいかの判定が困難になる。よって、正しくリフロー型に変換するのが困難となる。そこで、上記構成により変換判定部が上記判定を行うことで、正しくリフロー型に変換できない、というミスを防ぐことが可能となる。 If the document image contains a mixture of vertical and horizontal lines in a ratio that cannot be ignored, the direction of the entire document image cannot be uniquely determined. It becomes difficult to determine how to connect. Therefore, it becomes difficult to correctly convert to the reflow type. Therefore, it is possible to prevent the mistake that the conversion determination unit cannot correctly convert to the reflow type by performing the above determination with the above configuration.
本発明の態様3に係る文書画像処理装置は、上記態様1において、前記構造解析により前記文書画像が図及び/又は表のみから構成されていると判定される場合に、前記変換判定部は、前記文書画像を再構成しないと判定する。
In the document image processing apparatus according to
図及び/又は表は、その中に文字があったとしても、レイアウトを崩さずにそのまま表示しないと内容がわからなくなってしまうことが多い。そこで、上記構成により変換判定部が上記判定を行うことにより、図及び/又は表のみから構成されている文書画像を間違ってリフロー型に変換して内容が不明になることを防ぐことが可能となる。 Even if there are characters in the figure and / or table, the contents often cannot be understood unless they are displayed as they are without breaking the layout. Therefore, the conversion determination unit makes the above determination according to the above configuration, thereby making it possible to prevent a document image made up of only figures and / or tables from being erroneously converted into a reflow type and unclear. Become.
本発明の態様4に係る文書画像処理装置は、上記態様1において、前記構造解析により前記文書画像から抽出された文字列の数が、予め定められる第1閾値以下である場合に、前記変換判定部は、前記文書画像を再構成しないと判定する。
In the document image processing apparatus according to
文字列が少ない場合、わざわざリフロー型にして読むほどの文章の長さではないと考えられる。そのため、上記構成により変換判定部が上記判定を行うことにより、無駄にリフロー型に変換することを防ぐことが可能となる。 When there are few character strings, it is thought that it is not the length of the sentence which is reflow type and read. Therefore, it is possible to prevent unnecessary conversion into the reflow type when the conversion determination unit performs the above determination with the above configuration.
本発明の態様5に係る文書画像処理装置は、上記態様1において、前記構造解析により前記文書画像から抽出された文字列の高さあるいは幅が、予め定められた第2閾値以上である場合に、前記変換判定部は、前記文書画像を再構成しないと判定する。
The document image processing apparatus according to
文字が十分大きい場合には、縮小表示しても十分可読性があると考えられるため、リフロー型にする必要がない。そのため、上記構成により変換判定部が上記判定を行うことにより、無駄にリフロー型に変換することを防ぐことが可能となる。 When the characters are sufficiently large, it is considered that the characters are sufficiently readable even if they are displayed in a reduced size, so that it is not necessary to use the reflow type. Therefore, it is possible to prevent unnecessary conversion into the reflow type when the conversion determination unit performs the above determination with the above configuration.
本発明の態様6に係る文書画像処理装置は、上記態様1において、前記構造解析により、前記文書画像から抽出された複数の文字列あるいは図又は表よりなるブロックのそれぞれの位置が不規則である場合に、前記変換判定部は、前記文書画像を再構成しないと判定する。
In the document image processing apparatus according to
文字列あるいは図又は表よりなるブロックの位置が一定の範囲内で揃っていない場合には、整理された段組みされたレイアウトの文書画像ではない可能性が高い。そのため、行ブロックの接続が失敗し、誤った行ブロック同士をつないでしまう可能性が高い。よって、上記構成により変換判定部が上記判定を行うことにより、正しくリフロー型に変換できない、というミスを防ぐことが可能となる。 If the positions of blocks consisting of character strings or figures or tables are not aligned within a certain range, there is a high possibility that the document images are not arranged in an organized and arranged layout. Therefore, there is a high possibility that connection of row blocks will fail and incorrect row blocks will be connected. Therefore, it is possible to prevent a mistake that conversion to the reflow type cannot be performed correctly when the conversion determination unit performs the above determination with the above configuration.
本発明の態様7に係る情報処理装置は、上記態様1から6の何れか1つに記載の文書画像処理装置と、前記変換判定部により各要素を再構成しないと判定された文書画像をフィックス型の表示が可能にフォーマット変換するフォーマット変換処理部と、前記変換判定部により各要素を再構成すると判定された文書画像については、当該文書画像の前記参照リスト及び当該文書画像に含まれる各要素の画像データを送信し、かつ、前記変換判定部により各要素を再構成しないと判定された文書画像については、前記フォーマット変換された文書画像を送信する送信装置と、を備える。
An information processing apparatus according to an aspect 7 of the present invention fixes a document image processing apparatus according to any one of the
上記情報処理装置は、例えば、画像形成装置、画像読取装置、サーバ装置等であってもよい。また、画像読取装置は、スキャナ、デジタルスチルカメラ、書画カメラ、あるいは、カメラを搭載した電子機器類(例えば、携帯電話、スマートフォン、タブレット端末等)等であってもよい。上記情報処理装置が、例えば、画像形成装置である場合、読み込まれた画像データに変換処理を施して画像データを再構成し、アドレスを指定して再構成された画像データを受信側装置(例えば、タブレット端末等)に送信することにより、受信側装置にて、一方向(文書の記述方向と直交する方向)のスクロールのみで画像を閲覧することができる。 The information processing apparatus may be, for example, an image forming apparatus, an image reading apparatus, a server apparatus, or the like. In addition, the image reading apparatus may be a scanner, a digital still camera, a document camera, or an electronic device (for example, a mobile phone, a smartphone, a tablet terminal, or the like) equipped with a camera. When the information processing apparatus is, for example, an image forming apparatus, the read image data is subjected to conversion processing to reconstruct image data, and the reconfigured image data is designated by an address. By transmitting to the tablet terminal or the like, the image can be viewed only by scrolling in one direction (direction orthogonal to the document description direction) on the receiving side device.
本発明の態様8に係る表示装置は、上記態様7の情報処理装置から受信した文書画像を表示する表示装置であって、前記変換判定部により各要素を再構成すると判定された文書画像の前記参照リスト及び当該文書画像に含まれる各要素の画像データに基づき、当該文書画像をリフロー型にて表示し、かつ、前記フォーマット変換された文書画像をフィックス型にて表示する。 A display device according to an aspect 8 of the present invention is a display device that displays a document image received from the information processing device according to the aspect 7, and the document image determined to be reconstructed by the conversion determination unit. Based on the reference list and the image data of each element included in the document image, the document image is displayed in a reflow type, and the format-converted document image is displayed in a fixed type.
上記構成によると、変換判定部により各要素を再構成すると判定された文書画像をリフロー型にて表示し、かつ、上記フォーマット変換された文書画像をフィックス型にて表示することができ、リフロー型のページとフィックス型のページとが混在した原稿の表示を行うことができる。 According to the above configuration, the document image determined to be reconstructed by the conversion determination unit can be displayed in a reflow type, and the format-converted document image can be displayed in a fixed type. The original document in which the fixed page and the fixed page are mixed can be displayed.
本発明の態様9に係る表示装置は、上記態様8の表示装置において、上記態様7の情報処理装置から、さらに前記変換判定部により各要素を再構成すると判定された文書画像をフィックス型の表示が可能にフォーマット変換した文書画像を受信し、前記変換判定部により各要素を再構成すると判定された文書画像の表示を、リフロー型とフィックス型とで切り替える切替部を備える。
The display device according to
上記構成によると、変換判定部により各要素を再構成すると判定された文書画像の表示を、ユーザがリフロー型とフィックス型とで切り替えることができる。 According to the above configuration, the user can switch the display of the document image determined to be reconstructed by the conversion determination unit between the reflow type and the fix type.
なお、上記文書画像処理装置、上記情報処理装置、又は上記表示装置は、コンピュータによって実現してもよい。この場合には、コンピュータを上記各部として動作させることにより上記文書画像処理装置、上記情報処理装置、又は上記表示装置をコンピュータにて実現させるプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。 The document image processing device, the information processing device, or the display device may be realized by a computer. In this case, there is also provided a program for realizing the document image processing device, the information processing device, or the display device on a computer by causing the computer to operate as each unit, and a computer-readable recording medium storing the program. Falls within the scope of the present invention.
本発明は、文書画像の再構成を行う文書画像処理装置等に利用することができる。 The present invention can be used in a document image processing apparatus that reconstructs a document image.
1,1a 画像処理装置
4 送信装置
22,22a 変換処理部(文書画像処理装置)
31 行解析処理部(構造解析部)
31a 文字列抽出処理部
31b 図表抽出処理部
32 行ブロック解析処理部(構造解析部)
33 レイアウト解析処理部(構造解析部)
34 変換可否判定処理部(変換判定部)
35 再配置処理部(参照リスト生成部)
37 段組解析処理部
38 順序付け処理部
39 段落解析処理部(段落解析部)
100 画像形成装置(情報処理装置)
200 画像読取装置(情報処理装置)
1, 1a
31 line analysis processing part (structure analysis part)
31a Character string
33 Layout Analysis Processing Unit (Structural Analysis Unit)
34 Conversion enable / disable determination processing unit (conversion determination unit)
35 Relocation processing unit (reference list generation unit)
37 Column
100 Image forming apparatus (information processing apparatus)
200 Image reading device (information processing device)
Claims (8)
文書を電子化した文書画像の構造解析を行う構造解析部と、
前記構造解析により前記文書画像から抽出した文字列の記述方向、数、1文字あたりの大きさ、および位置の少なくともいずれかを含む前記文字列の特徴量が所定の条件を満たすか否かを判定し、満たすと判定した場合は、前記文書画像に含まれる各文字、図、及び/又は表である各要素を表示領域に合わせて該文書画像中の文字列を折り返し表示することが可能な形式に再構成すると判定する変換判定部と、
前記構造解析部による解析結果に基づいて、前記文書画像の各要素の順序を記述した、再構成を行うための参照リストを生成する参照リスト生成部と、を備えており、
前記変換判定部が前記文書画像の各要素を再構成すると判定すると、前記参照リスト生成部を用いて前記参照リストを生成し、
前記特徴量は前記文字列の記述方向であり、前記変換判定部は、縦書きの行および横書きの行の比率が所定閾値より大きい場合に前記所定の条件を満たさないと判定し、前記文書画像を再構成しないと判定し、
前記変換判定部により各要素を再構成すると判定された文書画像については、当該文書画像の前記参照リスト及び当該文書画像に含まれる各要素の画像データを送信装置に出力することを特徴とする文書画像処理装置。 In the document image processing apparatus,
A structure analysis unit for analyzing the structure of a document image obtained by digitizing a document;
It is determined whether or not the character string feature amount including at least one of the description direction, number, size per character, and position of the character string extracted from the document image by the structural analysis satisfies a predetermined condition. If it is determined that the character image is satisfied, each character, figure, and / or table included in the document image is displayed in a display area so that the character string in the document image can be displayed in a folded manner. A conversion determination unit that determines to reconfigure
A reference list generation unit that generates a reference list for reconstructing, describing the order of each element of the document image based on the analysis result by the structure analysis unit, and
When the conversion determination unit determines to reconstruct each element of the document image, the reference list generation unit is used to generate the reference list ,
The feature amount is a description direction of the character string, and the conversion determination unit determines that the predetermined condition is not satisfied when a ratio of vertical writing lines and horizontal writing lines is larger than a predetermined threshold, and the document image Is determined not to be reconfigured,
For a document image determined to be reconstructed by the conversion determination unit, the reference list of the document image and image data of each element included in the document image are output to a transmission device. Image processing device.
文書を電子化した文書画像の構造解析を行う構造解析部と、
前記構造解析により前記文書画像から抽出した文字列の記述方向、数、1文字あたりの大きさ、および位置の少なくともいずれかを含む前記文字列の特徴量が所定の条件を満たすか否かを判定し、満たすと判定した場合は、前記文書画像に含まれる各文字、図、及び/又は表である各要素を表示領域に合わせて該文書画像中の文字列を折り返し表示することが可能な形式に再構成すると判定する変換判定部と、
前記構造解析部による解析結果に基づいて、前記文書画像の各要素の順序を記述した、再構成を行うための参照リストを生成する参照リスト生成部と、を備えており、
前記変換判定部が前記文書画像の各要素を再構成すると判定すると、前記参照リスト生成部を用いて前記参照リストを生成し、
前記特徴量は横書きの文字列の行の1文字あたりの高さあるいは縦書きの文字列の行の
1文字あたりの幅であり、前記変換判定部は、前記高さあるいは前記幅が予め定められた
第2閾値以上である場合に前記所定の条件を満たさないと判定し、前記文書画像を再構成
しないと判定し、
前記変換判定部により各要素を再構成すると判定された文書画像については、当該文書画像の前記参照リスト及び当該文書画像に含まれる各要素の画像データを送信装置に出力することを特徴とする文書画像処理装置。 In the document image processing apparatus,
A structure analysis unit for analyzing the structure of a document image obtained by digitizing a document;
It is determined whether or not the character string feature amount including at least one of the description direction, number, size per character, and position of the character string extracted from the document image by the structural analysis satisfies a predetermined condition. If it is determined that the character image is satisfied, each character, figure, and / or table included in the document image is displayed in a display area so that the character string in the document image can be displayed in a folded manner. A conversion determination unit that determines to reconfigure
A reference list generation unit that generates a reference list for reconstructing, describing the order of each element of the document image based on the analysis result by the structure analysis unit, and
When the conversion determination unit determines to reconstruct each element of the document image, the reference list generation unit is used to generate the reference list ,
The feature amount is the height per character of a horizontal character string line or the vertical character string line.
It is a width per character, and the conversion determination unit determines the height or the width in advance.
When it is greater than or equal to a second threshold, it is determined that the predetermined condition is not satisfied, and the document image is reconstructed
And decide not to
For a document image determined to be reconstructed by the conversion determination unit, the reference list of the document image and image data of each element included in the document image are output to a transmission device. Image processing device.
文書を電子化した文書画像の構造解析を行う構造解析部と、
前記構造解析により前記文書画像から抽出した文字列の記述方向、数、1文字あたりの大きさ、および位置の少なくともいずれかを含む前記文字列の特徴量が所定の条件を満たすか否かを判定し、満たすと判定した場合は、前記文書画像に含まれる各文字、図、及び/又は表である各要素を表示領域に合わせて該文書画像中の文字列を折り返し表示することが可能な形式に再構成すると判定する変換判定部と、
前記構造解析部による解析結果に基づいて、前記文書画像の各要素の順序を記述した、再構成を行うための参照リストを生成する参照リスト生成部と、を備えており、
前記変換判定部が前記文書画像の各要素を再構成すると判定すると、前記参照リスト生成部を用いて前記参照リストを生成し、
前記特徴量は複数の文字列あるいは図又は表よりなる複数のブロック間の位置のずれの大きさであり、前記変換判定部は、前記ずれの大きさが予め定められた第3閾値より大きい場合に前記所定の条件を満たさないと判定し、前記文書画像を再構成しないと判定し、 前記変換判定部により各要素を再構成すると判定された文書画像については、当該文書画像の前記参照リスト及び当該文書画像に含まれる各要素の画像データを送信装置に出力することを特徴とする文書画像処理装置。 In the document image processing apparatus,
A structure analysis unit for analyzing the structure of a document image obtained by digitizing a document;
It is determined whether or not the character string feature amount including at least one of the description direction, number, size per character, and position of the character string extracted from the document image by the structural analysis satisfies a predetermined condition. If it is determined that the character image is satisfied, each character, figure, and / or table included in the document image is displayed in a display area so that the character string in the document image can be displayed in a folded manner. A conversion determination unit that determines to reconfigure
A reference list generation unit that generates a reference list for reconstructing, describing the order of each element of the document image based on the analysis result by the structure analysis unit, and
When the conversion determination unit determines to reconstruct each element of the document image, the reference list generation unit is used to generate the reference list ,
The feature amount is a size of a position shift between a plurality of blocks made up of a plurality of character strings or figures or tables, and the conversion determination unit determines that the size of the shift is larger than a predetermined third threshold value. The document image is determined not to be reconstructed, the document image is determined not to be reconstructed, and the document image determined to be reconstructed by the conversion determining unit is the reference list of the document image and A document image processing apparatus that outputs image data of each element included in the document image to a transmission apparatus.
前記変換判定部により各要素を再構成しないと判定された文書画像をフィックス型の表示が可能にフォーマット変換するフォーマット変換処理部と、
前記変換判定部により各要素を再構成すると判定された文書画像については、当該文書画像の前記参照リスト及び当該文書画像に含まれる各要素の画像データを送信し、かつ、前記変換判定部により各要素を再構成しないと判定された文書画像については、前記フォーマット変換された文書画像を送信する送信装置と、を備えることを特徴とする情報処理装置。 A document image processing apparatus according to any one of claims 1 to 3 ,
A format conversion processing unit that converts the format of a document image that is determined not to be reconstructed by the conversion determination unit so that a fixed-type display is possible;
For the document image determined to reconstruct each element by the conversion determination unit, the reference list of the document image and the image data of each element included in the document image are transmitted, and the conversion determination unit An information processing apparatus comprising: a transmission device that transmits the format-converted document image for a document image determined not to be reconstructed.
前記変換判定部により各要素を再構成すると判定された文書画像の前記参照リスト及び当該文書画像に含まれる各要素の画像データに基づき、当該文書画像をリフロー型にて表示し、かつ、前記フォーマット変換された文書画像をフィックス型にて表示することを特徴とする表示装置。 A display device for displaying a document image received from the information processing device according to claim 4 ,
Based on the reference list of document images determined to reconstruct each element by the conversion determination unit and the image data of each element included in the document image, the document image is displayed in a reflow type, and the format A display device that displays a converted document image in a fixed format.
前記変換判定部により各要素を再構成すると判定された文書画像の表示を、リフロー型とフィックス型とで切り替える切替部を備えたことを特徴とする請求項5に記載の表示装置。 A document image obtained by converting the document image determined to be reconstructed by the conversion determination unit from the information processing device according to claim 4 in a format that enables fixed display is received.
The display device according to claim 5 , further comprising a switching unit that switches a display of the document image determined to be reconstructed by the conversion determination unit between a reflow type and a fixed type.
A computer-readable recording medium on which the program according to claim 7 is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014235989A JP6559415B2 (en) | 2014-11-20 | 2014-11-20 | Document image processing apparatus, information processing apparatus including the same, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014235989A JP6559415B2 (en) | 2014-11-20 | 2014-11-20 | Document image processing apparatus, information processing apparatus including the same, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016099793A JP2016099793A (en) | 2016-05-30 |
JP6559415B2 true JP6559415B2 (en) | 2019-08-14 |
Family
ID=56077864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014235989A Active JP6559415B2 (en) | 2014-11-20 | 2014-11-20 | Document image processing apparatus, information processing apparatus including the same, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6559415B2 (en) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6776805B2 (en) | 2016-10-24 | 2020-10-28 | 富士通株式会社 | Character recognition device, character recognition method, character recognition program |
JP6635057B2 (en) * | 2017-01-18 | 2020-01-22 | 京セラドキュメントソリューションズ株式会社 | Image reading apparatus, image reading method, image forming apparatus, and image reading program |
JP6950320B2 (en) * | 2017-07-18 | 2021-10-13 | 京セラドキュメントソリューションズ株式会社 | Image processing device |
US10579707B2 (en) * | 2017-12-29 | 2020-03-03 | Konica Minolta Laboratory U.S.A., Inc. | Method for inferring blocks of text in electronic documents |
JP6731011B2 (en) * | 2018-02-23 | 2020-07-29 | シナノケンシ株式会社 | Device for creating data for displaying electronic books |
JP7041103B2 (en) * | 2019-08-28 | 2022-03-23 | 西日本電信電話株式会社 | Structured document creation device and its method |
JP7409102B2 (en) * | 2020-01-16 | 2024-01-09 | 京セラドキュメントソリューションズ株式会社 | Information processing device and image forming device |
CN113111829B (en) * | 2021-04-23 | 2023-04-07 | 杭州睿胜软件有限公司 | Method and device for identifying document |
CN114663902B (en) * | 2022-04-02 | 2023-06-02 | 北京百度网讯科技有限公司 | Document image processing method, device, equipment and medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3247723B2 (en) * | 1992-05-18 | 2002-01-21 | 株式会社リコー | Image relocation copier |
DE102012102797B4 (en) * | 2012-03-30 | 2017-08-10 | Beyo Gmbh | Camera-based mobile device for converting a document based on captured images into a format optimized for display on the camera-based mobile device |
-
2014
- 2014-11-20 JP JP2014235989A patent/JP6559415B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016099793A (en) | 2016-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6559415B2 (en) | Document image processing apparatus, information processing apparatus including the same, program, and recording medium | |
JP6254002B2 (en) | CONVERSION PROCESSING DEVICE, INFORMATION PROCESSING DEVICE EQUIPPED WITH THE SAME, PROGRAM, AND RECORDING MEDIUM | |
US8203748B2 (en) | Image processing apparatus, control method therefor, and program | |
RU2437152C2 (en) | Device to process images, method and computer programme to process images | |
US7433517B2 (en) | Image processing apparatus and method for converting image data to predetermined format | |
US8396294B2 (en) | Image processing device, image processing method, and program and recording medium thereof | |
CN107979709B (en) | Image processing apparatus, image processing system, control method, and computer readable medium | |
JP5972578B2 (en) | Image processing apparatus, image forming apparatus, program, and recording medium | |
US20120011429A1 (en) | Image processing apparatus and image processing method | |
EP2779613B1 (en) | Document processing apparatus, document processing method, and document processing computer program product | |
JP2006085298A (en) | Image processing device and image processing method | |
US8279237B2 (en) | Image processing device, image display system, image processing method and program storage medium | |
JP5477320B2 (en) | Image processing device | |
JP2012212963A (en) | Controller | |
US20110075932A1 (en) | Image processing method and image processing apparatus for extracting heading region from image of document | |
JP2012118863A (en) | Image reading device, image formation device, image reading method, program and recording medium therefor | |
US8619316B2 (en) | Document processing apparatus and method for processing document using the same | |
US7738737B2 (en) | Image processing apparatus and image processing method | |
US8867050B2 (en) | Image processing apparatus, non-transitory computer readable medium storing program and image processing method for restoring a single table from a plurality of pages | |
JP6607490B2 (en) | CONVERSION PROCESSING DEVICE, INFORMATION PROCESSING DEVICE EQUIPPED WITH THE SAME, PROGRAM, AND RECORDING MEDIUM | |
JP6607496B2 (en) | CONVERSION PROCESSING DEVICE, INFORMATION PROCESSING DEVICE EQUIPPED WITH THE SAME, PROGRAM, AND RECORDING MEDIUM | |
JP5098614B2 (en) | Method for controlling sentence processing apparatus and sentence processing apparatus | |
JP2005316813A (en) | Image processing method, image processing program, and image processor | |
JP5672340B2 (en) | Control device | |
JP5454466B2 (en) | Character detection device, character detection method, and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180717 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180913 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190523 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20190531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190717 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6559415 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |