JP2009211480A - Structured document processing system, structured document processing method, and structured document processing program - Google Patents
Structured document processing system, structured document processing method, and structured document processing program Download PDFInfo
- Publication number
- JP2009211480A JP2009211480A JP2008054648A JP2008054648A JP2009211480A JP 2009211480 A JP2009211480 A JP 2009211480A JP 2008054648 A JP2008054648 A JP 2008054648A JP 2008054648 A JP2008054648 A JP 2008054648A JP 2009211480 A JP2009211480 A JP 2009211480A
- Authority
- JP
- Japan
- Prior art keywords
- structured document
- dissimilarity
- structured
- layout
- document processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、構造化文書を処理する構造化文書処理システム、構造化文書処理方法及び構造化文書処理プログラムに関し、特にHTML(Hyper Text Markup Language)のような特定の文書型定義(DTD:Document Type Definition)に基づいてレイアウトを形成する構造化文書において、特定の条件で分割された領域を、レイアウトと構造の両方が類似した別の領域とマッピングする構造化文書処理システム、構造化文書処理方法及び構造化文書処理プログラムに関する。 The present invention relates to a structured document processing system, a structured document processing method, and a structured document processing program for processing a structured document, and more particularly to a specific document type definition (DTD: Document Type) such as HTML (Hyper Text Markup Language). A structured document processing system, a structured document processing method, and a structured document processing method for mapping a region divided under a specific condition to another region similar in both layout and structure in a structured document that forms a layout based on (Definition) The present invention relates to a structured document processing program.
近年、大量の情報を含むWebコンテンツなどの構造化文書から、自動的に文書構造を解析して複数のセクションを抽出して利用するシステムが研究されている。例えば、セクションの中からユーザが必要な情報を、自動あるいは手動で選択して利用する情報提供システムがある。なお、セクションとは、構造化文書を細分化した領域のことで、構造化文書と同様にマークアップ言語(以下、タグ)で構成される。 In recent years, a system that automatically analyzes a document structure and extracts a plurality of sections from a structured document such as a Web content including a large amount of information has been studied. For example, there is an information providing system that automatically or manually selects and uses information required by a user from a section. The section is an area obtained by subdividing the structured document, and is configured by a markup language (hereinafter referred to as a tag) as in the structured document.
しかし、その情報提供システムなどのように、常に内容が変化していくWebコンテンツのセクションを利用したアプリケーションでは、時間経過に応じてそのセクションの表示位置が変わったり、消滅したりするため、ユーザに間違ったセクションの情報を提供してしまう場合がある。 However, in applications that use Web content sections whose contents change constantly, such as the information provision system, the display position of the section changes or disappears over time. May provide incorrect section information.
そこで、特許文献1では、構造化文書のレイアウトの特徴に注目し、セクションの抽出順序やセクションの表示座標、および見出しなどのレイアウト情報を用いることで、セクションのレイアウトが変わっても、セクションの位置を推定する方法が提案されている。
Therefore, in
また、特許文献2で提案されている構造化文書同士の類似度を検出する技術をセクションに応用し、変化前と変化後とのセクションの文書構造を比較して、より類似した構造を持つセクション同士をマッピングさせる方法が考えられる。特に、構造化文書の文書構造がツリー型で表現できるため、そのツリーの編集距離を用いて構造化文書の類似性を判定する。
第1の問題点は、特許文献1のように座標などのレイアウトの特徴を用いて、より類似したレイアウトのセクション同士をマッピングする場合、構造化文書を少なくとも1度はレンダリングして、レイアウト情報を取得しなければならないということである。
The first problem is that, when sections of similar layouts are mapped using layout features such as coordinates as in
第2の問題点は、レンダリングせずに、特許文献2のように文書構造の類似性を判定して、より類似した構造のセクション同士をマッピングする場合、レイアウトを考慮していないために適切なマッピングができないということである。
The second problem is that when the similarity of the document structure is determined and the sections having a more similar structure are mapped as in
本発明が解決しようとする課題は、構造化文書をレンダリングせずにセクションのマッピングを行える構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラムを提供することにある。 An object of the present invention is to provide a structured document processing system, a structured document processing method, and a structured document processing program that can perform section mapping without rendering a structured document.
また、構造化文書のレイアウト及び構造の両方を考慮したセクションのマッピングを行える構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラムを提供することにある。 It is another object of the present invention to provide a structured document processing system, a structured document processing method, and a structured document processing program that can perform section mapping in consideration of both the layout and structure of a structured document.
上記課題を解決するための本発明は、複数の構造化文書同士の非類似度を計算する構造化文書処理装置であって、構造化文書を構成している各タグに、レイアウトへの影響度に基づいて重みを割り当てるレイアウト判定手段と、前記割り当てた重み及び前記各構造化文書内のタグ構造に基づいて、構造化文書間の非類似度を計算する非類似度計算手段とを有することを特徴とする。 The present invention for solving the above problems is a structured document processing apparatus that calculates dissimilarities between a plurality of structured documents, and each tag constituting the structured document has an influence on the layout. Layout determination means for assigning weights based on the above, and dissimilarity calculation means for calculating dissimilarities between structured documents based on the assigned weights and the tag structure in each structured document. Features.
上記課題を解決するための本発明は、構造化文書のレイアウトと構造に基づいて構造化文書を対応付ける構造化文書処理システムであって、前記構造化文書を構成する各タグにレイアウトへの影響度に基づいて重みを割り当てるレイアウト判定手段と、前記割り当てられた重み及び前記構造化文書のタグ構造に基づいて、構造化文書を細分化したセクション間の非類似度を計算する非類似度計算手段と、前記計算された非類似度に基づいて構造化文書同士を対応付け、この構造化文書同士の対応付けを示す表示情報を生成するマッピング手段と前記生成した表示情報を、通信ネットワークを介して情報端末に送信する情報配信手段とを有することを特徴とする。 The present invention for solving the above-described problems is a structured document processing system that associates a structured document based on the layout and structure of the structured document, and each tag constituting the structured document has an influence on the layout. Layout determination means for assigning weights based on the above, and dissimilarity calculation means for calculating dissimilarities between sections obtained by segmenting the structured document based on the assigned weights and the tag structure of the structured document. The mapping means for associating structured documents with each other based on the calculated dissimilarity and generating display information indicating the association between the structured documents, and the generated display information via the communication network And an information distribution means for transmitting to the terminal.
上記課題を解決するための本発明は、複数の構造化文書同士の非類似度を計算する構造化文書処理方法であって、構造化文書を構成している各タグに、レイアウトへの影響度に基づいて重みを割り当てるレイアウト判定ステップと、前記割り当てた重み及び前記各構造化文書内のタグ構造に基づいて、構造化文書間の非類似度を計算する非類似度計算ステップとを有することを特徴とする。 The present invention for solving the above problem is a structured document processing method for calculating dissimilarity between a plurality of structured documents, and each tag constituting the structured document has an influence on the layout. A layout determination step for assigning weights based on: and a dissimilarity calculation step for calculating dissimilarities between structured documents based on the assigned weights and the tag structure in each structured document. Features.
上記課題を解決するための本発明は、複数の構造化文書同士の非類似度を計算するプログラムであって、前記プログラムは、情報処理装置に、構造化文書を構成している各タグに、レイアウトへの影響度に基づいて重みを割り当てるレイアウト判定処理と、前記割り当てた重み及び前記各構造化文書内のタグ構造に基づいて、構造化文書間の非類似度を計算する非類似度計算処理とを実行させることを特徴とする。 The present invention for solving the above problems is a program for calculating the dissimilarity between a plurality of structured documents, and the program is provided in each tag constituting the structured document in the information processing apparatus. Layout determination processing for assigning weights based on the degree of influence on layout, and dissimilarity calculation processing for calculating dissimilarities between structured documents based on the assigned weights and the tag structure in each structured document Are executed.
本発明によると、レンダリングしなくてもセクションのマッピングを行えることにある。その理由は、レイアウトではなくセクションの構成タグを比較対象とするためである。 According to the present invention, section mapping can be performed without rendering. The reason is that not the layout but the section configuration tag is to be compared.
また、本発明によると、セクションのレイアウト及び構造の両方に基づいたマッピングを行えることにある。その理由は、各タグのレイアウトへの影響度、およびセクションのタグ構造を判定要素とするためである。 Further, according to the present invention, mapping based on both the layout and structure of the section can be performed. The reason is that the degree of influence of each tag on the layout and the tag structure of the section are used as determination elements.
本発明の特徴を説明するために、以下において、図面を参照して具体的に述べる。 In order to explain the features of the present invention, it will be specifically described below with reference to the drawings.
本発明による構造化文書処理システムの特徴は、レイアウト判定部102と、非類似度計算部103と、マッピング部104とを有する点である。
A feature of the structured document processing system according to the present invention is that it includes a
レイアウト判定部102は、構造化文書の各タグのレイアウトへの影響度に基づいて、重みをタグに割り当てる。
The
非類似度計算部103は、タグ構造、およびレイアウト判定部102で各タグに割り当てられた重みに基づいて、比較するセクション同士の非類似度を計算する。
The
マッピング部104は、非類似度計算部103で算出した非類似度に基づいて、適切に構造化文書をマッピングする。
The
図1は、本発明による構造化文書処理システムの構成の一例を示すブロック図である。本実施の形態では、構造化文書処理システムは、ハードウェアで構成することも可能であるが、以下ではプログラムに従って動作するパーソナルコンピュータなどの情報処理端末によって実現する場合を用いて説明する。尚、構造化文書処理システムは、構造化文書を複数のセクションに分割して配信するシステム等のビジネスモデルに適用されてもよい。この場合、構造化文書処理システムは、例えば、構造化文書をレンダリングするソフトウェアを搭載した携帯電話やPDA、パーソナルコンピュータ等のユーザ端末と、構造化文書を処理する構造化文書処理サーバとを含んでもよい。 FIG. 1 is a block diagram showing an example of the structure of a structured document processing system according to the present invention. In the present embodiment, the structured document processing system can be configured by hardware. However, in the following description, the structured document processing system will be described using a case where the structured document processing system is realized by an information processing terminal such as a personal computer that operates according to a program. The structured document processing system may be applied to a business model such as a system that distributes a structured document by dividing it into a plurality of sections. In this case, the structured document processing system may include, for example, a user terminal such as a mobile phone, a PDA, or a personal computer equipped with software for rendering the structured document, and a structured document processing server that processes the structured document. Good.
図1に示すように、本実施の形態では、構造化文書処理システムは、プログラム制御により動作するデータ処理装置10と、情報を記憶する記憶装置11とを有する。
As shown in FIG. 1, in the present embodiment, the structured document processing system includes a
データ処理装置10は、具体的には、プログラムに従って動作するパーソナルコンピュータやサーバ等によって実現される。
Specifically, the
データ処理装置10は、文書入力部100と、文書解析部101と、レイアウト判定部102と、非類似度計算部103と、マッピング部104と、出力部105とを有する。また、記憶装置11は、具体的には、メモリやハードディスク装置等によって実現される。記憶装置11は、セクション記憶部110と、マッピング記憶部111とを有する。
The
文書入力部100は、外部から構造化文書を取得し、文書解析部101に出力する機能を備える。例えば、文書入力部100は、ユーザの操作に従って、記憶装置11から構造化文書を読み出し、文書解析部101に出力する。また、例えば、文書入力部100は、インターネット等の通信ネットワークを介して構造化文書(例えば、Webコンテンツなど)を受信し、文書解析部101に出力する。
The
文書解析部101は、文書入力部100から取得した構造化文書を解析して、複数のセクションを抽出し、セクション記憶部110に記憶させる機能を備える。なお、取得した構造化文書をそのまま単一セクションとしてセクション記憶部110に記憶させてもよい。
The
レイアウト判定部102は、セクション記憶部110からセクションを取得し、各セクションを構成するタグのレイアウトへの影響度に基づいて、各タグに重みを割り当てる機能を備える。また、レイアウト判定部102は、タグに重みを割り当てたセクションを、非類似度計算部に出力する機能を備える。なお、ここで説明するセクションには、セクションの集合であるセクショングループ(構造化文書そのものを含む)を含んでもよい。
The
例えば、レイアウト判定部102は、タグのレイアウト定義をDTD(Document Type Definition)から取得し、各タグのレイアウトへの影響度をブロック要素(見出しや段落など、レイアウトを構成する基本要素)およびインライン要素(強調やリンクなど、表示情報に役割や機能を与える要素)の2種類に分類する。そして、レイアウト判定部102は、ブロック要素に重みを大きく与え、一方インライン要素には重みを小さく与えることによって、レイアウトへの影響度に基づいた重み付けをする。
For example, the
非類似度計算部103は、レイアウト判定部102から比較するセクション(少なくとも2以上のセクション)を取得して、セクションのタグ構造に基づいて、セクション間の構造の類似性を示す非類似度を計算する機能を備える。また、非類似度計算部103は、セクション間の非類似度を、マッピング部104に出力する機能を備える。
The
例えば、非類似度計算部103は、各セクションのタグ構造をツリー型に変換して、ツリー同士の編集距離を計算する。その際、レイアウト判定部102で計算した重みをツリーの各ノードの編集コストとすることによって、レイアウトへの影響度およびセクションの構造の両方に基づいた非類似度を計算する。
For example, the
マッピング部104は、非類似度計算部103から各セクションの非類似度を取得し、最も非類似度が小さい、即ち最も類似しているセクションの組み合わせをマッピングする(対応付ける)機能を備える。また、マッピング部104は、セクションのマッピング結果を、マッピング記憶部111に記憶させる機能を備える。例えば、マッピング部104は、構造化文書Daと構造化文書Dbとの比較において、最も非類似度が小さいセクションの組み合わせから順に、DaとDbとのセクションをすべてマッピングする。また、セクション数の違いからマッピングできずに残ってしまったセクションは、空セクションφとマッピングする。なお、マッピング部104は、セクションの相対位置を考慮し、マッピングしたセクションを基準に、構造化文書内のセクションの集合を2つのグループに分けて、その各グループ内でマッピングを行ってもよい。また、マッピング部104は、セクションの絶対位置を考慮し、構造化文書内のセクションの階層構造に基づいて、セクションの集合を複数のグループに分け、その各グループ内でマッピングを行ってもよい。
The
出力部105は、マッピング記憶部111が記憶しているセクションのマッピング結果を表示情報として外部に出力する機能を備える。例えば、出力部105は、マッピング記憶部111から、ユーザが指定したセクションと、そのセクションとマッピングされているセクションとを抽出し、液晶表示部やディプレイ装置等の表示装置に表示させたり、通信ネットワークを介して情報端末に送信したりする。
The
記憶装置11は、セクション記憶部110と、マッピング記憶部111とを含む。
The
セクション記憶部110は、文書解析部101が解析した構造化文書のセクションを、構造化文書毎に記憶する。
The
マッピング記憶部111は、マッピング部104が計算したセクションのマッピング結果を記憶する。
The
次に、動作について説明する。図2は、構造化文書処理システムがレイアウトと文書構造に基づいてセクションをマッピングする処理の一例を示す流れ図である。 Next, the operation will be described. FIG. 2 is a flowchart illustrating an example of a process in which the structured document processing system maps sections based on the layout and the document structure.
まず、文書入力部100は、構造化文書を取得する。例えば、文書入力部100は、記憶装置11に格納されている構造化文書を読み出す。また、例えば、文書入力部100は、通信ネットワークを介して構造化文書(例えば、Webコンテンツなど)を受信する。
First, the
次に、文書解析部101は、文書入力部100から取得した構造化文書を解析して、複数のセクションを抽出し、構造化文書毎にセクション記憶部110に記憶させる(ステップS11)。
Next, the
続いて、レイアウト判定部102は、セクション記憶部110からセクションを取得し、タグのレイアウトへの影響度に基づいて、各タグに重みを割り当てる(ステップS12)。
Subsequently, the
次に、非類似度計算部103は、レイアウト判定部102から各構造化文書のセクションを取得し、タグに割り当てられた重みとタグの構造とに基づいて、比較元のセクションとこれ以外のセクションとの間の各非類似度を計算する(ステップS13)。
Next, the
続いて、マッピング部104は、非類似度計算部103からセクションの非類似度を取得して、その非類似度に基づいて複数の構造化文書のセクション同士をマッピングし、マッピング記憶部111に記憶させる(ステップS14)。
Subsequently, the
また、出力部105は、マッピング記憶部111が記憶するセクションのマッピング結果を出力する。
The
以上のように、本実施の形態によれば、レイアウトへの影響度に基づいてタグに重みを割り当て、その重みとセクションのタグ構造に基づいて非類似度を計算し、非類似度に基づいてセクションをマッピングすることにより、レンダリングせずにレイアウトや文書構造に基づいた適切なセクションのマッピングが可能となる。 As described above, according to the present embodiment, a weight is assigned to a tag based on the degree of influence on the layout, the dissimilarity is calculated based on the weight and the tag structure of the section, and based on the dissimilarity By mapping sections, appropriate section mapping based on layout and document structure can be performed without rendering.
例えば、ある2つの構造化文書の比較において、微妙にレイアウトが異なっているセクションがある場合、あるセクションを構成するタグの種類や構造が、他のセクションと比べて最も類似していれば、それをマッピングすることができる。また、定性的にしか把握できなかった類似性を、非類似度という形で定量的に把握することができる。 For example, in the comparison of two structured documents, if there is a section with a slightly different layout, if the type and structure of the tags that make up a section are the most similar compared to other sections, Can be mapped. Further, the similarity that can only be grasped qualitatively can be quantitatively grasped in the form of dissimilarity.
次に、本発明による構造化文書処理システムの具体的な実施例について説明する。 Next, a specific embodiment of the structured document processing system according to the present invention will be described.
まず、構造化文書処理システムの第1の実施例について説明する。なお、本実施例における構造化文書処理システムは、第1の実施の形態で示した構造化文書処理システムに相当する。また、本実施例では、データ処理装置がパーソナルコンピュータであり、データ記憶装置が磁気ディスク装置であるものとする。 First, a first embodiment of the structured document processing system will be described. Note that the structured document processing system in this embodiment corresponds to the structured document processing system shown in the first embodiment. In this embodiment, it is assumed that the data processing device is a personal computer and the data storage device is a magnetic disk device.
パーソナルコンピュータ(データ処理装置)は、文書入力手段、文書解析手段、レイアウト判定手段、非類似度計算手段、マッピング手段、及び出力手段として機能する中央演算装置を含む。また、磁気ディスク装置(記憶装置)は、パーソナルコンピュータによって解析または計算されたセクション情報や非類似度情報を記憶する。なお、データ処理装置は、サーバや携帯電話等でもよく、端末の種類によらない。また、本実施例では、構造化文書の例として、Webコンテンツを対象とする。例えば、パーソナルコンピュータは、インターネットを介してWebコンテンツを受信する。 The personal computer (data processing apparatus) includes a central processing unit that functions as a document input unit, a document analysis unit, a layout determination unit, a dissimilarity calculation unit, a mapping unit, and an output unit. The magnetic disk device (storage device) stores section information and dissimilarity information analyzed or calculated by a personal computer. The data processing apparatus may be a server, a mobile phone, or the like, and does not depend on the type of terminal. In this embodiment, Web content is targeted as an example of a structured document. For example, a personal computer receives Web content via the Internet.
本実施例では、まず、中央演算装置は、Webコンテンツを受信して、受信したWebコンテンツを解析してセクションを抽出する。そして、中央演算装置は、抽出したセクション情報を磁気ディスク装置に記憶させる。なお、受信したWebコンテンツをそのまま単一セクションとしてもよい。また、構造化文書は、レンダリングするために作成されたものであれば、HTMLやXMLなどの種類に寄らない。本実施例では、構造化文書としてHTMLを扱う。 In this embodiment, first, the central processing unit receives Web content, analyzes the received Web content, and extracts a section. The central processing unit stores the extracted section information in the magnetic disk device. The received Web content may be used as a single section as it is. In addition, as long as the structured document is created for rendering, it does not depend on the type such as HTML or XML. In this embodiment, HTML is handled as a structured document.
図3は、1つの構造化文書の文書構造例を示す図であり、図4は、2つの構造化文書が解析されて複数のセクションが抽出された後のセクションのレイアウト構成を示す図である。本実施例では、中央演算装置は、図3のように、構造化文書D1から複数のセクションを抽出し、図4のように、セクションの抽出順序に基づいてそれぞれセクション1〜8のように番号を割り振る。もう一方の構造化文書D2でも同様にセクションを抽出し、そのセクション情報を磁気ディスク装置に記憶させる。
FIG. 3 is a diagram illustrating an example of a document structure of one structured document, and FIG. 4 is a diagram illustrating a layout configuration of sections after two structured documents are analyzed and a plurality of sections are extracted. . In the present embodiment, the central processing unit extracts a plurality of sections from the structured document D1 as shown in FIG. 3, and numbers such as
次に、中央演算装置は、磁気ディスク装置からセクション情報を取得し、各セクションのタグにレイアウトへの影響度に基づいて重みを割り当てる。本実施例では、中央演算装置は、各タグに割り当てる重みを、DTDに基づいて、ブロック要素(見出しや段落など、レイアウトを構成する基本要素)およびインライン要素(強調やリンクなど、表示情報に役割や機能を与える要素)の2つの種類に分けて計算する。なお、磁気ディスク装置から取得するセクションは、構造化文書を解析したセクションに限らず、他のセクションや、構造化文書そのものでもよい。また、取得するセクションあるいは構造化文書は複数でもよい。 Next, the central processing unit acquires section information from the magnetic disk device, and assigns weights to the tags of each section based on the degree of influence on the layout. In this embodiment, the central processing unit assigns weights to each tag to display information such as block elements (basic elements constituting a layout such as headings and paragraphs) and inline elements (emphasis and links) based on DTD. It is divided into two types of elements and elements that give functions). The section acquired from the magnetic disk device is not limited to the section obtained by analyzing the structured document, but may be another section or the structured document itself. Further, a plurality of sections or structured documents may be acquired.
図5は、図3の構造化文書D1のタグをブロック要素およびインライン要素別に分け、重みとしてそれぞれ100と1を割り当てた例を示す説明図である。なお、図5の重みの値は、レイアウトへの影響度を強く評価したいため、ブロック要素を示す“div”等に対して「100」、インライン要素を示す“h”、“a”、“img”等に対して「1」のように、重みの差を大きくしたが、例えば、レイアウトへの影響度を緩く評価するならば、ブロック要素を「3」、インライン要素を「1」のように、重みの差を小さくしてもよい。また、レイアウトではなく、タグの構造の類似性を強く評価したいならば、ブロック要素およびインライン要素を共に1にして、重みの差を無くしてもよい。また、レイアウトへの影響度を決めるタグの種類は、ブロック要素およびインライン要素という定義を使用せずに、DTDの別の定義や、CSS(Cascading Style Sheets)などのDTD以外の構造化文書内の要素の表示を定義したレイアウト定義に従ってもよい。また、ユーザが予め定義したものでもよい。また、予めレンダリングした際に各タグのレイアウトへの影響度を計算し、その記憶している結果に基づいてもよい。 FIG. 5 is an explanatory diagram showing an example in which the tags of the structured document D1 in FIG. 3 are divided into block elements and inline elements, and 100 and 1 are assigned as weights, respectively. The weight value in FIG. 5 is “100” for “div” indicating a block element, “h”, “a”, “img” indicating an inline element because the influence on the layout is strongly evaluated. For example, if the influence on the layout is evaluated loosely, the block element is set to “3” and the inline element is set to “1”. The weight difference may be reduced. Further, if it is desired to strongly evaluate the similarity of the tag structure rather than the layout, both the block element and the inline element may be set to 1 to eliminate the weight difference. In addition, the types of tags that determine the degree of influence on layout are not defined as block elements or inline elements, but are defined in other DTD definitions or in structured documents other than DTD such as CSS (Cascading Style Sheets). The layout definition that defines the display of elements may be followed. Moreover, what the user defined in advance may be used. Further, the degree of influence of each tag on the layout when rendered in advance may be calculated and based on the stored result.
次に、中央演算装置は、セクションのタグ構造に基づいて、比較するセクションとの編集距離を計算する。本実施例では、タグの構造をツリー型に変換し、ツリー構造の編集距離を計算する。さらに、ノード一つの編集コストを各タグの重みとし、それに基づいて編集距離から非類似度を計算する。 Next, the central processing unit calculates an edit distance from the section to be compared based on the tag structure of the section. In this embodiment, the tag structure is converted into a tree type, and the edit distance of the tree structure is calculated. Furthermore, the dissimilarity is calculated from the edit distance based on the edit cost of one node as the weight of each tag.
図6は、図5のセクション1をツリー型に変換した例を示す説明図である。なお、図6のRはツリーの根(Root)を示している。また、図6では、重みの値が大きいノードは表示サイズを大きく、逆に重みの値が小さいノードは小さく表現している。
FIG. 6 is an explanatory diagram showing an example in which
図7は、図6のセクション1のツリーを比較元として、別のセクションであるセクション2、セクション3、セクション4のそれぞれとの編集距離および非類似度の計算例を示す説明図である。本実施例では、ツリーの編集距離の計算において、レイアウトへの影響度を中心に計算するため、レイアウト要素(ブロック要素やインライン要素など)が同じならば、タグ名に関係しない。また、本実施例では、置換を使用せずに、置換=削除+挿入と見なす。さらに、本実施例では、レイアウトにツリーの兄弟順序も影響すると考え、ツリーの兄弟要素を入れ替えての構造一致は許可しない。
FIG. 7 is an explanatory diagram illustrating a calculation example of the edit distance and the dissimilarity with each of the
例えば、セクション2のツリー構造を示した(a)のツリーとの編集距離の計算において、比較元のツリーからインライン要素“a”と“img”との2つを削除(del)した構造と同等になるため、編集距離が2となり、重みに基づいた非類似度は2となる。
For example, in the calculation of the edit distance with the tree of (a) showing the tree structure of
同様に、セクション3のツリー構造を示した(b)のツリーは、比較元のツリーから、インライン要素を1つ削除、1つ挿入(ins)、ブロック要素を1つ削除した構造と同等になるため、編集距離は3となり、重みに基づいた非類似度は102となる。
Similarly, the tree in (b) showing the tree structure of
さらに、セクション4のツリー構造を示した(c)のツリーは、比較元のツリーから、インライン要素を2つ削除、2つ挿入した構造と同等になるため、編集距離は4となり、重みに基づいた非類似度は4となる。
Furthermore, since the tree in (c) showing the tree structure of
なお、類似判定を厳密にするため、同じ要素でもタグ名が異なっていれば編集コストに一定の重みを与えて置換を使用してもよい。また、類似判定を緩和するため、ツリーの兄弟要素を入れ替えての構造一致を許可してもよい。また、タグの構造を用いるのならば、ツリー型に変換しなくてもよい。例えば、ブロック要素を1、及びインライン要素を0として、二進法的な表現にタグ構造を変換し、変換した文字列の編集距離を求めてもよい。また、中央演算装置は、非類似度を計算した時点で処理を終えてもよい。この場合、磁気ディスク装置に記憶される情報は、非類似度となる。 In order to make the similarity determination strict, replacement may be used by giving a certain weight to the editing cost if the tag name is different even for the same element. In addition, in order to ease the similarity determination, structure matching may be permitted by replacing the sibling elements of the tree. If the tag structure is used, it is not necessary to convert it to a tree type. For example, assuming that the block element is 1 and the inline element is 0, the tag structure may be converted into a binary expression, and the edit distance of the converted character string may be obtained. Further, the central processing unit may finish the process when the dissimilarity is calculated. In this case, the information stored in the magnetic disk device is dissimilarity.
次に、中央演算装置は、最も非類似度が小さいセクションの組み合わせから順にマッピングする。本実施例では、マッピングしたセクションを基準にセクションを2つのグループに分割し、それぞれのグループでセクションをマッピングするという処理を繰り返す。 Next, the central processing unit maps in order from the combination of sections having the smallest dissimilarity. In the present embodiment, the process of dividing the section into two groups based on the mapped section and mapping the sections in each group is repeated.
図8は、図4の構造化文書D1とD2とのマッピング例を示す説明図である。例えば、まず、最も非類似度が小さいセクション4(D1)とセクション4(D2)との組み合わせをマッピングする。このマッピングによって、構造化文書が2つのグループに分割され、それぞれD1ではG11とG12、D2ではG21とG22となる。 FIG. 8 is an explanatory diagram showing an example of mapping between the structured documents D1 and D2 of FIG. For example, first, a combination of section 4 (D1) and section 4 (D2) having the smallest dissimilarity is mapped. This mapping divides the structured document into two groups, G11 and G12 for D1, and G21 and G22 for D2.
次に、それぞれのグループで最も非類似度が小さいセクションの組み合わせをマッピングする。例えば、図9のように、G11:G21では、セクション2(D1)とセクション3(D2)、およびG12:G22では、セクション8(D1)とセクション9(D2)との組み合わせをマッピングする。 Next, a combination of sections having the smallest dissimilarity in each group is mapped. For example, as shown in FIG. 9, in G11: G21, section 2 (D1) and section 3 (D2), and in G12: G22, combinations of section 8 (D1) and section 9 (D2) are mapped.
そして、D1ではグループG11がG111とG112に、G12がG121とG122に、一方D2ではG21がG211とG212に、G22がG221とG222に分割される。なお、G122、G212及びG222はセクションが存在しない空グループである。 In D1, the group G11 is divided into G111 and G112, G12 is divided into G121 and G122, while in D2, G21 is divided into G211 and G212, and G22 is divided into G221 and G222. G122, G212, and G222 are empty groups in which no section exists.
続いて、今までと同様にそれぞれのグループで最も非類似度が小さいセクションの組み合わせをマッピングする。例えば、図10のように、G111:G211では、セクション1(D1)とセクション1(D2)、及びG121:G221では、セクション5(D1)とセクション7(D2)の組み合わせをマッピングする。 Subsequently, a combination of sections having the smallest dissimilarity in each group is mapped as before. For example, as shown in FIG. 10, in G111: G211, a combination of section 1 (D1) and section 1 (D2), and in G121: G221, a combination of section 5 (D1) and section 7 (D2) is mapped.
そして、D1ではグループG111がG1111とG1112に、G121がG1211とG1212に、一方D2ではG211がG2111とG2112に、G221がG2211とG2212に分割される。ここで、G112:G212では、セクション3(D1)の組み合わせの相手がD2に存在しないため、存在しないセクションφとマッピングされる。 In D1, the group G111 is divided into G1111 and G1112, G121 is divided into G1211 and G1212, while in D2, G211 is divided into G2111 and G2112, and G221 is divided into G2211 and G2212. Here, in G112: G212, since the partner of the combination of section 3 (D1) does not exist in D2, it is mapped to the section φ that does not exist.
以下も同様に分割されたグループでのマッピングを繰り返し、最終的に図11のようなマッピング結果になる。 Similarly, the mapping in the divided groups is repeated, and finally the mapping result as shown in FIG. 11 is obtained.
なお、図12のように、セクションの文書内における階層構造を利用してグループ分割してもよい。 In addition, as shown in FIG. 12, group division may be performed using a hierarchical structure in a section document.
例えば、深さ2まで探索すると、まず、図13(a)のように、深さ1の階層において、グループのマッピングを行う。次に、図13(b)のように、深さ2の階層において、グループのマッピングを行う。その後に、それぞれの分割されたグループ内において、セクションのマッピングを行う。
For example, when searching to a depth of 2, first, group mapping is performed in a hierarchy of a depth of 1, as shown in FIG. Next, as shown in FIG. 13B, group mapping is performed in a hierarchy of
上述した本発明は、レイアウトを持った構造化文書を複数のセクションに分割して利用するアプリケーションにおいて、レイアウトと文書構造に基づいて類似したセクションに適切にマッピングすることができるため、構造化文書の変化に強いマッピングが可能となる。また、構造化文書の類似性を定量的に把握できるようになる。 In the above-described invention, in an application that uses a structured document having a layout by dividing it into a plurality of sections, it can be appropriately mapped to similar sections based on the layout and the document structure. Mapping that is resistant to change is possible. In addition, the similarity of structured documents can be grasped quantitatively.
例えば、ブログなどのレイアウト構成がよく変化するWebコンテンツにおいて、特定のセクションの更新情報を管理するアプリケーションでは、他のセクションが削除あるいは追加され、セクションの構成が変化したとしても、その特定のセクションを一貫して管理することができる。 For example, in a web content such as a blog where the layout configuration changes frequently, an application that manages the update information of a specific section deletes or adds other sections, and even if the section configuration changes, the specific section is Can be managed consistently.
また、Webコンテンツ全体の更新情報を管理するアプリケーションでも、どのセクションが削除されたり追加されたりしたかを識別することができる。さらに、全くURLが異なるWebコンテンツ同士でも、その類似性をセクション単位で把握できるため、特定の類似性をもったセクションをすべてのWebコンテンツで非表示にするなどの処理が可能となる。 Further, even an application that manages update information of the entire Web content can identify which section has been deleted or added. Furthermore, since the similarity can be grasped in section units even between Web contents having completely different URLs, it is possible to perform processing such as hiding a section having a specific similarity in all the Web contents.
10 データ処理装置
11 記憶装置
100 文書入力部
101 文書解析部
102 レイアウト判定部
103 非類似度計算部
104 マッピング部
105 出力部
110 セクション記憶部
111 マッピング記憶部
10
Claims (39)
構造化文書を構成している各タグに、レイアウトへの影響度に基づいて重みを割り当てるレイアウト判定手段と、
前記割り当てた重み及び前記各構造化文書内のタグ構造に基づいて、構造化文書間の非類似度を計算する非類似度計算手段と
を有することを特徴とする構造化文書処理装置。 A structured document processing apparatus that calculates dissimilarity between a plurality of structured documents,
Layout determination means for assigning a weight to each tag constituting the structured document based on the degree of influence on the layout;
A structured document processing apparatus comprising: a dissimilarity calculating unit that calculates dissimilarity between structured documents based on the assigned weight and the tag structure in each structured document.
前記構造化文書を構成する各タグにレイアウトへの影響度に基づいて重みを割り当てるレイアウト判定手段と、
前記割り当てられた重み及び前記構造化文書のタグ構造に基づいて、構造化文書を細分化したセクション間の非類似度を計算する非類似度計算手段と、
前記計算された非類似度に基づいて構造化文書同士を対応付け、この構造化文書同士の対応付けを示す表示情報を生成するマッピング手段と
前記生成した表示情報を、通信ネットワークを介して情報端末に送信する情報配信手段と
を有することを特徴とする構造化文書処理システム。 A structured document processing system that associates structured documents based on the layout and structure of a structured document,
Layout determination means for assigning a weight to each tag constituting the structured document based on the degree of influence on the layout;
Dissimilarity calculation means for calculating dissimilarity between sections obtained by subdividing the structured document based on the assigned weight and the tag structure of the structured document;
Mapping means for associating structured documents with each other based on the calculated dissimilarity, and generating display information indicating the association between the structured documents, and the generated display information via an information terminal A structured document processing system comprising: an information distribution means for transmitting to the network.
構造化文書を構成している各タグに、レイアウトへの影響度に基づいて重みを割り当てるレイアウト判定ステップと、
前記割り当てた重み及び前記各構造化文書内のタグ構造に基づいて、構造化文書間の非類似度を計算する非類似度計算ステップと
を有することを特徴とする構造化文書処理方法。 A structured document processing method for calculating dissimilarity between a plurality of structured documents,
A layout determination step for assigning a weight to each tag constituting the structured document based on the degree of influence on the layout;
A structured document processing method comprising: a dissimilarity calculation step of calculating dissimilarity between structured documents based on the assigned weight and the tag structure in each structured document.
構造化文書を構成している各タグに、レイアウトへの影響度に基づいて重みを割り当てるレイアウト判定処理と、
前記割り当てた重み及び前記各構造化文書内のタグ構造に基づいて、構造化文書間の非類似度を計算する非類似度計算処理と
を実行させることを特徴とするプログラム。 A program for calculating the dissimilarity between a plurality of structured documents, the program in an information processing device,
Layout determination processing for assigning a weight to each tag constituting a structured document based on the degree of influence on the layout;
A non-similarity calculation process for calculating a non-similarity between structured documents based on the assigned weight and the tag structure in each structured document.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008054648A JP2009211480A (en) | 2008-03-05 | 2008-03-05 | Structured document processing system, structured document processing method, and structured document processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008054648A JP2009211480A (en) | 2008-03-05 | 2008-03-05 | Structured document processing system, structured document processing method, and structured document processing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009211480A true JP2009211480A (en) | 2009-09-17 |
Family
ID=41184549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008054648A Pending JP2009211480A (en) | 2008-03-05 | 2008-03-05 | Structured document processing system, structured document processing method, and structured document processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009211480A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112908487A (en) * | 2021-04-19 | 2021-06-04 | 中国医学科学院医学信息研究所 | Automatic identification method and system for clinical guideline update content |
-
2008
- 2008-03-05 JP JP2008054648A patent/JP2009211480A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112908487A (en) * | 2021-04-19 | 2021-06-04 | 中国医学科学院医学信息研究所 | Automatic identification method and system for clinical guideline update content |
CN112908487B (en) * | 2021-04-19 | 2023-09-22 | 中国医学科学院医学信息研究所 | Automatic identification method and system for updated content of clinical guideline |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8749553B1 (en) | Systems and methods for accurately plotting mathematical functions | |
US10289649B2 (en) | Webpage advertisement interception method, device and browser | |
US9015657B2 (en) | Systems and methods for developing and delivering platform adaptive web and native application content | |
US20160328362A1 (en) | System, method, and software application for enabling a user to view and interact with a visual map in an external application | |
AU2014309040B9 (en) | Presenting fixed format documents in reflowed format | |
KR20190039230A (en) | Method and system for server-side rendering of native content for presentations | |
US20170364495A1 (en) | Propagation of changes in master content to variant content | |
WO2015047920A1 (en) | Title and body extraction from web page | |
US9141596B2 (en) | System and method for processing markup language templates from partial input data | |
US9117314B2 (en) | Information output apparatus, method, and recording medium for displaying information on a video display | |
US11106757B1 (en) | Framework for augmenting document object model trees optimized for web authoring | |
US20180260389A1 (en) | Electronic document segmentation and relation discovery between elements for natural language processing | |
CN110851136A (en) | Data acquisition method and device, electronic equipment and storage medium | |
CN107590288B (en) | Method and device for extracting webpage image-text blocks | |
CN111651552A (en) | Structured information determination method and device and electronic equipment | |
US11138289B1 (en) | Optimizing annotation reconciliation transactions on unstructured text content updates | |
US9772986B2 (en) | Transforming HTML forms into mobile native forms | |
KR20220002814A (en) | Method, electronic device, and storage medium for processing visual data of deep model | |
JP2024502400A (en) | Automatic depiction and extraction of tabular data in portable document formats using graph neural networks | |
JP2022091686A (en) | Data annotation method, device, electronic apparatus and storage medium | |
CN104346174A (en) | Method for describing and reproducing on-line vector diagram modeling process | |
JP4451925B1 (en) | Guideline management device and guideline management program | |
JP2009211480A (en) | Structured document processing system, structured document processing method, and structured document processing program | |
US20210397663A1 (en) | Data reduction in a tree data structure for a wireframe | |
JP2024507029A (en) | Web page identification methods, devices, electronic devices, media and computer programs |