JP2002259407A - Document collection device for particular application, its method and program for execution with computer - Google Patents
Document collection device for particular application, its method and program for execution with computerInfo
- Publication number
- JP2002259407A JP2002259407A JP2001379280A JP2001379280A JP2002259407A JP 2002259407 A JP2002259407 A JP 2002259407A JP 2001379280 A JP2001379280 A JP 2001379280A JP 2001379280 A JP2001379280 A JP 2001379280A JP 2002259407 A JP2002259407 A JP 2002259407A
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- collected
- group
- community
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、文書の収集に関
し、特に特定用途に合わせて文書を効率的に収集する文
書収集装置、その方法に関する。[0001] 1. Field of the Invention [0002] The present invention relates to document collection, and more particularly, to a document collection apparatus and a document collection method for efficiently collecting documents according to specific applications.
【0002】[0002]
【従来の技術】イントラネット、WWW等のネットワー
ク上の文書の検索エンジンは、ネットワークから文書を
収集する文書収集装置(ロボット)と、収集した文書用
のキーワード索引を作成する検索エンジンとから実現さ
れる。2. Description of the Related Art A search engine for documents on a network such as an intranet or WWW is realized by a document collection device (robot) for collecting documents from the network and a search engine for creating a keyword index for the collected documents. .
【0003】文書収集装置は、所与のネタURL(Unif
orm Resorce Locator)集(収集を開始する際の開始点
となるURL集)から文書収集を開始し、収集済みの文
書からアンカー(参照関係)により参照されている未収
集文書を次収集候補として収集し、といった処理を一定
の回数繰り返すことにより動作する。このようにして文
書収集ロボットは、数千万から数億のURLから文書を
定期的に収集する。ここで、URLとは、ネットワーク
上の情報のありかと取得方法を指定する記述方式をい
う。A document collection device is provided with a given material URL (Unif
orm Resorce Locator) (starting collection when starting collection) starts document collection, and collects uncollected documents referenced by anchor (reference relationship) from collected documents as next collection candidates The operation is performed by repeating such a process a certain number of times. In this way, the document collection robot periodically collects documents from tens of millions to hundreds of millions of URLs. Here, the URL refers to a description method for specifying the location of the information on the network and the method of obtaining the information.
【0004】ところで、今日、ネットワーク上の文書の
増加スピードは速く、2000年1月には、Inktomi等によっ
て、インターネットのユニーク文書は10億文書に達し
たという調査結果が発表されている。また、2000年7月
には、アメリカCyveillance社によって、インターネッ
トの大きさは約21億文書であり、2001年にはさらに倍
の大きさになると予測されるという調査結果が発表され
ている。[0004] By the way, today, the number of documents on the network is increasing rapidly, and in January 2000, Inktomi et al. Published a survey result that the number of unique documents on the Internet reached one billion. In July 2000, a report from Cyveillance of the United States announced that the size of the Internet was about 2.1 billion documents, and is expected to double in 2001.
【0005】10億URLから文書を収集するともなる
と、一日100万URLずつ(毎秒約10URL=40
Kバイト)収集したとしても収集し終わるには3年かか
ることになり、収集し終わった頃には最初の頃に収集し
た文書の情報は陳腐化していまう。そこで、用途に合わ
せて重要度の高い情報だけを効率よく収集する知的文書
収集装置が求められていた。When it comes to collecting documents from one billion URLs, one million URLs per day (about 10 URLs per second = 40
Even if it has been collected, it will take three years to complete the collection, and by the time collection is completed, information on documents collected in the early days will become obsolete. Therefore, there has been a demand for an intelligent document collection device that efficiently collects only information having high importance in accordance with the application.
【0006】特定用途の文書を優先して収集する文書収
集装置には、以下のものがある。 ・例えば、特開平9-311802に開示される発明のように、
新しい情報を優先して収集する。 ・内容が類似していると考えられる文書を収集する。そ
の際に、以下の考え方を導入する。There are the following document collecting apparatuses for collecting documents of a specific use with priority. -For example, as in the invention disclosed in JP-A-9-311802,
Collect new information first.・ Collect documents whose contents are considered to be similar. At that time, the following concept is introduced.
【0007】a)階層数で収集範囲を制限する。 例えば、特開平9-218876に開示される発明のように、参
照関係を有する文書は内容的にも近いと考えられるが、
あまり階層的に離れると意味的な繋がりがなくなるた
め、階層数で収集範囲を制限して文書を収集するという
考え方。A) The collection range is limited by the number of layers. For example, as in the invention disclosed in Japanese Patent Laid-Open No. 9-218876, a document having a reference relationship is considered to be similar in content,
The concept of collecting documents by limiting the collection range by the number of layers is because there is no meaningful connection if the layers are too far apart.
【0008】b)意味的内容が近い文書のみ収集する。 例えば、特開平10-105572に開示される発明のように、
文書の中身のマッチングから意味的な近さを計算し、参
照関係を有する文書のうち、意味的に近い文書だけを収
集するという考え方。[0008] b) Only documents having similar semantic contents are collected. For example, as in the invention disclosed in JP-A-10-105572,
The idea is to calculate the semantic closeness from the matching of the contents of the documents and collect only the semantically close documents from the documents having a reference relationship.
【0009】c)参照先を示す文字列が適当な文書のみ
収集する。 例えば、特開平10-260979及び特開2000-9011に開示され
る発明のように、参照先を表している表現である参照表
現、例えばHTMLであればアンカータグの内容に基づ
いて、その参照表現で参照されている参照先文書を次に
収集するか否かを判定するという考え方。 ・一般的に、より人気度の高い文書から優先して収集す
る。C) Only documents whose character strings indicating the reference destination are appropriate are collected. For example, as in the inventions disclosed in JP-A-10-260979 and JP-A-2000-9011, a reference expression that is an expression representing a reference destination, for example, in the case of HTML, the reference expression based on the content of an anchor tag is used. The idea is to determine whether to collect the next referenced document referenced by. -Generally, documents with higher popularity are collected first.
【0010】被参照数(その文書を参照している他の文
書の数)が多い文書は、人気度が高いと考えられる。収
集済みの文書群内の文書から参照されている数が多い文
書から順に収集することで、人気度の高い文書を優先し
て収集できるという考え方。A document having a large number of references (the number of other documents referencing the document) is considered to have high popularity. The idea that documents with high popularity can be preferentially collected by collecting documents in descending order of the number of documents referenced from documents in the collected document group.
【0011】[0011]
【発明が解決しようとする課題】しかし、上述の従来技
術の枠組みだけでは、企業のようなコミュニティのポー
タルサイトに求められるような文書の収集に用いるため
には、不十分な点があった。例えば、企業内のポータル
サイト、つまりコーポレートポータルの要件として、以
下の点が要求される。 ・社内外でリアルタイムに発生する膨大な文書を自動的
に収集する。 ・自動で意味解析及び分類分け(カテゴライズ)する。 ・文書を収集し、分類した結果を画面の適当な場所に
(人に合わせて)フィードする。However, the above-described prior art framework alone is insufficient for use in collecting documents required for a portal site of a community such as a company. For example, the following points are required as requirements for a portal site in a company, that is, a corporate portal.・ Automatically collect a huge amount of documents generated in real time inside and outside the company. -Automatically perform semantic analysis and categorization. -Collect the documents and feed the classified results to the appropriate place on the screen (personally).
【0012】このうち、文書収集において、社内外の膨
大な文書を漫然と収集するのではなく、文書の中から業
務に関係するという観点から文書を選別して収集するこ
とが必要とされる。業務に関係するという観点は、特定
の意味的内容を持つ、或いは重要度を持つということと
はやや異なる。例えば、ある程度の規模の企業が有する
イントラネットコミュニティでは、文書内容も意味的に
多様になるからである。また、社外(例えばインターネ
ット)の文書は、趣味に関する情報も人気度が高くそう
した情報は必ずしもコーポレートポータルにとって有用
であるとは限らない。[0012] Of these, in document collection, it is necessary to select and collect a large number of documents from inside and outside of the company from the viewpoint of being related to the business, rather than collecting them unnecessarily. A business-related perspective is slightly different from having a specific semantic content or importance. For example, in the intranet community of a company of a certain size, the contents of documents are also semantically diverse. In addition, for documents outside the company (for example, the Internet), information on hobbies is also very popular, and such information is not always useful for a corporate portal.
【0013】しかし、従来の文書収集において用いられ
てきた枠組み、例えば、最新情報の優先取得、特定分野
情報の優先取得、人気度が高い情報の優先取得という枠
組みだけでは、このような趣味に関する情報のように、
一般的に重要度が高いが必ずしもこのコミュニティにと
って有用でない文書も収集されてしまうという問題があ
った。[0013] However, the framework used in the conventional document collection, such as the priority acquisition of the latest information, the priority acquisition of the information in a specific field, and the priority acquisition of the information with a high degree of popularity alone, is not the information relating to such hobbies. like,
There is a problem in that documents that are generally important but not necessarily useful to the community are collected.
【0014】また、例えば、上述の従来技術の「意味的
内容が近い文書のみを収集する」と方法で文書を収集す
る場合、各々の考え方には以下の問題があった。 ・単に階層数を予め制限する考え方は、処理は簡単であ
るが、本当に意味内容が近い文書を優先して収集してい
るのか、また、重要な文書を収集し逃していないのか、
保証がない。 ・文書の内容を比べて意味的内容が近いか否か判定する
方式によれば、一般に自然言語処理を使って、文書に記
載された本文を解析してキーワードを取り出し、取り出
されたキーワードの類似度によって解析する。そのた
め、処理に時間がかかる。早くても、毎秒100文書程
度しか処理できない。従って、数十億ともいわれる文書
を1つ1つ処理することは、現実的な時間内に行いがた
い。また、そのように時間をかけて処理したとしても、
その精度は70から80%程度である。さらに、この処
理は、言語の種類に大きく依存するため、言語毎に判定
ツールを備えることが必要となる。 ・参照表現に基づいて収集するか否か判定する場合で
も、参照表現で用いられる文字列には、「ホームペー
ジ」、「トップに戻る」及び「ここをクリック」といっ
たような決まった語句(定番的ば語句)も多く、必ずし
も参照先の意味的内容を表しているとは限らない。Further, for example, when documents are collected by the above-mentioned conventional technique of "collecting only documents having similar semantic contents", there are the following problems in each concept.・ The idea of simply limiting the number of layers is simple, but the process is simple, but do you prefer to collect documents that have really similar meanings, or do you miss important documents?
There is no guarantee. According to the method of comparing the contents of documents to determine whether the semantic contents are close or not, generally, using natural language processing, analyze the text described in the document to extract keywords, and resemble the extracted keywords. Analyze by degree. Therefore, processing takes time. At the earliest, it can process only about 100 documents per second. Therefore, it is difficult to process billions of documents one by one in a realistic time. Also, even if it takes such a long time,
Its accuracy is about 70 to 80%. Further, since this process greatly depends on the type of language, it is necessary to provide a determination tool for each language. -Even if it is determined whether or not to collect based on the reference expression, the character strings used in the reference expression include fixed words (such as "homepage", "return to top", and "click here"). Word), and does not always represent the semantic content of the reference destination.
【0015】以上の問題を鑑み、用途にあった文書を言
語に依存せず、かつ精度良く迅速に収集することを可能
とすることが、本発明が解決しようとする課題である。[0015] In view of the above problems, it is an object of the present invention to make it possible to quickly and accurately collect documents suitable for use without depending on languages.
【0016】[0016]
【課題を解決するための手段】本発明は、ネットワーク
から文書の収集を行なう装置または方法を前提とする。
そして、本発明の各態様に係わる装置では、ネットワー
クから文書を収集する文書収集装置において、収集済み
の文書群の参照関係に基づいて、次に収集すべき文書の
候補である次収集候補を決定する次候補判定手段と、ネ
ットワークから前記次収集候補を収集して収集済み文書
群に加える文書収集手段と、を備え、収集済み文書群の
文書がある数以上になるまで、次候補判定手段による次
収集候補の決定及び前記文書収集手段による文書の収集
を繰り返す。The present invention is based on an apparatus or method for collecting documents from a network.
In the apparatus according to each aspect of the present invention, in the document collection apparatus that collects documents from the network, a next collection candidate that is a candidate for a document to be collected next is determined based on a reference relation of a group of collected documents. And a document collection unit that collects the next collection candidate from the network and adds it to the collected document group. The next candidate determination unit performs until the number of documents in the collected document group reaches a certain number or more. The determination of the next collection candidate and the collection of documents by the document collection means are repeated.
【0017】上記装置を、ネットワーク上のコミュニテ
ィにとって有用度の高い文書を収集するコミュニティ向
けの文書収集装置として構成するようにしてもよい。そ
のために、上記構成において、文書収集手段がネットワ
ーク上のコミュニティ内から文書をまんべんなく収集し
た後、次候補判定手段は、収集済み文書群の参照関係に
基づいてコミュニティ内外の文書から次収集候補を決定
する、こととしてもよい。The above apparatus may be configured as a document collection apparatus for a community that collects documents having a high degree of usefulness for a community on a network. To this end, in the above configuration, after the document collection unit has evenly collected the documents from within the community on the network, the next candidate determination unit determines the next collection candidate from the documents inside and outside the community based on the reference relation of the collected document group. You may do it.
【0018】コミュニティ内外から文書を収集する前
に、コミュニティ内から文書をまんべんなく収集するこ
とにより、コミュニティ内で必要とされている多様な分
野の文書についての情報を入手することができる。この
ようにして入手した多様な分野に関する文書群の参照関
係を用いてコミュニティ内外から文書を収集することに
より、正確にコミュニティにとって有用度の高い文書を
収集することが可能となる。また、文書本文の内容を解
析しないため、言語に依存せず、迅速にコミュニティに
とって有用度の高い文書を収集することが可能となる。By collecting documents evenly from within the community before collecting documents from inside and outside the community, information on documents in various fields required in the community can be obtained. By collecting documents from inside and outside the community using the reference relation of the document group regarding the various fields obtained in this way, it becomes possible to accurately collect documents having a high degree of usefulness for the community. Further, since the content of the document body is not analyzed, it is possible to quickly collect documents having high utility for the community without depending on the language.
【0019】上記構成において、収集済み文書群の参照
関係及び文書のネットワーク上の場所を示す情報、例え
ばURL、に基づいて重要度を算出するランキング手段
を更に備え、次候補判定手段は、参照関係及び重要度に
基づいて次収集候補を決定することとしてもよい。[0019] In the above configuration, the apparatus further comprises ranking means for calculating the importance based on the reference relation of the collected document group and the information indicating the location of the document on the network, for example, a URL. Alternatively, the next collection candidate may be determined based on the importance.
【0020】上記コミュニティ向け文書収集装置におい
て、ランキング手段は、重要度に基づいて、前記コミュ
ニティ内外に分けてランキングし、次候補判定手段は、
コミュニティ内及びコミュニティ外それぞれにおいて、
ランキングが高い文書を前記次収集候補とすることとし
てもよい。これにより、次収集候補がコミュニティ内又
はコミュニティ外に集中し、文書がコミュニティ内又は
コミュニティ外いずれかからばかり収集されてしまうこ
とを防ぐことが可能となる。In the above-mentioned document collection apparatus for a community, the ranking means divides the document into and out of the community based on the degree of importance, and the next candidate determination means comprises:
Within and outside the community,
A document with a high ranking may be set as the next collection candidate. As a result, it is possible to prevent the next collection candidates from being concentrated in or outside the community and collecting documents only from inside or outside the community.
【0021】また、上記コミュニティ向け文書収集装置
は、更に、収集済み文書群を検索した結果を、前記コミ
ュニティ内外に分けて提示する提示手段を備えることと
しても良い。これにより、コミュニティに属するクライ
アントが、コミュニティ内外別に文書の検索結果を取得
することが可能となる。Further, the community document collection device may further include a presentation unit for presenting a search result of the collected document group inside and outside the community. This allows a client belonging to the community to obtain a document search result separately from inside and outside the community.
【0022】また、上記コミュニティ向け文書収集装置
は、更に、文書がコミュニティ内の文書であるか否かを
文書のネットワーク上での場所を示す情報、例えばUR
L、に基づいて判別するコミュニティ判別手段を備える
こととしても良い。文書のネットワーク上での場所を示
す情報に基づいて判定することにより、文書がコミュニ
ティ内の文書であるか否かの判定が迅速に行うことが可
能となる。Further, the document collection device for the community further determines whether or not the document is a document in the community by indicating information indicating a place of the document on the network, for example, UR.
L may be provided. By determining based on information indicating the location of the document on the network, it is possible to quickly determine whether the document is a document in a community.
【0023】また、上記のネットワークから文書を収集
する文書収集装置を、特定の分野に関する文書を収集す
る特定分野向け文書収集装置として構成するようにして
もよい。そのために、本発明の更なる別の態様によれ
ば、ネットワークから文書を収集する装置において、文
書の収集に先立って、特定分野に関する文書群である正
例文書群と、特定分野と関連が少ない分野に関する文書
群である負例文書群とを収集済み文書群として与え、文
書収集手段は、収集された次収集候補を、正例文書群に
加え、収集済み文書群のうち、正例文書群の文書がある
数以上になるまで、次候補判定手段による次収集候補の
決定及び文書収集手段による収集を繰り返すように構成
する。これにより、特定分野に関する文書を、文書本文
の内容を解析せずに、参照関係に基づいて迅速に収集す
ることが可能となる。Further, the document collection device for collecting documents from the network may be configured as a document collection device for a specific field that collects documents related to a specific field. Therefore, according to still another aspect of the present invention, in a device for collecting documents from a network, prior to the collection of documents, a set of positive documents that are documents related to a specific field, and a document that is less relevant to the specific field. A document group relating to the field and a negative example document group are given as a collected document group, and the document collection unit adds the collected next collection candidate to the positive example document group. The determination of the next collection candidate by the next candidate determination unit and the collection by the document collection unit are repeated until the number of documents reaches a certain number or more. This makes it possible to quickly collect documents related to a specific field based on the reference relationship without analyzing the contents of the document body.
【0024】また、上記の特定分野向け文書収集装置に
おいて、更に、収集済み文書の参照関係に基づいて、正
例文書群の文書からのみ参照される度合いである参照度
を算出する参照度算出手段を備え、次候補判定手段は、
参照度が高い文書を次収集候補として決定することとし
てもよい。また、上記の特定分野向け文書収集装置にお
いて、更に、収集済み文書の参照関係に基づいて、正例
文書群の文書を参照している収集済み文書群から参照さ
れている文書について、収集済み文書群から参照される
度合いを示す共参照度を算出する共参照度算出手段を備
え、次候補判定手段は、共参照度が高い文書を次収集候
補として決定することとしてもよい。参照度及び共参照
度を用いることにより、収集したい分野に関する文書
を、文書本文の内容を検討すること無く、迅速に収集す
ることが可能となる。Further, in the above-mentioned document collecting apparatus for specific fields, further, a reference degree calculating means for calculating a reference degree which is a degree of reference from only the documents of the positive example document group based on the reference relation of the collected documents. And the next candidate determination means includes:
A document with a high degree of reference may be determined as a next collection candidate. Further, in the above-described document collecting apparatus for a specific field, further, based on the reference relationship of the collected documents, the collected documents which are referred to from the collected documents which refer to the documents of the positive example documents are collected. A co-reference degree calculating unit that calculates a co-reference degree indicating a degree of reference from the group may be provided, and the next candidate determination unit may determine a document having a high co-reference degree as a next collection candidate. By using the reference degree and the co-reference degree, it is possible to quickly collect documents related to the field to be collected without considering the contents of the document body.
【0025】また、上記の特定分野向け文書収集装置
は、複数の分野を対象とし、各分野に関する文書を同時
に収集する文書収集装置とすることもできる。そのため
に、上記の特定分野向け文書収集装置において、収集に
先立って与える収集済み文書群を複数の分野に関する文
書群の和集合とし、ある分野に関する文書群を正例文書
群として文書を収集する際に、他の残りの分野に関する
文書群の和集合を負例文書群とするように構成する。Further, the above-mentioned document collecting apparatus for a specific field may be a document collecting apparatus which targets a plurality of fields and collects documents related to each field at the same time. Therefore, in the above-described document collecting apparatus for a specific field, when collecting collected documents given before collection as a union of documents related to a plurality of fields and collecting documents as a group of documents related to a certain field as a positive document group Then, the union of the documents in the remaining fields is set as the negative example document.
【0026】また、各文書収集装置は、更に、収集済み
文書で用いられている参照表現に基づいて収集済み文書
群をまとめあげるまとめあげる手段を更に備えることと
してもよい。参照表現のうち、参照先文書と参照元文書
の内容が同一であるのにネットワーク上で分散されて格
納されていることを示す参照表現がある。例えば、「次
へ」、「Next」、「前へ」及び「Prev」等がそ
のような参照表現に該当する。まとめあげ手段は、この
ような参照表現による参照関係をもつ2つ以上の文書を
1つにまとめあげる。Further, each document collection device may further include means for collecting and collecting a group of collected documents based on a reference expression used in the collected documents. Among the reference expressions, there is a reference expression indicating that the contents of the reference destination document and the reference source document are the same, but are distributed and stored on the network. For example, “next”, “Next”, “previous”, “Prev”, etc. correspond to such reference expressions. The grouping unit groups together two or more documents having a reference relationship by such a reference expression.
【0027】また、各文書収集装置は、更に、収集済み
文書群内の文書である収集済み文書で用いられている参
照表現に基づいて、収集済み文書にキーワードを付与す
るキーワード付与手段を備えることとしても良い。これ
により、文書本文の意味内容を解析することなく、か
つ、様々な各キーワードの異称をも、キーワードとする
ことが可能となる。Each of the document collection devices further includes a keyword assigning unit that assigns a keyword to the collected document based on a reference expression used in the collected document which is a document in the collected document group. It is good. As a result, it is possible to use the acronyms of various keywords as keywords without analyzing the semantic content of the document body.
【0028】また、キーワード付与手段は、参照表現が
参照先文書に関係なく使用される参照表現の場合、キー
ワードとしないこととしても良い。ここで、参照先文書
に関係なく使用される参照表現の例として、「トップへ
戻る」、「ホームへ」等が考えられる。The keyword assigning means may not use a keyword when the reference expression is a reference expression used irrespective of the reference destination document. Here, examples of the reference expression used regardless of the reference destination document include “return to top” and “return to home”.
【0029】また、キーワード付与手段は、参照表現が
参照する相異なる文書数を計数し、相異なる文書数があ
る数以上である場合、その参照表現をキーワードとしな
いこととしても良い。このような参照表現は、参照先文
書に関係なく使用される参照表現である可能性が高いか
らである。The keyword assigning means may count the number of different documents referred to by the reference expression, and if the number of different documents is equal to or more than a certain number, the keyword may not be used as the reference expression. This is because such a reference expression is likely to be a reference expression used regardless of the reference destination document.
【0030】また、キーワード付与手段は、参照表現が
参照する相異なる文書数がある数未満である場合、更
に、各収集済み文書でその参照表現によって参照されて
いる回数である参照回数を計数し、相異なる文書数及び
参照回数に基づいて、その参照表現をキーワードとする
か否か判定することとしてもよい。When the number of different documents referred to by the reference expression is less than a certain number, the keyword assigning means further counts the number of times of reference, which is the number of times each collected document is referred to by the reference expression. Alternatively, it may be determined whether or not the reference expression is a keyword based on the number of different documents and the number of references.
【0031】また、キーワード付与手段は、参照表現に
基づくキーワードに、収集済み文書の本文から抽出した
キーワード及び収集済み文書のネットワーク上の場所を
示す情報から抽出したキーワードを組み合せることとし
てもよい。これにより、多様な方法で抽出したキーワー
ドを組み合せることが可能となる。The keyword assigning means may combine a keyword based on the reference expression with a keyword extracted from the body of the collected document and a keyword extracted from information indicating a location on the network of the collected document. This makes it possible to combine keywords extracted by various methods.
【0032】また、本発明の各構成により行われる処理
の過程からなる方法によっても、前述した課題を解決す
ることができる。また、上述した本発明の各構成により
行なわれる機能と同様の制御をコンピュータに行なわせ
るプログラムも、コンピュータに実行されることによっ
て、前述した課題を解決することができる。また、上述
のプログラムを記録したコンピュータで読み取り可能な
記録媒体も、その記録媒体からプログラムをコンピュー
タに読み出して実行することによって、前述した課題を
解決することができる。The above-mentioned problem can also be solved by a method comprising the steps of the processing performed by each configuration of the present invention. In addition, a program that causes a computer to perform the same control as the function performed by each configuration of the present invention described above can also solve the above-described problem by being executed by the computer. In addition, a computer-readable recording medium that stores the above-described program can also solve the above-described problem by reading the program from the recording medium to a computer and executing the program.
【0033】[0033]
【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて説明する。本発明は、ネットワークから、用
途にあった文書を収集する文書収集装置に関する。な
お、以下の説明において、文書がHTMLで記述されて
いる場合について説明するが、本発明を限定する趣旨で
はない。言語をHTML(HyperText Markup Languag
e)に限定する趣旨ではない。文書の構造を記述するマ
ークアップ言語であれば、XML(eXtensibleMarkup L
anguage)及びXSL(eXtensible Stylesheet Languag
e)等その他言語でもよい。また、文書のネットワーク
上の場所を示す情報として、URL(Uniform Resource
Locators)を用いて説明するが、本発明を限定する趣
旨ではない。文書のネットワーク上の場所を示す情報で
あれば、URLでなくともよい。なお、URLは、UR
I(Uniform Resource Identifiers)の機能の一部であ
り、現在ネットワーク上で広く用いられている。Embodiments of the present invention will be described below with reference to the drawings. The present invention relates to a document collection device that collects documents suitable for use from a network. In the following description, a case where a document is described in HTML will be described, but this is not intended to limit the present invention. Change the language to HTML (HyperText Markup Languag
The purpose is not limited to e). XML (eXtensibleMarkup L) is a markup language that describes the structure of a document.
anguage) and XSL (eXtensible Stylesheet Languag)
e) and other languages. As information indicating the location of the document on the network, a URL (Uniform Resource) is used.
Locators), but is not intended to limit the present invention. The information need not be a URL as long as the information indicates the location of the document on the network. The URL is UR
It is a part of the function of I (Uniform Resource Identifiers) and is currently widely used on networks.
【0034】図1に、本発明の原理図を示す。図1に示
すように、文書収集装置1は、インターネットやイント
ラネット等のネットワークに接続されている。文書収集
装置1は、文書収集手段2、参照関係抽出手段3、コミ
ュニティ判別手段4、次候補判定手段5、ランキング手
段6、URL判定手段7、参照度/共参照度算出手段
8、まとめあげ手段9、キーワード抽出手段10を備え
る。図1において、点線で示される構成要素、つまり、
コミュニティ判別手段4及び参照度/共参照度算出手段
8は、実施形態によって用いられたり、用いられなかっ
たりする。同様に、点線で示される矢印、つまり、ラン
キング手段6による文書のランキング結果は、実施形態
によって、次候補判定手段15による次収集候補の判定
に用いられたり、用いられなかったりする。FIG. 1 shows the principle of the present invention. As shown in FIG. 1, the document collection device 1 is connected to a network such as the Internet or an intranet. The document collection device 1 includes a document collection unit 2, a reference relationship extraction unit 3, a community determination unit 4, a next candidate determination unit 5, a ranking unit 6, a URL determination unit 7, a reference / co-reference calculation unit 8, and a grouping unit 9. , Keyword extracting means 10. In FIG. 1, the components indicated by dotted lines, that is,
The community discriminating means 4 and the reference / co-reference degree calculating means 8 may or may not be used depending on the embodiment. Similarly, the arrow indicated by the dotted line, that is, the ranking result of the document by the ranking unit 6 may or may not be used for the next collection candidate determination by the next candidate determination unit 15 depending on the embodiment.
【0035】本発明の1実施形態に係わる文書収集装置
は、ネットワーク上のコミュニティ向けの文書を収集す
る。そのために、1実施形態に係わるコミュニティ向け
文書収集装置は、文書収集手段2、参照関係抽出手段
3、コミュニティ判別手段4、次候補判定手段5、ラン
キング手段6、まとめあげ手段9及びキーワード付与手
段10を備える。コミュニティ向け文書収集装置におい
て、まず、コミュニティ内からまんべんなく文書を収集
した後、コミュニティ内外からコミュニティにとって有
用度が高い文書を収集する。A document collection device according to one embodiment of the present invention collects documents for a community on a network. For this purpose, the community document collection device according to one embodiment includes a document collection unit 2, a reference relation extraction unit 3, a community determination unit 4, a next candidate determination unit 5, a ranking unit 6, a grouping unit 9, and a keyword assignment unit 10. Prepare. In a document collection device for a community, first, documents are uniformly collected from within the community, and then documents having a high degree of usefulness to the community are collected from inside and outside the community.
【0036】参照関係抽出手段3は、収集済み文書群2
0から参照関係を抽出し、文書間参照関係22を抽出す
る。なお、収集開始時は、予め収集済み文書群20とし
て初期文書群を与える。コミュニティ判別手段4は、収
集済み文書群20の参照先文書であって、未収集の文書
がコミュニティ内の文書であるか否か判別する。The reference relation extracting means 3 collects the collected document group 2
The reference relation is extracted from 0, and the inter-document reference relation 22 is extracted. At the start of collection, an initial document group is given as the collected document group 20 in advance. The community discriminating means 4 discriminates whether or not an uncollected document which is a reference destination document of the collected document group 20 is a document in the community.
【0037】次候補判定手段5は、収集済み文書群20
の参照先であって、コミュニティ内の未収集文書を次収
集候補21として判定する。文書収集手段2は、次収集
候補21として判定された文書を収集し、新たに収集し
た文書群(新規収集文書群)を収集済み文書群20に加
え、新たな収集済み文書群20とする。文書収集手段2
は、収集済み文書群20の文書数が規定された値以上で
あるか否か判定する。収集済み文書群20の文書数が規
定された値より少ない場合、上述のようにしてコミュニ
ティ内から文書を収集する処理を繰り返す。このように
コミュニティ内の文書を規定数以上、まんべんなく収集
することにより、コミュニティ内の文書が属する多様な
分野についての情報を取得する。この情報は、コミュニ
ティにとって有用度が高い文書をコミュニティ内外から
収集することに役立てられる。The next candidate judging means 5 includes the collected document group 20
And the uncollected document in the community is determined as the next collection candidate 21. The document collection unit 2 collects the documents determined as the next collection candidates 21 and adds a newly collected document group (a newly collected document group) to the collected document group 20 to make a new collected document group 20. Document collection means 2
Determines whether the number of documents in the collected document group 20 is equal to or greater than a prescribed value. If the number of documents in the collected document group 20 is smaller than the prescribed value, the process of collecting documents from within the community is repeated as described above. As described above, information on various fields to which the documents in the community belong can be acquired by uniformly collecting the documents in the community in a specified number or more. This information is useful for collecting documents that are highly useful for the community from inside and outside the community.
【0038】収集済み文書群20の文書数が規定された
値以上である場合、次にコミュニティにとって有用度が
高い文書をコミュニティ内外から収集する。参照関係抽
出手段3により新規収集文書群から参照関係を抽出し、
コミュニティ判別手段4により参照先文書であって未収
集の文書がコミュニティ内の文書であるか否か判別す
る。ランキング手段6は、参照関係及び、文書のネット
ワーク上での場所を示す情報、例えばURL、の特徴に
基づいて、収集済み文書の参照先となっている未収集の
文書をコミュニティ内外別にランキングする。ランキン
グ手段6は、URL判定手段7を備え、URL判定手段
7は、参照先文書と参照元文書のURL文字列上の類似
を判定する。ランキング手段6は、URL判定手段7に
よって判定されURLの文字列上の類似に基づいて、文
書をランキングする。If the number of documents in the collected document group 20 is equal to or greater than a specified value, documents having the next highest usefulness for the community are collected from inside and outside the community. The reference relation extracting means 3 extracts the reference relation from the newly collected document group,
The community discriminating means 4 discriminates whether or not the reference document which has not been collected is a document in the community. The ranking unit 6 ranks uncollected documents, which are the reference destinations of the collected documents, in and out of the community based on the reference relationship and the information indicating the location of the documents on the network, for example, the URL. The ranking unit 6 includes a URL determination unit 7, and the URL determination unit 7 determines the similarity of the reference destination document and the reference source document on the URL character string. The ranking unit 6 ranks the documents based on the character string similarity of the URL determined by the URL determination unit 7.
【0039】次候補判定手段5は、コミュニティ内外で
それぞれ上位にランキングされた未収集文書を次回にネ
ットワークから収集すべき文書である次収集候補21と
して判定し、文書収集手段2は、次収集候補21として
判定された文書を収集する。このように、本発明の1実
施形態に係わるコミュニティ向け文書収集装置は、多段
階に分けてコミュニティにとって有用度が高い文書を収
集する。ある規定された以上の文書をコミュニティ内外
から収集すると、まとめあげ手段9は、参照表現に基づ
いて収集済み文書20をまとめあげる。キーワード付与
手段10は、参照表現及び参照表現の出現頻度に基づい
て、収集済み文書20にキーワードを付与する。ランキ
ング手段6は、上述のようにして、今度は収集済み文書
20をランキングする。最終的にまとめあげられ、キー
ワードを付与し、ランキングした収収集済み文書20
は、収集文書ファイル23として格納される。上述のよ
うに、コミュニティ向け文書収集装置において、文書本
文の内容を解析していないため、言語に依存せず、迅速
に、用途に合った文書を収集することができる。The next candidate judging means 5 judges the uncollected documents ranked high in the community and outside as the next collection candidate 21 which is the document to be collected from the network next time. The document determined as 21 is collected. As described above, the community document collection device according to the embodiment of the present invention collects documents having high utility for the community in multiple stages. When documents exceeding a certain specified level are collected from inside and outside the community, the grouping means 9 groups together the collected documents 20 based on the reference expression. The keyword assignment unit 10 assigns a keyword to the collected document 20 based on the reference expression and the appearance frequency of the reference expression. The ranking means 6 ranks the collected documents 20 this time as described above. The collected and collected documents 20 that are finally compiled, assigned keywords, and ranked
Is stored as the collected document file 23. As described above, since the content of the document body is not analyzed in the document collection device for the community, it is possible to quickly collect documents suitable for the purpose without depending on the language.
【0040】また、本発明の別の1実施形態に係わる文
書収集装置は、特定の分野に関する文書を収集する。そ
のために、上記特定分野に関する文書収集装置は、文書
収集手段2、参照関係抽出手段3、次候補判定手段5、
ランキング手段6、参照度/共参照度算出手段8、まと
めあげ手段9及びキーワード付与手段10を備える。特
定分野に関する文書収集装置において、コミュニティ内
外の文書の区別は不要であるため、コミュニティ判別に
係わる処理はない。A document collection device according to another embodiment of the present invention collects documents related to a specific field. For this purpose, the document collection device relating to the specific field includes a document collection unit 2, a reference relation extraction unit 3, a next candidate determination unit 5,
The system includes a ranking unit 6, a reference / co-reference calculation unit 8, a grouping unit 9, and a keyword assignment unit 10. In a document collection device for a specific field, there is no need to distinguish between documents inside and outside the community, so there is no processing related to community discrimination.
【0041】特定分野に関する文書収集装置において、
収集に先立って特定分野に関する文書群を正例文書群と
して、その特定分野との関連が少ない文書群を負例文書
群として与える。収集済み文書群20は、正例文書群と
負例文書群の和集合とする。参照度/共参照度算出手段
8は、ある文書と正例文書群、その文書と負例文書群の
それぞれの参照関係に基づいて、その文書が特定分野に
関連する度合いを参照度及び共参照度として算出する。
次候補判定手段5は、ランキング手段6によるランキン
グの代わりに、参照度/共参照度算出手段8が算出した
参照度又は共参照度が高い未収集文書を次収集候補とし
て判定する。また、負例文書群に含まれる収集済み文書
20のうち、参照度又は共参照度が高い文書を負例文書
群から除き、正例文書群に加える。文書収集手段2は、
次収集候補21として判定された文書を収集し、正例文
書群に加える。そして、正例文書群の文書数が規定され
た数以上になるまで、次収集候補の決定及び文書の収集
を繰り返す。その他の動作は、上述の通りである。In a document collection device for a specific field,
Prior to collection, a document group relating to a specific field is given as a positive example document group, and a document group having little relation to the specific field is given as a negative example document group. The collected document group 20 is a union of the positive example document group and the negative example document group. The reference / co-reference degree calculation means 8 determines the degree of relevance of the document to a specific field based on the reference relation between a certain document and a group of positive examples, and the reference relation between the document and a group of negative examples. Calculate as degrees.
The next candidate determination unit 5 determines an uncollected document having a high reference degree or a high co-reference degree calculated by the reference degree / co-reference degree calculation unit 8 as a next collection candidate instead of the ranking by the ranking unit 6. Further, among the collected documents 20 included in the negative example document group, a document having a high reference degree or co-reference degree is excluded from the negative example document group and added to the positive example document group. Document collection means 2
The document determined as the next collection candidate 21 is collected and added to the positive document group. The determination of the next collection candidate and the collection of documents are repeated until the number of documents in the positive example document group becomes equal to or more than the specified number. Other operations are as described above.
【0042】以下、第1実施形態に係わる、コミュニテ
ィにとって有用度の高い文書を収集するコミュニティ向
け文書収集装置について説明する。本発明の第1実施形
態において述べるネットワーク上のコミュニティとし
て、例えば、社内サイト、業界サイト及び特定トピック
のネットワーク上のユーザグループが考えられる。ここ
で、社内サイトは、しばしばイントラネットに代表され
る。業界サイトは、複数の会社のシステムからなるエク
ストラネットに代表される。なお、社内サイトに必要な
文書を収集する文書収集装置は、コーポレートポータル
(EIP:EnterpriseInformation Portalともいわれ
る)ともいわれる、企業内のイントラネットポータルに
適用可能である。The following is a description of a community document collection device for collecting documents having high utility for the community according to the first embodiment. As the community on the network described in the first embodiment of the present invention, for example, an in-house site, an industry site, and a user group on the network of a specific topic can be considered. Here, the in-house site is often represented by an intranet. The industry site is represented by an extranet consisting of systems from multiple companies. Note that a document collection device that collects documents required for an in-house site is applicable to an intranet portal in a company, also called a corporate portal (EIP: EnterpriseInformation Portal).
【0043】コミュニティのポータルにおいて、コミュ
ニティにとって有用度が高い文書を優先して自動収集す
るという要件が必要とされている。例えば、コーポレー
トポータルの場合、業務に関係する文書を自動収集する
必要がある。本発明の第1実施形態によれば、このよう
な文書の自動収集を実現する。そのために、第1実施形
態に係わる文書収集装置において、以下の考え方を採用
する。・特定のコミュニティにとって有用度の高い文書
は、そのコミュニティ内の文書の多くからよく参照され
ている文書である、またはコミュニティ内の重要文書か
ら参照されている文書である、と考える。In the portal of the community, there is a requirement that documents having a high degree of usefulness to the community be automatically collected with priority. For example, in the case of a corporate portal, it is necessary to automatically collect documents related to business. According to the first embodiment of the present invention, such automatic document collection is realized. For this purpose, the following concept is adopted in the document collection device according to the first embodiment. -A document that is highly useful for a specific community is considered to be a document that is frequently referred to by many documents in the community or a document that is referred to by important documents in the community.
【0044】図2は、第1実施形態に係わる文書収集装
置の構成を示す。図1に示すように、文書収集装置10
0は、文書収集部101、参照関係抽出部102、コミ
ュニティ判別部103、次候補判定部104、ランキン
グ部105、まとめあげ部106及びキーワード付与部
107を備える。FIG. 2 shows the configuration of the document collection device according to the first embodiment. As shown in FIG. 1, the document collection device 10
Reference numeral 0 includes a document collection unit 101, a reference relationship extraction unit 102, a community determination unit 103, a next candidate determination unit 104, a ranking unit 105, a grouping unit 106, and a keyword assignment unit 107.
【0045】上述のように、本文書収集装置100にお
いて、先にコミュニティ内の文書について複数回、収集
を行い、次に、コミュニティ内外の文書についても複数
回、収集を行う。このように多段階に分けて複数回、文
書収集を行うことが本文書収集装置100の特徴の1つ
である。As described above, the document collection apparatus 100 first collects documents in a community a plurality of times, and then collects documents in and outside a community a plurality of times. One of the features of the document collection apparatus 100 is that document collection is performed a plurality of times in a multi-step manner.
【0046】収集開始に先立って、まず、初期文書群を
収集済み文書群Sとして与える。この初期文書群は、収
集の開始点となる。初期文書群として、例えば、サイト
のトップページやトップページの参照集(リンク集)等
が考えられる。収集済み文書群S又は初期文書群は、具
体的には、URLテーブル120として文書収集装置1
00に備えられる。Prior to the start of collection, first, an initial document group is given as a collected document group S. This initial document group is a starting point for collection. As the initial document group, for example, a top page of the site, a reference collection (link collection) of the top page, and the like can be considered. Specifically, the collected document group S or the initial document group is stored as a URL table 120 in the document collection device 1.
00 is provided.
【0047】続いて、参照関係抽出部102は、収集済
み文書群Sから参照関係を抽出し、収集済み文書群Sの
参照先となる文書(以下、参照先文書という)のURL
をURLテーブル120に格納し、抽出された参照関係
を参照関係テーブル121に格納する。コミュニティ判
別部103は、参照関係抽出部102が抽出した、収集
済み文書群Sの参照先文書が、コミュニティ内の文書で
あるのか、コミュニティ外の文書であるのか、URLに
基づいて判定し、判別結果を参照関係テーブル121に
格納する。Subsequently, the reference relationship extracting unit 102 extracts a reference relationship from the collected document group S, and URLs of documents to be referred to by the collected document group S (hereinafter referred to as reference destination documents).
Is stored in the URL table 120, and the extracted reference relation is stored in the reference relation table 121. The community determining unit 103 determines whether the reference destination document of the collected document group S extracted by the reference relationship extracting unit 102 is a document in the community or a document outside the community based on the URL. The result is stored in the reference relation table 121.
【0048】本文書収集装置100は、先にコミュニテ
ィ内の文書について1回以上収集を行う。この際、収集
をまんべんなく行う。次候補判定部104は、参照関係
抽出部102が抽出した収集済み文書群Sの参照先文書
のうち、まだ収集されていない、コミュニティ内の文書
を次に収集すべき文書の候補(以下、次収集候補Nとい
う)として判定する。文書収集部101は、次収集候補
Nとして判定された文書群を収集し、収集した文書を収
集済み文書群に追加し、新たな収集済み文書群Sとす
る。このコミュニティ内の文書の収集は、規定された数
の文書を収集するまで行う。コミュニティ内の全ての文
書を収集しなくても良く、大体、コミュニティ内の全文
書の1/2から1/4程度で良い。まんべんなくコミュ
ニティ内の文書を収集することにより、コミュニティ内
で有用な文書の分野についての情報を入手する。The document collection apparatus 100 first collects documents in a community at least once. At this time, collection is performed evenly. The next candidate determination unit 104 is a candidate of the next document to be collected next among the documents in the community that have not been collected among the reference documents of the collected document group S extracted by the reference relationship extraction unit 102 (hereinafter, the next candidate). (Referred to as a collection candidate N). The document collection unit 101 collects the document group determined as the next collection candidate N, adds the collected document to the collected document group, and sets a new collected document group S. The collection of documents in the community is performed until a specified number of documents are collected. It is not necessary to collect all documents in the community, and it may be about 1 / to の of all documents in the community. Obtain information about the areas of documentation that are useful within the community by uniformly collecting documents within the community.
【0049】文書収集部101がコミュニティ内の文書
を規定された数だけ収集した後、文書収集装置100
は、次に、コミュニティ内外の文書についても1回以上
収集を行う。この場合、上述のようにして、文書収集部
101は、文書を収集し、参照関係抽出部102及びコ
ミュニティ判別部103は、URLテーブル120及び
参照関係テーブル121に情報を格納した後、さらに、
ランキング部105は、参照関係及び文書のURLに基
づいて、参照先文書に重要度を与え、その重要度に基づ
いて、参照先文書をランキングする。After the document collection unit 101 collects a specified number of documents in the community, the document collection device 100
Then, the document inside and outside the community is collected at least once. In this case, as described above, the document collection unit 101 collects documents, and the reference relationship extraction unit 102 and the community determination unit 103 store information in the URL table 120 and the reference relationship table 121, and then further
The ranking unit 105 assigns importance to the referenced document based on the reference relationship and the URL of the document, and ranks the referenced document based on the importance.
【0050】候補判定部104は、ランキング部105
による判定結果に基づいて、まだ収集されていない参照
先文書であって、コミュニティ内の文書のうちで上位n
1位内にある文書群、及び、コミュニティ外の文書のう
ちで上位n2位内にある文書群を次収集候補Nとなる文
書として判定する。コミュニティ内外で分けて次収集候
補Nを決定することにより、コミュニティ内とコミュニ
ティ外のいずれかに文書が偏って収集されてしまうこと
を防ぐことが可能となる。The candidate determining unit 104 includes a ranking unit 105
Based on the result of the determination, the reference documents that have not been collected yet, and the top n among the documents in the community
The document group in the first place and the document group in the top n2 place among the documents outside the community are determined as the documents to be the next collection candidates N. By determining the next collection candidate N separately inside and outside the community, it is possible to prevent the documents from being unevenly collected either inside the community or outside the community.
【0051】続いて、コミュニティ内の文書の収集と同
様にして、文書収集部101は、次収集候補Nをコミュ
ニティ内外から収集し、収集した文書を収集済み文書群
に追加して新たな収集済み文書群Sとする。文書収集装
置100は、規定された数の文書を収集するまで、コミ
ュニティ内外からの文書収集を繰り返す。Subsequently, similarly to the collection of documents in the community, the document collection unit 101 collects next collection candidates N from inside and outside the community, and adds the collected documents to a collected document group to newly collect collected documents. A document group S is assumed. The document collection device 100 repeats document collection from inside and outside the community until the specified number of documents is collected.
【0052】文書収集部101がコミュニティ内外から
規定数だけの文書を収集した後、収集した文書の選別を
行う。文書の選別は、まとめあげ部106、キーワード
付与部107及びランキング部105により行われる。
まず、まとめあげ部106は、文書において他文書を参
照する際に用いる文字列(参照表現ともいう)に基づい
て、収集済み文書のうち、同一内容であるが複数の文書
に分割されてい文書をまとめあげる。After the document collection unit 101 collects a specified number of documents from inside and outside the community, the collected documents are sorted out. The selection of documents is performed by the grouping unit 106, the keyword assigning unit 107, and the ranking unit 105.
First, the grouping unit 106 groups documents that have the same content but are divided into a plurality of documents among the collected documents based on a character string (also referred to as a reference expression) used when referring to another document in the document. .
【0053】キーワード付与部107は、文書中の参照
表現に基づいて、キーワードを決定し、文書にキーワー
ドを付与する。より具体的には、キーワード付与部10
7は、参照表現のうち、「トップに戻る」、「ホーム
へ」というような参照先文書の内容に関係なくしばしば
使用される参照表現を除く。続いて、キーワード付与部
107は、各参照表現が参照する相異なる文書数を計数
し、参照表現テーブル122に格納する(図2では不図
示)。また、各収集済み文書についてある参照表現で参
照されている頻度を計数し、参照回数テーブル123に
格納する(図2では不図示)。キーワード付与部107
は、これら計数結果に基づいて各収集済み文書について
参照表現の重みを算出し、重みが大きい順にある数だけ
の参照表現をキーワードとして各収集済み文書に付与す
る。The keyword assigning unit 107 determines a keyword based on the reference expression in the document, and assigns the keyword to the document. More specifically, the keyword assigning unit 10
Reference numeral 7 excludes reference expressions, such as “return to top” and “to home”, which are often used regardless of the contents of the referenced document. Subsequently, the keyword assigning unit 107 counts the number of different documents referenced by each reference expression, and stores the counted number in the reference expression table 122 (not shown in FIG. 2). Also, the frequency of referring to each collected document by a certain reference expression is counted and stored in the reference count table 123 (not shown in FIG. 2). Keyword assignment unit 107
Calculates the weight of the reference expression for each collected document based on these counting results, and assigns a certain number of reference expressions in descending order of the weight to each collected document as a keyword.
【0054】ランキング部105は、参照関係及び文書
のURLに基づいて、各文書に重要度を付与し、その重
要度に基づいて文書をランキングする。このように、本
実施形態に係わるコミュニティ向け文書収集装置100
は、文書本文の内容を解析すること無く、参照関係及び
URLに基づいて文書を収集し、まとめあげ、キーワー
ドを付与し、ランキングする。The ranking unit 105 assigns importance to each document based on the reference relation and the URL of the document, and ranks the documents based on the importance. As described above, the community document collection device 100 according to the present embodiment is described.
Collects documents based on reference relationships and URLs, summarizes, assigns keywords, and ranks documents without analyzing the contents of the document body.
【0055】上述のようにして、文書収集装置100
は、まとめあげられ、キーワードが付与され、ランキン
グされた文書群を優良コンテンツ130として提供す
る。優良コンテンツ130は、検索エンジン140を介
して索引141として提供されたり、検索エンジン14
0を介してサーバ160に提供されたり、分類エンジン
150によってディレクトリ編集されてサーバ160に
提供されたりする。サーバ160のクライアントは、サ
ーバ160に提供された優良コンテンツ130を、ブラ
ウザ170を介して閲覧することができる。As described above, the document collection device 100
Provides a group of documents that have been put together, given a keyword, and ranked as superior content 130. The excellent content 130 is provided as an index 141 via a search engine 140,
0 to the server 160, or a directory edited by the classification engine 150 and provided to the server 160. The client of the server 160 can browse the excellent content 130 provided to the server 160 via the browser 170.
【0056】以下、図3から図6を用いて各テーブルの
データ構造について説明する。図3にURLテーブル1
20のデータ構造の一例を示す。図3に示すように、U
RLテーブルは、各文書について文書を識別する文書I
D(Identification information)、文書のURL、収
集済みであるか否かを示す収集済みフラグ、コミュニテ
ィ内の文書であるか否かを示すコミュニティフラグ及び
文書の重要度を格納する。文書ID及びURLは、参照
関係抽出部102が収集済み文書の参照先文書を抽出し
た際に格納される。収集済みフラグは、文書収集部10
1がその文書を収集した際に「オン(1)」にされる。
コミュニティフラグは、コミュニティ判別部103がそ
の文書がコミュニティ内の文書であると判定した場合に
「オン(1)」にされる。重要度は、ランキング部10
5が文書の参照関係及びURLの文字列上の特徴に基づ
いて算出し、格納する。The data structure of each table will be described below with reference to FIGS. FIG. 3 shows URL table 1
20 shows an example of the data structure of No. 20. As shown in FIG.
The RL table contains a document I that identifies the document for each document.
D (Identification information), the URL of the document, a collected flag indicating whether the document has been collected, a community flag indicating whether the document is in the community, and the importance of the document are stored. The document ID and the URL are stored when the reference relation extracting unit 102 extracts the reference destination document of the collected document. The collected flag is set in the document collection unit 10
1 is turned on (1) when the document is collected.
The community flag is set to “ON (1)” when the community determination unit 103 determines that the document is a document in the community. The importance is determined by the ranking section 10
5 is calculated and stored based on the document reference relationship and the URL character string features.
【0057】図4に参照関係テーブル121のデータ構
造の一例を示す。図4に示すように、参照関係テーブル
121は、文書の参照関係に関する情報を格納する。よ
り具体的には、参照関係テーブル121は、参照元文書
の文書IDである参照元文書ID、参照元文書によって
参照されるコミュニティ内の文書の文書IDである参照
先文書ID1、及び、参照元文書によって参照されるコ
ミュニティ外の文書の文書IDである参照先文書ID2
を格納する。これら情報は、参照関係抽出部102によ
って格納される。FIG. 4 shows an example of the data structure of the reference relation table 121. As shown in FIG. 4, the reference relation table 121 stores information on the reference relation of the document. More specifically, the reference relation table 121 includes a reference source document ID which is a document ID of a reference source document, a reference destination document ID 1 which is a document ID of a document in a community referred to by the reference source document, and Reference destination document ID 2 which is the document ID of a document outside the community referenced by the original document
Is stored. These pieces of information are stored by the reference relation extracting unit 102.
【0058】図5に参照表現テーブル122のデータ構
造の一例を示す。図5に示すように、参照表現テーブル
122は、収集済み文書で各参照表現が用いられる頻度
に関する情報を格納する。より具体的には、参照表現テ
ーブル122は、各参照表現について、参照表現を識別
する表現ID、参照表現(文字列)、参照表現が参照す
る相異なる文書の数である文書頻度DF(w)、及び、
キーワードとして用いるべきか否かを示す要否フラグを
格納する。これら情報は全て、キーワード付与部107
によって格納される。FIG. 5 shows an example of the data structure of the reference expression table 122. As shown in FIG. 5, the reference expression table 122 stores information on the frequency at which each reference expression is used in a collected document. More specifically, the reference expression table 122 includes, for each reference expression, an expression ID for identifying the reference expression, a reference expression (character string), and a document frequency DF (w) indicating the number of different documents referred to by the reference expression. ,as well as,
A necessity flag indicating whether the keyword should be used is stored. All of this information is stored in the
Stored by
【0059】図6に参照回数テーブル123のデータ構
造の一例を示す。図6に示すように、参照回数テーブル
123は、各収集済み文書が各参照表現で参照されてい
る回数である参照表現頻度TF(d,w)を格納する。
これら情報は全て、キーワード付与部107によって格
納される。例えば、ある文書中のある参照表現rw1に
埋め込まれたリンクを参照することによって、参照先文
書doc2が得られた場合、参照先文書doc2のTF
(doc2,rw1)は、1インクリメントされる。図6におい
て、文書IDがdociである文書が、表現IDがrw
jである参照表現によってTF(doci,rwj)回参照され
ていることを示す。例えば、図6において、文書IDが
doc1である文書は、表現IDがrw1である参照表
現によって19回参照されていることがわかる。FIG. 6 shows an example of the data structure of the reference count table 123. As shown in FIG. 6, the reference count table 123 stores a reference expression frequency TF (d, w) which is the number of times each collected document is referred to by each reference expression.
All of this information is stored by the keyword assignment unit 107. For example, when a reference destination document doc2 is obtained by referring to a link embedded in a certain reference expression rw1 in a certain document, the TF of the reference destination document doc2 is obtained.
(Doc2, rw1) is incremented by one. In FIG. 6, the document whose document ID is doci is represented by the expression ID RW
This indicates that the reference expression j is referred to TF (doci, rwj) times. For example, in FIG. 6, it can be seen that the document whose document ID is doc1 has been referenced 19 times by the reference expression whose expression ID is rw1.
【0060】以下、第1実施形態に係わる文書収集装置
が実現する特定のコミュニティにとって有用度の高い文
書を収集する方法について説明する。説明において以下
の表記法を用いる。 ・LT(S)は、文書群Sの参照先となる文書群を示
す。 ・X−Yは、集合Xと集合Yの差集合を示す。Hereinafter, a description will be given of a method of collecting documents having a high degree of usefulness for a specific community realized by the document collection apparatus according to the first embodiment. The following notation is used in the description. LT (S) indicates a document group as a reference destination of the document group S. XY indicates a difference set between the set X and the set Y.
【0061】最初に、図7を用いて特定のコミュニティ
向けの文書を収集する処理の大まかな流れについて説明
する。まず、収集開始時に、収集済み文書群Sの初期文
書群(収集の開始点となる文書群)としてコミュニティ
内の文書を与える。First, a general flow of a process of collecting documents for a specific community will be described with reference to FIG. First, at the start of collection, a document in the community is given as an initial document group (a document group serving as a collection start point) of the collected document group S.
【0062】参照関係抽出部102による参照関係の抽
出結果及びコミュニティ判別部103による、参照先文
書がコミュニティ内の文書であるか否かの判別結果に基
づいて、候補判定部104は、次収集候補Nを抽出する
(ステップS1)。次収集候補Nを抽出する処理につい
て、詳しくは後述する。Based on the result of the reference relationship extraction by the reference relationship extraction unit 102 and the result of the community determination unit 103 determining whether or not the referenced document is a document in the community, the candidate determination unit 104 N is extracted (step S1). The process of extracting the next collection candidate N will be described later in detail.
【0063】続いて、文書収集部101は、URLテー
ブル120に格納されたURLに基づいて、次収集候補
Nを収集し(ステップS2)、収集された文書について
の収集済みフラグをオンにする。これにより、文書収集
部101は、新たに収集された次収集候補Nを収集済み
文書群Sに加える。つまり、式S∪Nで示される文書群
を新たに収集済み文書群Sとする。Subsequently, the document collection unit 101 collects the next collection candidate N based on the URL stored in the URL table 120 (step S2), and turns on the collection completed flag for the collected document. Accordingly, the document collection unit 101 adds the newly collected next collection candidate N to the collected document group S. That is, the group of documents represented by the expression S∪N is set as a newly collected document group S.
【0064】文書収集部101は、収集済み文書群Sに
含まれる文書数が規定された文書数以上であるか否か判
定する(ステップS3)。この判定は、URLテーブル
120に格納された収集済みフラグが「オン(1)」に
なっている文書の数を計数することにより行う。収集済
み文書群Sに含まれる文書数が規定された文書数以上で
ない場合(ステップS3:No)、次候補判定部104
は、再度次収集候補を決定し(ステップS4)、ステッ
プS2に戻る。2回目以降の次収集候補の決定におい
て、今回の収集で新たに収集した文書(以下、新規収集
文書という)についての参照関係抽出部102による参
照関係の抽出結果、及び、コミュニティ判別部103に
よる新規収集文書の参照先文書がコミュニティ内の文書
であるか否かの判別結果に基づいて、候補判定部104
は、未収集の参照先文書のうちコミュニティ内の文書を
次収集候補Nとして抽出する。ステップS4の処理は、
ステップS1と同様であるため、ステップS1について
後述する際に一緒に説明する。The document collection unit 101 determines whether or not the number of documents included in the collected document group S is equal to or greater than the specified number of documents (step S3). This determination is made by counting the number of documents for which the collected flag stored in the URL table 120 is “ON (1)”. If the number of documents included in the collected document group S is not equal to or greater than the specified number of documents (step S3: No), the next candidate determination unit 104
Determines the next collection candidate again (step S4), and returns to step S2. In the determination of the next collection candidate after the second time, a reference relation extraction result by the reference relation extraction unit 102 for a document newly collected by this collection (hereinafter, referred to as a newly collected document) and a new determination by the community determination unit 103 Based on the result of determining whether or not the reference document of the collected document is a document in the community, the candidate determination unit 104
Extracts the document in the community from the uncollected reference destination documents as the next collection candidate N. The processing in step S4 is
Since this is the same as step S1, step S1 will be described together when it is described later.
【0065】収集済み文書群Sに含まれる文書数が規定
された文書数以上である場合(ステップS3:Ye
s)、今度は、候補判定部104は、コミュニティ内外
の文書から次収集候補を決定する。そのために、まず、
参照関係抽出部102は、新規収集文書の参照関係の抽
出し、コミュニティ判別部103は、新規収集文書の参
照先文書がコミュニティ内の文書であるか否かを判別す
る。その後、ランキング部105は、収集済み文書及び
その参照先文書、つまりS∪LT(S)に対して重要度
を付与し、重要度に基づいて、未収集の参照先文書、つ
まりLT(S)−Sのランキングを行う(ステップS
5)。このステップS5の処理について詳しくは後述す
る。When the number of documents included in the collected document group S is equal to or more than the specified number of documents (step S3: Ye)
s) This time, the candidate determination unit 104 determines a next collection candidate from documents inside and outside the community. First of all,
The reference relationship extraction unit 102 extracts the reference relationship of the newly collected document, and the community determination unit 103 determines whether the reference destination document of the newly collected document is a document in the community. After that, the ranking unit 105 assigns importance to the collected document and its reference destination document, that is, S∪LT (S), and based on the importance, the uncollected reference destination document, that is, LT (S). -S ranking (step S
5). Details of the processing in step S5 will be described later.
【0066】続いて、次候補判定部104は、LT
(S)−Sのうち、コミュニティ内の文書群のランキン
グで上位n1件に入っている文書群及びコミュニティ外
の文書群のランキングで上位n2件に入っている文書群
を次収集候補Nとする(ステップS6)。このようにコ
ミュニティ内とコミュニティ外とを区別して次収集候補
Nを抽出することにより、コミュニティ内またはコミュ
ニティ外に、収集される文書が偏ることを防ぐことがで
きる。Subsequently, the next candidate determination unit 104
Among (S) -S, a document group included in the top n1 documents in the ranking of documents in the community and a document group included in the top n2 documents in the ranking of documents outside the community are set as the next collection candidate N. (Step S6). By extracting the next collection candidate N while distinguishing the inside and outside of the community as described above, it is possible to prevent the collected documents from being biased inside or outside the community.
【0067】文書収集部101は、URLテーブル12
0に格納されたURLに基づいて、次収集候補Nを収集
し(ステップS7)、収集された文書の収集済みフラグ
を「オン(1)」にする。文書収集部101は、URL
テーブル120に格納された収集済みフラグが「オン
(1)」になっている文書の数を計数することにより、
収集済み文書群Sに含まれる文書数が規定された文書数
以上であるか否か判定する(ステップS8)。The document collection unit 101 includes the URL table 12
The next collection candidate N is collected based on the URL stored in 0 (step S7), and the collected flag of the collected document is set to “ON (1)”. The document collection unit 101 has a URL
By counting the number of documents for which the collected flag stored in the table 120 is “ON (1)”,
It is determined whether or not the number of documents included in the collected document group S is equal to or greater than the specified number of documents (step S8).
【0068】収集済み文書群Sに含まれる文書数が規定
された文書数以上でない場合(ステップS8:No)、
ステップS5に戻る。収集済み文書群Sに含まれる文書
数が規定された文書数以上である場合(ステップS8:
Yes)、ランキング部105、まとめあげ部106及
びキーワード部107によって、収集済み文書群Sの文
書を選別する(ステップS9)。ステップS9の処理に
ついて詳しくは後述する。If the number of documents included in the collected document group S is not equal to or greater than the specified number of documents (step S8: No),
It returns to step S5. When the number of documents included in the collected document group S is equal to or more than the specified number of documents (step S8:
Yes), the documents of the collected document group S are selected by the ranking unit 105, the grouping unit 106, and the keyword unit 107 (step S9). Details of the processing in step S9 will be described later.
【0069】以下、コミュニティ内の文書を収集する際
に、次収集候補を決定する処理について詳しく説明す
る。この処理は、図7のステップS1及びステップS4
に相当する。The process of determining the next collection candidate when collecting documents in a community will be described below in detail. This processing is performed in steps S1 and S4 in FIG.
Is equivalent to
【0070】まず、参照関係抽出部102は、新規収集
文書から参照されている参照先文書を抽出する(ステッ
プS11)。参照関係抽出部102は、各抽出された参
照先文書について、参照先文書と同一のURLがURL
テーブル120に格納されていない場合、参照先文書の
URLをURLテーブル120に格納する(ステップS
12)。同じURLを重複して格納する必要はないから
である。情報を格納する際、参照関係抽出部102は、
収集済みフラグを「オフ(0)」とする。First, the reference relation extracting unit 102 extracts a reference destination document referred to from a newly collected document (step S11). The reference relation extracting unit 102 determines, for each extracted reference destination document, the same URL as the reference destination document.
If it is not stored in the table 120, the URL of the referenced document is stored in the URL table 120 (step S
12). This is because it is not necessary to store the same URL redundantly. When storing the information, the reference relationship extracting unit 102
The collected flag is set to “off (0)”.
【0071】続いて、コミュニティ判別部103は、U
RLテーブル120に格納された参照先文書のURLの
文字列に基づいて、抽出された参照先文書がコミュニテ
ィ内の文書であるか否か判別し、コミュニティ内の文書
であると判別した場合、コミュニティ判別部103は、
URLテーブル120のコミュニティフラグを「オン
(1)」とする。それ以外の場合、コミュニティ判別部
103は、コミュニティフラグを「オフ(0)」とする
(ステップS13)。さらに、参照関係抽出部102
は、コミュニティ判別部103の判別結果に基づいて、
参照関係テーブル121の各欄に参照関係を格納する。Subsequently, the community determining unit 103
Based on the character string of the URL of the reference document stored in the RL table 120, it is determined whether or not the extracted reference document is a document in the community. The determination unit 103
The community flag of the URL table 120 is set to “ON (1)”. In other cases, the community determination unit 103 sets the community flag to “off (0)” (step S13). Further, the reference relation extracting unit 102
Is based on the determination result of the community determination unit 103,
The reference relation is stored in each column of the reference relation table 121.
【0072】ここで、本実施形態によれば、コミュニテ
ィは、ネットワーク上の文書の集合、つまり文書群とし
て与えられている。従って、同一コミュニティ内の文書
であるか否かの判別は、その文書群を示すURLに基づ
いて判別できる。より具体的には、コミュニティ内の文
書であるか否かの判定は、URLの文字列上の特徴に基
づいて、以下のようにして行う。 ・コミュニティが社内サイトである場合、通常、社内サ
イトのドメイン名(fujitsu.co.jp等)とドメイン名が
同じである文書をコミュニティ内の文書であると判定す
る。 ・コミュニティが業界サイトである場合、その業界サイ
トに属する複数の企業のサイトのドメイン名のいずれか
とドメイン名が同じである文書をコミュニティ内の文書
であると判定する。 ・コミュニティがユーザグループである場合、各ユーザ
のサイト(ホーム文書ともいう)のURL(例えば、ht
tp:https://www.fujitsu.co.jp/foo/ )のいずれかと同じ文字
列をURLに含む文書をコミュニティ内の文書であると
判定する。Here, according to the present embodiment, the community is given as a set of documents on the network, that is, a document group. Therefore, whether or not the document belongs to the same community can be determined based on the URL indicating the document group. More specifically, the determination as to whether or not the document is in the community is performed as follows based on the characteristics of the URL in the character string. When the community is an in-house site, a document whose domain name is the same as the domain name of the in-house site (fujitsu.co.jp or the like) is usually determined to be a document in the community. If the community is an industry site, a document having the same domain name as any of the domain names of the sites of a plurality of companies belonging to the industry site is determined to be a document in the community. If the community is a user group, the URL (for example, ht) of each user's site (also referred to as a home document)
tp: //www.fujitsu.co.jp/foo/) is determined as a document in the community if the URL includes the same character string as any of the characters.
【0073】次候補判定部104は、収集済み文書の参
照先文書であり、かつ、未収集文書である文書LT
(S)−Sのうち、コミュニティ内の文書を次収集候補
Nとして判定する。具体的には、次候補判定部104
は、URLテーブル120を参照し、収集済みフラグが
「オフ(0)」であり、且つ、コミュニティフラグが
「オン(1)」である文書を次収集候補Nとして決定す
る(ステップS14)。このような次収集候補Nは、以
下の(1)式で表すことができる。The next candidate judging section 104 is a document LT which is a reference destination document of the collected document and which is an uncollected document.
Among (S) -S, the document in the community is determined as the next collection candidate N. Specifically, the next candidate determination unit 104
Refers to the URL table 120, and determines, as the next collection candidate N, a document whose collection flag is “off (0)” and whose community flag is “on (1)” (step S14). Such a next collection candidate N can be represented by the following equation (1).
【0074】 N={d|d∈LT(S)−S,dはコミュニティ内} ・・・・(1) このようにして次収集候補Nを決定し、コミュニティ内
の文書をまんべんなく収集することにより、コミュニテ
ィ内で必要とされる、意味的に多様な文書についての情
報を偏りなく取得することが可能となる。N = {d | d} LT (S) −S, d is in the community} (1) In this way, the next collection candidate N is determined, and the documents in the community are collected evenly. Accordingly, information on semantically diverse documents required in the community can be obtained without bias.
【0075】続いて、図9を用いて収集済み文書及びそ
の参照先文書をランキングする処理について説明する。
この処理は、図7のステップS5に相当する。参照関係
抽出部102及びコミュニティ判別部103は、新規収
集文書の参照関係の抽出し、参照関係をコミュニティの
判別結果とともに、URLテーブル120及び参照関係
テーブル121に格納する(ステップS21からS2
3)。このステップS21からS23の処理は、図8で
説明したステップS11からS13と同様であるため、
詳しい説明は省略する。Next, a process for ranking collected documents and their reference destination documents will be described with reference to FIG.
This processing corresponds to step S5 in FIG. The reference relationship extraction unit 102 and the community determination unit 103 extract the reference relationship of the newly collected document, and store the reference relationship together with the community determination result in the URL table 120 and the reference relationship table 121 (steps S21 to S2).
3). The processing of steps S21 to S23 is the same as the processing of steps S11 to S13 described in FIG.
Detailed description is omitted.
【0076】続いて、ランキング部105は、収集済み
文書及びその参照先文書、つまりS∪LT(S)に対し
て、参照関係テーブル121に格納された参照関係及び
URLテーブル120に格納されたURLの文字列上の
特徴に基づいて重要度を算出し、算出した重要度をUR
Lテーブル120に格納する(ステップS24)。ラン
キング部105は、URLテーブル120に格納された
コミュニティフラグ及び重要度に基づいて、未収集の参
照先文書、つまり、LT(S)−Sを、コミュニティ内
外に分けてランキングする(ステップS25)。Subsequently, the ranking unit 105 determines the reference relation stored in the reference relation table 121 and the URL stored in the URL table 120 for the collected document and its reference destination document, that is, S∪LT (S). Is calculated based on the characteristics of the character string of
It is stored in the L table 120 (step S24). The ranking unit 105 ranks uncollected reference documents, that is, LT (S) -S, inside and outside the community, based on the community flag and importance stored in the URL table 120 (step S25).
【0077】以下、ステップS24の重要度を算出する
処理について詳しく説明する。上述のように、ランキン
グ部105は、文書の参照関係及びURLを利用して、
収集済み文書の意味内容を分析することなく、文書の重
要度を算出する。以下、参照関係に基づいて文書に付与
される重要度をリンク重要度という。リンク重要度を付
与する際の基本的な考え方は以下の通りである。 ・類似度の低いURLから多く参照されている文書は重
要である。Hereinafter, the process of calculating the importance in step S24 will be described in detail. As described above, the ranking unit 105 uses the reference relation of the document and the URL,
The importance of a document is calculated without analyzing the semantic content of the collected document. Hereinafter, the importance given to the document based on the reference relation is referred to as link importance. The basic concept when assigning link importance is as follows. Documents that are frequently referenced by URLs with low similarity are important.
【0078】例えば、一般に、同一サイト内に設けられ
た複数の文書はそのサイト内の他の文書に参照されてい
るが、それらの文書のURLは相互に類似する。従っ
て、類似度の高いURLから参照されている文書の重要
度は低いと推定できる。 ・多くの文書から参照されている文書ほど重要な文書で
あり、重要な文書から参照されている、URLの類似度
の低い文書は重要である。For example, generally, a plurality of documents provided in the same site are referred to by other documents in the site, but the URLs of the documents are similar to each other. Therefore, it can be estimated that the importance of a document referenced from a URL having a high similarity is low. A document that is referred to by many documents is a more important document, and a document that is referred to by an important document and has a low URL similarity is important.
【0079】例えば、有名なディレクトリサービス等及
び官公庁等は多くの文書から参照されているが、このよ
うな重要な文書から参照されている文書は重要度が高い
と考えられる。また、多くの文書やミラーサイトを抱え
るサービス(サイト)に設けられた文書等はそのサイト
内で参照されていることが多いが、同じサイト内の文書
のURLは大抵類似しているため、「URLの類似度の
低い文書は重要である」という考え方を導入すれば、同
じサイトの文書が多く検索されてしまうことを避けるこ
とが可能となる。 ・URLの類似度は、サーバアドレス、パス、ファイル
名の全てが異なるものが最も小さく、ミラーサイトや同
一サーバ内の文書は類似度が高くなるように、URLの
字面情報から定義する。For example, famous directory services and government offices are referred to by many documents, and documents referred to by such important documents are considered to have high importance. In addition, many documents and documents provided in a service (site) having a mirror site are often referred to in the site, but since the URLs of documents in the same site are usually similar, " It is possible to avoid that many documents at the same site are searched for many times, by introducing the idea that "documents with low URL similarity are important." The similarity of the URL is defined based on the face information of the URL such that a server address, a path, and a file name that are all different are the smallest, and a mirror site or a document in the same server has a high similarity.
【0080】上述の3つの考え方を導入することによ
り、全ての参照関係を同等に扱わないでリンク重要度に
応じた重みを参照関係に与えることとしている。より具
体的には、重みを参照元と参照先文書のURLの類似度
の逆数として与えることとしている。以下、リンク重要
度の算出についてより詳しく説明する。By introducing the above three concepts, all reference relations are not treated equally, and a weight corresponding to the link importance is given to the reference relation. More specifically, the weight is given as the reciprocal of the similarity between the URLs of the reference source document and the reference destination document. Hereinafter, the calculation of the link importance will be described in more detail.
【0081】リンク重要度の算出対象となる文書集合を
DOC={p1 , p2 ,....pN }、文書pのリンク重要
度をWp 、文書pの参照先の文書集合をRef(p)、文書
pの参照元の文書集合をRefed(p)、文書pとqのUR
L類似度をsim(p,q)、相異度をdiff(p,q)=1/sim(p,q)
とすると、文書pからqに参照が張られているとした
時、その参照の重みlw(p,q)を以下の(2)式で定義す
る。DOC = {p 1 , p 2 ,... P N }, the link importance of the document p is W p , the document set of the reference destination of the document p is Ref (p), Referred (p) is the set of documents referencing document p, and UR of documents p and q
L similarity is sim (p, q), difference is diff (p, q) = 1 / sim (p, q)
Then, when it is assumed that a reference is made from the document p to q, the weight lw (p, q) of the reference is defined by the following equation (2).
【0082】[0082]
【数1】 (Equation 1)
【0083】この(2)式から分かるように、lw(p,q)
は、pとqのURLの類似度sim(p,q)が低いほど、ま
た、pからの参照数がより少ないほど大きくなる。各文
書のリンク重要度は、各p∈DOCに対して、Cq を定
数(重要度の下限であり、文書によって異なる値を与え
てもよい。)として、As can be seen from equation (2), lw (p, q)
Becomes larger as the similarity sim (p, q) of the URLs of p and q is lower and the number of references from p is smaller. The link importance of each document is obtained by defining Cq as a constant (a lower limit of the importance, which may be different for each document) for each p∈DOC.
【0084】[0084]
【数2】 (Equation 2)
【0085】という連立一次方程式の解として定義す
る。ランキング部105は、この連立一次方程式を解く
ことにより、リンク重要度を各文書に付与する。なお、
連立一次方程式の解法については、既存のアルゴリズム
が多数存在するため、説明は省略する。(2)式及び
(3)式から、上述の考え方が実現されていることを読
み取ることができる。Is defined as a solution of the simultaneous linear equation. The ranking unit 105 assigns link importance to each document by solving this simultaneous linear equation. In addition,
Description of the solution of the simultaneous linear equations is omitted because there are many existing algorithms. From the expressions (2) and (3), it can be seen that the above concept is realized.
【0086】次に、(2)式及び(3)式中の文書pと
qのURL類似度sim(p,q) について説明する。URL
類似度は、ランキング部105のURL判別部(不図
示)により算出される。一般に、文書のURLは、サー
バアドレス、パス、ファイル名の三種類の情報から構成
される。例えば、WWW文書のURL、https://www.fla
b.fujitsu.co.jp/hypertext/news/1999/product1.html
は、サーバアドレス(www.flab.fujitsu.co.jp)、パス
(hypertext/news/1999)、ファイル名(product1.htm
l)の3種類の情報から構成される。Next, the URL similarity sim (p, q) between the documents p and q in the equations (2) and (3) will be described. URL
The similarity is calculated by a URL determination unit (not shown) of the ranking unit 105. Generally, the URL of a document is composed of three types of information: a server address, a path, and a file name. For example, the URL of a WWW document, http: //www.fla
b.fujitsu.co.jp/hypertext/news/1999/product1.html
Is the server address (www.flab.fujitsu.co.jp), path (hypertext / news / 1999), file name (product1.htm
l) consists of three types of information.
【0087】本実施形態では、与えられた2つの文書p
及びqのURL類似度を、上記の三種類の組合せにより
定義する。類似度sim(p,q)として、例えば、以下に述べ
るドメイン類似度sim _domain(p,q)及び融合類似度sim
_merge(p,q)が考えられる。In the present embodiment, given two documents p
And q are defined by the above three combinations. As similarity sim (p, q), for example, domain similarity sim_domain (p, q) and fusion similarity sim described below
_Merge (p, q) is considered.
【0088】ドメイン類似度sim _domain(p,q)は、ド
メインの類似に基づいて算出される。ドメインとは、サ
ーバアドレスの後半部分であり、会社や組織を表す。サ
ーバアドレスが.com、.edu、.org等で終わる米国サーバ
の場合はサーバアドレスの後ろから2つめまで、サーバ
アドレスが.jp 、.fr 等で終わる他国のサーバの場合は
サーバアドレスの後ろから3つめまでがドメインに相当
する。The domain similarity sim_domain (p, q) is calculated based on the domain similarity. The domain is the latter half of the server address and represents a company or organization. For servers in the United States ending with .com, .edu, .org, etc., from the end of the server address to the second, and for servers in other countries ending with .jp, .fr, etc., from the end of the server address Up to the third corresponds to a domain.
【0089】文書pと文書qのドメイン類似度は以下の
式により定義される。 sim _domain(p,q) =1/α (p、qが同一ドメインの場合) =1 (p、qが異なるドメインの場合) ここで、αは定数で、0より大きく1より小さい実数値
を取るとする。The domain similarity between the document p and the document q is defined by the following equation. sim_domain (p, q) = 1 / α (when p and q are in the same domain) = 1 (when p and q are in different domains) Here, α is a constant and a real value larger than 0 and smaller than 1 Take it.
【0090】また、sim(p,q)として、前述の三種類の情
報を融合した類似度sim_merge(p,q)を次のように定義
する。 sim _merge(p,q)=(サーバアドレスの類似度)+(パ
スの類似度)+(ファイル名の類似度) 以下、右辺の各項の算出方法について説明する。As sim (p, q), a similarity sim_merge (p, q) obtained by fusing the above three types of information is defined as follows. sim_merge (p, q) = (similarity of server address) + (similarity of path) + (similarity of file name) Hereinafter, a method of calculating each term on the right side will be described.
【0091】サーバアドレスの類似度は、アドレスの階
層を後ろから見ていき、nレベルまで一致した場合、類
似度を1+nとする。例えば、www.fujitsu.co.jp とww
w.flab.fujitsu.co.jpは3レベルまで一致しているので
4となる。www.fujitsu.co.jp とwww.fujitsu.com は1
レベルも一致していないので(一致0レベル)、類似度
は1である。As for the similarity of the server address, the hierarchy of the address is viewed from the rear, and when the levels match up to n levels, the similarity is set to 1 + n. For example, www.fujitsu.co.jp and ww
w.flab.fujitsu.co.jp is 4 because it matches up to 3 levels. www.fujitsu.co.jp and www.fujitsu.com are 1
Since the levels do not match (match 0 level), the similarity is 1.
【0092】パスの類似度は、先頭からパスの"/"で区
切られた要素毎に比較し、一致したレベルまでを類似度
とする。例えば、/doc/patent/index.htmlと/doc/paten
t/1999/2/file.htmlとは、2レベルまで一致しているの
で類似度は2である。The path similarity is compared for each element separated by "/" of the path from the head, and the similarity is determined up to the matching level. For example, /doc/patent/index.html and / doc / paten
Since t / 1999/2 / file.html matches up to two levels, the similarity is 2.
【0093】ファイル名の類似度は、ファイル名が一致
する場合、類似度1とする。このsim_merge(p,q)によ
っても、URLが似通った文書が多く検索されることを
防ぐことができる。The file name similarity is set to 1 when the file names match. This sim_merge (p, q) can also prevent many documents with similar URLs from being searched.
【0094】このようにして、ランキング部105は、
文書に重要度を付与し、高い重要度を付与された文書を
上位にランキングする。このように、本実施形態によれ
ば、ランキング部105は、取得した文書の参照関係及
びURLの文字列の特徴に基づいて、文書本文の意味内
容を解析せずに、つまり処理速度が速くかつ精度良く、
文書に重要度を付与し、その重要度に基づいて文書をラ
ンキングすることができる。In this way, ranking section 105
Documents are assigned importance, and documents with high importance are ranked higher. As described above, according to the present embodiment, the ranking unit 105 does not analyze the semantic content of the document body based on the acquired reference relationship of the document and the characteristics of the character string of the URL. With high accuracy,
Documents can be assigned importance, and the documents can be ranked based on the importance.
【0095】以下、図10を用いて収集済み文書を選別
する処理について詳しく説明する。この処理は図7のス
テップS9に相当する。まず、まとめあげ部106は、
収集済み文書群Sで用いられている参照表現に基づい
て、収集済み文書群Sをまとめあげる(ステップS3
1)。なお、参照表現とは、例えば、HTML(HyperT
ext Mark-up Language)では、アンカータグで囲まれた
部分がそれに相当する。Hereinafter, the process of selecting collected documents will be described in detail with reference to FIG. This processing corresponds to step S9 in FIG. First, the grouping unit 106
The collected documents S are put together based on the reference expression used in the collected documents S (step S3).
1). The reference expression is, for example, HTML (HyperT
In ext Mark-up Language), the part surrounded by the anchor tag corresponds to it.
【0096】より具体的には、予め不図示のまとめあげ
参照表現テーブルに、「次に」、「前へ」といった参照
表現(参照時に用いられる文字列)を格納する。これら
「次に」、「前へ」といった参照表現を用いている文書
は、参照元文書と参照先文書は同一内容であるが、UR
Lが分散されている文書と推定される。まとめあげ部1
06は、まとめあげ参照表現テーブルに格納されている
参照表現を文書から抽出し、以下のようにして文書をま
とめあげる。 ・文書doc1の中から「次へ」、「次に続く」、「N
ext」というような表現により、文書doc2が参照
されている場合、まとめあげ部106は、文書doc2
を文書doc1に縮退する。この操作の繰り返しを可能
な限り行う。 ・文書doc1の中から「前へ」、「前に戻る」、「P
rev」といった表現により、文書doc2が参照され
ている場合、まとめあげ部106は、文書doc1をd
oc2に縮退する。この操作の繰り返しを可能な限り行
う。More specifically, reference expressions (character strings used at the time of reference) such as "next" and "previous" are stored in advance in a collective reference expression table (not shown). Documents using these reference expressions such as “next” and “previous” have the same content in the reference source document and the reference destination document, but have the UR.
It is estimated that L is a distributed document. Consolidation part 1
In step 06, the reference expressions stored in the grouping reference expression table are extracted from the document, and the documents are grouped as follows. -"Next", "Continue", "N" from document doc1
When the document doc2 is referred to by an expression such as “ext”, the grouping unit 106 outputs the document doc2
Is reduced to the document doc1. Repeat this operation as much as possible. -From the document doc1, "Previous", "Return to previous", "P
When the document doc2 is referred to by an expression such as “rev”, the grouping unit 106 converts the document doc1 to d.
Degenerate to oc2. Repeat this operation as much as possible.
【0097】続いて、キーワード付与部107は、参照
表現に基づいて収集済み文書Sにキーワードを付す(ス
テップS32)。キーワード付与処理について詳しくは
後述する。最後に、ランキング部105は、上述の図9
のステップS24と同様にして、収集済み文書に重要度
を付与し、重要度をURLテーブル120に格納する。
ランキング部105は、重要度に基づいて収集済み文書
をランキングする(ステップS33)。Subsequently, the keyword assigning unit 107 assigns a keyword to the collected document S based on the reference expression (step S32). The keyword assignment processing will be described later in detail. Finally, the ranking unit 105 determines whether the
In the same manner as in step S24, importance is assigned to the collected documents, and the importance is stored in the URL table 120.
The ranking unit 105 ranks the collected documents based on the importance (Step S33).
【0098】次に、ステップS32のキーワード付与処
理について、図11を用いて詳しく説明する。まず、予
め、収集済み文書で用いられている参照表現のうち、
「ホームへ」、「トップに戻る」等、参照先文書に関係
なく、しばしば使用される参照表現を不図示の不要語辞
書に格納する(不図示)。キーワード付与部107は、
収集済み文書群Sから参照表現を抽出し、各参照表現w
について、参照表現wを用いて参照される相異なる文書
の数DF(w)を集計し、参照表現wを識別する表現I
D、その参照表現(文字列)とともにDF(w)の集計
結果を参照表現テーブル122に格納する(ステップS
41)。この段階では、要否フラグを「オフ(0)」と
しておく。Next, the keyword assignment processing in step S32 will be described in detail with reference to FIG. First, of the reference expressions used in the collected documents in advance,
A frequently used reference expression such as "go home" or "return to top" is stored in an unnecessary word dictionary (not shown) regardless of the reference document (not shown). The keyword assignment unit 107
A reference expression is extracted from the collected document group S, and each reference expression w is extracted.
, The number DF (w) of different documents referenced using the reference expression w is aggregated, and the expression I that identifies the reference expression w
D, together with the reference expression (character string), the total result of DF (w) is stored in the reference expression table 122 (step S)
41). At this stage, the necessity flag is set to “OFF (0)”.
【0099】キーワード付与部107は、参照表現wの
うち、DF(w)が所定の数以上であるものをキーワー
ド候補から省く(ステップS42)。言い換えると、参
照先文書まで含めた総文書数をNとすると、以下の式に
該当する参照表現wを省く。The keyword assigning unit 107 excludes the reference expressions w whose DF (w) is equal to or more than a predetermined number from the keyword candidates (step S42). In other words, assuming that the total number of documents including the reference destination document is N, the reference expression w corresponding to the following expression is omitted.
【0100】DF(w)>αN ここで、αは、定数であり、例えば0.1としてもよ
い。キーワード付与部107は、参照表現wのうち、不
要語辞書に格納されている特定の参照表現をキーワード
候補から省く(ステップS43)。これらの参照表現
は、参照先文書に関係なく使用されているため、キーワ
ードとして用いるには適切でないからである。DF (w)> αN Here, α is a constant, and may be, for example, 0.1. The keyword assigning unit 107 excludes the specific reference expressions stored in the unnecessary word dictionary from the keyword candidates among the reference expressions w (step S43). This is because these reference expressions are used irrespective of the reference destination document and are not suitable for use as keywords.
【0101】キーワード付与部107は、収集済み文書
Sから、文書dを取り出し、収集済み文書群Sとdの差
集合、つまりS−dを新たな収集済み文書群Sとする
(ステップS44)。The keyword assigning unit 107 extracts the document d from the collected documents S, and sets the difference set between the collected documents S and d, that is, Sd, as a new collected documents S (step S44).
【0102】キーワード付与部107は、キーワード付
与部107は、文書dにおいて各参照表現wによって参
照されている回数TF(d,w)を集計し、以下の
(4)式を用いて、文書dについて各参照表現wの重み
W(d,w)を算出する(ステップS45)。The keyword assigning unit 107 counts the number of times TF (d, w) referred to by each reference expression w in the document d, and calculates the number of times TF (d, w) in the document d using the following equation (4). , The weight W (d, w) of each reference expression w is calculated (step S45).
【0103】 W(d,w)=TF(d,w)log(N/DF(w)) ・・・・(4) キーワード付与部107は、参照表現テーブル122に
アクセスし、参照表現の重みWの大きい順に高々n個の
参照表現の要否フラグを「オン(1)」とする。つま
り、重みWの大きい順に高々n個の参照表現を文書dの
キーワードとする。W (d, w) = TF (d, w) log (N / DF (w)) (4) The keyword assigning unit 107 accesses the reference expression table 122 and weights the reference expression. The necessity flags of at most n reference expressions are set to “on (1)” in the descending order of W. That is, at most n reference expressions are set as keywords of the document d in descending order of the weight W.
【0104】このようにして得られた参照表現に基づく
キーワードは、文書dの本文に含まれる単語に基づくキ
ーワードと異なり、様々な異称をキーワードとして取得
することが特徴の1つである。例えば、ある企業のホー
ムページへの参照表現から、その企業の様々な呼称(正
式名、略称、通称、英語名等)を取得することができ
る。また、例えば、用語「Linux」に関して、「リ
ナックス」、「ライナックス」等の様々な異称がキーワ
ードとして取得することができる。一方、一般に1つの
文書の本文ではこうした異称のうち1つだけを統一的に
用いるため、本文からキーワードを取得する場合では異
称をキーワードとして取得することはできない。One of the features of the keyword based on the reference expression thus obtained is to acquire various aliases as keywords, unlike the keyword based on the word included in the text of the document d. For example, various names (official names, abbreviations, common names, English names, etc.) of the company can be obtained from the reference expression to the home page of the company. Further, for example, regarding the term “Linux”, various aliases such as “Linux” and “Linux” can be acquired as keywords. On the other hand, in general, only one of such aliases is used in the text of one document in a unified manner, so that when a keyword is obtained from the text, the alias cannot be obtained as a keyword.
【0105】また、参照表現から取得したキーワード
に、文書dの本文に出現する単語のうちで頻出する単語
からキーワード及び文書dを示すURLから得たキーワ
ード、例えば、https://www.fujitsu.com/であれば、キ
ーワードとしてfujitsu、を加えることとしてもよい。
これにより、文書dに多様なキーワードを付与すること
が可能になる。The keywords obtained from the reference expression include keywords that are frequently used among words appearing in the body of the document d and keywords obtained from the URL indicating the document d, for example, https://www.fujitsu. If it is com /, fujitsu may be added as a keyword.
This makes it possible to assign various keywords to the document d.
【0106】図12に、第1実施形態に係わる文書収集
装置を用いて収集した文書をユーザに提供する画面の一
例を示す。図12において、収集した優良コンテンツ1
30を、分類エンジン150を用いてディレクトリに分
け、サーバ160のクライアントに提供する場合を例と
している。クライアントは、画面180でキーワードを
入力する、又は、カテゴリを選択することにより、閲覧
したい文書へのリンクまたはリンク集を画面に表示させ
ることができる。FIG. 12 shows an example of a screen for providing a user with documents collected using the document collection device according to the first embodiment. In FIG. 12, the collected excellent contents 1
30 is divided into directories using the classification engine 150 and provided to the client of the server 160 as an example. By inputting a keyword or selecting a category on the screen 180, the client can display a link or a collection of links to a document to be viewed on the screen.
【0107】クライアントがキーワードを入力した場
合、画面181に示すようにキーワードに基づいて検索
された文書へのリンクが、重要度と共に表示される。本
実施形態によれば、入力されたキーワードの異称も合わ
せて検索することが可能である。カテゴリを選択した場
合、画面182に示すように選択されたカテゴリに関連
する文書へのリンク集が表示される。When the client inputs a keyword, a link to a document searched based on the keyword is displayed together with the importance as shown in a screen 181. According to the present embodiment, it is possible to perform a search with an alias of the input keyword. When a category is selected, a link collection to documents related to the selected category is displayed as shown in a screen 182.
【0108】ここで、画面181及び画面182に示す
ように、検索された文書を提示する際に、URLテーブ
ル120に格納されたコミュニティフラグに基づいて、
文書をコミュニティ内外に分けて提示することとしても
良い。Here, as shown in screens 181 and 182, when presenting the retrieved document, based on the community flag stored in the URL table 120,
The document may be presented separately inside and outside the community.
【0109】以下、第2実施形態に係わる文書収集装置
について説明する。第2実施形態に係わる文書収集装置
は、特定分野に関する文書を収集する。本実施形態に係
わる文書収集装置において以下の考え方を採用する。・
ネットワークにおいて、参照の親子/兄弟関係にある文
書は、内容的に似通っている傾向にある。ある程度の文
書群としばしば親子/兄弟関係にあるとされる文書は、
元文書群と同じような分野の内容である可能性が高い。
元の文書群からと親子/兄弟関係にある文書のうち参照
度(親子関係)や共参照度(兄弟関係)の高い文書を収
集し、元文書群に繰り込み、という操作を多段階に繰り
返すことで、当該分野に関する文書を収集していくこと
ができる。Hereinafter, a document collection device according to the second embodiment will be described. The document collection device according to the second embodiment collects documents related to a specific field. The following concept is adopted in the document collection device according to the present embodiment.・
In a network, documents in a parent / child / brother relationship of reference tend to be similar in content. Documents that are often described as having parent-child / sibling relationships with a certain set of documents,
It is highly likely that the content is in the same field as the original document group.
The operation of collecting documents having a high reference degree (parent-child relation) or a high degree of co-reference (sibling relations) among documents in parent-child / sibling relations from the original document group, and nesting the original document group in multiple steps. With this, documents related to the relevant field can be collected.
【0110】図13に第2実施形態に係わる文書収集装
置の構成を示す。図13に示すように第2実施形態に係
わる文書収集装置200は、文書収集部101、参照関
係抽出部102、候補判定部104、参照度/共参照度
算出部201、ランキング部105、まとめあげ部10
6及びキーワード付与部107を備える。参照度/共参
照度算出部201は、文書の参照関係に基づいて、ある
文書が特定分野に関連している度合いを算出する。その
他の各部の機能は、第1実施形態で説明した通りであ
る。FIG. 13 shows the configuration of a document collection device according to the second embodiment. As shown in FIG. 13, the document collection device 200 according to the second embodiment includes a document collection unit 101, a reference relation extraction unit 102, a candidate determination unit 104, a reference / co-reference degree calculation unit 201, a ranking unit 105, and a grouping unit. 10
6 and a keyword assigning unit 107. The reference degree / co-reference degree calculation unit 201 calculates the degree to which a certain document is related to a specific field based on the reference relation of the documents. The functions of the other units are as described in the first embodiment.
【0111】第2実施形態に係わる文書収集装置におい
て、収集開始に先立って、まず、ある分野の代表的な文
書を既存の検索エンジンやリンク集を用いて収集し、正
例文書群PSとして与え、当該分野と重ならない任意の
分野の文書も同様にして収集して負例文書群NSとして
与え、PS∪NSを収集済み文書群Sとする。この収集
済み文書群Sが収集の開始点となる。In the document collection apparatus according to the second embodiment, prior to the start of collection, first, representative documents in a certain field are collected using an existing search engine or link collection, and given as a positive example document group PS. Similarly, documents in any field that does not overlap with the field are also collected and given as a negative example document group NS, and PS @ NS is set as a collected document group S. This collected document group S is the starting point of collection.
【0112】参照関係抽出部102は、収集済み文書群
Sから参照関係を抽出し、収集済み文書群Sの参照先文
書のURLをURLテーブル120に格納し、抽出され
た参照関係を参照関係テーブル121に格納する。ここ
で、第2実施形態に係わる文書収集装置において、UR
Lテーブル120に、コミュニティフラグの代わりに正
例文書群PSに含まれる文書であるか否かを示す正例フ
ラグの欄を含む。正例フラグは、正例文書群PSに含ま
れる文書である場合に「オン(1)」となる。また、参
照関係テーブル121に参照関係を格納する際、コミュ
ニティ内外で分けることは不要となる。The reference relation extracting unit 102 extracts a reference relation from the collected document group S, stores the URL of the reference destination document of the collected document group S in the URL table 120, and stores the extracted reference relation in the reference relation table. 121. Here, in the document collection device according to the second embodiment, the UR
The L table 120 includes a column of a positive example flag indicating whether or not the document is included in the positive example document group PS instead of the community flag. The positive example flag is turned on (1) when the document is included in the positive example document group PS. When storing the reference relation in the reference relation table 121, it is not necessary to divide the reference relation inside and outside the community.
【0113】参照度/共参照度算出部201は、参照関
係抽出部102が抽出した参照関係に基づいて、正例文
書群PS及び負例文書群NSと収集済み文書Sの参照先
文書との関係を示す参照度及び共参照度を算出する。次
候補判定部104は、参照度/共参照度算出部201が
算出した参照度及び共参照度に基づいて、収集済み文書
群Sの参照先文書であって、正例文書群PSに含まれな
い文書のなかから所定の条件を満たす文書を次収集候補
Nとして判定する。次候補判定部104は、次収集候補
Nのうち負例文書群NSに含まれている文書を負例文書
群NSから除き、正例文書群PSに加える。The reference degree / co-reference degree calculation section 201 compares the positive example document group PS and the negative example document group NS with the reference document of the collected document S based on the reference relation extracted by the reference relation extraction section 102. The reference degree and the co-reference degree indicating the relationship are calculated. The next candidate determination unit 104 is a reference destination document of the collected document group S and is included in the positive example document group PS based on the reference degree and the co-reference degree calculated by the reference degree / co-reference degree calculation unit 201. A document that satisfies a predetermined condition is determined as a next collection candidate N from the documents that do not exist. The next candidate determination unit 104 excludes the documents included in the negative example document group NS among the next collection candidates N from the negative example document group NS and adds the documents to the positive example document group PS.
【0114】文書収集部101は、URLテーブル12
0を参照し、次収集候補Nのうち未収集文書を収集し、
収集した文書を正例文書群PSに加える。第2実施形態
に係わる文書収集装置200は、正例文書群PSの文書
数が規定された数以上になるまで、上述のようにして収
集済み文書Sの参照関係を抽出し、参照関係に基づいて
次収集候補Nを決定し、次収集候補Nを収集する処理を
繰り返す。The document collection unit 101 sets the URL table 12
0, and collects uncollected documents among the next collection candidates N,
The collected documents are added to the positive document group PS. The document collection device 200 according to the second embodiment extracts the reference relation of the collected documents S as described above until the number of documents in the positive example document group PS becomes equal to or more than the specified number, and based on the reference relation. Then, the next collection candidate N is determined, and the process of collecting the next collection candidate N is repeated.
【0115】収集済み文書Sが規定された数以上になる
と、まとめあげ部106は参照表現に基づいて収集済み
文書群Sをまとめあげ、キーワード付与部107は参照
表現が用いられる頻度等に基づいて収集済み文書群Sに
キーワードを付す。ランキング部105は、参照関係及
びURLの文字列上の特徴に基づいて各収集済み文書S
の重要度を算出し、重要度に基づいて収集済み文書Sを
ランキングする。これにより、分野別優良コンテンツ2
10を作成する。このように、第2実施形態に係わる文
書収集装置によれば、文書本文の内容を解析せずに、特
定分野に関する文書を収集し、まとめあげ、キーワード
を付与することができる。When the number of collected documents S exceeds the specified number, the grouping unit 106 compiles the collected document group S based on the reference expression, and the keyword assigning unit 107 collects the collected documents S based on the frequency of use of the reference expression. A keyword is assigned to the document group S. The ranking unit 105 determines each of the collected documents S based on the reference relationship and the characteristics of the URL character string.
Is calculated, and the collected documents S are ranked based on the importance. As a result, excellent content 2 by field
Create 10. As described above, according to the document collection device according to the second embodiment, it is possible to collect, collect, and assign keywords to a specific field without analyzing the contents of the document body.
【0116】分野別優良コンテンツ210は、検索エン
ジン140を介してサーバ160に提供される。サーバ
のクライアントはブラウザ160を用いて検索サービス
の提供を受けることができる。[0116] The excellent content 210 for each field is provided to the server 160 via the search engine 140. The client of the server can receive the search service using the browser 160.
【0117】以下、第2実施形態に係わる文書収集装置
が実現する特定分野に関する文書収集方法について説明
する。まず、用いる表記法について説明する。 ・LT(B)は、文書群Bの参照先文書集合を示す。 ・LT(p)は、文書pの参照先文書集合を示す。 ・LS(d,X)={c∈X|c refers d}は、文書
集合Xのうち文書dを参照している文書の集合を示す。 ・LS(A,X)={c∈X|∃d∈A,crefers d}
は、文書集合Xのうち集合A中の少なくとも1文書を参
照している文書の集合を示す。 ・CC(d,A,X)=LS(d,X)∩LS(A,
X)は、文書集合Xのうちで、文書d、及び集合Aの文
書(少なくとも1文書)の両方を参照している文書の集
合を示す。Hereinafter, a document collection method for a specific field realized by the document collection device according to the second embodiment will be described. First, the notation used will be described. LT (B) indicates a reference destination document set of the document group B. LT (p) indicates a document set referred to by the document p. LS (d, X) = {c {X | c refers d}} indicates a set of documents that refer to document d in document set X. LS (A, X) = {c} X | {d {A, crefers d}
Indicates a set of documents that refer to at least one document in the set A of the document set X. CC (d, A, X) = LS (d, X) ∩LS (A,
X) indicates a set of documents that refer to both the document d and the documents of the set A (at least one document) in the document set X.
【0118】図14に、LT(S)、LT(p)、LS
(d,X)及びLS(A,X)について、各集合が意味
する文書の参照関係を示す。図14において黒丸は文書
を示し、矢印は参照関係を示し、矢印の元が参照元、矢
印の先が参照先を示す。図14に示すように、LT
(B)とLS(A,X)及びLT(p)とLS(d,
X)は、それぞれ矢印が逆になっている、つまり参照先
文書と参照元文書が入れかわった関係にあることが分か
る。また、図15に、CC(d,A,X)が意味する文
書の参照関係を示す。In FIG. 14, LT (S), LT (p), LS
For (d, X) and LS (A, X), the reference relation of the document which each set means is shown. In FIG. 14, a black circle indicates a document, an arrow indicates a reference relationship, a source of the arrow indicates a reference source, and a tip of the arrow indicates a reference destination. As shown in FIG.
(B) and LS (A, X) and LT (p) and LS (d,
In X), it can be seen that the arrows are reversed, that is, the reference destination document and the reference source document are interchanged. FIG. 15 shows a reference relationship of a document represented by CC (d, A, X).
【0119】以下、図16を用いて特定分野に関する文
書を収集する処理について説明する。第2実施形態に係
わる文書収集装置によれば、「XML」や「Linu
x」といった、特定分野(ジャンル)に関する意味的に
類似した文書を優先的に収集する場合に、文書本文の内
容を解析する処理を行わずに、参照関係に基づいて収集
することが可能である。The processing for collecting documents relating to a specific field will be described below with reference to FIG. According to the document collection device according to the second embodiment, “XML” or “Linux”
In the case of preferentially collecting semantically similar documents related to a specific field (genre), such as "x", it is possible to collect documents based on a reference relationship without performing a process of analyzing the contents of the document body. .
【0120】まず、当該分野に属する代表的な文書を、
既存の検索エンジンやリンク集から探し出して収集し、
正例文書群PSとする。同様にして当該分野とは重なら
ない分野に属する文書を、探し出して収集し、負例文書
群NSとする。この正例文書群PSと負例文書群NSが
初期文書群となる。そして、PS及びNSの文書のUR
L、収集済みフラグ(全て「オン(1)」)、及び正例
フラグ(正例文書の場合「オン(1)」)をURLテー
ブル120に格納する。正例文書群PSと負例文書群N
Sの和集合PS∪NSを収集済み文書群Sとする(ステ
ップS51)。ここで、例えば、当該分野を「コンピュ
ータ」であるとすると、当該分野と重ならない分野の例
として、「手芸」、「料理」、「美容」等が考えられ
る。First, a typical document belonging to this field is
Search and collect from existing search engines and link collections,
This is a positive example document group PS. Similarly, documents belonging to a field that does not overlap with the relevant field are searched for and collected, and set as a negative example document group NS. The positive example document group PS and the negative example document group NS become the initial document group. And the UR of the PS and NS documents
L, a collected flag (all “ON (1)”), and a positive example flag (“ON (1)” in the case of a positive example document) are stored in the URL table 120. Positive document group PS and negative document group N
The union set PS∪NS of S is set as a collected document group S (step S51). Here, for example, if the field is “computer”, examples of fields that do not overlap with the field include “handicraft”, “cooking”, and “beauty”.
【0121】参照関係抽出部102は、収集開始時は初
期の収集済み文書群S(初期文書群)から、それ以降は
新規収集文書から参照関係を抽出し(ステップS5
2)、参照先文書のURLをURLテーブル120に格
納し、参照関係を参照関係テーブル121に格納する。
この処理は、第1実施形態と同様である。The reference relation extracting unit 102 extracts a reference relation from the initially collected document group S (initial document group) at the start of collection and from a newly collected document thereafter (step S5).
2) The URL of the reference destination document is stored in the URL table 120, and the reference relation is stored in the reference relation table 121.
This processing is the same as in the first embodiment.
【0122】参照度/共参照度算出部201は、抽出さ
れた参照関係に基づいて、収集済み文書群Sの参照先文
書から正例文書群PSに含まれる文書を除いた文書集合
T(S)=LT(S)−PSに含まれる文書d∈T
(S)について、以下の(5)式を用いて参照度R
score(d,PS,S)を算出する。次候補判定部10
5は、参照度Rscore(d,PS,S)が上位n1件に
入っている文書群をN1とする。(ステップS53)。
なお、収集済み文書が正例文書群PSに含まれるか否か
は、URLテーブル120の正例フラグを参照すること
により判定できる。The reference degree / co-reference degree calculation unit 201 generates a document set T (S) by removing the documents included in the positive example document group PS from the reference destination documents of the collected document group S based on the extracted reference relation. ) = LT (S) -document d∈T included in PS
Regarding (S), the reference degree R is calculated using the following equation (5).
Calculate score (d, PS, S). Next candidate determination unit 10
Reference numeral 5 denotes a document group in which the reference score R score (d, PS, S) is in the top n1 documents, as N1. (Step S53).
Whether or not the collected document is included in the positive example document group PS can be determined by referring to the positive example flag of the URL table 120.
【0123】[0123]
【数3】 (Equation 3)
【0124】(5)式の第1項は、文書dを参照してい
る正例文書群PSの文書数の対数を示す。また、(5)
式の第2項は、文書dを参照している収集済み文書数に
対する、文書dを参照している正例文書群PSの文書数
の割合を示す。従って、収集済み文書群Sのうち正例文
書群PSからのみ多く参照されている文書dほど、R
score(d,PS,S)が大きな値を取ることが分か
る。The first term in equation (5) refers to document d.
2 shows the logarithm of the number of documents in the positive example document group PS. Also, (5)
The second term in the formula is the number of collected documents that refer to document d.
On the other hand, the number of documents in the positive document group PS referencing the document d
Indicates the ratio of Therefore, the positive example sentence in the collected document group S
The more the document d is referred to only from the book group PS, the more R
scoreYou can see that (d, PS, S) takes a large value
You.
【0125】つまり、次候補判定部105は、参照度R
score(d,PS,S)に基づいて、新規収集文書の参
照先文書のうち、特定分野に関係ある正例文書群PSか
ら多く参照され、特定分野とあまり関係ない負例文書群
NSから参照されていない文書をN1として決定する。
図17に、文書dについて参照度を算出する際に、
(5)式に含まれる各集合が意味する参照関係を示す。That is, the next candidate determination unit 105 determines that the reference degree R
Based on the score (d, PS, S), among the reference documents of the newly collected documents, a large number of positive example documents PS related to a specific field refer to a large number of negative example documents NS not related to a specific field. A document that has not been subjected to the determination is determined as N1.
In FIG. 17, when calculating the reference degree for the document d,
(5) The reference relation that each set included in the expression means is shown.
【0126】続いて、参照度/共参照度算出部201
は、文書d∈T(S)−N1について、以下の(6)式
を用いて共参照度Cscore(d,PS,S)を算出す
る。次候補判定部105は、d∈T(S)−N1のうち
で共参照度Cscore(d,PS,S)が上位n2件に入
っている文書群をN2とする(ステップS54)。Subsequently, the reference degree / co-reference degree calculation section 201
Calculates the co-reference degree C score (d, PS, S) for the document d @ T (S) -N1 using the following equation (6). The next candidate determination unit 105 sets a document group in d の う ち T (S) -N1 in which the co-reference degree C score (d, PS, S) is in the top n2 items, as N2 (step S54).
【0127】[0127]
【数4】 (Equation 4)
【0128】(6)式の第1項の対数の中身は、文書d
及び正例文書群PSの文書の両方を参照している収集済
み文書p全てについての、文書pの参照先文書であって
正例文書群PSに含まれる文書数の積和を示す。従っ
て、共参照度Cscore(d,PS,S)は、文書d及び
正例文書群PSの文書の両方を参照している収集済み文
書pの数が多い文書dほど、及び、このような文書pの
参照先文書であって正例文書群PSに含まれる文書の数
が多いような文書dほど、大きな値を取ることが分か
る。言い換えると、正例文書群PSの文書を参照してい
る収集済み文書から参照されている文書dについて、そ
の文書dを参照している収集済み文書の数が多い文書d
ほど、共参照度Cscore(d,PS,S)は、大きな値
を取る。The content of the logarithm of the first term of the equation (6) is the document d
And the sum of the number of documents included in the positive example document group PS, which is the reference destination document of the document p, for all the collected documents p referencing both the documents of the positive example document group PS. Accordingly, the co-reference degree C score (d, PS, S) is such that the greater the number of collected documents p that refer to both the document d and the documents of the positive example document group PS, and such a document d It can be seen that the value of the document d, which is the reference document of the document p and includes the number of documents included in the positive example document group PS, is larger. In other words, with respect to the document d referenced from the collected documents referencing the documents of the positive example document group PS, the document d in which the number of collected documents referencing the document d is large.
The larger the co-reference degree C score (d, PS, S), the larger the value.
【0129】(6)式の第2項は、文書dの参照元とな
っている収集済み文書の数に対する、文書dと共に参照
されている文書pの数の割合を示す。共参照度Cscore
(d,PS,S)は、この割合が大きいほど大きな値を
取る。図18に、文書dについて共参照度を算出する際
に、(6)式に含まれる各集合が意味する参照関係を示
す。The second term of the expression (6) indicates the ratio of the number of documents p referenced together with the document d to the number of collected documents that are the reference sources of the document d. Co-reference score C score
(D, PS, S) takes a larger value as this ratio increases. FIG. 18 shows a reference relationship that each set included in Expression (6) implies when calculating the co-reference degree for the document d.
【0130】次候補判定部105は次収集候補N=N1
∪N2とする(ステップS55)。次候補判定部105
は、次収集候補NのURLをキーとしてURLテーブル
120を検索し、次収集候補Nの正例フラグを「オン
(1)」する。この処理により、負例文書群NSに含ま
れていたが、次収集候補として判定された文書が、負例
文書群NSから除かれ、正例文書群PSに加えられるこ
ととなる(ステップS56)。The next candidate determination unit 105 determines that the next collection candidate N = N1
∪N2 is set (step S55). Next candidate determination unit 105
Searches the URL table 120 using the URL of the next collection candidate N as a key, and turns on (1) the positive example flag of the next collection candidate N. As a result of this processing, the documents included in the negative example document group NS but determined as the next collection candidates are removed from the negative example document group NS and added to the positive example document group PS (step S56). .
【0131】文書収集部101は、URLテーブル12
0に格納されたURLに基づいて、次収集候補Nのうち
未収集文書をネットワークから収集し、収集した文書に
対応する収集済みフラグを「オン(1)」にする(ステ
ップS57)。この処理により、新規収集文書を正例文
書群PSに加える。文書収集部101は、URLテーブ
ル120を参照し、正例文書群PSの文書数が規定され
た数以上であるか否か判定する(ステップS58)。正
例文書群PSの文書数が規定された数以上でない場合
(ステップS58:No)、ステップS52に戻って処
理を繰り返す。The document collection unit 101 stores the URL table 12
Based on the URL stored in 0, uncollected documents among the next collection candidates N are collected from the network, and the collected flag corresponding to the collected documents is set to “ON (1)” (step S57). By this process, a newly collected document is added to the positive document group PS. The document collection unit 101 refers to the URL table 120 and determines whether or not the number of documents in the positive example document group PS is equal to or greater than a specified number (step S58). If the number of documents in the positive example document group PS is not equal to or greater than the specified number (step S58: No), the process returns to step S52 and repeats the processing.
【0132】正例文書群PSの文書数が規定された数以
上である場合(ステップS58:Yes)、正例文書群
PSの文書を選別し(ステップS59)、処理を終了す
る。文書の選別処理は、第1実施形態と同様であるため
説明を省略する。If the number of documents in the positive example document group PS is equal to or greater than the specified number (step S58: Yes), the documents in the positive example document group PS are selected (step S59), and the process is terminated. The document selection process is the same as in the first embodiment, and a description thereof will not be repeated.
【0133】このようにして、本実施形態によれば、文
書本文の内容を解析することなく、特定分野に関する文
書を精度よく、かつ迅速に収集することが可能となる。
以下、第2実施形態の変形例について説明する。負例文
書群NSは、集めることも難しいため、収集処理の後に
廃棄することをさけて、有効利用することが望ましい。
そこで、第2実施形態の変形例に係わる文書収集装置に
よれば、上記処理で収集した負例文書群NSを有効に利
用することとする。これにより、なるべく独立な、例え
ば、「Java(登録商標)言語」と「編物」及び「フ
ランス料理」等、複数分野の文書を並行して収集するこ
とを可能とする。そのために、ある分野の文書を収集す
る際、その分野の文書群を正例文書群PSとし、その分
野以外の他の分野の文書群を負例文書群NSとして扱
う。As described above, according to the present embodiment, it is possible to accurately and quickly collect documents related to a specific field without analyzing the contents of the document body.
Hereinafter, a modified example of the second embodiment will be described. Since it is difficult to collect the negative example document group NS, it is desirable to effectively use the document group NS so as not to discard it after the collection process.
Therefore, according to the document collection device according to the modification of the second embodiment, the negative example document group NS collected in the above processing is effectively used. This makes it possible to collect documents in a plurality of fields as independent as possible, for example, “Java (registered trademark) language”, “knitted”, and “French cuisine”. Therefore, when documents in a certain field are collected, a document group in the field is treated as a positive example document group PS, and a document group in a field other than the field is treated as a negative example document group NS.
【0134】文書収集装置の構成は、図13を用いて説
明した通りであるため、説明を省略する。以下、図19
を用いて第2実施形態の変形例に係わる文書収集装置で
行う処理について説明する。The configuration of the document collection device is as described with reference to FIG. 13, and a description thereof will not be repeated. Hereinafter, FIG.
A process performed by the document collection device according to the modification of the second embodiment will be described with reference to FIG.
【0135】まず、n個の独立な分野の文書群Di(i
=1,2,・・・n)を、検索エンジンやリンク集等か
ら探し出して収集し、文書群Diの文書のURL、収集
済みフラグ、及び分野を識別する情報である分野識別情
報をURLテーブル120に格納する。第2実施形態の
変形例に係わる文書収集装置では、正例フラグは不要で
ある。文書群Diは、分野iの初期文書群となる。収集
済み文書群をD=(D1、D2、・・・、Dn)とする
(ステップS61)。First, n independent document groups D i (i
= 1, the · · · n), collected searched from a search engine or links like, URL of the document of the document set D i, collecting flag, and the field identification information is information for identifying the areas URL It is stored in the table 120. In the document collection device according to the modification of the second embodiment, the positive example flag is unnecessary. The document group Di is an initial document group of the field i. The collected document group D = (D 1, D 2 , ···, D n) to (step S61).
【0136】まず、参照関係抽出部102は、iを与え
る(ステップS62)。なお、収集開始時に、参照関係
抽出部102は、iを1とする。続いて、参照関係抽出
部102は、iがnを超えているか否か判定する(ステ
ップS63)。iがnを超えている場合(ステップS6
3:Yes)、ステップS71に進む。そうでない場合
(ステップS63:No)、参照関係抽出部102は、
分野iに対応する文書群Diの新規収集文書から(収集
開始時は初期文書群から)、参照関係を抽出し、参照先
文書のURLをURLテーブル120に、参照関係を参
照関係テーブル121にそれぞれ格納する(ステップS
64)。この処理は、第1実施形態と同様である。First, the reference relation extracting unit 102 gives i (step S62). At the start of collection, the reference relationship extraction unit 102 sets i to 1. Subsequently, the reference relationship extraction unit 102 determines whether i exceeds n (step S63). If i exceeds n (step S6)
3: Yes), proceed to step S71. Otherwise (step S63: No), the reference relation extracting unit 102
From the new collection documents of the document group D i corresponding to the field i (collection start time from the initial document group), to extract the reference relationship, the URL of the referenced document in the URL table 120, the reference relationship table 121 reference relationships Each is stored (Step S
64). This processing is the same as in the first embodiment.
【0137】参照度/共参照度算出部201は、文書群
Diの参照先文書であって、収集済み文書群Dに含まれ
ない文書群T(Di)=LT(Di)−Dを次収集範囲と
し、この次収集範囲T(Di)に含まれる文書d∈T
(Di)について、上述の(5)式を用いて参照度R
score(d,Di,D)を算出する。次候補判定部105
は、参照度Rscore(d,Di,D)が上位n1件に入っ
ている文書群をN1iとする。(ステップS65)。な
お、収集済み文書が含まれる分野は、URLテーブル1
20の分野識別情報を参照することにより判定できる。[0137] Referring degree / co-reference calculation unit 201, a referenced document of the document set D i, is not included in the collected document group D document group T (D i) = LT ( D i) -D Is the next collection range, and the document d∈T included in the next collection range T (D i )
For (D i ), the reference degree R is calculated by using the above equation (5).
Calculate score (d, D i , D). Next candidate determination unit 105
Let N1 i be a document group in which the reference score R score (d, D i , D) is in the top n1 cases. (Step S65). The field containing the collected documents is the URL table 1
The determination can be made by referring to the twenty field identification information.
【0138】参照度/共参照度算出部201は、次収集
範囲T(Di)からN1iを除いた集合に含まれる文書d
∈T(Di)−N1iついて、上述の(6)式を用いて共
参照度Cscore(d,Di,D)を算出する。次候補判定
部105は、共参照度Cscor e(d,Di,D)が上位n
2件に入っている文書群をN2iとする。(ステップS
66)。The reference degree / co-reference degree calculation unit 201 performs the next collection
Range T (Di) To N1iDocument d included in the set excluding
∈T (Di) -N1iThen, using the above equation (6),
Reference Cscore(D, Di, D) are calculated. Next candidate judgment
The unit 105 calculates the co-reference degree Cscor e(D, Di, D) is the top n
N2 sets of documents included in two documentsiAnd (Step S
66).
【0139】次候補判定部105は、N1i∪N2iを分
野iについての次収集候補Niとする(ステップS6
7)。次候補判定部105は、URLテーブル120に
アクセスし、次収集候補Niに現在のiの値に対応した
分類識別情報を付す。文書収集部101は、ネットワー
クから次収集候補Niを収集する(ステップS68)。
文書収集部101は、URLテーブル120にアクセス
し、収集された次収集候補Ni(新規収集文書群)の収
集済みフラグを「オン(1)」とする。これにより、文
書収集部101は、文書群Diに新規収集文書群を加え
て新たな文書群Diとする(ステップS69)。[0139] The following candidate determination unit 105, and collected next candidate N i of areas i of N1 i ∪N2 i (step S6
7). Next candidate determining unit 105 accesses the URL table 120, given the classification identification information corresponding to the value of the current i to be collected next candidate N i. Document collection unit 101 collects the collected next candidate N i from the network (step S68).
The document collection unit 101 accesses the URL table 120 and sets the collected flag of the collected next collection candidate N i (newly collected document group) to “ON (1)”. Thus, the document collection unit 101 adds the new collection documents and new documents D i in document group D i (step S69).
【0140】続いて、参照関係抽出部102は、iを1
インクリメントし(ステップS70)、ステップS63
に戻る。文書収集装置200は、上述の処理をiがnを
超えるまで、処理を繰り返す。Subsequently, the reference relation extracting unit 102 sets i to 1
Increment (step S70), step S63
Return to The document collection device 200 repeats the above processing until i exceeds n.
【0141】iがnを超えると(ステップS63:Ye
s)、参照関係抽出部102は、URLテーブル120
を参照し、収集済みフラグ及び分野識別情報に基づい
て、各文書群Diの文書数を計数し、各文書群Diの文書
数が規定された数以上であるか否か判定する(ステップ
S71)。文書数が規定数以上でない文書群Dk(kは
1からnまでの任意の数)がある場合、ステップS62
に戻り、参照関係抽出部102は、i=kとしてステッ
プS63以下の処理を繰り返す。If i exceeds n (step S63: Ye
s), the reference relation extracting unit 102
Refers to the, based on the collected flag and sector identification information, counts the number of documents in the document group D i, determines whether the number of documents for each document group D i is defined number or more (step S71). If there is a document group D k (k is an arbitrary number from 1 to n) in which the number of documents is not more than the specified number, step S62
Then, the reference relationship extracting unit 102 repeats the processing of step S63 and subsequent steps with i = k.
【0142】なお、文書数が規定数以上でない文書群D
kが複数ある場合、例えば、Dk1、Dk2及びDk3がある
場合、i=k1、k2及びk3である場合について、ス
テップS63以下の処理を繰り返す。D1からDnまで全
ての収集済み文書群Diについて文書数が規定数以上で
ある場合(ステップS71:Yes)、処理を終了す
る。The document group D in which the number of documents is not more than the prescribed number
When there are a plurality of k , for example, when there are D k1, D k2 and D k3, and when i = k1, k2 and k3, the processing after step S63 is repeated. If D document number for all the collected document group D i to 1 from D n is greater than or equal to the prescribed number (step S71: Yes), the process ends.
【0143】これにより、ある分野の文書を収集する際
に、その分野の文書群を正例文書群PSとし、他の残り
の分野の文書群の和集合を負例文書群NSとして用いる
ことができるため、負例文書群NSに関する処理が無駄
にならないこととなる。Thus, when documents in a certain field are collected, it is possible to use a document group in that field as a positive document group PS and use the union of documents in other remaining fields as a negative document group NS. Therefore, the processing related to the negative example document group NS is not wasted.
【0144】また、第2実施形態の変形例によれば、あ
る分野の文書群D1を正例文書群PSとして、その分野
に関する文書を収集する場合に注目すると、負例文書群
NSとして用いられる他の分野の文書群が、正例文書群
PSと比べ大きくなる。さらにまた、負例文書群NS自
体も他の分野に関する文書群であるため、意味的に一定
している。変形例ではない第2実施形態においてある程
度以上収集が進むと、正例文書群PSが大きくなる一方
で負例文書群NSから正例文書群PSに文書が移される
ことによって、例えば(5)式に示されるR
score(d,PS,S)の第2項が大きくなっていくこ
と態が生じうる。これによって、収集の精度が低下する
る可能性があったが、変形例ではその可能性が低くな
る。[0144] Also, according to a modification of the second embodiment, the document group D 1 of the certain areas as positive sample document group PS, when focusing for gathering documents about the field, used as a negative sample document group NS The documents in other fields are larger than the positive documents PS. Furthermore, since the negative example document group NS itself is a document group related to another field, it is semantically constant. In the second embodiment which is not a modified example, if the collection proceeds to a certain extent or more, the positive example document group PS becomes larger while the documents are moved from the negative example document group NS to the positive example document group PS. R shown in
A situation can occur in which the second term of score (d, PS, S) increases. As a result, the accuracy of the collection may have been reduced, but in a modified example, the possibility is reduced.
【0145】以下、図20及び図21を用いて、第2実
施形態に係わる文書収集装置において特定分野に関する
文書を収集する精度について説明する。図20に、ネッ
トワークから収集した約670万URLの文書を全体集
合Dとし、URLに「Linux」を含む15,000URL
を正解例Lとし、任意に選択した約5,000URLを正例
文書群PSそれ以外のURL(D−PS)を負例文書群
NSを初期文書として、文書収集装置の収集精度を実験
した結果を示す。Hereinafter, the accuracy of collecting a document related to a specific field in the document collection device according to the second embodiment will be described with reference to FIGS. FIG. 20 shows a document set of about 6.70 million URLs collected from the network as a whole set D, and 15,000 URLs including "Linux" in the URL
Is the correct answer L, and about 5,000 URLs arbitrarily selected are the positive document set PS and the other URLs (D-PS) are the negative document set NS as the initial document. Show.
【0146】図20において、横軸に収集のくり返し回
数i、縦軸に適合率又は再現率を示す。再現率を折れ
線、適合率を四角プロットで示す。ここで、i回目の繰
り返しで得られた正例集合Siについての適合率及び再
現率は、以下(7)式及び(8)式で示される。In FIG. 20, the horizontal axis indicates the number of times of repeated collection i, and the vertical axis indicates the precision or recall. The recall is shown by a polygonal line, and the precision is shown by a square plot. Here, the relevance and the recall for the positive example set S i obtained in the i-th iteration are shown by the following equations (7) and (8).
【0147】 適合率=|Si∩L|/|Si| ・・・・(7) 再現率=|Si∩L|/|L| ・・・・(8) つまり、適合率は、正例集合Si中の正例文書群Sに含
まれる正解例Lの割合であり、対象としている分野に含
まれない文書(いわゆるゴミ)の少なさを示す。再現率
は、正解例L中の正例文書群Siに含まれる正解例Lの
割合であり、対象としている分野に含まれる文書が収集
されないこと(いわゆる漏れ)の少なさを示す。図20
に示すように、繰り返し回数が73回程度になると、再
現率が急激に低下するが、数十回の繰り返しでは、適合
率、再現率とも良好であることが分かる。なお、繰り返
し回数が73回程度になると再現率が低下する原因は、
所謂ゴミがゴミをよぶためであると考えられる。Precision = | S i ∩L | / | S i | (7) Reproducibility = | S i ∩L | / | L | (8) That is, the precision is This is the ratio of correct examples L included in the correct example document group S in the correct example set S i , and indicates the number of documents (so-called garbage) not included in the target field. The recall rate is a ratio of the correct answer examples L included in the correct example document group S i in the correct answer examples L, and indicates a small possibility that documents included in the target field are not collected (so-called omission). FIG.
As shown in the figure, when the number of repetitions reaches about 73, the recall rate sharply decreases, but it can be seen that the relevance rate and the recall rate are good after several dozen repetitions. The reason why the recall decreases when the number of repetitions becomes about 73 is as follows.
It is considered that so-called garbage is for calling garbage.
【0148】図21に、URLに「What's New」を含む
14,000URLを正解例Lとした場合に、同様の実験を行
った結果を示す。図21に示すように、繰り返し回数が
数回程度になると急激に適合率が低下している。これ
は、What's Newのようなコンテンツは、互いにあまり意
味的な関連(つながり)が無いためと考えられる。In FIG. 21, the URL includes "What's New".
The result of a similar experiment performed when 14,000 URL was used as Correct Example L is shown. As shown in FIG. 21, when the number of repetitions becomes about several times, the matching rate sharply decreases. This is probably because contents such as What's New do not have much semantic association (connection) with each other.
【0149】図20に示す実験結果から、本実施形態に
係わる文書収集装置によれば意味的に関連する文書群を
効率よく収集することができることが分かる。上述にお
いて説明した各サーバ及び各端末は、図22に示すよう
な情報処理装置(コンピュータ)を用いて構成すること
ができる。図22の情報処理装置300は、CPU30
1、メモリ302、入力装置303、出力装置304、
外部記憶装置305、媒体駆動装置306、及びネット
ワーク接続装置307を備え、それらはバス308によ
り互いに接続されている。From the experimental results shown in FIG. 20, it can be seen that the document collection apparatus according to the present embodiment can efficiently collect a semantically related document group. Each server and each terminal described above can be configured using an information processing device (computer) as shown in FIG. The information processing device 300 of FIG.
1, memory 302, input device 303, output device 304,
An external storage device 305, a medium drive device 306, and a network connection device 307 are provided, and these are connected to each other by a bus 308.
【0150】メモリ302は、例えば、ROM(Read O
nly Memory)、RAM(Random Access Memory)等を含
み、処理に用いられるプログラムとデータを格納する。
CPU301は、メモリ302を利用してプログラムを
実行することにより、必要な処理を行う。The memory 302 is, for example, a ROM (Read O
nly Memory), RAM (Random Access Memory), etc., and stores programs and data used for processing.
The CPU 301 performs necessary processing by executing a program using the memory 302.
【0151】上述の各サーバ及び各端末を構成する各機
器及び各部は、それぞれメモリ302の特定のプログラ
ムコードセグメントにプログラムとして格納される。入
力装置303は、例えば、キーボード、ポインティング
デバイス、タッチパネル等であり、ユーザからの指示や
情報の入力に用いられる。出力装置304は、例えば、
ディスプレイやプリンタ等であり、情報処理装置300
の利用者への問い合わせ、処理結果等の出力に用いられ
る。Each device and each unit constituting each server and each terminal described above is stored as a program in a specific program code segment of the memory 302. The input device 303 is, for example, a keyboard, a pointing device, a touch panel, or the like, and is used for inputting an instruction or information from a user. The output device 304 is, for example,
A display, a printer, or the like;
Is used for inquiring the user of the program and outputting the processing results and the like.
【0152】外部記憶装置305は、例えば、磁気ディ
スク装置、光ディスク装置、光磁気ディスク装置等であ
る。この外部記憶装置305に上述のプログラムとデー
タを保存しておき、必要に応じて、それらをメモリ30
2にロードして使用することもできる。The external storage device 305 is, for example, a magnetic disk device, an optical disk device, a magneto-optical disk device, or the like. The above-described programs and data are stored in the external storage device 305, and are stored in the memory 30 as necessary.
2 can also be used.
【0153】媒体駆動装置306は、可搬記録媒体30
9を駆動し、その記録内容にアクセスする。可搬記録媒
体309としては、メモリカード、メモリスティック、
フロッピー(登録商標)ディスク、CD−ROM(Comp
act Disc Read Only Memory)、光ディスク、光磁気デ
ィスク、DVD(Digital Versatile Disk)等、任意の
情報処理装置で読み取り可能な記録媒体が用いられる。
この可搬記録媒体309に上述のプログラムとデータを
格納しておき、必要に応じて、それらをメモリ302に
ロードして使用することもできる。The medium driving device 306 is a portable recording medium 30.
9 to access the recorded contents. As the portable recording medium 309, a memory card, a memory stick,
Floppy (registered trademark) disk, CD-ROM (Comp
A recording medium that can be read by any information processing device, such as an act disc read only memory), an optical disk, a magneto-optical disk, and a DVD (Digital Versatile Disk) is used.
The above-described program and data can be stored in the portable recording medium 309, and can be used by loading them into the memory 302 as needed.
【0154】ネットワーク接続装置307は、LAN、
WAN等の任意のネットワーク(回線)を介して外部の
装置を通信し、通信に伴なうデータ変換を行う。また、
必要に応じて、上述のプログラムとデータを外部の装置
から受け取り、それらをメモリ302にロードして使用
することもできる。The network connection device 307 is a LAN,
An external device is communicated via an arbitrary network (line) such as a WAN, and data conversion accompanying the communication is performed. Also,
If necessary, the program and data described above can be received from an external device, and loaded into the memory 302 for use.
【0155】図23は、図22の情報処理装置300に
プログラムとデータを供給することのできる情報処理装
置で読み取り可能な記録媒体及び伝送信号を示してい
る。なお、本発明は、情報処理装置により使用されたと
きに、上述の本発明の実施形態の各構成によって実現さ
れる機能と同様の機能を情報処理装置に行わせるための
情報処理装置で読み出し可能な記録媒体309として構
成することもできる。FIG. 23 shows a recording medium and a transmission signal which can be read by an information processing apparatus capable of supplying a program and data to the information processing apparatus 300 of FIG. Note that, when the present invention is used by an information processing apparatus, it can be read by the information processing apparatus for causing the information processing apparatus to perform the same function as the function realized by each configuration of the above-described embodiment of the present invention. It can also be configured as a simple recording medium 309.
【0156】実施形態において各装置により行なわれる
処理と同様のものを情報処理装置に行なわせるプログラ
ムを、情報処理装置で読み取り可能な記録媒体309に
予め記憶させておき、図23に示すようにしてその記録
媒体309からそのプログラムを情報処理装置300に
読み出させてその情報処理装置300のメモリ302や
外部記憶装置305に一旦格納させ、その情報処理装置
300の有するCPU301にこの格納されたプログラ
ムを読み出させて実行させる。In the embodiment, a program for causing an information processing apparatus to execute the same processing as that performed by each apparatus is stored in a recording medium 309 readable by the information processing apparatus in advance, and as shown in FIG. The program is read from the recording medium 309 by the information processing device 300 and temporarily stored in the memory 302 or the external storage device 305 of the information processing device 300. The stored program is stored in the CPU 301 of the information processing device 300. Read and execute.
【0157】また、プログラム(データ)提供者310
から情報処理装置300にプログラムをダウンロードす
る際に回線311(伝送媒体)を介して伝送される伝送
信号自体も、上述した本発明の実施形態において説明し
た各装置に相当する機能を汎用的な情報処理装置で行な
わせることのできるものである。Also, the program (data) provider 310
The transmission signal itself transmitted via the line 311 (transmission medium) when the program is downloaded from the computer to the information processing apparatus 300 also has the function corresponding to each apparatus described in the above-described embodiment of the present invention as general-purpose information. It can be performed by a processing device.
【0158】以上、本発明の実施形態について説明した
が、本発明は上述した実施形態に限定されるものではな
く、他の様々な変更が可能である。例えば、第1実施形
態に係わる文書収集装置100と第2実施形態に係わる
文書収集装置200とを組みせるように構成ことによ
り、コミュニティ向けに分野別に文書を収集させること
としてもよい。Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and various other modifications are possible. For example, by configuring the document collection device 100 according to the first embodiment and the document collection device 200 according to the second embodiment to be assembled, documents may be collected according to fields for a community.
【0159】また、文書収集装置100又は200を構
成する各部及び各DBは、お互いに連携して動作するこ
とにより一連のビジネスプロセスを実現する。これら各
部及び各DBは同じサーバに設けられてもよいし、異な
るサーバに設けられネットワークを介して連携して動作
することとしてもよい。Further, each unit and each DB constituting the document collection device 100 or 200 operate in cooperation with each other to realize a series of business processes. These units and DBs may be provided in the same server, or may be provided in different servers and operate in cooperation via a network.
【0160】(付記1) ネットワークから文書を収集
する文書収集方法であって、前記文書の参照関係に基づ
いて、前記ネットワーク上のコミュニティ内から文書を
所定数以上収集し、前記コミュニティから前記第1の所
定数以上の文書を収集した後、収集済み文書の参照関係
に基づいて、前記コミュニティ内外から文書を収集す
る、ことを特徴とする文書収集方法。(Supplementary Note 1) A document collection method for collecting documents from a network, the method comprising: collecting at least a predetermined number of documents from a community on the network based on a reference relation of the documents; Collecting a predetermined number of documents or more, and then collecting documents from inside and outside the community based on the reference relation of the collected documents.
【0161】(付記2) 前記収集済み文書群の参照関
係及びネットワーク上の場所を示す情報に基づいて前記
収集済み文書の重要さの度合いを示す重要度を算出し、
前記参照関係及び前記重要度に基づいて、収集すべき文
書を決定する、ことを特徴とする付記1記載の文書収集
方法。(Supplementary Note 2) The importance indicating the degree of importance of the collected documents is calculated based on the reference relation of the collected documents and the information indicating the location on the network.
The document collection method according to claim 1, wherein a document to be collected is determined based on the reference relation and the importance.
【0162】(付記3) 前記収集すべき文書は、前記
コミュニティ内外別に決定される、ことを特徴とする付
記2記載の文書収集方法。(Supplementary Note 3) The document collection method according to Supplementary Note 2, wherein the documents to be collected are determined for each of the inside and outside of the community.
【0163】(付記4) 前記収集済み文書群を検索し
た結果を、前記コミュニティ内外に分けて提示する、こ
とを特徴とする付記3記載の文書収集方法。(Supplementary Note 4) The document collection method according to Supplementary Note 3, wherein a result of searching the collected document group is presented separately inside and outside the community.
【0164】(付記5) 前記コミュニティ内の文書で
あるか否かを前記ネットワーク上の場所を示す情報に基
づいて判定する、ことを特徴とする付記2記載の文書収
集方法。(Supplementary note 5) The document collection method according to Supplementary note 2, wherein whether or not the document is in the community is determined based on information indicating a location on the network.
【0165】(付記6) ネットワークから文書を収集
する文書収集方法であって、ある分野に関する文書群で
ある正例文書群と、前記分野と関連が少ない分野に関す
る文書群である負例文書群とを与え、前記正例文書群及
び前記負例文書群の参照関係に基づいて、前記分野に関
する収集すべき文書を決定し、前記ネットワークから前
記収集すべき文書を収集する、ことを特徴とする文書収
集方法。(Supplementary Note 6) A document collection method for collecting documents from a network, wherein a positive example document group that is a document group related to a certain field and a negative example document group that is a document group related to a field that is less relevant to the field. A document to be collected relating to the field is determined based on a reference relationship between the positive example document group and the negative example document group, and the document to be collected is collected from the network. Collection method.
【0166】(付記7) 前記参照関係に基づいて、前
記正例文書群の文書からのみ参照される度合いを示す参
照度を算出し、前記参照度が高い文書を前記収集すべき
文書として決定する、ことを特徴とする付記6記載の文
書収集方法。(Supplementary Note 7) On the basis of the reference relation, a reference degree indicating a degree of reference from only the documents in the positive example document group is calculated, and a document having a high reference degree is determined as the document to be collected. 6. The document collection method according to claim 6, further comprising:
【0167】(付記8) 前記参照関係に基づいて、前
記正例文書群の文書を参照している収集済み文書から参
照されている文書について、収集済み文書から参照され
る度合いを示す共参照度を算出し、共参照度が高い文書
を収集すべき文書として決定する、ことを特徴とする付
記6記載の文書収集方法。(Supplementary Note 8) A co-reference degree indicating a degree of reference from the collected documents with respect to a document referred to from the collected documents referring to the documents in the positive document group based on the reference relation. The document collection method according to claim 6, wherein a document having a high degree of co-reference is determined as a document to be collected.
【0168】(付記9) 前記負例文書群は、複数の分
野に関する文書群の和集合である、ことを特徴とする、
付記6記載の文書収集方法。(Supplementary Note 9) The negative example document group is a union of documents relating to a plurality of fields.
Document collection method according to attachment 6.
【0169】(付記10) 前記収集済み文書で用いら
れている参照表現に基づいて、前記収集済み文書群をま
とめあげる、ことを特徴とする付記1記載の文書収集方
法。(Supplementary Note 10) The document collection method according to Supplementary Note 1, wherein the collected document group is put together based on a reference expression used in the collected document.
【0170】(付記11) 前記収集済み文書で用いら
れている参照表現に基づいて、前記収集済み文書にキー
ワードを付与する、ことを特徴とする付記1記載の文書
収集方法。(Supplementary Note 11) The document collection method according to Supplementary Note 1, wherein a keyword is assigned to the collected document based on a reference expression used in the collected document.
【0171】(付記12) 前記参照表現が参照先文書
に関係なく使用される参照表現の場合、キーワードとし
ない、ことを特徴とする付記11記載の文書収集方法。(Supplementary Note 12) The document collection method according to Supplementary Note 11, wherein if the reference expression is a reference expression used irrespective of a reference destination document, the reference expression is not used as a keyword.
【0172】(付記13) 前記参照表現が参照する相
異なる文書の数を計数し、前記相異なる文書の数がある
数以上である場合、前記参照表現をキーワードとしな
い、ことを特徴とする付記11記載の文書収集方法。(Supplementary Note 13) The number of different documents referenced by the reference expression is counted, and if the number of different documents is equal to or greater than a certain number, the reference expression is not used as a keyword. 11. The document collection method according to item 11.
【0173】(付記14) 前記相異なる文書の数があ
る数未満である場合、各収集済み文書が前記参照表現に
よって参照されている回数である参照回数を計数し、前
記相異なる文書の数及び前記参照回数に基づいて、前記
参照表現をキーワードとするか否か判定する、ことを特
徴とする付記11記載の文書集収集方法。(Supplementary Note 14) If the number of the different documents is less than a certain number, the number of references, which is the number of times each collected document is referred to by the reference expression, is counted, and the number of the different documents and 12. The document collection method according to appendix 11, wherein it is determined whether or not the reference expression is a keyword based on the reference count.
【0174】(付記15) 前記参照表現に基づくキー
ワードに、前記収集済み文書の本文から抽出したキーワ
ード及び前記収集済み文書のネットワーク上の場所を示
す情報から抽出したキーワードを組み合せる、ことを特
徴とする付記11記載の文書集収集方法。(Supplementary Note 15) The keyword based on the reference expression is combined with a keyword extracted from the body of the collected document and a keyword extracted from information indicating a location on the network of the collected document. The document collection method described in Supplementary Note 11.
【0175】(付記16) ネットワーク上のコミュニ
ティに属する文書を検索する検索方法であって、文書を
検索するための情報をサーバに送信し、前記検索するた
めの情報に基づいて前記コミュニティ内外に分けて検索
した文書を、前記コミュニティにとっての重要さの度合
いを示す情報とともに受信する、ことを特徴とする検索
方法。(Supplementary Note 16) A search method for searching for a document belonging to a community on a network, in which information for searching for a document is transmitted to a server, and the information is divided into and out of the community based on the information for searching. Receiving the retrieved documents together with information indicating the degree of importance to the community.
【0176】(付記17) ネットワークから文書を収
集する文書収集装置であって、前記文書の参照関係に基
づいて、次に収集すべき文書の候補である次収集候補を
決定する次候補判定手段と、前記文書のネットワーク上
の場所を示す情報に基づいて前記文書が前記ネットワー
ク上のコミュニティ内の文書であるか否か判別するコミ
ュニティ判別手段と、前記ネットワークから前記次収集
候補を収集する文書収集手段と、を備え、前記文書収集
手段は、前記コミュニティ内から所定数以上文書を収集
した後、前記コミュニティ内外から文書を収集する、こ
とを特徴とする文書収集装置。(Supplementary Note 17) A document collection device that collects documents from a network, comprising: a next candidate determination unit that determines a next collection candidate that is a candidate for a document to be collected next based on the reference relation of the documents. Community determining means for determining whether or not the document is a document in a community on the network based on information indicating a location of the document on a network; and document collecting means for collecting the next collection candidate from the network Wherein the document collection means collects a predetermined number or more of documents from inside the community and then collects documents from inside and outside the community.
【0177】(付記18) ネットワークから文書を収
集する文書収集装置であって、ある分野に関する文書群
である正例文書群及び前記分野と関連が少ない分野に関
する文書群である負例文書群の参照関係に基づいて、次
に収集すべき文書の候補である次収集候補を決定する次
候補判定手段と、前記ネットワークから前記次収集候補
を収集する文書収集手段とを備える、ことを特徴とする
文書収集装置。(Supplementary Note 18) A document collection device for collecting documents from a network, wherein a reference is made to a group of positive documents which is a group of documents related to a certain field and a group of negative examples which is a group of documents related to a field which is less relevant to the field. A document comprising: a next candidate determining unit that determines a next collection candidate that is a candidate for a document to be collected next based on the relationship; and a document collection unit that collects the next collection candidate from the network. Collection device.
【0178】(付記19) コンピュータに実行させる
ことによって、ネットワークから文書を収集する制御を
該コンピュータに行なわせるプログラムを記録した、コ
ンピュータで読み取り可能な記録媒体であって、前記文
書の参照関係に基づいて、前記ネットワーク上のコミュ
ニティ内から文書を所定数以上収集し、前記コミュニテ
ィから前記第1の所定数以上の文書を収集した後、収集
済み文書の参照関係に基づいて、前記コミュニティ内外
から文書を収集する、ことを含む制御をコンピュータに
行なわせるプログラムを記録した記録媒体。(Supplementary Note 19) A computer-readable recording medium in which a program for causing a computer to execute a control for collecting a document from a network by being executed by the computer is recorded. Collecting at least a predetermined number of documents from the community on the network, collecting at least the first predetermined number of documents from the community, and then collecting documents from inside and outside the community based on the reference relation of the collected documents. A recording medium on which a program for causing a computer to perform control including collecting is recorded.
【0179】(付記20) コンピュータに実行させる
ことによって、ネットワークから文書を収集する制御を
該コンピュータに行なわせるプログラムを記録した、コ
ンピュータで読み取り可能な記録媒体であって、ある分
野に関する文書群である正例文書群及び前記分野と関連
が少ない分野に関する文書群である負例文書群の参照関
係に基づいて、前記分野に関する収集すべき文書を決定
し、前記ネットワークから前記収集すべき文書を収集す
る、ことを含む制御をコンピュータに行なわせるプログ
ラムを記録した記録媒体。(Supplementary Note 20) A computer-readable recording medium in which a program for causing a computer to collect documents from a network by executing the computer is recorded, and is a group of documents related to a certain field. Based on the reference relationship between the positive document group and the negative document group that is a document group related to the field with a small relation to the field, a document to be collected is determined for the field, and the document to be collected is collected from the network. A recording medium on which a program for causing a computer to perform control including the above is recorded.
【0180】(付記21) 搬送波に具現化された、ネ
ットワークから文書を収集する制御をコンピュータに行
わせるプログラムを表現するコンピュータ・データ・シ
グナルであって、前記プログラムは以下をコンピュータ
に実行させる、前記文書の参照関係に基づいて、前記ネ
ットワーク上のコミュニティ内から文書を所定数以上収
集し、前記コミュニティから前記第1の所定数以上の文
書を収集した後、収集済み文書の参照関係に基づいて、
前記コミュニティ内外から文書を収集する、 (付記22) コンピュータによって実行されることに
よって、ネットワークから文書を収集する制御を前記コ
ンピュータに行わせるコンピュータ・プログラムであっ
て、前記文書の参照関係に基づいて、前記ネットワーク
上のコミュニティ内から文書を所定数以上収集し、前記
コミュニティから前記第1の所定数以上の文書を収集し
た後、収集済み文書の参照関係に基づいて、前記コミュ
ニティ内外から文書を収集する、ことを含む制御を前記
コンピュータに行わせることを特徴とするコンピュータ
・プログラム。(Supplementary Note 21) A computer data signal embodied in a carrier wave, which represents a program for causing a computer to perform control for collecting documents from a network, wherein the program causes the computer to execute the following: Based on the document reference relationship, a predetermined number or more of documents are collected from within the community on the network, and after collecting the first predetermined number or more of documents from the community, based on the reference relationship of the collected documents,
(Supplementary Note 22) A computer program which, when executed by a computer, causes the computer to perform control of collecting a document from a network, based on a reference relationship of the document. After collecting a predetermined number or more of documents from the community on the network, collecting the first predetermined number of documents or more from the community, and collecting documents from inside and outside the community based on a reference relation of the collected documents. A computer program for causing the computer to perform control including:
【0181】(付記23) コンピュータによって実行
されることによって、ネットワークから文書を収集する
制御を前記コンピュータに行わせるコンピュータ・プロ
グラムであって、ある分野に関する文書群である正例文
書群と、前記分野と関連が少ない分野に関する文書群で
ある負例文書群とを与え、前記正例文書群及び前記負例
文書群の参照関係に基づいて、前記分野に関する収集す
べき文書を決定し、前記ネットワークから前記収集すべ
き文書を収集する、こと含む制御を前記コンピュータに
行わせることを特徴とするコンピュータ・プログラム。(Supplementary Note 23) A computer program which, when executed by a computer, causes the computer to control the collection of documents from a network, wherein a set of positive documents, which is a group of documents related to a certain field, And a negative example document group, which is a document group relating to a field having a small relation, determine a document to be collected regarding the field based on the reference relationship between the positive example document group and the negative example document group, from the network. A computer program for causing the computer to perform control including collecting the document to be collected.
【0182】[0182]
【発明の効果】以上詳細に説明したように、本発明は、
ある用途向けの文書を収集する際に、文書間の参照関係
に基づいて収集すべき文書を決定し、決定された文書を
収集することにより、言語に依存すること無く、迅速に
用途にあった文書を選択して収集することが可能とな
る。As described in detail above, the present invention provides
When collecting documents for a certain use, the documents to be collected are determined based on the reference relation between the documents, and by collecting the determined documents, the use can be quickly performed without depending on the language. Documents can be selected and collected.
【0183】また、参照表現に基づいて、収集済み文書
をまとめあげ、各収集済み文書にキーワードを付与する
ことにより、収集済み文書へのアクセスを容易とするこ
とが可能となる。また、文書本文の内容を解析しないた
め、言語に依存せず、迅速にキーワードを付与すること
が可能となる。Also, by collecting collected documents based on the reference expression and assigning a keyword to each collected document, access to the collected documents can be facilitated. Further, since the content of the document body is not analyzed, it is possible to quickly assign a keyword without depending on the language.
【図1】本発明の原理図である。FIG. 1 is a principle diagram of the present invention.
【図2】第1実施形態に係わる文書収集装置の構成図で
ある。FIG. 2 is a configuration diagram of a document collection device according to the first embodiment.
【図3】URLテーブルのデータ構造の1例を示す図で
ある。FIG. 3 is a diagram illustrating an example of a data structure of a URL table.
【図4】参照関係テーブルのデータ構造の1例を示す図
である。FIG. 4 is a diagram illustrating an example of a data structure of a reference relation table.
【図5】参照表現テーブルのデータ構造の1例を示す図
である。FIG. 5 is a diagram illustrating an example of a data structure of a reference expression table.
【図6】参照回数テーブルのデータ構造の1例を示す図
である。FIG. 6 is a diagram illustrating an example of a data structure of a reference count table.
【図7】第1実施形態に係わる文書収集装置が行う処理
の大まかな流れを示すフローチャートである。FIG. 7 is a flowchart illustrating a rough flow of a process performed by the document collection device according to the first embodiment.
【図8】コミュニティ内の文書を収集する際に次収集候
補を判定する処理を示すフローチャートである。FIG. 8 is a flowchart illustrating a process of determining a next collection candidate when collecting documents in a community.
【図9】収集済み文書及び参照先文書をランキングする
処理を示すフローチャートである。FIG. 9 is a flowchart illustrating a process of ranking collected documents and reference destination documents.
【図10】収集済み文書を選別する処理を示すフローチ
ャートである。FIG. 10 is a flowchart illustrating a process of selecting collected documents.
【図11】キーワード付与処理を示すフローチャートで
ある。FIG. 11 is a flowchart illustrating a keyword assignment process.
【図12】収集した文書を提供する画面の1例を示す図
である。FIG. 12 is a diagram illustrating an example of a screen for providing collected documents.
【図13】第2実施形態に係わる文書収集装置の構成図
である。FIG. 13 is a configuration diagram of a document collection device according to a second embodiment.
【図14】LT(S)、LT(p)、LS(d,X)、
LS(A,X)が意味する文書の参照関係を示す図であ
る。FIG. 14 shows LT (S), LT (p), LS (d, X),
FIG. 14 is a diagram illustrating a reference relationship of documents that is indicated by LS (A, X).
【図15】CC(d,A,X)が意味する文書の参照関
係を示す図である。FIG. 15 is a diagram illustrating a reference relationship of a document represented by CC (d, A, X).
【図16】第2実施形態に係わる文書収集装置が行う処
理を示すフローチャートである。FIG. 16 is a flowchart illustrating a process performed by the document collection device according to the second embodiment.
【図17】参照度を算出する式に含まれる各集合が意味
する参照関係を示す図である。FIG. 17 is a diagram illustrating a reference relationship that each set included in an expression for calculating a reference degree means.
【図18】共参照度を算出する式に含まれる各集合が意
味する参照関係を示す図である。FIG. 18 is a diagram illustrating a reference relationship implied by each set included in an equation for calculating a co-reference degree.
【図19】第2実施形態の変形例に係わる文書収集装置
が行う処理を示すフローチャートである。FIG. 19 is a flowchart illustrating processing performed by a document collection device according to a modification of the second embodiment.
【図20】文書収集装置の収集精度の実験結果を示す図
(その1)である。FIG. 20 is a diagram (part 1) illustrating an experimental result of the collection accuracy of the document collection device.
【図21】文書収集装置の収集精度の実験結果を示す図
(その2)である。FIG. 21 is a diagram (part 2) illustrating an experimental result of the collection accuracy of the document collection device.
【図22】情報処理装置の構成図である。FIG. 22 is a configuration diagram of an information processing apparatus.
【図23】情報処理装置にプログラムやデータを供給す
る記録媒体、伝送信号及び伝送媒体を説明する図であ
る。FIG. 23 is a diagram illustrating a recording medium, a transmission signal, and a transmission medium that supply a program and data to the information processing apparatus.
1、100、200 文書収集装置 2 文書収集手段 3 参照関係抽出手段 4 コミュニティ判別手段 5 次候補判定手段 6 ランキング手段 7 URL判定手段 8 参照度/共参照度算出手段 9 まとめあげ手段 10 キーワード付与手段 20 収集済み文書群 21 次収集候補 22 文書間参照関係 23 収集文書ファイル 101 文書収集部 102 参照関係抽出部 103 コミュニティ判別部 104 候補判定部 105 ランキング部 106 まとめあげ部 107 キーワード付与部 120 URLテーブル 121 参照関係テーブル 122 参照表現テーブル 123 参照回数テーブル 130 優良コンテンツ 140 検索エンジン 141 索引 150 分類エンジン 160 サーバ 170 ブラウザ 180、181、182 画面 201 参照度/共参照度テーブル 210 分野別優良コンテンツ 300 情報処理装置 301 CPU 302 メモリ 303 入力装置 304 出力装置 305 外部記憶装置 306 媒体駆動装置 307 ネットワーク接続装置 308 バス 309 可搬記録媒体 310 プログラム(データ)提供者 311 回線 DESCRIPTION OF SYMBOLS 1, 100, 200 Document collection device 2 Document collection means 3 Reference relation extraction means 4 Community discrimination means 5 Secondary candidate judgment means 6 Ranking means 7 URL judgment means 8 Reference / co-reference degree calculation means 9 Grouping means 10 Keyword assignment means 20 Collected document group 21 Primary collection candidate 22 Reference relationship between documents 23 Collection document file 101 Document collection unit 102 Reference relationship extraction unit 103 Community determination unit 104 Candidate determination unit 105 Ranking unit 106 Grouping unit 107 Keyword assignment unit 120 URL table 121 Reference relationship Table 122 Reference expression table 123 Reference count table 130 Excellent content 140 Search engine 141 Index 150 Classification engine 160 Server 170 Browser 180, 181, 182 Screen 201 Reference / co-reference Degree table 210 sectoral superior content 300 the information processing apparatus 301 CPU 302 memory 303 input device 304 output device 305 external storage device 306 medium drive 307 network connection device 308 bus 309 portable recording medium 310 a program (data) provider 311 lines
Claims (12)
集方法であって、 前記文書の参照関係に基づいて、前記ネットワーク上の
コミュニティ内から文書を所定数以上収集し、 前記コミュニティ内から第1の所定数以上の文書を収集
した後、収集済み文書の参照関係に基づいて、前記コミ
ュニティ内外から文書を収集する、 ことを特徴とする文書収集方法。1. A document collection method for collecting documents from a network, comprising: collecting at least a predetermined number of documents from a community on the network based on a reference relationship of the documents; Collecting a plurality of documents and then collecting documents from inside and outside the community based on a reference relationship of the collected documents.
ワーク上の場所を示す情報に基づいて前記収集済み文書
の重要さの度合いを示す重要度を算出し、 前記参照関係及び前記重要度に基づいて、収集すべき文
書を決定する、 ことを特徴とする請求項1記載の文書収集方法。2. An importance degree indicating a degree of importance of the collected document is calculated based on a reference relation of the collected document and information indicating a location on a network, and based on the reference relation and the importance. The document collection method according to claim 1, wherein a document to be collected is determined.
ィ内外別に決定される、 ことを特徴とする請求項2記載の文書収集方法。3. The document collection method according to claim 2, wherein the document to be collected is determined for each of the inside and outside of the community.
記コミュニティ内外に分けて提示する、 ことを特徴とする請求項3記載の文書収集方法。4. The document collection method according to claim 3, wherein a result of searching for the collected documents is presented separately inside and outside the community.
集方法であって、 ある分野に関する文書群である正例文書群と、前記分野
と関連が少ない分野に関する文書群である負例文書群と
を与え、 前記正例文書群及び前記負例文書群の参照関係に基づい
て、前記分野に関する収集すべき文書を決定し、 前記ネットワークから前記収集すべき文書を収集する、 ことを特徴とする文書収集方法。5. A document collection method for collecting documents from a network, comprising: providing a group of positive documents as a group of documents related to a certain field and a group of negative documents as a group of documents related to a field that is less relevant to the field. Determining a document to be collected in the field based on a reference relationship between the positive example document group and the negative example document group, and collecting the document to be collected from the network. .
群の文書からのみ参照される度合いを示す参照度を算出
し、 前記参照度が高い文書を収集すべき文書として決定す
る、 ことを特徴とする請求項5記載の文書収集方法。6. A reference degree indicating a degree of being referred to only from the documents of the positive example document group is calculated based on the reference relation, and a document having a high reference degree is determined as a document to be collected. The document collection method according to claim 5, wherein
群の文書を参照している収集済み文書から参照されてい
る文書について、収集済み文書から参照される度合いを
示す共参照度を算出し、 前記共参照度が高い文書を収集すべき文書として決定す
る、 ことを特徴とする請求項5又は6記載の文書収集方法。7. A co-reference degree indicating a degree of reference from a collected document with respect to a document referred to from a collected document referring to a document in the positive document group based on the reference relation. The document collection method according to claim 5, wherein the document having a high degree of co-reference is determined as a document to be collected.
文書群の和集合である、 ことを特徴とする、請求項5乃至7のいずれか1項に記
載の文書収集方法。8. The document collection method according to claim 5, wherein the negative example document group is a union of documents relating to a plurality of fields.
表現に基づいて、前記収集済み文書をまとめあげる、 ことを特徴とする請求項1乃至8のいずれか1項に記載
の文書収集方法。9. The document collection method according to claim 1, wherein the collected documents are compiled based on a reference expression used in the collected documents.
照表現に基づいて、前記収集済み文書にキーワードを付
与する、 ことを特徴とする請求項1乃至9のいずれか1項に記載
の文書収集方法。10. The document collection according to claim 1, wherein a keyword is assigned to the collected document based on a reference expression used in the collected document. Method.
によって、ネットワークから文書を収集する制御を前記
コンピュータに行わせるコンピュータ・プログラムであ
って、 前記文書の参照関係に基づいて、前記ネットワーク上の
コミュニティ内から文書を所定数以上収集し、 前記コミュニティから前記第1の所定数以上の文書を収
集した後、収集済み文書の参照関係に基づいて、前記コ
ミュニティ内外から文書を収集する、 ことを含む制御を前記コンピュータに行わせることを特
徴とするコンピュータ・プログラム。11. A computer program which, when executed by a computer, causes the computer to control the collection of documents from a network, wherein the computer program executes the control based on a reference relationship of the documents from within a community on the network. Collecting at least a predetermined number of documents from the community, collecting at least the first predetermined number of documents from the community, and then collecting documents from inside and outside the community based on a reference relationship of the collected documents. A computer program characterized by being performed by a computer.
によって、ネットワークから文書を収集する制御を前記
コンピュータに行わせるコンピュータ・プログラムであ
って、 ある分野に関する文書群である正例文書群と、前記分野
と関連が少ない分野に関する文書群である負例文書群と
を与え、 前記正例文書群及び前記負例文書群の参照関係に基づい
て、前記分野に関する収集すべき文書を決定し、 前記ネットワークから前記収集すべき文書を収集する、 こと含む制御を前記コンピュータに行わせることを特徴
とするコンピュータ・プログラム。12. A computer program which, when executed by a computer, causes the computer to control the collection of documents from a network, comprising: a set of regular documents which is a group of documents related to a certain field; And a negative example document group, which is a group of documents related to a small number of fields, determine a document to be collected based on the reference relationship between the positive example document group and the negative example document group, and collect the document from the network. A computer program for causing the computer to perform control including collecting documents to be performed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001379280A JP4094844B2 (en) | 2000-12-27 | 2001-12-12 | Document collection apparatus for specific use, method thereof, and program for causing computer to execute |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000397966 | 2000-12-27 | ||
JP2000-397966 | 2000-12-27 | ||
JP2001379280A JP4094844B2 (en) | 2000-12-27 | 2001-12-12 | Document collection apparatus for specific use, method thereof, and program for causing computer to execute |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007287448A Division JP2008097626A (en) | 2000-12-27 | 2007-11-05 | Document collection method for specific use and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002259407A true JP2002259407A (en) | 2002-09-13 |
JP4094844B2 JP4094844B2 (en) | 2008-06-04 |
Family
ID=26606856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001379280A Expired - Fee Related JP4094844B2 (en) | 2000-12-27 | 2001-12-12 | Document collection apparatus for specific use, method thereof, and program for causing computer to execute |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4094844B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006114021A (en) * | 2004-10-15 | 2006-04-27 | Microsoft Corp | Method and apparatus for intranet searching |
JP2006235729A (en) * | 2005-02-22 | 2006-09-07 | Mitsubishi Electric Corp | Alternative web information collecting device |
WO2010041517A1 (en) * | 2008-10-08 | 2010-04-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Information collecting device, search engine, information collecting method and program |
JP2010140296A (en) * | 2008-12-12 | 2010-06-24 | Fuji Xerox Co Ltd | Information analysis device and program |
JP2012203880A (en) * | 2011-03-28 | 2012-10-22 | Kddi Corp | Collection device, collection method, and collection program |
US8595223B2 (en) | 2004-10-15 | 2013-11-26 | Microsoft Corporation | Method and apparatus for intranet searching |
-
2001
- 2001-12-12 JP JP2001379280A patent/JP4094844B2/en not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006114021A (en) * | 2004-10-15 | 2006-04-27 | Microsoft Corp | Method and apparatus for intranet searching |
US8595223B2 (en) | 2004-10-15 | 2013-11-26 | Microsoft Corporation | Method and apparatus for intranet searching |
US9507828B2 (en) | 2004-10-15 | 2016-11-29 | Microsoft Technology Licensing, Llc | Method and apparatus for intranet searching |
JP2006235729A (en) * | 2005-02-22 | 2006-09-07 | Mitsubishi Electric Corp | Alternative web information collecting device |
JP4718205B2 (en) * | 2005-02-22 | 2011-07-06 | 三菱電機株式会社 | Selective Web information collection device |
WO2010041517A1 (en) * | 2008-10-08 | 2010-04-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Information collecting device, search engine, information collecting method and program |
JP5325229B2 (en) * | 2008-10-08 | 2013-10-23 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Information collecting apparatus, search engine, information collecting method and program |
US8676782B2 (en) | 2008-10-08 | 2014-03-18 | International Business Machines Corporation | Information collection apparatus, search engine, information collection method, and program |
JP2010140296A (en) * | 2008-12-12 | 2010-06-24 | Fuji Xerox Co Ltd | Information analysis device and program |
JP2012203880A (en) * | 2011-03-28 | 2012-10-22 | Kddi Corp | Collection device, collection method, and collection program |
Also Published As
Publication number | Publication date |
---|---|
JP4094844B2 (en) | 2008-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298033B (en) | Keyword corpus labeling training extraction system | |
US6714905B1 (en) | Parsing ambiguous grammar | |
CN109408622B (en) | Statement processing method, device, equipment and storage medium | |
US6606620B1 (en) | Method and system for classifying semi-structured documents | |
US6711561B1 (en) | Prose feedback in information access system | |
US6745181B1 (en) | Information access method | |
Rowley | The controlled versus natural indexing languages debate revisited: a perspective on information retrieval practice and research | |
US7139977B1 (en) | System and method for producing a virtual online book | |
US8725732B1 (en) | Classifying text into hierarchical categories | |
US7376641B2 (en) | Information retrieval from a collection of data | |
KR101443475B1 (en) | Search suggestion clustering and presentation | |
US20050027704A1 (en) | Method and system for assessing relevant properties of work contexts for use by information services | |
US20070156669A1 (en) | Extending keyword searching to syntactically and semantically annotated data | |
US20060288001A1 (en) | System and method for dynamically identifying the best search engines and searchable databases for a query, and model of presentation of results - the search assistant | |
US20080065632A1 (en) | Server, method and system for providing information search service by using web page segmented into several inforamtion blocks | |
JP2006525601A (en) | Concept network | |
US7024405B2 (en) | Method and apparatus for improved internet searching | |
US20080215564A1 (en) | Query rewrite | |
US7203673B2 (en) | Document collection apparatus and method for specific use, and storage medium storing program used to direct computer to collect documents | |
CN113190687B (en) | Knowledge graph determining method and device, computer equipment and storage medium | |
US20070136248A1 (en) | Keyword driven search for questions in search targets | |
CN100433007C (en) | Method for providing research result | |
JP2001290843A (en) | Device and method for document retrieval, document retrieving program, and recording medium having the same program recorded | |
KR100455439B1 (en) | Internet resource retrieval and browsing method based on expanded web site map and expanded natural domain names assigned to all web resources | |
US8640017B1 (en) | Bootstrapping in information access systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070904 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080304 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080306 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110314 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110314 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120314 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130314 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140314 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |