JP5743938B2 - Associative search system, associative search server, and program - Google Patents
Associative search system, associative search server, and program Download PDFInfo
- Publication number
- JP5743938B2 JP5743938B2 JP2012069750A JP2012069750A JP5743938B2 JP 5743938 B2 JP5743938 B2 JP 5743938B2 JP 2012069750 A JP2012069750 A JP 2012069750A JP 2012069750 A JP2012069750 A JP 2012069750A JP 5743938 B2 JP5743938 B2 JP 5743938B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- feature word
- document
- associative
- associative search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、検索要求として与えられた文書に関連する文書を検索する連想検索システムに関し、特に、与えられた文書中の特徴単語の出現位置の情報を用いる連想検索システム、連想検索サーバ及びそれらを実現するプログラムに関する。 The present invention relates to an associative search system for searching for a document related to a document given as a search request, and in particular, an associative search system, an associative search server using information on the appearance position of a feature word in a given document, and those It relates to the program to be realized.
コンピュータやインターネットの普及に伴い、文書情報の電子化が急速に進んでいる。一方、入手可能な情報の増加に伴い、それらの中から必要な情報を探し出すことが重要な課題となってきている。また、複数の文書データベース間での文書群の関連性を調べたいという要求も高まっている。例えば、興味のある新聞記事に対し、それらに関連する百科事典の項目を検索したいという要求は多い。 With the spread of computers and the Internet, computerization of document information is rapidly progressing. On the other hand, with the increase of available information, it has become an important issue to search for necessary information from them. In addition, there is an increasing demand for examining the relationship between document groups among a plurality of document databases. For example, there are many requests to search for articles of encyclopedia related to newspaper articles of interest.
現在実用化されているキーワード検索技術の場合、複数の文書データベースを切り替えて検索することは可能であるが、ある文書データベースに含まれる文書群に対し、それに関連する文書群を、同一の文書データベース、あるいは、別の文書データベースから検索すること(文書連想検索と呼ばれる検索方式)は不可能である。 In the case of keyword search technology that is currently in practical use, it is possible to search by switching between multiple document databases, but for a document group included in a document database, the related document group is assigned to the same document database. Alternatively, it is impossible to search from another document database (a search method called document associative search).
同一の文書データベースに限れば、文書間の類似度を予め計算しておくことにより、文書群を検索入力とした文書連想検索を実現することはできる。しかし、複数の文書データベース間での文書連想検索を実現しようとすると、予め計算すべき文書間の関連度の組み合わせ数が、文書データベース数の増加に伴って爆発的に増加する。このため、文書間の類似度を予め計算する方法による文書連想検索の現実は不可能である。 As long as it is limited to the same document database, a document associative search using a document group as a search input can be realized by calculating the similarity between documents in advance. However, when realizing a document associative search between a plurality of document databases, the number of combinations of relevance levels between documents to be calculated in advance increases explosively as the number of document databases increases. For this reason, the reality of the document associative search by the method of calculating the similarity between documents in advance is impossible.
これに対し、特許文献1には、利用者が指定した文書データベース中の任意の文書群に対して、その文書群に関連する文書群を任意の文書データベースから効率よく検索するための方法が開示されている。 On the other hand, Patent Document 1 discloses a method for efficiently retrieving a document group related to a document group from an arbitrary document database for an arbitrary document group in a document database designated by a user. Has been.
特許文献1に開示の方法は、文書群として入力された検索入力内の特徴的な単語群(特徴単語群)のみを使用し、高速な文書連想検索を実現する。この方法を用いれば、利用者は、複数の異なる種類の文書データベースを切り替えながら、文書群の関連性を調べることができ、高精度かつ効率的に文書を検索することができる。また、この方法は、検索結果として得られた文書群に出現する特徴単語群を抽出し、それらを検索結果の概観(要約)として利用者に提示することにより、利用者による検索結果の可否の判断を支援する技術も提供する。 The method disclosed in Patent Literature 1 uses only a characteristic word group (characteristic word group) in a search input input as a document group, and realizes a high-speed document associative search. By using this method, the user can check the relevance of the document group while switching between a plurality of different types of document databases, and can search the document with high accuracy and efficiency. Also, this method extracts feature word groups appearing in the document group obtained as a search result, and presents them to the user as an overview (summary) of the search result, thereby determining whether or not the search result by the user is acceptable. It also provides technology to support judgment.
一般に、単語に基づく文書検索では、文書中に出現する単語によって文書のインデックス付けを行ない、文書検索を実現する。特許文献1の場合も同様であり、文書から特徴単語群を抽出する際には、文書に含まれる単語の統計的尺度(tf*idf法などが代表的)を用いて重要度を計算し、重要度の高い順に単語を抽出し、連想検索を実現する。 In general, in document retrieval based on words, documents are indexed by words appearing in the document to realize document retrieval. The same applies to Patent Document 1, and when extracting a feature word group from a document, the importance is calculated using a statistical measure (typically tf * idf method) of words included in the document, Extract words in descending order of importance and realize associative search.
しかし、従来の連想検索では、特徴単語を抽出する対象は文書全体である。このため、文書に複数の話題が含まれている場合には、複数の話題の特徴単語が混在した状態のまま単語が抽出される。つまり、複数の話題を総合的に判断して類似した文書が検索される。このため、利用者が望んだ結果が必ずしも得られるとは限らない。 However, in the conventional associative search, a target word is extracted from the entire document. For this reason, when a document includes a plurality of topics, the words are extracted while the feature words of the plurality of topics are mixed. That is, a similar document is searched by comprehensively judging a plurality of topics. For this reason, the result desired by the user is not always obtained.
この技術課題を鑑み、本発明は、検索入力となる文書群中に含まれる話題ごとに類似する文書を検索できる連想検索システムを提供する。 In view of this technical problem, the present invention provides an associative search system capable of searching for similar documents for each topic included in a document group serving as a search input.
このために、本発明においては、連想検索における検索入力文書から特徴単語群を抽出する際に、各単語の重要度だけでなく、その単語の検索入力文書中での位置情報も付加して抽出処理を実行する。次に、抽出した特徴単語群を、各単語の重要度と出現位置に基づいて分類する。特徴単語群の分類数は、検索入力文書中での特徴単語の重要度と距離に応じて分類する際の分類スコアに閾値を設定して自動的に設定してもよいし、利用者がユーザインタフェース上で分類数を任意に設定してもよい。最後に、分類結果として得られた特徴単語群のそれぞれを検索入力として検索を実行する。 For this reason, in the present invention, when extracting a feature word group from a search input document in an associative search, not only the importance of each word but also position information of the word in the search input document is added and extracted. Execute the process. Next, the extracted feature word group is classified based on the importance and appearance position of each word. The classification number of the feature word group may be automatically set by setting a threshold value for the classification score when classifying according to the importance and distance of the feature word in the search input document. The number of classifications may be arbitrarily set on the interface. Finally, the search is executed using each of the feature word groups obtained as a classification result as a search input.
本発明によれば、複数の話題が含まれている文書群を検索入力とする場合でも、文書群全体として類似した文書ではなく、分類された特徴単語群(文書中に含まれる話題に相当)毎に類似した文書を連想検索結果として得ることができる。これにより、利用者の希望により近い結果を提示することができる。前述した以外の課題、構成及び効果は、以下の実施の形態の説明により明らかにされる。 According to the present invention, even when a document group including a plurality of topics is used as a search input, a group of characteristic words (corresponding to topics included in the document) is not a similar document as a whole document group, but a group of feature words. A similar document can be obtained as an associative search result every time. Thereby, a result closer to the user's request can be presented. Problems, configurations, and effects other than those described above will become apparent from the following description of embodiments.
以下、図面に基づいて、本発明の実施の形態を説明する。なお、本発明の実施の態様は、後述する形態例に限定されるものではなく、その技術思想の範囲において、種々の変形が可能である。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. The embodiment of the present invention is not limited to the embodiments described later, and various modifications are possible within the scope of the technical idea.
図1は、形態例に係る連想検索システムの概略構成を示している。このシステムは、利用者による検索要求の入力及び検索結果の表示に使用される検索クライアント20と、文書データベースを検索する連想検索スレーブサーバ40、50、60と、連想検索クライアント20と連想検索スレーブサーバ40、50、60を仲介する連想検索マスタサーバ30と、これらを接続する通信ネットワーク10とで構成される。
FIG. 1 shows a schematic configuration of an associative search system according to an embodiment. This system includes a
図1の例では、文書データベースを検索する連想検索スレーブサーバが通信ネットワーク10に3台接続されている場合を表しているが、通信ネットワーク10に接続される連想検索スレーブサーバの数は任意でよい。検索クライアント20の数も任意である。
In the example of FIG. 1, the case where three associative search slave servers that search the document database are connected to the
また、図1の例では、検索クライアント10と、連想検索マスタサーバ30と、連想検索スレーブサーバ40、50、60とを通信ネットワーク10を介して接続しているが、これらのうちの幾つかを、あるいは、全てを同一の計算機上に構成してもよい。
In the example of FIG. 1, the
図2に、連想検索スレーブサーバ40の構成例を示す。他の連想検索スレーブサーバ50、60の構成も、連想検索スレーブサーバ40と同じである。連想検索スレーブサーバ40は、メモリ装置491、演算処理装置492、インタフェース装置493、補助記憶装置494、入力装置495、出力装置496を有し、それぞれがバス490を介して相互に接続されている。
FIG. 2 shows a configuration example of the associative
メモリ装置491は、補助記憶装置494からプログラムを読み出して記憶するRAM(Random Access Memory)等の記憶装置である。メモリ装置491には、検索手段410と特徴単語抽出手段420に対応するプログラム、その実行に必要な検索インデックス430と文書データベース440に対応するファイルやデータ等が記憶される。
The
演算処理装置492は、メモリ装置491に格納されたプログラムを実行するCPU(Central Processing Unit)等の演算処理装置である。インタフェース装置493は、外部ネットワーク等に接続するためのインタフェース装置である。補助記憶装置494は、検索手段410と特徴単語抽出手段420に対応するプログラム、検索インデックス430と文書データベース440に対応するファイルやデータ等を記憶するHDD(Hard Disk Drive)等の記憶装置である。入力装置495は、ユーザインタフェースを提供する装置(例えば、キーボード、マウス)である。出力装置496は、ユーザインタフェースを提供する出力装置(例えば、ディスプレイ装置)である。
The
図2は、連想検索スレーブサーバの構成を示す図であるが、検索クライアント20と連想検索マスタサーバ30の構成も、補助記憶装置に記憶されるプログラムやデータの違いを除き、同様に構成される。
FIG. 2 is a diagram showing the configuration of the associative search slave server, but the configurations of the
図3に、連想検索スレーブサーバ40が備える検索手段410の機能ブロック構成を示す。プログラムとしての検索手段410は、単語頻度取得手段411、位置情報取得手段412、関連度計算手段413、近似性計算手段414、スコア計算手段415の各機能により構成される。これらの検索手段410を構成する各手段もプログラム処理を通じて提供される。
FIG. 3 shows a functional block configuration of the search means 410 provided in the associative
連想検索スレーブサーバ40は、連想検索マスタサーバ30が備える検索要求発行手段320から送られてきた検索要求に対し、関連度の高い文書群を文書データベース440から検索し、その検索結果を関連度のスコア付きで連想検索マスタサーバ30に返す。ここでの検索は、例えば公知のキーワード検索手法により実現することができる。
The associative
キーワード検索手法では、検索処理の効率を上げるために、文書データベースに含まれる文書を単語に分割し(日本語の文書に対しては形態素解析を実行し、英語の文書に対してはステミング処理を実行する)、どの文書にどの単語が含まれているかを示す検索インデックスを事前に作成する。後述する本実施例の検索方法のように、検索時に位置情報も用いる場合には、各単語の出現位置もインデックスに格納しておく。検索実行時には、事前に作成された検索インデックスを用いることで、検索処理を高速に実行することができる。 In the keyword search method, in order to increase the efficiency of the search process, the documents contained in the document database are divided into words (morphological analysis is performed for Japanese documents and stemming processing is performed for English documents). A search index is created in advance indicating which words are included in which documents. When position information is also used at the time of search as in the search method of this embodiment described later, the appearance position of each word is also stored in the index. When a search is executed, the search process can be executed at high speed by using a search index created in advance.
図1の場合には、連想検索スレーブサーバ40、50、60が有する文書データベース440、540、640のそれぞれについて、検索インデックス430、530、630を事前に作成し、検索処理に利用する。
In the case of FIG. 1,
検索要求と検索対象文書間の関連度の計算は、以下の手順で実行される。まず、検索手段410が、連想検索マスタサーバ30の検索要求発行手段320から送信された検索要求を受信する。検索手段410は、受信した検索要求に含まれる単語群を含む文書を検索する。単語頻度取得手段411は、検索結果として得られた文書のそれぞれについて、各文書に含まれる単語群のうち検索要求に含まれる単語群の頻度情報を取得する。次に、関連度計算手段413は検索要求とその文書の関連度を計算する。関連度の計算方法は任意でよい。例えば公知の技術であるtf*idf法により単語の重要度を計算し、その総和を関連度とする。単語の近接性を検索スコアに反映する場合には、位置情報取得手段412が、各文書に含まれる単語群のうち検索要求に含まれる単語群の出現位置情報を取得し、近接性計算手段414が近接スコアを計算する。近接スコアの計算方法は任意でよい。例えば、検索要求に含まれる単語群がどれくらい密集して出現しているかを計算し、その計算結果を近接スコアとする。スコア計算手段415は、関連度計算手段413と近接性計算手段414のそれぞれから得られたスコアを統合し、統合後のスコアを関連度として文書に付与する。
The calculation of the degree of association between the search request and the search target document is executed in the following procedure. First, the search means 410 receives the search request transmitted from the search request issuing means 320 of the associative
図4に、連想検索スレーブサーバ40が備える特徴単語抽出手段420の機能ブロック構成を示す。プログラムとしての特徴単語抽出手段420は、単語頻度取得手段421、位置情報取得手段422、重要度計算手段423、近接性クラスタリング手段424、単語追加手段425の各機能により構成される。これらの特徴単語抽出手段420を構成する各手段もプログラム処理を通じて提供される。
FIG. 4 shows a functional block configuration of the feature
特徴単語抽出手段420は、連想検索マスタサーバ30が備える特徴単語要求手段330から送られてきた文書群に対する特徴単語を、文書データベース440から抽出する。特徴単語抽出手段420は、特徴単語の高速抽出を実現するために、検索手段410と同様、検索インデックス430を利用する。すなわち、特徴単語抽出手段420は、ある文書にどの単語が含まれているかを、検索インデックス430を参照して調べる。
The feature
特徴単語の抽出は、以下の手順で実行される。まず、特徴単語抽出手段420が、連想検索マスタサーバ30の特徴単語要求手段330から送信された文書群を受信する。単語頻度取得手段421は、受信した文書群に含まれる各単語の頻度情報を取得する。取得された頻度情報に基づいて、重要度計算手段423は、各単語の重要度を計算する。重要度の計算方法は任意でよい。例えば公知の技術であるtf*idf法により単語の重要度を計算する。位置情報を用いない連想検索の場合、特徴単語抽出手段420は、高い重要度が付された単語から順番に特徴単語として連想検索マスタサーバ30に返す。
The extraction of feature words is performed in the following procedure. First, the feature
本実施の形態では、位置情報取得手段422が、重要度付きの各単語について出現位置情報を取得する。さらに、近接性クラスタリング手段424が、重要度と位置情報とに基づいて検索された単語群を分類する。さらに、単語追加手段425が、分類結果のそれぞれに含まれる単語群に近接する単語を追加する。特徴単語抽出手段420は、このようにして得られた特徴単語群の集合を連想検索マスタサーバ30に返す。単語追加手段425の使用は任意でよい。
In the present embodiment, the position
次に、近接性クラスタリング手段424の動作を図5、図6、図7を用いて説明する。図5は、同じ単語が含まれる二つの文書1、文書2を例示している。文書1では、各単語(term1〜term6)が文書全体に分散して分布しているのに対し、文書2では、term1〜term3が文書中の前半に、term4〜term6が文書中の後半に集中して分布している。 Next, the operation of the proximity clustering means 424 will be described with reference to FIGS. FIG. 5 illustrates two documents 1 and 2 that include the same word. In document 1, each word (term1 to term6) is distributed and distributed throughout the document, whereas in document 2, term1 to term3 are concentrated in the first half of the document and term4 to term6 are concentrated in the second half of the document. Distributed.
このような場合でも、従来の連想検索では、特徴単語の出現位置を考慮していないため、文書1を検索入力として連想検索を実行した場合の結果と、文書2を検索入力として連想検索を実行した場合の結果は、同じである。しかし、特徴単語の文書中での分布が偏っている場合、複数の話題について書かれている可能性があるため、特徴単語群を個々の話題に分類することが望ましい。 Even in such a case, in the conventional associative search, the appearance position of the feature word is not taken into consideration. Therefore, the result of executing the associative search using the document 1 as a search input and the associative search using the document 2 as a search input are executed. The result is the same. However, if the distribution of feature words in the document is biased, it may be written about a plurality of topics, so it is desirable to classify feature word groups into individual topics.
図6は、文書1から特徴単語群を抽出する場合の例である。この場合、各特徴単語は、文書全体に分散して分布しているため、一つの話題について書かれていると考えられる。従って、位置情報に基づいて特徴単語群を分類しても、分類することができず、一つの特徴単語群となる。 FIG. 6 is an example of extracting a feature word group from the document 1. In this case, since each characteristic word is distributed and distributed throughout the document, it is considered that one feature word is written. Therefore, even if the feature word group is classified based on the position information, it cannot be classified and becomes one feature word group.
図7は、文書2から特徴単語群を抽出する場合の例である。この場合、各特徴単語は、文書の前半にterm1〜term3、文書の後半にterm4〜term6が集中して分布しているため、二つの話題について書かれていると考えられる。従って、位置情報に基づいて特徴単語群を分類すると、term1〜term3の特徴単語群と、term4〜term6の特徴単語群の二つの特徴単語群が抽出される。 FIG. 7 shows an example of extracting a feature word group from the document 2. In this case, each characteristic word is considered to be written on two topics because term1 to term3 are concentrated in the first half of the document and term4 to term6 are concentrated in the second half of the document. Therefore, when the feature word group is classified based on the position information, two feature word groups, that is, the feature word group of term1 to term3 and the feature word group of term4 to term6 are extracted.
近接性クラスタリング手段424による特徴単語群の分類には、例えば、単語の出現位置とその重みを用いる階層的クラスタリング手法を適用すればよい。複数回出現する単語については、予め、その重心位置を求めておく。その後、各単語の位置に基づいて、最も近接する単語をまとめあげる。その際、それぞれに単語の重みを考慮して、新しい重心を決定する。この処理を繰り返すことでクラスタリング結果を得る。
For classification of the feature word group by the
あるいは、別の手法として、複数回出現する単語が文書中のどの範囲を被覆するかを求め、文書全体における被覆度の少ない箇所で特徴単語群を分類してもよい。 Alternatively, as another method, it is possible to determine which range in the document is covered by a word that appears multiple times, and classify the feature word group at a location with a low coverage in the entire document.
前述の説明では、近接性クラスタリング手段424における特徴単語分類手法として、二つの手法について説明したが、位置情報に基づいて特徴単語群を分類する手法であれば任意のものを用いてもよい。
In the above description, two methods have been described as the feature word classification method in the
このようにして得られた特徴単語群を用いて連想検索を実行することにより、文書中に複数の話題が含まれている場合でも、利用者の望んだ検索結果を得ることが可能となる。 By performing an associative search using the feature word group obtained in this way, it is possible to obtain a search result desired by the user even when a document includes a plurality of topics.
図8は、検索クライアント20が備える検索要求入力手段210により提供される画面例を表している。利用者は、検索要求入力エリア211に検索要求を入力し、検索指示ボタン212をクリックすることにより検索の実行を検索クライアント20に指示する。
FIG. 8 shows an example of a screen provided by the search request input means 210 provided in the
図9は、検索クライアント20による検索結果の表示例である。検索結果は、検索結果表示手段220により表示され、検索結果から抽出された特徴単語群が特徴単語表示手段230により表示される。特徴単語表示手段230を用いるか否かは任意である。検索結果表示手段220は文書群指定手段も兼ねている。文書選択チェックボックス221により任意個の文書を選択した状態で、連想検索指示ボタン213をクリックすると、選択した文書と関連する文書を検索することができる。特徴単語表示手段230は、単語群指定手段も兼ねている。単語選択チェックボックス231により任意個の単語を選択した状態で、連想検索指示ボタン213をクリックすると、特徴単語からの検索を実行することができる。分類数指定手段240は、文書を選択して連想検索を実行する場合に、文書中に含まれる話題を何個に分割するかを指定入力するために用いられる。分類数は、数値として直接指定してもよいし、スライドバーやボタン等を用いて指定してもよい。また、分類数は、分類スコアと閾値との比較を通じて自動的に設定してもよい。分類スコアは、特徴単語の重要度のスコアと近接度合のスコアを統合したスコアとして規定する。分類数を閾値により自動設定する場合には、分類数指定手段240を画面に表示しなくてもよい。
FIG. 9 is a display example of a search result by the
図10は、検索入力として与えられた文書に二つの話題が含まれている場合の検索結果の例である。この場合、検索結果表示手段220には、二列に分けて、それぞれの話題に関する検索結果が表示される。左列の記事1〜5が話題1に対応し、右列の記事A〜Eが話題2に対応する。なお、図10の場合、特徴単語表示手段230には、二つの話題の検索結果を統合して、そこから特徴単語群を抽出した結果を表示している。 FIG. 10 is an example of a search result when two topics are included in a document given as a search input. In this case, the search result display means 220 displays the search results for each topic in two columns. Articles 1 to 5 in the left column correspond to topic 1, and articles A to E in the right column correspond to topic 2. In the case of FIG. 10, the feature word display means 230 displays the result of extracting the feature word group from the search results of the two topics integrated.
一方、図11は、検索入力として与えられた文書に二つの話題が含まれている点は図10と同じであるが、特徴単語表示手段230に、各話題の検索結果ごとに特徴単語群を抽出し、それぞれを二列に表示している。左列の特徴ターム1〜5が話題1に対応し、右列の特徴タームA〜Eが話題2に対応する。図9の場合と同様、特徴単語表示手段230を用いるか否かは任意である。 On the other hand, FIG. 11 is the same as FIG. 10 in that the document given as the search input includes two topics, but the feature word group is displayed in the feature word display means 230 for each topic search result. Extracted and displayed in two columns. Feature terms 1 to 5 in the left column correspond to topic 1, and feature terms A to E in the right column correspond to topic 2. As in the case of FIG. 9, whether or not to use the feature word display means 230 is arbitrary.
図12は、近接性クラスタリング手段424が分類した特徴単語群を確認する画面である。利用者は、この画面を用いて、分類された特徴単語群が適切かどうかを判断し、適切であれば検索指示ボタン213をクリックする。適切でなければ、利用者は、分類数指定手段240に新たな分類数を指定し、その後、分類数変更指示ボタン241をクリックし、再度、分類された特徴単語群を確認する。なお、この画面の使用は任意である。
FIG. 12 is a screen for confirming the feature word group classified by the proximity clustering means 424. Using this screen, the user determines whether or not the classified feature word group is appropriate, and if so, clicks the
図13は、文書データベース440、540、640に含まれる文書から検索インデックス430、530、630を作成した場合の検索インデックスの例である。文書IDの列に個々の文書を識別する識別子、その識別子に該当する文書に含まれる単語の出現位置の情報が格納されている。
FIG. 13 is an example of a search index when the
次に、実施の形態に係る連想検索システムで実行される処理の流れを、図14のシーケンス図を用いて説明する。以下では、連想検索スレーブサーバとして連想検索スレーブサーバ40を用いる場合を説明する。
Next, the flow of processing executed by the associative search system according to the embodiment will be described with reference to the sequence diagram of FIG. Below, the case where the associative
利用者は、検索クライアント20が備える検索要求入力手段210を用い、検索要求を入力する。入力された検索要求は、検索クライアント20から連想検索マスタサーバ30に送信される(T11)。
The user uses the search request input means 210 provided in the
連想検索マスタサーバ30の検索要求解析手段310は検索要求を解析し、連想検索スレーブサーバ40に送信するための検索要求を作成する。検索要求発行手段320により、検索要求が連想検索スレーブサーバ40に送信される(T12)。
The search
連想検索スレーブサーバ40が備える検索手段410は、検索インデックス430を用いて文書データベース440を検索し、その結果を連想検索マスタサーバ30に返す(T13)。
The search means 410 provided in the associative
連想検索マスタサーバ30の特徴単語要求手段330は、得られた検索結果から特徴単語を抽出するために、特徴単語の抽出要求を連想検索スレーブサーバ40に送信する(T14)。
The feature
連想検索スレーブサーバ40が備える特徴単語抽出手段420は、検索インデックス430を利用して特徴単語群を抽出し、連想検索マスタサーバ30へ返す(T15)。
The feature word extraction means 420 included in the associative
最後に、検索結果と特徴単語群が連想検索マスタサーバ30から検索クライアント20に送信され(T16)、検索クライアント20の検索結果表示手段220と特徴単語表示手段230によって利用者に提示される。
Finally, the search result and the feature word group are transmitted from the associative
次に、図15に示すシーケンス図について説明する。このシーケンス図は、検索結果として得られた文書群から連想検索を実行する場合の処理の流れを示している。 Next, the sequence diagram shown in FIG. 15 will be described. This sequence diagram shows a flow of processing when an associative search is executed from a document group obtained as a search result.
利用者は、検索クライアント20が備える文書群指定手段220を用いて、検索入力となる文書群を選択する。選択された文書群の識別子は連想検索マスタサーバ30に送信される(T21)。
The user uses the document group specifying means 220 provided in the
連想検索マスタサーバ30の特徴単語要求手段330は、選択された文書群から特徴単語を抽出するために、特徴単語の抽出要求を連想検索スレーブサーバ40に送信する(T22)。
The feature
連想検索スレーブサーバ40が備える特徴単語抽出手段420は、検索インデックス430を利用して特徴単語群を抽出し、連想検索マスタサーバ30へ返す(T23)。
The feature
連想検索マスタサーバ30の検索要求発行手段320は、得られた特徴単語群を連想検索スレーブサーバに送信する(T24)。
The search
連想検索スレーブサーバ40が備える検索手段410は、検索インデックス430を用いて文書データベース440を検索し、その結果を連想検索マスタサーバ30に返す(T25)。
The search means 410 provided in the associative
連想検索マスタサーバ30の特徴単語要求手段330は、得られた検索結果から特徴単語を抽出するために、特徴単語の抽出要求を連想検索スレーブサーバ40に送信する(T26)。
The feature
連想検索スレーブサーバ40が備える特徴単語抽出手段420は、検索インデックス430を利用して特徴単語群を抽出し、連想検索マスタサーバ30へ返す(T27)。
The feature word extraction means 420 included in the associative
最後に、検索結果と特徴単語群が連想検索マスタサーバ30から検索クライアント20に送信され(T28)、検索クライアント20の検索結果表示手段220と特徴単語表示手段230によって利用者に提示される。
Finally, the search result and the feature word group are transmitted from the associative
次に、図16に示すシーケンス図について説明する。このシーケンス図は、検索結果として得られた文書群から連想検索を実行する場合の処理の流れを示しており、かつ、得られた文書群に二つの話題が含まれている場合を示している。 Next, the sequence diagram shown in FIG. 16 will be described. This sequence diagram shows a flow of processing when an associative search is executed from a document group obtained as a search result, and shows a case where two topics are included in the obtained document group. .
利用者は、検索クライアント20が備える文書群指定手段220を用いて、検索入力となる文書群を選択する。選択された文書群の識別子は、検索クライアント20から連想検索マスタサーバ30に送信される(T31)。
The user uses the document group specifying means 220 provided in the
連想検索マスタサーバ30の特徴単語要求手段330は、選択された文書群から特徴単語を抽出するために、特徴単語の抽出要求を連想検索スレーブサーバ40に送信する(T32)。
The feature
連想検索スレーブサーバ40が備える特徴単語抽出手段420は、検索インデックス430を利用して特徴単語群を抽出し、連想検索マスタサーバ30へ返す(T33)。
The feature word extraction means 420 included in the associative
連想検索マスタサーバ30の検索要求発行手段320は、得られた二つの特徴単語群のうち一つ目の話題に相当する特徴単語群を連想検索スレーブサーバ40に送信する(T341)。
The search
連想検索スレーブサーバ40が備える検索手段410は、検索インデックス430を用いて文書データベース440を検索し、その結果を連想検索マスタサーバ30に返す(T351)。
The search means 410 provided in the associative
連想検索マスタサーバ30の特徴単語要求手段330は、得られた検索結果から特徴単語を抽出するために、特徴単語の抽出要求を連想検索スレーブサーバ40に送信する(T361)。
The feature
連想検索スレーブサーバ40が備える特徴単語抽出手段420は、検索インデックス430を利用して特徴単語群を抽出し、連想検索マスタサーバ30へ返す(T371)。
The feature
次に、連想検索マスタサーバ30の検索要求発行手段320は、得られた二つの特徴単語群のうち二つ目の話題に相当する特徴単語群を連想検索スレーブサーバ40に送信する(T342)。
Next, the search
連想検索スレーブサーバ40が備える検索手段410は、検索インデックス430を用いて文書データベース440を検索し、その結果を連想検索マスタサーバ30に返す(T352)。
The search means 410 provided in the associative
連想検索マスタサーバ30の特徴単語要求手段330は、得られた検索結果から特徴単語を抽出するために、特徴単語の抽出要求を連想検索スレーブサーバ40に送信する(T362)。
The feature
連想検索スレーブサーバ40が備える特徴単語抽出手段420は、検索インデックス430を利用して特徴単語群を抽出し、連想検索マスタサーバ30へ返す(T372)。
The feature word extraction means 420 included in the associative
最後に、検索結果と特徴単語群が連想検索マスタサーバ30から検索クライアント20に送信され(T28)、検索クライアント20の検索結果表示手段220と特徴単語表示手段230によって利用者に提示される。
Finally, the search result and the feature word group are transmitted from the associative
話題が三つ以上ある場合には、T33の後の検索要求発行手段→T341→検索手段→T351→特徴単語要求手段→T361→特徴単語抽出手段→T371と同様の処理を必要な回数繰り返せばよい。 When there are three or more topics, the same processing as the search request issuing means after T33 → T341 → search means → T351 → feature word requesting means → T361 → feature word extracting means → T371 may be repeated as many times as necessary. .
図10に示したように二つの話題の検索結果全体から特徴単語を抽出する場合は、図16のシーケンス図において、T351の後の特徴単語要求手段→T361→特徴単語抽出手段→T371を省略し、T352の後の特徴単語要求手段において、二つの話題の検索結果全体の文書群を連想検索スレーブサーバ40に送信すればよい。
When extracting feature words from the entire search results of two topics as shown in FIG. 10, feature word requesting means after T351 → T361 → feature word extracting means → T371 is omitted in the sequence diagram of FIG. In the feature word requesting means after T352, the entire document group of the search results of the two topics may be transmitted to the associative
なお、本発明は上述した形態例に限定されるものでなく、様々な変形例が含まれる。例えば、上述した形態例は、本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある形態例の一部を他の形態例の構成に置き換えることが可能であり、また、ある形態例の構成に他の形態例の構成を加えることも可能である。また、各形態例の構成の一部について、他の構成を追加、削除又は置換することも可能である。 In addition, this invention is not limited to the form example mentioned above, Various modifications are included. For example, the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described. Moreover, it is possible to replace a part of a certain form example with the structure of another form example, and it is also possible to add the structure of another form example to the structure of a certain form example. Moreover, it is also possible to add, delete, or replace another structure with respect to a part of structure of each form example.
また、上述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路その他のハードウェアとして実現することも可能である。 In addition, each of the above-described configurations, functions, processing units, processing means, and the like can be realized in part or in whole as, for example, an integrated circuit or other hardware.
10:通信ネットワーク
20:検索クライアント
210:検索要求入力手段
211:検索要求入力エリア
212:検索指示ボタン
213:連想検索指示ボタン
220:検索結果表示手段(文書群指定手段)
221:文書選択チェックボックス
230:特徴単語表示手段(単語群指定手段)
231:単語選択チェックボックス
240:分類数指定手段
241:分類数変更指示ボタン
30:連想検索マスタサーバ
310:検索要求解析手段
320:検索要求発行手段
330:特徴単語要求手段
40:連想検索スレーブサーバ
410:検索手段
411:単語頻度取得手段
412:位置情報取得手段
413:関連度計算手段
414:近接性計算手段
415:スコア計算手段
420:特徴単語抽出手段
421:単語頻度取得手段
422:位置情報取得手段
423:重要度計算手段
424:近接性クラスタリング手段
425:単語追加手段
430:検索インデックス
440:文書データベース
490:バス
491:メモリ装置
492:演算処理装置
493:インタフェース装置
494:補助記憶装置
495:入力装置
496:出力装置
50:連想検索スレーブサーバ
510:検索手段
520:特徴単語抽出手段
530:検索インデックス
540:文書データベース
50:連想検索スレーブサーバ
510:検索手段
520:特徴単語抽出手段
530:検索インデックス
540:文書データベース
10: Communication network 20: Search client 210: Search request input means 211: Search request input area 212: Search instruction button 213: Associative search instruction button 220: Search result display means (document group specification means)
221: Document selection check box 230: Feature word display means (word group designation means)
231: Word selection check box 240: Classification number designation means 241: Classification number change instruction button 30: Associative search master server 310: Search request analysis means 320: Search request issue means 330: Feature word request means 40: Associative search slave server 410 : Search means 411: word frequency acquisition means 412: position information acquisition means 413: relevance calculation means 414: proximity calculation means 415: score calculation means 420: feature word extraction means 421: word frequency acquisition means 422: position information acquisition means 423: Importance calculation means 424: Proximity clustering means 425: Word addition means 430: Search index 440: Document database 490: Bus 491: Memory device 492: Arithmetic processing device 493: Interface device 494: Auxiliary storage device 495: Input device 496: Output device 50: Virtual search slave server 510: search means 520: feature word extraction unit 530: search index 540: the document database 50: the associative search slave server 510: search means 520: feature word extraction unit 530: search index 540: document database
Claims (15)
複数の文書を格納した文書データベースと、
受信した検索要求文書に対する関連度が高い文書を前記文書データベースから検索する検索手段と、与えられた文書群から特徴単語群を抽出すると共に、抽出された特徴単語群を各単語の重要度とその出現位置情報とに基づいて1つ又は複数の特徴単語群に分類する特徴単語抽出手段とを有し、複数の特徴単語群が抽出された場合、分類後の特徴単語群のそれぞれについて関連度が高い文書を前記文書データベースから検索する連想検索サーバと
を有する連想検索システム。 A search client having at least input means for inputting a search request document, and search result display means for displaying the searched search results;
A document database storing multiple documents;
Search means for searching the document database for a document having a high degree of relevance to the received search request document, and extracting a feature word group from the given document group, and extracting the extracted feature word group and the importance of each word And a feature word extracting means for classifying into one or more feature word groups based on the appearance position information, and when a plurality of feature word groups are extracted, the degree of relevance for each of the classified feature word groups An associative search system comprising: an associative search server for searching a high document from the document database.
特徴単語群の分類数は、ユーザがインタフェースを通じて任意に入力する
ことを特徴とする連想検索システム。 The associative search system according to claim 1,
An associative search system in which the number of classifications of feature words is arbitrarily input by the user through an interface.
前記インタフェースは、特徴単語群の分類数の変更を指示するボタンを有する
ことを特徴とする連想検索システム。 The associative search system according to claim 2,
The interface includes a button for instructing a change in the number of classifications of the feature word group.
特徴単語群の分類数は、分類スコアと閾値の比較により自動設定される
ことを特徴とする連想検索システム。 The associative search system according to claim 1,
The associative search system is characterized in that the number of classifications of the feature word group is automatically set by comparing the classification score with a threshold value.
前記特徴単語抽出手段は、複数回出現する単語が被覆する範囲を求め、被覆度の少ない箇所で特徴単語群を分類する
ことを特徴とする連想検索システム。 The associative search system according to claim 1,
The associative search system characterized in that the feature word extraction means obtains a range covered by a word that appears multiple times and classifies the feature word group at a location with a low coverage.
前記特徴単語抽出手段は、複数回出現する単語の重心位置を求め、その重心位置を中心に特徴単語群を分類する
ことを特徴とする連想検索システム。 The associative search system according to claim 1,
The associative search system characterized in that the feature word extraction means obtains the centroid position of a word that appears multiple times and classifies the feature word group around the centroid position.
前記検索クライアントは、検索された文書群の特徴単語を表示する特徴単語表示手段を有する
ことを特徴とする連想検索システム。 The associative search system according to claim 1,
The associative search system, wherein the search client includes feature word display means for displaying a feature word of a searched document group.
受信した検索要求文書に対する関連度が高い文書を前記文書データベースから検索する検索手段と、
与えられた文書群から特徴単語群を抽出すると共に、抽出された特徴単語群を各単語の重要度とその出現位置情報とに基づいて1つ又は複数の特徴単語群に分類する特徴単語抽出手段と
を有し、複数の特徴単語群が抽出された場合、分類後の特徴単語群のそれぞれについて関連度が高い文書を前記文書データベースから検索する連想検索サーバ。 In an associative search server that searches a document database storing a plurality of documents for documents similar to a search request document input from a search client,
Search means for searching the document database for documents having a high degree of relevance to the received search request document;
Feature word extraction means for extracting a feature word group from a given document group and classifying the extracted feature word group into one or more feature word groups based on the importance of each word and its appearance position information And an associative search server that searches the document database for documents having a high degree of relevance for each of the classified feature word groups.
前記特徴単語抽出手段は、ユーザがインタフェースを通じて任意に指定した分類数に基づいて特徴単語群を分類する
ことを特徴とする連想検索サーバ。 The associative search server according to claim 8,
The associative search server characterized in that the feature word extracting means classifies the feature word group based on the number of classifications arbitrarily designated by the user through the interface.
前記インタフェースは、特徴単語群の分類数の変更を指示するボタンを有する
ことを特徴とする連想検索サーバ。 The associative search server according to claim 9,
The interface includes a button for instructing a change in the number of classifications of the feature word group.
前記特徴単語抽出手段は、分類スコアと閾値の比較により、特徴単語群の分類数を自動設定する。
ことを特徴とする連想検索サーバ。 The associative search server according to claim 8,
The feature word extraction unit automatically sets the number of classifications of the feature word group by comparing the classification score with a threshold value.
An associative search server characterized by that.
受信した検索要求文書に対する関連度が高い文書を前記文書データベースから検索する第1の処理と、
与えられた文書群から特徴単語群を抽出すると共に、抽出された特徴単語群を各単語の重要度とその出現位置情報とに基づいて1つ又は複数の特徴単語群に分類する第2の処理と、
複数の特徴単語群が抽出された場合、分類後の特徴単語群のそれぞれについて関連度が高い文書を前記文書データベースから検索する第3の処理と
を実行させるプログラム。 To a computer functioning as an associative search server that searches a document database storing a plurality of documents for documents similar to a search request document input from a search client,
A first process for searching the document database for a document having a high degree of relevance to the received search request document;
A second process for extracting a feature word group from a given document group and classifying the extracted feature word group into one or more feature word groups based on the importance of each word and its appearance position information When,
When a plurality of feature word groups are extracted, a program that executes a third process of searching the document database for a document having a high degree of association with each of the classified feature word groups.
前記第2の処理は、ユーザがインタフェースを通じて任意に指定した分類数に基づいて特徴単語群を分類する
ことを特徴とするプログラム。 The program according to claim 12,
The program in which the second processing classifies the feature word group based on the number of classifications arbitrarily designated by the user through the interface.
前記インタフェースは、特徴単語群の分類数の変更を指示するボタンを有する
ことを特徴とするプログラム。 The program according to claim 13, wherein
The said interface has a button which instruct | indicates the change of the classification number of a characteristic word group. The program characterized by the above-mentioned.
前記第2の処理は、分類スコアと閾値の比較により、特徴単語群の分類数を自動設定する
ことを特徴とするプログラム。 The program according to claim 12,
In the second process, the classification number of the feature word group is automatically set by comparing the classification score with a threshold value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012069750A JP5743938B2 (en) | 2012-03-26 | 2012-03-26 | Associative search system, associative search server, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012069750A JP5743938B2 (en) | 2012-03-26 | 2012-03-26 | Associative search system, associative search server, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013200795A JP2013200795A (en) | 2013-10-03 |
JP5743938B2 true JP5743938B2 (en) | 2015-07-01 |
Family
ID=49520968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012069750A Active JP5743938B2 (en) | 2012-03-26 | 2012-03-26 | Associative search system, associative search server, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5743938B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6325502B2 (en) * | 2015-10-08 | 2018-05-16 | Necパーソナルコンピュータ株式会社 | Information processing apparatus, information processing system, and information processing method |
JP6322660B2 (en) * | 2016-02-24 | 2018-05-09 | Necパーソナルコンピュータ株式会社 | Information processing apparatus, information processing system, and information processing method |
CN113254588B (en) * | 2021-06-02 | 2023-08-22 | 竹间智能科技(上海)有限公司 | Data searching method and system |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5692176A (en) * | 1993-11-22 | 1997-11-25 | Reed Elsevier Inc. | Associative text search and retrieval system |
JP3431836B2 (en) * | 1998-06-18 | 2003-07-28 | 株式会社トレンディ | Document database search support method and storage medium storing the program |
JP4327373B2 (en) * | 2001-03-13 | 2009-09-09 | 株式会社リコー | Document search method and program causing computer to execute the method |
EP1881422A1 (en) * | 2005-04-20 | 2008-01-23 | Intellectual Property Bank Corp. | Device for extracting index work in document to be examined and document feature analyzer |
JP4592629B2 (en) * | 2006-03-28 | 2010-12-01 | 日本電信電話株式会社 | Document search support method and apparatus, program, and computer-readable recording medium |
CN103221947B (en) * | 2011-10-20 | 2016-05-25 | 日本电气株式会社 | Text connotation identifying device, text connotation identification method and computer readable recording medium storing program for performing |
-
2012
- 2012-03-26 JP JP2012069750A patent/JP5743938B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013200795A (en) | 2013-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9448992B2 (en) | Natural language search results for intent queries | |
US9684713B2 (en) | Methods and systems for retrieval of experts based on user customizable search and ranking parameters | |
US8200695B2 (en) | Database for uploading, storing, and retrieving similar documents | |
JP5746426B2 (en) | Discovery of index documents | |
US20140317097A1 (en) | Systems and methods for image searching of patent-related documents | |
KR101651780B1 (en) | Method and system for extracting association words exploiting big data processing technologies | |
US20110302149A1 (en) | Identifying dominant concepts across multiple sources | |
JP6664599B2 (en) | Ambiguity evaluation device, ambiguity evaluation method, and ambiguity evaluation program | |
JP2005352878A (en) | Document retrieval system, retrieval server and retrieval client | |
JP5994490B2 (en) | Data search program, database device, and information processing system | |
WO2014034383A1 (en) | Information processing device, record location information specification method, and information processing program | |
JP5743938B2 (en) | Associative search system, associative search server, and program | |
JP2013174988A (en) | Similar document retrieval support apparatus and similar document retrieval support program | |
JP2009230296A (en) | Document retrieval system | |
JP2006134191A (en) | Document retrieval method and its system | |
JP2009259039A (en) | Method for retrieving a plurality of databases and meta-search server | |
JP2009086903A (en) | Retrieval service device | |
JP2013222418A (en) | Passage division method, device and program | |
JP2016045552A (en) | Feature extraction program, feature extraction method, and feature extraction device | |
US20170075989A1 (en) | Search method | |
JP5127553B2 (en) | Information processing apparatus, information processing method, program, and recording medium | |
Deligiannis et al. | Visualising scientific topic evolution | |
JP2009146013A (en) | Content retrieval method, its device, and program | |
JP7341090B2 (en) | Literature search system and method | |
JP5903370B2 (en) | Information search apparatus, information search method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140604 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150127 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150323 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150428 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5743938 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |