JP2003281181A - Document retrieval device, document retrieval method, program and recording medium - Google Patents
Document retrieval device, document retrieval method, program and recording mediumInfo
- Publication number
- JP2003281181A JP2003281181A JP2002076770A JP2002076770A JP2003281181A JP 2003281181 A JP2003281181 A JP 2003281181A JP 2002076770 A JP2002076770 A JP 2002076770A JP 2002076770 A JP2002076770 A JP 2002076770A JP 2003281181 A JP2003281181 A JP 2003281181A
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- term
- search
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、与えられた検索条
件に適合する文書を検索する文書検索装置、文書検索方
法、プログラム及び記録媒体に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document search device, a document search method, a program and a recording medium for searching a document that matches given search conditions.
【0002】[0002]
【従来の技術】従来、この種の文書検索装置は、文書デ
ータベースの単語統計情報によりキーワード中の各単語
について、重要度に応じた重みを付与し、この重みによ
り検索対象の各文書の検索条件に対する文書スコア(適
合の度合)を求める文書ランキング部を備え、ユーザに
より入力された検索条件中の各検索文字列または各検索
語(以下、タームともいう)の重みを調整して文書スコ
アを計算していた(特開2000-134588号公報)。2. Description of the Related Art Conventionally, this type of document retrieval apparatus assigns a weight according to the degree of importance to each word in a keyword based on the word statistical information in a document database, and the retrieval condition for each document to be retrieved is based on this weight. Equipped with a document ranking unit that calculates the document score (degree of matching) for each, and calculates the document score by adjusting the weight of each search character string or each search word (hereinafter also referred to as term) in the search condition input by the user (Japanese Patent Laid-Open No. 2000-134588).
【0003】ここで、前述の文書検索装置による文書検
索方法について説明する。この文書検索方法では、次式
(7)によりタームの重みを計算していた。Now, a document search method by the above-described document search device will be described. In this document search method, the term weight is calculated by the following equation (7).
【数10】
この重み計算式(7)は、情報検索における確率モデル
に基づいており、ロバートソン(Robertson)らの考案
を本願発明者の小川らが改良したものである。なお、先
の考案については、「S.E. Robertson and S. Walker,
"On relevance weights with little relevance infor
mation", Proc. of 20th ACM SIGIR Conference, pp. 1
6--24, 1997」に記載されている。また、本願発明者の
小川らによるものについては、「Y. Ogawa, H. Mano,
M. Narita and S. Honma, "Structuring and expanding
queries in the probabilistic model", Proc. of 8th
TREC,pp. --548, 2000」に記載されている。[Equation 10] This weight calculation formula (7) is based on a probabilistic model in information retrieval, and is an improvement of the invention of Robertson et al. Regarding the previous invention, see "SE Robertson and S. Walker,
"On relevance weights with little relevance infor
mation ", Proc. of 20th ACM SIGIR Conference, pp. 1
6--24, 1997 ”. In addition, as for those by Ogawa et al. Of the present inventor, "Y. Ogawa, H. Mano,
M. Narita and S. Honma, "Structuring and expanding
queries in the probabilistic model ", Proc. of 8th
TREC, pp. --548, 2000 ”.
【0004】前述の計算式(7)により各タームの重み
が定まると、各文書が各タームをどのくらい含んでいる
かをもとに各文書の文書スコアを、以下の計算式(8)
で求める。When the weight of each term is determined by the above equation (7), the document score of each document is calculated based on how many terms each document contains, and the following equation (8)
Ask in.
【数11】 [Equation 11]
【0005】さらに、ユーザにより入力された検索条件
を用いた検索がなされた後、適合する文書中に出現する
タームから、ユーザにより入力された検索条件に関連す
る単語を選出し、元の検索条件に追加して新たな検索条
件とし、この新たな検索条件により再度検索する。この
ようにして関連語を追加した場合に、再検索時の重みづ
けには、例えば、適合文書、非適合文書での出現頻度な
どを利用し、次の計算式(9)で求める。Further, after a search using the search condition input by the user is performed, words related to the search condition input by the user are selected from terms appearing in the matching document, and the original search condition is selected. Is added as a new search condition, and the search is performed again with this new search condition. When the related words are added in this way, the weighting at the time of re-search is obtained by the following calculation formula (9) using, for example, the frequency of appearance in the conforming document and the non-conforming document.
【数12】
この計算式(9)も、前述の計算式(7)と同様に本願
発明者の小川らによって導出されたものである。[Equation 12] This calculation formula (9) is also derived by Ogawa et al., Who is the inventor of the present application, similarly to the above calculation formula (7).
【0006】また、ユーザにより入力された検索条件に
関連する単語を選出するためには、前述の適合文書から
選出すべき関連語を選択するための関連度評価値(TS
V)を、適合文書及び非適合文書でのタームの頻度情報
を利用して次の計算式(10)により求める。Further, in order to select a word related to the search condition input by the user, a relevance evaluation value (TS
V) is calculated by the following calculation formula (10) using the frequency information of terms in the conforming document and the nonconforming document.
【数13】 [Equation 13]
【0007】[0007]
【発明が解決しようとする課題】しかしながら、このよ
うな従来の文書検索装置では、前述の計算式(7)を用
いて重みを算出しているために、文書頻度(n)が小さ
くなるに従って重みが極端に大きくなってしまい、文書
頻度(n)の小さなタームが不当に高い重みを得て、ラ
ンキング検索における精度が悪くなるという問題があっ
た。また、従来の文書検索装置では、再検索時の重み計
算に前述の計算式(9)を用いているために、前述と同
様に文書頻度(n)が小さくなるに従って重みが極端に
大きくなってしまい、文書頻度(n)の小さなタームが
不当に高い重みを得るという問題があった。However, in such a conventional document retrieval apparatus, since the weight is calculated by using the above calculation formula (7), the weight is reduced as the document frequency (n) becomes smaller. Becomes extremely large, a term with a small document frequency (n) gets an unreasonably high weight, and there is a problem that the accuracy in the ranking search deteriorates. Further, in the conventional document search apparatus, since the above-mentioned calculation formula (9) is used for the weight calculation at the time of re-search, the weight becomes extremely large as the document frequency (n) becomes small as in the above. Therefore, there is a problem that a term with a small document frequency (n) gets an unreasonably high weight.
【0008】本発明は、このような問題を解決するため
になされたもので、文書頻度の大小による影響を受けな
いようにタームの重みを制御して検索精度を向上させる
ことが可能な文書検索装置、文書検索方法、プログラム
及び記録媒体を提供するものである。The present invention has been made in order to solve such a problem, and it is possible to improve the search accuracy by controlling the term weight so as not to be influenced by the size of the document frequency. An apparatus, a document search method, a program, and a recording medium are provided.
【0009】[0009]
【課題を解決するための手段】請求項1に係る本発明の
文書検索装置は、検索対象の文書集合を蓄積する文書蓄
積手段と、与えられた検索条件を入力する検索条件入力
手段と、記文書蓄積手段に蓄積された検索対象の文書集
合から、前記検索条件入力手段により入力された検索条
件に適合する文書を検索し、検索条件中のタームごと
に、検索対象文書数、当該タームが出現する文書数、及
びこの文書数の相違による重みの変動を調整する調整パ
ラメータを用いて重みを計算し、この重みにより前記検
索条件に適合する文書の文書スコアを計算し、前記検索
条件に適合する文書をランキングする文書ランキング手
段とを設けた構成を有している。この構成により、文書
頻度の大小による影響を受けないようにターム(検索文
字列または検索語)の重みを制御してランキング検索を
行うことが可能となる。よって、ユーザが所望する文書
を効率的に検索できることとなる。According to a first aspect of the present invention, there is provided a document search device, a document storage unit for storing a set of documents to be searched, and a search condition input unit for inputting a given search condition. Documents that match the search condition input by the search condition inputting unit are searched from the set of search target documents stored in the document storing unit, and the number of search target documents and the corresponding term appear for each term in the search condition. The number of documents to be used and the adjustment parameter for adjusting the variation of the weight due to the difference in the number of documents are used to calculate the weight, and the weight is used to calculate the document score of the document that matches the search condition, and to match the search condition. A document ranking means for ranking documents is provided. With this configuration, it is possible to perform the ranking search by controlling the weight of the term (search character string or search word) so as not to be affected by the magnitude of the document frequency. Therefore, the document desired by the user can be efficiently searched.
【0010】請求項2に係る本発明の文書検索装置は、
請求項1において、前記文書ランキング手段は、前記タ
ームのそれぞれに対し、Nを前記検索対象文書数、nを
当該タームが出現する文書数、k1(k1>0)およびk
2を前記調整パラメータとし、式The document retrieval apparatus of the present invention according to claim 2 is
2. The document ranking means according to claim 1, wherein N is the number of documents to be searched, n is the number of documents in which the term appears, k 1 (k 1 > 0) and k for each of the terms.
2 as the adjustment parameter, and
【数14】
を用いて当該タームの重みを計算する構成を有してい
る。この構成により、タームの重みを微妙に調整するこ
とができるようになり、検索精度を向上させることがで
きるようになる。[Numerical equation 14] Is used to calculate the weight of the term. With this configuration, the term weight can be finely adjusted, and the search accuracy can be improved.
【0011】請求項3に係る本発明の文書検索装置は、
請求項1において、前記文書ランキング手段は、前記タ
ームのそれぞれに対し、Nを前記検索対象文書数、nを
当該タームが出現する文書数、k1(k1>0)およびk
3(k1>k3≧0)を前記調整パラメータとし、式The document retrieval apparatus of the present invention according to claim 3 is
2. The document ranking means according to claim 1, wherein N is the number of documents to be searched, n is the number of documents in which the term appears, k 1 (k 1 > 0) and k for each of the terms.
3 (k 1 > k 3 ≧ 0) is the adjustment parameter,
【数15】
を用いて当該タームの重みを計算する構成を有してい
る。この構成により、タームの重みを微妙に調整するこ
とができるようになり、検索精度を向上させることがで
きるようになる。[Equation 15] Is used to calculate the weight of the term. With this configuration, the term weight can be finely adjusted, and the search accuracy can be improved.
【0012】請求項4に係る本発明の文書検索装置は、
請求項1において、前記文書ランキング手段は、前記タ
ームのそれぞれに対し、Nを前記検索対象文書数、nを
当該タームが出現する文書数、k1(k1>0)、k2、
k3(k1>k3≧0)およびk 4を前記調整パラメータと
し、式The document retrieval apparatus of the present invention according to claim 4 is
The document ranking means according to claim 1,
N is the number of documents to be searched, and n is
Number of documents in which the term appears, k1(K1> 0), k2,
k3(K1> K3≧ 0) and k FourAnd the adjustment parameter
Then the formula
【数16】
を用いて当該タームの重みを計算する構成を有してい
る。この構成により、タームの重みを微妙に調整するこ
とができるようになり、検索精度を向上させることがで
きるようになる。[Equation 16] Is used to calculate the weight of the term. With this configuration, the term weight can be finely adjusted, and the search accuracy can be improved.
【0013】請求項5に係る本発明の文書検索装置は、
請求項3または4において、前記調整パラメータのk3
は、α/N(0<α<N)である構成を有している。こ
の構成により、請求項3または4に記載の調整パラメー
タの一つを検索対象文書数に応じて決定できるので、パ
ラメータ調整が簡単になる。The document retrieval apparatus of the present invention according to claim 5 is
The k 3 of the adjustment parameter according to claim 3 or 4.
Has a configuration of α / N (0 <α <N). With this configuration, one of the adjustment parameters described in claim 3 or 4 can be determined according to the number of documents to be searched, so that the parameter adjustment becomes simple.
【0014】請求項6に係る本発明の文書検索装置は、
請求項1において、前記文書ランキング手段によるラン
キング検索結果について、前記検索条件に適合した適合
文書および前記検索条件に適合しなかった非適合文書の
いずれかと、前記適合文書および前記非適合文書のいず
れかに含まれるタームとが指定された再検索指示を入力
する再検索指示入力手段と、この再検索指示入力手段に
より再検索指示が入力された場合に、指定されたターム
のそれぞれに対し、検索対象文書数、当該タームが出現
する文書数、前記適合文書の数、前記非適合文書の数、
前記適合文書の集合で当該タームが出現している適合文
書の数、前記非適合文書の集合で当該タームが出現して
いる非適合文書の数、及び前記文書数の相違による重み
の変動を調整する複数の調整パラメータを用いて重みを
再計算し、この重みを用いてタームごとに、前記適合文
書及び前記非適合文書における当該タームの頻度情報に
より、前記適合文書から前記検索条件に追加すべき関連
語を選択するための関連度評価値を計算し、この関連度
評価値により前記指定されたタームをランキングしてい
ずれかを関連語とし、前記検索条件に追加して新たな検
索条件を作成するタームランキング手段とを設けた構成
を有している。この構成により、ユーザが検索結果に満
足できない場合に、初期検索条件を入力し直すことなく
再検索指示を行うことができるので、再検索におけるユ
ーザの手間が省け、操作性が向上することとなる。The document retrieval apparatus of the present invention according to claim 6 is
2. The ranking search result obtained by the document ranking means according to claim 1, wherein either a conforming document that conforms to the search condition or a non-conforming document that does not conform to the search condition, or one of the conforming document and the non-conforming document. The re-search instruction inputting means for inputting the re-searching instruction specifying the term included in and the search target for each of the specified terms when the re-searching instruction is input by the re-search instruction inputting means. Number of documents, number of documents in which the term appears, number of conforming documents, number of nonconforming documents,
Adjusting the number of relevant documents in which the term appears in the set of relevant documents, the number of non-compliant documents in which the term appears in the set of non-compliant documents, and the variation in weight due to the difference in the number of documents Weights should be recalculated using a plurality of adjustment parameters, and the weights should be used to add to the search condition from the relevant document based on the frequency information of the terms in the relevant document and the non-compliant document for each term. A relevance evaluation value for selecting a related word is calculated, and the specified terms are ranked according to this relevance evaluation value, and one of them is made a related word, and a new search condition is created in addition to the search condition. And a term ranking means for performing the same. With this configuration, when the user is not satisfied with the search result, it is possible to issue a re-search instruction without re-inputting the initial search condition, which saves the user's time and effort in re-search and improves operability. .
【0015】請求項7に係る本発明の文書検索装置は、
請求項6において、前記文書ランキング手段は、前記タ
ームの重みを計算する場合に、前記タームのそれぞれに
対し、Nを前記検索対象文書数、nを当該タームが出現
する文書数、k1(k1>0)およびk2を前記調整パラ
メータとし、式(1)According to a seventh aspect of the present invention, there is provided a document retrieval device,
7. The document ranking means according to claim 6, wherein, when calculating the weight of the term, N is the number of documents to be searched, n is the number of documents in which the term appears, and k 1 (k 1 > 0) and k 2 are the adjustment parameters, and the equation (1)
【数17】
を用いて計算し、前記タームランキング手段は、前記タ
ームの重みを再計算する場合に、Nを前記検索対象文書
数、nを当該タームが出現する文書数、Rを前記適合文
書の数、Sを前記非適合文書の数、rを当該タームが出
現している前記適合文書の数、sを当該タームが出現し
ている前記非適合文書の数、k5(k5≧0)、k6(k6
≧0)を前記調整パラメータとし、式(4)[Numerical formula 17] And the term ranking means recalculates the weight of the term, N is the number of documents to be searched, n is the number of documents in which the term appears, R is the number of relevant documents, S Is the number of the non-conforming documents, r is the number of the conforming documents in which the term appears, s is the number of the non-conforming documents in which the term appears, k 5 (k 5 ≧ 0), k 6 (K 6
≧ 0) as the adjustment parameter, and formula (4)
【数18】
を用いて再計算する構成を有している。この構成によ
り、再検索におけるタームの重みを微妙に調整でき、検
索精度をさらに向上させることとなる。[Equation 18] It has a configuration to recalculate using. With this configuration, the term weight in the re-search can be finely adjusted, and the search accuracy can be further improved.
【0016】請求項8に係る本発明の文書検索装置は、
請求項6において、前記文書ランキング手段は、前記タ
ームの重みを計算する場合に、前記タームのそれぞれに
対し、Nを前記検索対象文書数、nを当該タームが出現
する文書数、k1(k1>0)およびk3(k1>k3≧
0)を前記調整パラメータとし、式(2)A document retrieval apparatus according to the present invention of claim 8 is
7. The document ranking means according to claim 6, wherein, when calculating the weight of the term, N is the number of documents to be searched, n is the number of documents in which the term appears, and k 1 (k 1 > 0) and k 3 (k 1 > k 3 ≧
0) as the adjustment parameter and equation (2)
【数19】
を用いて計算し、前記タームランキング手段は、前記タ
ームの重みを再計算する場合に、Nを前記検索対象文書
数、nを当該タームが出現する文書数、Rを前記適合文
書の数、Sを前記非適合文書の数、rを当該タームが出
現している前記適合文書の数、sを当該タームが出現し
ている前記非適合文書の数、k5(k5≧0)、k6(k6
≧0)を前記調整パラメータとし、式(5)[Formula 19] And the term ranking means recalculates the weight of the term, N is the number of documents to be searched, n is the number of documents in which the term appears, R is the number of relevant documents, S Is the number of the non-conforming documents, r is the number of the conforming documents in which the term appears, s is the number of the non-conforming documents in which the term appears, k 5 (k 5 ≧ 0), k 6 (K 6
≧ 0) as the adjustment parameter, and the formula (5)
【数20】
を用いて再計算する構成を有している。この構成によ
り、再検索におけるタームの重みを微妙に調整でき、検
索精度をさらに向上させることとなる。[Equation 20] It has a configuration to recalculate using. With this configuration, the term weight in the re-search can be finely adjusted, and the search accuracy can be further improved.
【0017】請求項9に係る本発明の文書検索装置は、
請求項6において、前記文書ランキング手段は、前記タ
ームの重みを計算する場合に、前記タームのそれぞれに
対し、Nを前記検索対象文書数、nを当該タームが出現
する文書数、k1(k1>0)、k2、k3(k1>k3≧
0)およびk4を前記調整パラメータとし、式(3)A document retrieval apparatus of the present invention according to claim 9 is
7. The document ranking means according to claim 6, wherein, when calculating the weight of the term, N is the number of documents to be searched, n is the number of documents in which the term appears, and k 1 (k 1 > 0), k 2 , k 3 (k 1 > k 3 ≧
0) and k 4 are used as the adjustment parameters, and equation (3)
【数21】
を用いて計算し、前記タームランキング手段は、前記タ
ームの重みを再計算する場合に、Nを前記検索対象文書
数、nを当該タームが出現する文書数、Rを前記適合文
書の数、Sを前記非適合文書の数、rを当該タームが出
現している前記適合文書の数、sを当該タームが出現し
ている前記非適合文書の数、k5(k5≧0)、k6(k6
≧0)を前記調整パラメータとし、式(6)[Equation 21] And the term ranking means recalculates the weight of the term, N is the number of documents to be searched, n is the number of documents in which the term appears, R is the number of relevant documents, S Is the number of the non-conforming documents, r is the number of the conforming documents in which the term appears, s is the number of the non-conforming documents in which the term appears, k 5 (k 5 ≧ 0), k 6 (K 6
≧ 0) as the adjustment parameter, and the formula (6)
【数22】
を用いて再計算する構成を有している。この構成によ
り、再検索におけるタームの重みを微妙に調整でき、検
索精度をさらに向上させることとなる。[Equation 22] It has a configuration to recalculate using. With this configuration, the term weight in the re-search can be finely adjusted, and the search accuracy can be further improved.
【0018】請求項10に係る本発明の文書検索方法は、
文書蓄積手段に蓄積された検索対象の文書集合から、検
索条件入力手段により入力された検索条件に適合する文
書を検索する第1のステップと、計算手段により前記検
索条件中のタームごとに、検索対象文書数、当該ターム
が出現する文書数、及びこの文書数の相違による重みの
変動を調整する複数の調整パラメータを用いて重みを計
算する第2のステップと、前記計算手段により前記重み
を用いて前記検索条件に適合する文書ごとに文書スコア
を計算する第3のステップと、前記計算手段により前記
文書スコアを用いて前記検索条件に適合する文書をラン
キングする第4のステップとを有している。この方法に
より、文書頻度の大小による影響を受けないようにター
ムの重みを制御してランキング検索を行うことが可能と
なる。よって、ユーザが所望する文書を効率的に検索で
きることとなる。The document search method of the present invention according to claim 10 is
A first step of searching for a document that matches the search condition input by the search condition inputting device from the set of documents to be searched stored in the document storing device, and a search for each term in the search condition by the calculating device. A second step of calculating the weight using the number of target documents, the number of documents in which the term appears, and a plurality of adjustment parameters for adjusting the variation of the weight due to the difference in the number of documents; A third step of calculating a document score for each document satisfying the search condition, and a fourth step of ranking the documents meeting the search condition by the calculating means using the document score. There is. By this method, it becomes possible to perform ranking search by controlling the term weight so as not to be affected by the size of the document frequency. Therefore, the document desired by the user can be efficiently searched.
【0019】請求項11に係る本発明のプログラムは、コ
ンピュータに、蓄積された検索対象の文書集合から、入
力された検索条件に適合する文書を検索する第1のステ
ップと、前記検索条件中のタームごとに、検索対象文書
数、当該タームが出現する文書数、及びこの文書数の相
違による重みの変動を調整する複数の調整パラメータを
用いて重みを計算する第2のステップと、前記重みによ
り前記検索条件に適合する文書ごとに文書スコアを計算
する第3のステップと、前記文書スコアにより前記検索
条件に適合する文書をランキングする第4のステップと
を有している。このプログラムにより、文書頻度の大小
による影響を受けないようにタームの重みを制御してラ
ンキング検索を行うことが可能となる。よって、ユーザ
が所望する文書を効率的に検索できることとなる。ま
た、ネットワークを介してプログラムを取得することに
より、このプログラムの更新が容易になる。A program of the present invention according to claim 11 is the first step of retrieving a document that matches an input retrieval condition from a stored document set of retrieval objects in a computer; For each term, the second step of calculating the weight using the number of search target documents, the number of documents in which the term appears, and a plurality of adjustment parameters for adjusting the variation of the weight due to the difference in the number of documents; The method has a third step of calculating a document score for each document that meets the search condition, and a fourth step of ranking documents that meet the search condition by the document score. With this program, it is possible to perform ranking search by controlling the weight of terms so as not to be influenced by the size of the document frequency. Therefore, the document desired by the user can be efficiently searched. Also, by acquiring the program via the network, the update of this program becomes easy.
【0020】請求項12に係る本発明の記録媒体は、コン
ピュータに、蓄積された検索対象の文書集合から、入力
された検索条件に適合する文書を検索する第1のステッ
プと、前記検索条件中のタームごとに、検索対象文書
数、当該タームが出現する文書数、及びこの文書数の相
違による重みの変動を調整する複数の調整パラメータを
用いて重みを計算する第2のステップと、前記重みによ
り前記検索条件に適合する文書ごとに文書スコアを計算
する第3のステップと、前記文書スコアにより前記検索
条件に適合する文書をランキングする第4のステップと
を実行させるためのプログラムを記録した構成を有して
いる。この構成により、文書頻度の大小による影響を受
けないようにタームの重みを制御してランキング検索を
行うことが可能となる。よって、ユーザが所望する文書
を効率的に検索できることとなる。また、携帯可能な記
録媒体を移動、交換することにより、プログラムの更新
が容易になる。According to a twelfth aspect of the present invention, there is provided a recording medium according to the first aspect of the present invention, wherein a first step of searching for a document that matches an input search condition from a stored document set as a search target, A second step of calculating the weight for each term of the search target document number, the number of documents in which the term appears, and a plurality of adjustment parameters for adjusting the variation of the weight due to the difference in the document number; A configuration for recording a program for executing a third step of calculating a document score for each document satisfying the search condition by and a fourth step of ranking documents satisfying the search condition by the document score have. With this configuration, it is possible to perform a ranking search by controlling the term weight so as not to be influenced by the size of the document frequency. Therefore, the document desired by the user can be efficiently searched. Further, the program can be easily updated by moving or exchanging the portable recording medium.
【0021】[0021]
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を用いて説明する。
[第1の実施形態]図1は、本発明の第1の実施形態に
係る文書検索装置のハードウェア構成を示す。 図1に
おいて、文書検索装置100には、装置全体を制御するCPU
2と、このCPU2の制御によって各種機能を実現するた
めのプログラムや必要データを記憶するためのROM、RAM
などで構成されているメモリ3と、検索対象文書や検索
条件、検索結果などを記憶するためのハードディスク4
と、キーボードやマウスなどのポインティングデバイス
で必要な指示やデータを入力するための入力部5と、CR
Tや液晶ディスプレイなどで構成された出力部6と、フ
レキシブルディスク(以下、FDともいう)に対するデー
タの書き込み(更新)及び読み出しを行なうフレキシブ
ル・ディスク・ドライブ(以下、FDDともいう)7と、
コンパクトディスク・リードオンリー・メモリ(以下、
CD-ROMともいう)からデータの読み出しを行なうCD-ROM
ドライブ8と、通信インタフェースを介して通信回線と
の接続を制御し、前記通信回線で接続された他の通信装
置との間で信号及びデータを授受するための通信部10
とを備え、各部2乃至8、10はバス9によって接続され
ている。BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings. [First Embodiment] FIG. 1 shows a hardware configuration of a document search apparatus according to a first embodiment of the present invention. In FIG. 1, a document search device 100 includes a CPU that controls the entire device.
2 and ROM, RAM for storing programs and necessary data for realizing various functions under the control of this CPU 2.
And a hard disk 4 for storing documents to be searched, search conditions, search results, etc.
And an input unit 5 for inputting necessary instructions and data with a pointing device such as a keyboard or mouse, and a CR
An output unit 6 composed of a T or a liquid crystal display, a flexible disk drive (hereinafter also referred to as FDD) 7 for writing (updating) and reading data to and from a flexible disk (hereinafter also referred to as FD),
Compact disc read-only memory (hereinafter,
CD-ROM that reads data from a CD-ROM)
A communication unit 10 for controlling connection between the drive 8 and a communication line via a communication interface, and for exchanging signals and data with another communication device connected via the communication line.
And each unit 2 to 8 and 10 are connected by a bus 9.
【0022】図2は、本発明の第1の実施形態に係る文
書検索装置の機能構成を示す。図2において、文書登録
部11は、入力部5あるいはフレキシブルディスクなどの
記録媒体を介して入力された文書そのものを文書データ
ベース14に登録するものであり、この機能はCPU2、メ
モリ3などによって実現される。検索条件入力部12は、
ユーザがキーボードなどにより、ターム(検索文字列、
検索語など)を含む検索条件を入力するものであり、こ
の機能は入力部5などによって実現される。文書ランキ
ング部15は、検索条件入力部12により入力された検索条
件を満たす文書の集合を選出するとともに、選出された
文書ごとに文書スコアを計算し、選出文書を文書スコア
の降順にソートするものであり、この機能はCPU2、メ
モリ3などによって実現される。検索結果出力部13は、
ランキング検索された文書を出力(表示)するものであ
り、この機能は出力部6などによって実現される。文書
データベース14は、文書そのものを記録する文書ファイ
ルと検索に使用する索引とを登録するものであり、この
機能はハードディスク4などによって実現される。FIG. 2 shows a functional configuration of the document search device according to the first embodiment of the present invention. In FIG. 2, a document registration unit 11 registers the document itself input via the input unit 5 or a recording medium such as a flexible disk in the document database 14, and this function is realized by the CPU 2, the memory 3 and the like. It The search condition input section 12
The user can enter a term (search string,
A search condition including a search word or the like is input, and this function is realized by the input unit 5 or the like. The document ranking unit 15 selects a set of documents satisfying the search condition input by the search condition input unit 12, calculates a document score for each selected document, and sorts the selected documents in descending order of the document score. This function is realized by the CPU 2, the memory 3 and the like. The search result output unit 13
It outputs (displays) the documents searched for in the ranking, and this function is realized by the output unit 6 and the like. The document database 14 is for registering a document file that records the document itself and an index used for retrieval, and this function is realized by the hard disk 4 or the like.
【0023】次に、図3を参照しながら本実施形態に係
る文書検索装置100の動作を説明する。まず、ステップ
S101においては、文書ランキング部15により前記検索
条件を満たす文書が文書データベース14から選出され
る。ここで、単一のタームから構成される検索条件なら
ば、前記単一のタームを含む文書が選出され、複数のタ
ームがオア(OR)結合された検索条件ならば、前記複数
のタームのいずれかを含む文書が選出される。また、ア
ンド(AND)など他の演算子については、周知の一般的
な文書検索装置と同じ処理を行う。Next, the operation of the document search apparatus 100 according to this embodiment will be described with reference to FIG. First, in step S101, the document ranking unit 15 selects a document satisfying the search condition from the document database 14. Here, if the search condition is composed of a single term, a document including the single term is selected, and if the search condition is a combination of a plurality of terms (OR), any of the plurality of terms is selected. Documents containing or are selected. For other operators such as AND, the same processing as that of a well-known general document search device is performed.
【0024】次いで、ステップS102においては、前述
の計算式(1)Next, in step S102, the above-mentioned calculation formula (1) is used.
【数23】
を用い、前記検索条件中のタームごとに重みを計算す
る。[Equation 23] Is used to calculate the weight for each term in the search condition.
【0025】次いで、ステップS103においては、ステ
ップS101で選出された文書ごとに、ステップS102で算
出された重みを用いて文書スコアを計算する。ここで、
文書スコアは前述の計算式(8)Next, in step S103, a document score is calculated for each document selected in step S101 using the weight calculated in step S102. here,
The document score is calculated using the above formula (8).
【数24】 などを用いて計算すればよい。[Equation 24] It may be calculated using, for example.
【0026】最後に、ステップS104においては、ステ
ップS101で選出された文書をステップS103で算出され
た文書スコアの降順にソートする。こうして取得された
文書ランキング結果は、検索結果出力部13により出力さ
れる。Finally, in step S104, the documents selected in step S101 are sorted in descending order of the document scores calculated in step S103. The document ranking result thus obtained is output by the search result output unit 13.
【0027】さらに、前述のステップS102における重
み計算について、より具体的に説明する。ここでは、検
索条件が「アマゾン+熱帯」であり、文書データベース
に1000個の文書が登録されており(N=1000)、「アマ
ゾン」を含む文書数=4であって、「熱帯」を含む文書
数=10であった場合を示す。これらの値は文書データベ
ース14から得ることができる。このとき、式(1)の調
整パラメータをk1=1、k2=6とし、logの底を2と
すると、「アマゾン」の重みはn=4であるから、重み
は「log(1000/4+6)=log(256)=8」となる。ま
た、「熱帯」の重みはn=100であるから、重みは「log
(1000/100+6)=log(16)=4」となる。The weight calculation in step S102 will be described more specifically. Here, the search condition is “Amazon + Tropical”, 1000 documents are registered in the document database (N = 1000), the number of documents including “Amazon” = 4, and “Tropical” is included. The case where the number of documents = 10 is shown. These values can be obtained from the document database 14. At this time, assuming that the adjustment parameters of the equation (1) are k 1 = 1 and k 2 = 6 and the base of log is 2, the weight of “Amazon” is n = 4. Therefore, the weight is “log (1000 / 4 + 6) = log (256) = 8 ”. Also, since the weight of "tropical" is n = 100, the weight is "log".
(1000/100 + 6) = log (16) = 4 ”.
【0028】一方、前述の計算式(7)On the other hand, the above calculation formula (7)
【数25】
を用いた場合に、調整パラメータをk1=1とすると、
「アマゾン」の重みはn=4であるから、重みは「log
(1000/4+1)=log(251)=7.97…」となる。また、
「熱帯」の重みはn=100であるから、重みは「log(100
0/100+1)=log(11)=3.45…」となる。[Equation 25] When the adjustment parameter is k 1 = 1 when
The weight of “Amazon” is n = 4, so the weight is “log
(1000/4 + 1) = log (251) = 7.97 ... ”. Also,
Since the weight of "tropical" is n = 100, the weight is "log (100
0/100 + 1) = log (11) = 3.45 ... ”.
【0029】したがって、式(1)を用いた場合の方が
式(7)を用いた場合よりも、「アマゾン」と「熱帯」
の重みの比が小さいことがわかる。ここで、式(1)に
おける調整パラメータk2を大きくするほど、nの相違
が重みに影響しにくくなる。Therefore, the case of using the formula (1) is "Amazon" and the "tropical" than the case of using the formula (7).
It can be seen that the weight ratio of is small. Here, the larger the adjustment parameter k 2 in Expression (1), the less the difference in n influences the weight.
【0030】なお、ステップS102で用いる重み計算式
は、式(1)に限らず、前述の式(2)The weight calculation formula used in step S102 is not limited to the formula (1), but the above formula (2) is used.
【数26】 あるいは式(3)[Equation 26] Or formula (3)
【数27】
であってもよい。例えば、前述と同じ状況のもとで、式
(2)を用い、調整パラメータをk1=1、k3=0.1と
すると、「アマゾン」の重みはn=4であるから、重み
は「log((1000+4)/(100+4))=log(9.65…)=3.27
…」となる。また、「熱帯」の重みはn=100であるか
ら、重みは「log((1000+100)/(100+100))=log(5.5)
=2.45…」となる。[Equation 27] May be For example, under the same situation as described above, if equation (2) is used and the adjustment parameters are k 1 = 1 and k 3 = 0.1, the weight of “Amazon” is n = 4, and therefore the weight is “log”. ((1000 + 4) / (100 + 4)) = log (9.65 ...) = 3.27
… ” Also, since the weight of "tropical" is n = 100, the weight is "log ((1000 + 100) / (100 + 100)) = log (5.5).
= 2.45 ... ”.
【0031】一方、式(3)を用い、調整パラメータを
k1=1、k2=6、k3=0.1、k4=1とすると、「ア
マゾン」の重みはn=4であるから、重みは「log((100
0+24)/(100+4))=log(9.85…)=3.30…」となる。
また、「熱帯」の重みはn=100であるから、重みは「l
og((1000+600)/(100+100))=log(8)=3」となる。On the other hand, if the adjustment parameters are k 1 = 1, k 2 = 6, k 3 = 0.1, k 4 = 1 using the equation (3), the weight of "Amazon" is n = 4. The weight is `` log ((100
0 + 24) / (100 + 4)) = log (9.85 ...) = 3.30 ... ”.
Also, since the weight of "tropical" is n = 100, the weight is "l".
og ((1000 + 600) / (100 + 100)) = log (8) = 3 ”.
【0032】したがって、式(2)あるいは式(3)を
用いても、式(7)よりも「アマゾン」と「熱帯」の重
みの比が小さくなることがわかる。前述の調整パラメー
タの効果については、調整パラメータのk3、k4を大き
くするほど、nの相違が重みに影響しにくくなる。な
お、調整パラメータのk4については、経験的にα/N
(αは0.5などの小さな正の値)とするのがよい。Therefore, it is understood that the weight ratio of "Amazon" and "tropical" is smaller than that of the equation (7) by using the equation (2) or the equation (3). Regarding the effect of the above-mentioned adjustment parameters, the larger the adjustment parameters k 3 and k 4 , the less likely the difference in n influences the weight. The adjustment parameter k 4 is empirically determined to be α / N.
(Α is a small positive value such as 0.5).
【0033】以上のように、本発明の第1の実施形態に
係る文書検索装置100は、検索対象の文書集合を蓄積す
る文書データベース14(文書蓄積手段に含まれる)と、
与えられた検索条件を入力する検索条件入力部12(検索
条件入力手段に含まれる)と、文書データベース14に蓄
積された検索対象の文書集合から、検索条件入力部12に
より入力された検索条件に適合する文書を検索し、検索
条件中のタームごとに、検索対象文書数(N)、当該タ
ームが出現する文書数(n)、及びこの文書数(n)の
相違による重みの変動を調整する調整パラメータを用い
て重みを計算し、この重みにより前記検索条件に適合す
る文書の文書スコアを計算し、前記検索条件に適合する
文書をランキングする文書ランキング部15(文書ランキ
ング手段に含まれる)とを設けているので、文書頻度の
大小による影響を受けないようにタームの重みを制御し
てランキング検索を行うことにより、ユーザが所望する
文書を効率的に見つけることができる。As described above, the document search device 100 according to the first embodiment of the present invention includes the document database 14 (included in the document storage means) for storing the document set to be searched,
From the search condition input unit 12 (included in the search condition input means) for inputting the given search condition and the search target document set accumulated in the document database 14 to the search condition input by the search condition input unit 12 A matching document is searched for, and for each term in the search condition, the number of documents to be searched (N), the number of documents in which the term appears (n), and the variation in weight due to the difference in this document number (n) are adjusted. A weight is calculated using the adjustment parameter, a document score of a document that matches the search condition is calculated using this weight, and a document ranking unit 15 (included in the document ranking means) that ranks documents that match the search condition. Is provided, it is possible to efficiently find the user's desired document by controlling the term weight and performing a ranking search so that it is not affected by the size of the document frequency. Rukoto can.
【0034】また、本発明の第1の実施形態に係る文書
検索方法は、文書データベース14(文書蓄積手段に含ま
れる)に蓄積された検索対象の文書集合から、検索条件
入力部12(検索条件入力手段に含まれる)により入力さ
れた検索条件に適合する文書を検索するステップS101
と、文書ランキング部15(計算手段に含まれる)により
前記検索条件中のタームごとに、検索対象文書数
(N)、当該タームが出現する文書数(n)、及びこの
文書数(n)の相違による重みの変動を調整する複数の
調整パラメータを用いて重みを計算するステップS102
と、文書ランキング部15により前記重みを用いて前記検
索条件に適合する文書ごとに文書スコアを計算するステ
ップS103と、文書ランキング部15により前記文書スコ
アを用いて前記検索条件に適合する文書をランキングす
るステップS104とを有しているので、文書頻度の大小
による影響を受けないようにタームの重みを制御してラ
ンキング検索を行うことにより、ユーザが所望する文書
を効率的に見つけることができる。Further, the document search method according to the first embodiment of the present invention uses the search condition input unit 12 (search condition) from the document set of the search target stored in the document database 14 (included in the document storage means). Step S101 of searching for a document that matches the search condition input by (included in the input means)
By the document ranking unit 15 (included in the calculation means), the number of search target documents (N), the number of documents in which the term appears (n), and this document number (n) Step S102 of calculating the weight using a plurality of adjustment parameters for adjusting the variation of the weight due to the difference
And a step S103 of calculating a document score for each document satisfying the search condition using the weight by the document ranking unit 15, and ranking the documents meeting the search condition by using the document score by the document ranking unit 15. Since step S104 is performed, the user can efficiently find the desired document by controlling the term weight so as not to be influenced by the size of the document frequency and performing the ranking search.
【0035】なお、第1の実施形態では前述の文書検索
方法(図3を含む)を実現するためのプログラムをメモ
リ3に記憶した場合について説明したが、本発明はメモ
リ3のほかに、前述の文書検索方法を実現するためのプ
ログラムが記録され、コンピュータで読み取り可能な記
録媒体(CD-ROM、FD、光磁気ディスク(MO)、ミニディ
スク(MD)、書き換え可能なシーディーロム(CD-RW)
を含む)を文書検索装置100に取り付け、この記録媒体
をCD-ROMドライブ8、FDD7などで読み取って前記プロ
グラムを実行しても同様の効果が得られるものである。
この構成により、前記記録媒体を移動及び交換すること
で、前記プログラムを容易に更新できる。In the first embodiment, the case where the program for implementing the above-described document retrieval method (including FIG. 3) is stored in the memory 3 has been described. A computer-readable recording medium (CD-ROM, FD, magneto-optical disc (MO), mini-disc (MD), rewritable CD (RW-CD-RW) )
(Including) is attached to the document retrieval apparatus 100, the recording medium is read by the CD-ROM drive 8, the FDD 7 and the like to execute the program, and the same effect can be obtained.
With this configuration, the program can be easily updated by moving and exchanging the recording medium.
【0036】さらに、第1の実施形態では前述の文書検
索方法(図3を含む)を実現するためのプログラムをメ
モリ3に記憶した場合について説明したが、本発明はこ
のほかに、ネットワークインタフェースなどの通信イン
タフェースを含む通信部10により、LANなどのネッ
トワーク上の外部装置から前記プログラムをメモリ3に
ダウンロードして実行しても同様の効果が得られるもの
である。この方法により、前記プログラムの更新がネッ
トワークを介して容易に行える。Further, in the first embodiment, the case in which the program for realizing the above-mentioned document retrieval method (including FIG. 3) is stored in the memory 3 has been described. Even if the program is downloaded from the external device on the network such as LAN to the memory 3 and executed by the communication unit 10 including the communication interface, the same effect can be obtained. With this method, the program can be easily updated via the network.
【0037】[第2の実施形態]図4は、本発明の第2
の実施形態に係る文書検索装置の機能構成を示す。これ
は第1の実施の形態とは、さらに再検索指示入力部16
と、タームランキング部17とを設けた点が相違してい
る。なお、本実施形態は、第1の実施形態と概ね同様の
ハードウェア構成を有するため、図1を用いるとともに
同一構成には同一符号を付与して説明を省略する。[Second Embodiment] FIG. 4 shows a second embodiment of the present invention.
3 shows a functional configuration of the document search device according to the embodiment. This is different from the first embodiment in that the re-search instruction input unit 16
And that the term ranking unit 17 is provided. Note that this embodiment has a hardware configuration that is substantially the same as that of the first embodiment, so that FIG. 1 is used and the same reference numerals are given to the same configurations and description thereof is omitted.
【0038】図4において、再検索指示入力部16は、ユ
ーザが入力した検索条件に対する検索結果(以下、初期
検索結果ともいう)に満足できなかった場合に、再度検
索するための指示を入力するものであり、この機能は入
力部5、CPU2、メモリ3などによって実現される。ま
た、再検索指示においては、初期検索結果のなかでユー
ザが検索条件に一致すると思った文書(以下、適合文書
ともいう)と、一致しないと思った文書(以下、非適合
文書ともいう)とをそれぞれ指定できるものとする。In FIG. 4, the re-search instruction input unit 16 inputs an instruction for re-search when the search result (hereinafter also referred to as initial search result) for the search condition input by the user is not satisfied. This function is realized by the input unit 5, the CPU 2, the memory 3, and the like. Further, in the re-search instruction, a document that the user thought to match the search condition in the initial search result (hereinafter, also referred to as a conforming document) and a document that the user did not match (hereinafter also referred to as a non-conforming document) Can be specified respectively.
【0039】タームランキング部17は、前述の適合文書
あるいは非適合文書あるいはその両者のなかから選択さ
れたターム(検索文字列、検索語などの単語)につい
て、関連度評価値(TSV)を計算し、その降順にソート
し、前記選択されたタームから適当な個数を関連語とし
て初期検索条件(ユーザにより最初に入力された検索条
件)に追加し、新たな検索条件(以下、拡張検索条件と
もいう)を作成するものであり、この機能はCPU2、メ
モリ3などによって実現されている。The term ranking section 17 calculates a relevance evaluation value (TSV) for a term (a word such as a search character string or a search word) selected from the above-mentioned conforming document or non-conforming document or both of them. , In descending order, add an appropriate number of the selected terms as related words to the initial search condition (search condition first input by the user), and add new search condition (hereinafter, also referred to as extended search condition). ) Is created, and this function is realized by the CPU 2, the memory 3, and the like.
【0040】なお、文書登録部11は、入力部5あるいは
フレキシブルディスクなどの記録媒体を介して入力され
た文書そのものを文書データベース14に登録するもので
あり、この機能はCPU2、メモリ3などによって実現さ
れる。検索条件入力部12は、ユーザがキーボードなどに
より、ターム(検索文字列、検索語など)を含む検索条
件を入力するものであり、この機能は入力部5などによ
って実現される。文書ランキング部15は、検索条件入力
部12により入力された検索条件を満たす文書の集合を選
出するとともに、選出された文書ごとに文書スコアを計
算し、選出文書を文書スコアの降順にソートするもので
あり、この機能はCPU2、メモリ3などによって実現さ
れる。検索結果出力部13は、ランキング検索された文書
を出力(表示)するものであり、この機能は出力部6な
どによって実現される。文書データベース14は、文書そ
のものを記録する文書ファイルと検索に使用する索引と
を登録するものであり、この機能はハードディスク4な
どによって実現される。The document registration unit 11 registers the document itself, which is input via the input unit 5 or a recording medium such as a flexible disk, in the document database 14, and this function is realized by the CPU 2, the memory 3 and the like. To be done. The search condition input unit 12 is used by the user to input search conditions including terms (search character string, search word, etc.) using a keyboard or the like, and this function is realized by the input unit 5 or the like. The document ranking unit 15 selects a set of documents satisfying the search condition input by the search condition input unit 12, calculates a document score for each selected document, and sorts the selected documents in descending order of the document score. This function is realized by the CPU 2, the memory 3 and the like. The search result output unit 13 outputs (displays) the documents searched for in the ranking, and this function is realized by the output unit 6 and the like. The document database 14 is for registering a document file that records the document itself and an index used for retrieval, and this function is realized by the hard disk 4 or the like.
【0041】次に、図5を参照しながら本実施形態に係
る文書検索装置100の再検索動作を説明する。なお、初
期検索の動作は第1の実施形態と同様であるため、説明
を省略する。Next, the re-search operation of the document search apparatus 100 according to this embodiment will be described with reference to FIG. Note that the operation of the initial search is the same as that of the first embodiment, so description will be omitted.
【0042】まず、ステップS201においては、ユーザ
操作で再建策指示入力部16により再検索指示及びターム
を抽出すべき文書が指示及び入力されると、タームラン
キング部17により、指示された適合文書あるいは非適合
文書あるいはその両者のなかからタームを抽出する。こ
こでは、指示された文書を形態素解析して得られる単語
を全てタームとして抽出してもよいし、自立語のみをタ
ームとして抽出してもよい。First, in step S201, when a re-search instruction input unit 16 instructs and inputs a re-search instruction and a document from which a term is to be extracted, the term ranking unit 17 instructs the relevant document or Extract terms from non-conforming documents or both. Here, all words obtained by morphological analysis of the instructed document may be extracted as terms, or only independent words may be extracted as terms.
【0043】次いで、ステップS202においては、ター
ムランキング部17により、ステップS201で抽出された
タームごとに前述の計算式(4)Next, in step S202, the term ranking unit 17 calculates the above equation (4) for each term extracted in step S201.
【数28】 を用いて重みを計算する。[Equation 28] Calculate the weight using.
【0044】次いで、ステップS203においては、ター
ムランキング部17により、ステップS201で抽出された
タームごとに、ステップS202で算出された重みを用い
て関連度評価値(TSV)を計算する。この関連度評価値
は、前述の計算式(10)Next, in step S203, the term ranking section 17 calculates a relevance evaluation value (TSV) for each term extracted in step S201 using the weight calculated in step S202. This relevance evaluation value is calculated using the above formula (10).
【数29】 などを用いて計算すればよい。[Numerical formula 29] It may be calculated using, for example.
【0045】次いで、ステップS204においては、ター
ムランキング部17により、関連度評価値の大きい順に当
該タームを適当な個数(例えば10個)選択し、初期検索
条件に追加(ORで結合)して拡張検索条件を作成する。Next, in step S204, the term ranking unit 17 selects an appropriate number (for example, 10) of the terms in descending order of the degree of association evaluation value, and adds (terminated by OR) to the initial search condition to expand. Create search conditions.
【0046】次いで、ステップS205(図3のS101に相
当)においては、文書ランキング部15により、第1の実
施形態に準じて前記検索条件を満たす文書が文書データ
ベース14から選出される。Then, in step S205 (corresponding to S101 in FIG. 3), the document ranking unit 15 selects documents satisfying the search conditions from the document database 14 according to the first embodiment.
【0047】次いで、ステップS206(図3のS103に相
当)においては、文書ランキング部15により、第1の実
施形態に準じてステップS205で選出された文書ごと
に、ステップS202で算出された重みを用いて文書スコ
アを計算する。Next, in step S206 (corresponding to S103 in FIG. 3), the document ranking section 15 assigns the weight calculated in step S202 to each document selected in step S205 according to the first embodiment. Use to calculate the document score.
【0048】次いで、ステップS207(図3のS104に相
当)においては、文書ランキング部15により、第1の実
施形態に準じてステップS205で選出された文書をステ
ップS206で算出された文書スコアの降順にソートす
る。Then, in step S207 (corresponding to S104 in FIG. 3), the document ranking unit 15 sets the documents selected in step S205 according to the first embodiment in descending order of the document scores calculated in step S206. Sort to.
【0049】さらに、前述のステップS202における重
み計算について、より具体的に説明する。本実施形態で
は、再検索における重みは、前述の式(1)The weight calculation in step S202 will be described more specifically. In the present embodiment, the weight in the re-search is the above-mentioned equation (1).
【数30】
ではなく式(4)を用いて計算する。これは、重みにユ
ーザからの再検索指示に含まれている適合文書と非適合
文書の情報を反映するためである。また、検索対象文書
数、文書頻度、調整パラメータは第1の実施形態と同一
にする。すなわち、ユーザ操作による再検索指示入力部
16からの指示入力により、適合文書数R=4、非適合文
書数S=4とし、適合文書において「アマゾン」を含む
文書数=2、「熱帯」を含む文書数=4、非適合文書に
おいて「アマゾン」を含む文書数=2、「熱帯」を含む
文書数=2とする。また、式(4)のみに現れる調整パ
ラメータはk5=k6=2とする。[Numerical formula 30] Instead, it is calculated using equation (4). This is because the weight reflects the information of the conforming document and the non-conforming document included in the re-search instruction from the user. The number of documents to be searched, the document frequency, and the adjustment parameter are the same as those in the first embodiment. That is, the re-search instruction input unit operated by the user
By inputting an instruction from 16, the number of conforming documents R = 4, the number of nonconforming documents S = 4, the number of documents including “Amazon” in the conforming documents = 2, the number of documents including “tropical” = 4, and the nonconforming documents The number of documents including “Amazon” = 2, and the number of documents including “tropical” = 2. Further, the adjustment parameter appearing only in the equation (4) is k 5 = k 6 = 2.
【0050】ここでは、「アマゾン」の重みはn=4、
r=2、s=2であるから、重みは「0.5*log(1000/9
96+6*4/996)+0.5*log(2.5/2.5)−0.5*log(4
/996)−0.5*log(2.5/2.5)=0.5*log(256)=4」と
なる。また、「熱帯」の重みはn=100、 r=4、s=
2であるから、重みは「0.5*log(1000/900+6100/9
00)+0.5*log(4.5/0.5)−0.5*log(100/900)−0.5*
log(2.5/2.5)=0.5*log(16)+0.5*log(9)=3.58
…」となる。Here, the weight of "Amazon" is n = 4,
Since r = 2 and s = 2, the weight is “0.5 * log (1000/9
96 + 6 * 4/996) + 0.5 * log (2.5 / 2.5) -0.5 * log (4
/996)-0.5*log(2.5/2.5)=0.5*log(256)=4 ". The weight of "tropical" is n = 100, r = 4, s =
Since it is 2, the weight is “0.5 * log (1000/900 + 6100/9
00) + 0.5 * log (4.5 / 0.5) -0.5 * log (100/900) -0.5 *
log (2.5 / 2.5) = 0.5 * log (16) + 0.5 * log (9) = 3.58
… ”
【0051】一方、前述の式(10)を用いた場合は、
「アマゾン」の重みはn=4、r=2、s=2であるか
ら、重みは「0.5*log(1000/996+4/996)+0.5*log
(2.5/2.5)−0.5*log(4/996)−0.5*log(2.5/2.5)
=0.5*log(251)=3.98…」となる。また、「熱帯」の
重みはn=100、 r=4、 s=2であるから、重みは
「0.5*log(1000/900+100/900)+0.5*log(4.5/0.
5)−0.5*log(100/900)−0.5*log(2.5/2.5)=0.5*l
og(11)+0.5*log(9)=3.31…」となる。したがって、
式(4)を用いた場合の方が式(10)を用いた場合より
も、「アマゾン」と「熱帯」の再検索用の重みの比が小
さいことがわかる。前述の調整パラメータk2を大きく
するほど、nの相違が重みに影響しにくくなる。On the other hand, when the above equation (10) is used,
Since the weight of "Amazon" is n = 4, r = 2, and s = 2, the weight is "0.5 * log (1000/996 + 4/996) + 0.5 * log".
(2.5 / 2.5) -0.5 * log (4/996) -0.5 * log (2.5 / 2.5)
= 0.5 * log (251) = 3.98 ... ”. In addition, since the weight of “tropical” is n = 100, r = 4, and s = 2, the weight is “0.5 * log (1000/900 + 100/900) + 0.5 * log (4.5 / 0.
5) -0.5 * log (100/900) -0.5 * log (2.5 / 2.5) = 0.5 * l
og (11) + 0.5 * log (9) = 3.31 ... ”. Therefore,
It can be seen that the ratio of the weights for re-searching “Amazon” and “tropics” is smaller in the case of using the formula (4) than in the case of using the formula (10). The larger the above-mentioned adjustment parameter k 2 , the less likely the difference in n influences the weight.
【0052】以上のように、本発明の第2の実施形態に
係る文書検索装置100は、さらに文書ランキング部15
(文書ランキング手段に含まれる)によるランキング検
索結果について、前記検索条件に適合した適合文書およ
び前記検索条件に適合しなかった非適合文書のいずれか
と、前記適合文書および前記非適合文書のいずれかに含
まれるタームとが指定された再検索指示を入力する再検
索指示入力部16(再検索指示入力手段に含まれる)と、
この再検索指示入力部16により再検索指示が入力された
場合に、指定されたタームのそれぞれに対し、検索対象
文書数(N)、当該タームが出現する文書数(n)、前
記適合文書の数(R)、前記非適合文書の数(S)、前
記適合文書の集合で当該タームが出現している適合文書
の数(r)、前記非適合文書の集合で当該タームが出現
している非適合文書の数(s)、及び前記文書数の相違
による重みの変動を調整する複数の調整パラメータを用
いて重みを再計算し、この重みを用いてタームごとに、
前記適合文書及び前記非適合文書における当該タームの
頻度情報により、前記適合文書から前記検索条件に追加
すべき関連語を選択するための関連度評価値(TSV)を
計算し、この関連度評価値により前記指定されたターム
をランキングしていずれかを関連語とし、前記検索条件
に追加して新たな検索条件を作成するタームランキング
部17(タームランキング手段に含まれる)とを設けてい
るので、ユーザが初期検索結果に満足できない場合に、
初期検索条件の修正をすることなく再検索指示を行うこ
とができる。よって、再検索を設定するためのユーザの
手間が省け、操作性が向上する。As described above, the document search device 100 according to the second embodiment of the present invention further includes the document ranking unit 15.
Regarding the ranking search result by (included in the document ranking means), one of the conforming document that conforms to the search condition and the non-conforming document that does not conform to the search condition, and the conforming document or the non-conforming document A re-search instruction input unit 16 (included in the re-search instruction input means) for inputting a re-search instruction in which the included terms are specified,
When a re-search instruction is input by the re-search instruction input unit 16, for each of the specified terms, the number of documents to be searched (N), the number of documents in which the term appears (n), and the matching documents Number (R), the number of non-conforming documents (S), the number of relevant documents in which the term appears in the set of relevant documents (r), the term appears in the set of non-conforming documents The number of non-conforming documents (s) and a plurality of adjustment parameters for adjusting the variation of the weight due to the difference in the number of documents are used to recalculate the weight, and the weight is used for each term,
A relevance evaluation value (TSV) for selecting a related word to be added to the search condition from the relevance document is calculated based on frequency information of the term in the relevance document and the non-conformance document, and the relevance evaluation value is calculated. With the term ranking unit 17 (included in the term ranking means) that ranks the designated terms by using any of them as a related term and creates new search criteria by adding to the search criteria, If the user is not satisfied with the initial search results,
It is possible to issue a re-search instruction without modifying the initial search conditions. Therefore, the time and effort of the user for setting the re-search can be saved and the operability can be improved.
【0053】なお、本実施形態ではステップS202で用
いる重み計算式として式(4)を用いた場合について説
明したが、本発明は式(4)のほかに、式(5)In the present embodiment, the case where the formula (4) is used as the weight calculation formula used in step S202 has been described, but the present invention is not limited to the formula (4), but also the formula (5).
【数31】 あるいは式(6)[Equation 31] Or equation (6)
【数32】
を用いても同様の効果が得られるものである。すなわ
ち、これらの式(5)あるいは式(6)を用いること
で、タームの重みにおける文書頻度(n)の影響を小さ
くすることが可能である。また、調整パラメータの効果
としては、k3、k4を大きくするほど、文書頻度の相違
が重みに影響しにくくなる。[Equation 32] The same effect can be obtained by using. That is, by using these equations (5) or (6), it is possible to reduce the influence of the document frequency (n) on the term weight. Further, as an effect of the adjustment parameters, the larger the k 3, k 4, the difference in document frequency is less likely to affect the weights.
【0054】また、第2の実施形態では前述の文書検索
方法(図5を含む)を実現するためのプログラムをメモ
リ3に記憶した場合について説明したが、本発明はメモ
リ3のほかに、前述の文書検索方法を実現するためのプ
ログラムが記録され、コンピュータで読み取り可能な記
録媒体(CD-ROM、FD、光磁気ディスク(MO)、ミニディ
スク(MD)、書き換え可能なシーディーロム(CD-RW)
を含む)を文書検索装置100に取り付け、この記録媒体
をCD-ROMドライブ8、FDD7などで読み取って前記プロ
グラムを実行しても同様の効果が得られるものである。
この構成により、前記記録媒体を移動及び交換すること
で、前記プログラムを容易に更新できる。In the second embodiment, the case where the program for realizing the above-described document search method (including FIG. 5) is stored in the memory 3 has been described. A computer-readable recording medium (CD-ROM, FD, magneto-optical disc (MO), mini-disc (MD), rewritable CD (RW-CD-RW) )
(Including) is attached to the document retrieval apparatus 100, the recording medium is read by the CD-ROM drive 8, the FDD 7 and the like to execute the program, and the same effect can be obtained.
With this configuration, the program can be easily updated by moving and exchanging the recording medium.
【0055】さらに、第2の実施形態では前述の文書検
索方法(図5を含む)を実現するためのプログラムをメ
モリ3に記憶した場合について説明したが、本発明はこ
のほかに、ネットワークインタフェースなどの通信イン
タフェースを含む通信部10により、LANなどのネッ
トワーク上の外部装置から前記プログラムをメモリ3に
ダウンロードして実行しても同様の効果が得られるもの
である。この方法により、前記プログラムの更新がネッ
トワークを介して容易に行える。Further, in the second embodiment, the case where the program for realizing the above-mentioned document search method (including FIG. 5) is stored in the memory 3 has been described. Even if the program is downloaded from the external device on the network such as LAN to the memory 3 and executed by the communication unit 10 including the communication interface, the same effect can be obtained. With this method, the program can be easily updated via the network.
【0056】[0056]
【発明の効果】以上説明したように、本発明は検索対象
の文書集合から、入力された検索条件に適合する文書を
検索し、検索条件中のタームごとに、検索対象文書数、
当該タームが出現する文書数、及びこの文書数の相違に
よる重みの変動を調整する調整パラメータを用いて重み
を計算し、この重みにより前記検索条件に適合する文書
の文書スコアを計算し、前記検索条件に適合する文書を
ランキングすることにより、文書頻度の大小による影響
を受けないようにタームの重みを制御して検索精度を向
上させるという優れた効果を有する文書検索装置、文書
検索方法、プログラム及び記録媒体を提供することがで
きるものである。As described above, according to the present invention, a document matching the input search condition is searched from the document set of the search target, and the number of search target documents is searched for each term in the search condition.
The weight is calculated using the number of documents in which the term appears, and the adjustment parameter for adjusting the variation of the weight due to the difference in the number of documents, and the weight is used to calculate the document score of the document satisfying the search condition, and the search is performed. A document search device, a document search method, a program, and a program that have an excellent effect of improving the search accuracy by controlling the term weight so as not to be affected by the size of the document frequency by ranking the documents that meet the conditions A recording medium can be provided.
【図面の簡単な説明】[Brief description of drawings]
【図1】本発明の第1の実施形態に係る文書検索装置の
ハードウェア構成を示すブロック図である。FIG. 1 is a block diagram showing a hardware configuration of a document search device according to a first embodiment of the present invention.
【図2】本発明の第1の実施形態に係る文書検索装置の
機能構成を示すブロック図である。FIG. 2 is a block diagram showing a functional configuration of a document search device according to the first embodiment of the present invention.
【図3】本発明の第1の実施形態に係る文書検索装置の
動作を示すフローチャートである。FIG. 3 is a flowchart showing an operation of the document search device according to the first embodiment of the present invention.
【図4】本発明の第2の実施形態に係る文書検索装置の
機能構成を示すブロック図である。FIG. 4 is a block diagram showing a functional configuration of a document search device according to a second embodiment of the present invention.
【図5】本発明の第2の実施形態に係る文書検索装置の
動作を示すフローチャートである。FIG. 5 is a flowchart showing an operation of the document search device according to the second exemplary embodiment of the present invention.
2 CPU 3 メモリ 4 ハードディスク 5 入力部 6 出力部 7 FDD 8 CD-ROMドライブ 9 バス 10 通信部 11 文書登録部 12 検索条件入力部 13 検索結果出力部 14 文書データベース 15 文書ランキング部 100 文書検索装置(コンピュータ) 2 CPU 3 memory 4 hard disk 5 Input section 6 Output section 7 FDD 8 CD-ROM drive 9 buses 10 Communications department 11 Document Registration Department 12 Search condition input section 13 Search result output section 14 Document database 15 Document Ranking Department 100 Document retrieval device (computer)
Claims (12)
段と、与えられた検索条件を入力する検索条件入力手段
と、前記文書蓄積手段に蓄積された検索対象の文書集合
から、前記検索条件入力手段により入力された検索条件
に適合する文書を検索し、検索条件中のタームごとに、
検索対象文書数、当該タームが出現する文書数、及びこ
の文書数の相違による重みの変動を調整する調整パラメ
ータを用いて重みを計算し、この重みにより前記検索条
件に適合する文書の文書スコアを計算し、前記検索条件
に適合する文書をランキングする文書ランキング手段と
を設けたことを特徴とする文書検索装置。1. A search condition based on a document storage unit that stores a document set to be searched, a search condition input unit that inputs a given search condition, and a document set to be searched that is stored in the document storage unit. Documents that match the search conditions entered by the input means are searched, and for each term in the search conditions,
The weight is calculated using the number of documents to be searched, the number of documents in which the term appears, and the adjustment parameter that adjusts the variation in weight due to the difference in the number of documents, and the document score of the document that matches the search condition is calculated by this weight. A document retrieval device, comprising: a document ranking unit that calculates and ranks documents that meet the retrieval conditions.
それぞれに対し、Nを前記検索対象文書数、nを当該タ
ームが出現する文書数、k1(k1>0)およびk2を前
記調整パラメータとし、式 【数1】 を用いて当該タームの重みを計算することを特徴とする
請求項1に記載の文書検索装置。2. The document ranking means, for each of the terms, N is the number of search target documents, n is the number of documents in which the term appears, and k 1 (k 1 > 0) and k 2 are adjusted. As a parameter, the formula [Formula 1] The document search device according to claim 1, wherein the weight of the term is calculated by using.
それぞれに対し、Nを前記検索対象文書数、nを当該タ
ームが出現する文書数、k1(k1>0)およびk3(k1
>k 3≧0)を前記調整パラメータとし、式 【数2】 を用いて当該タームの重みを計算することを特徴とする
請求項1に記載の文書検索装置。3. The document ranking means is provided for the term
For each, N is the number of documents to be searched, and n is the target document.
The number of documents in which a game appears1(K1> 0) and k3(K1
> K 3≧ 0) as the adjustment parameter, [Equation 2] Is characterized in that the weight of the term is calculated using
The document search device according to claim 1.
それぞれに対し、Nを前記検索対象文書数、nを当該タ
ームが出現する文書数、k1(k1>0)、k2、k3(k
1>k3≧0)およびk4を前記調整パラメータとし、式 【数3】 を用いて当該タームの重みを計算することを特徴とする
請求項1に記載の文書検索装置。4. The document ranking means, for each of the terms, N is the number of documents to be searched, n is the number of documents in which the term appears, k 1 (k 1 > 0), k 2 , k 3 (K
1 > k 3 ≧ 0) and k 4 are the adjustment parameters, and the equation The document search device according to claim 1, wherein the weight of the term is calculated by using.
α<N)であることを特徴とする請求項3または4に記
載の文書検索装置。5. The adjustment parameter k 3 is α / N (0 <
The document retrieval device according to claim 3 or 4, wherein α <N).
検索結果について、前記検索条件に適合した適合文書お
よび前記検索条件に適合しなかった非適合文書のいずれ
かと、前記適合文書および前記非適合文書のいずれかに
含まれるタームとが指定された再検索指示を入力する再
検索指示入力手段と、この再検索指示入力手段により再
検索指示が入力された場合に、指定されたタームのそれ
ぞれに対し、検索対象文書数、当該タームが出現する文
書数、前記適合文書の数、前記非適合文書の数、前記適
合文書の集合で当該タームが出現している適合文書の
数、前記非適合文書の集合で当該タームが出現している
非適合文書の数、及び前記文書数の相違による重みの変
動を調整する複数の調整パラメータを用いて重みを再計
算し、この重みを用いてタームごとに、前記適合文書及
び前記非適合文書における当該タームの頻度情報によ
り、前記適合文書から前記検索条件に追加すべき関連語
を選択するための関連度評価値を計算し、この関連度評
価値により前記指定されたタームをランキングしていず
れかを関連語とし、前記検索条件に追加して新たな検索
条件を作成するタームランキング手段とを設けたことを
特徴とする請求項1に記載の文書検索装置。6. The ranking search result by the document ranking means is either a conforming document that conforms to the search condition or a non-conforming document that does not conform to the search condition, or one of the conforming document and the non-conforming document. The re-search instruction inputting means for inputting the re-searching instruction specifying the term included in and the search target for each of the specified terms when the re-searching instruction is input by the re-search instruction inputting means. The number of documents, the number of documents in which the term appears, the number of relevant documents, the number of non-conforming documents, the number of relevant documents in which the term appears in the set of relevant documents, and the number of relevant documents in the set of non-compliant documents The number of non-conforming documents in which the term appears, and a plurality of adjustment parameters for adjusting the variation of the weight due to the difference in the number of documents are used to recalculate the weight, and the weight is used. For each term, a relevance evaluation value for selecting a related word to be added to the search condition from the relevance document is calculated based on frequency information of the term in the relevance document and the non-conformance document, and the relevance degree is calculated. 2. The term ranking means for ranking the designated terms according to an evaluation value to make any one of the related terms a related term and creating a new retrieval condition in addition to the retrieval condition is provided. Document retrieval device.
重みを計算する場合に、前記タームのそれぞれに対し、
Nを前記検索対象文書数、nを当該タームが出現する文
書数、k1(k1>0)およびk2を前記調整パラメータ
とし、式 【数4】 を用いて計算し、前記タームランキング手段は、前記タ
ームの重みを再計算する場合に、Nを前記検索対象文書
数、nを当該タームが出現する文書数、Rを前記適合文
書の数、Sを前記非適合文書の数、rを当該タームが出
現している前記適合文書の数、sを当該タームが出現し
ている前記非適合文書の数、k5(k5≧0)、k6(k6
≧0)を前記調整パラメータとし、式 【数5】 を用いて再計算することを特徴とする請求項6に記載の
文書検索装置。7. The document ranking means calculates the weight of the term, for each of the terms,
N is the number of documents to be searched, n is the number of documents in which the term appears, and k 1 (k 1 > 0) and k 2 are the adjustment parameters. And the term ranking means recalculates the weight of the term, N is the number of documents to be searched, n is the number of documents in which the term appears, R is the number of relevant documents, S Is the number of the non-conforming documents, r is the number of the conforming documents in which the term appears, s is the number of the non-conforming documents in which the term appears, k 5 (k 5 ≧ 0), k 6 (K 6
≧ 0) as the adjustment parameter, and the equation The document retrieving apparatus according to claim 6, wherein the document is recalculated using.
重みを計算する場合に、前記タームのそれぞれに対し、
Nを前記検索対象文書数、nを当該タームが出現する文
書数、k1(k1>0)およびk3(k1>k3≧0)を前
記調整パラメータとし、式 【数6】 を用いて計算し、前記タームランキング手段は、前記タ
ームの重みを再計算する場合に、Nを前記検索対象文書
数、nを当該タームが出現する文書数、Rを前記適合文
書の数、Sを前記非適合文書の数、rを当該タームが出
現している前記適合文書の数、sを当該タームが出現し
ている前記非適合文書の数、k5(k5≧0)、k6(k6
≧0)を前記調整パラメータとし、式 【数7】 を用いて再計算することを特徴とする請求項6に記載の
文書検索装置。8. The document ranking means, when calculating the weights of the terms, for each of the terms,
N is the number of documents to be searched, n is the number of documents in which the term appears, and k 1 (k 1 > 0) and k 3 (k 1 > k 3 ≧ 0) are the adjustment parameters. And the term ranking means recalculates the weight of the term, N is the number of documents to be searched, n is the number of documents in which the term appears, R is the number of relevant documents, S Is the number of the non-conforming documents, r is the number of the conforming documents in which the term appears, s is the number of the non-conforming documents in which the term appears, k 5 (k 5 ≧ 0), k 6 (K 6
≧ 0) as the adjustment parameter, and the formula The document retrieving apparatus according to claim 6, wherein the document is recalculated using.
重みを計算する場合に、前記タームのそれぞれに対し、
Nを前記検索対象文書数、nを当該タームが出現する文
書数、k1(k1>0)、k2、k3(k1>k3≧0)およ
びk4を前記調整パラメータとし、式 【数8】 を用いて計算し、前記タームランキング手段は、前記タ
ームの重みを再計算する場合に、Nを前記検索対象文書
数、nを当該タームが出現する文書数、Rを前記適合文
書の数、Sを前記非適合文書の数、rを当該タームが出
現している前記適合文書の数、sを当該タームが出現し
ている前記非適合文書の数、k5(k5≧0)、k6(k6
≧0)を前記調整パラメータとし、式 【数9】 を用いて再計算することを特徴とする請求項6に記載の
文書検索装置。9. The document ranking means calculates the weights of the terms for each of the terms.
N is the number of documents to be searched, n is the number of documents in which the term appears, k 1 (k 1 > 0), k 2 , k 3 (k 1 > k 3 ≧ 0) and k 4 are the adjustment parameters, Formula [Equation 8] And the term ranking means recalculates the weight of the term, N is the number of documents to be searched, n is the number of documents in which the term appears, R is the number of relevant documents, S Is the number of the non-conforming documents, r is the number of the conforming documents in which the term appears, s is the number of the non-conforming documents in which the term appears, k 5 (k 5 ≧ 0), k 6 (K 6
≧ 0) as the adjustment parameter, and the equation The document retrieving apparatus according to claim 6, wherein the document is recalculated using.
集合から、検索条件入力手段により入力された検索条件
に適合する文書を検索する第1のステップと、計算手段
により前記検索条件中のタームごとに、検索対象文書
数、当該タームが出現する文書数、及びこの文書数の相
違による重みの変動を調整する複数の調整パラメータを
用いて重みを計算する第2のステップと、前記計算手段
により前記重みを用いて前記検索条件に適合する文書ご
とに文書スコアを計算する第3のステップと、前記計算
手段により前記文書スコアを用いて前記検索条件に適合
する文書をランキングする第4のステップとを有するこ
とを特徴とする文書検索方法。10. A first step of retrieving a document matching a retrieval condition input by a retrieval condition inputting unit from a set of retrieval target documents stored in a document storing unit, and a calculating unit in the retrieval condition. A second step of calculating a weight for each term using a plurality of search target documents, a number of documents in which the term appears, and a plurality of adjustment parameters for adjusting variations in weight due to a difference in the number of documents, and the calculating means. And a third step of calculating a document score for each document satisfying the search condition by using the weight, and a fourth step of ranking the documents meeting the search condition by the calculating means using the document score. A document search method comprising:
書集合から、入力された検索条件に適合する文書を検索
する第1のステップと、前記検索条件中のタームごと
に、検索対象文書数、当該タームが出現する文書数、及
びこの文書数の相違による重みの変動を調整する複数の
調整パラメータを用いて重みを計算する第2のステップ
と、前記重みにより前記検索条件に適合する文書ごとに
文書スコアを計算する第3のステップと、前記文書スコ
アにより前記検索条件に適合する文書をランキングする
第4のステップとを実行させるためのプログラム。11. A first step of searching a document that matches a search condition input from a stored document set of search targets, the number of search target documents for each term in the search condition, The second step of calculating a weight using a plurality of adjustment parameters for adjusting the number of documents in which the term appears and the weight variation due to the difference in the number of documents, and for each document that matches the search condition by the weight. A program for executing a third step of calculating a document score, and a fourth step of ranking documents matching the search condition by the document score.
書集合から、入力された検索条件に適合する文書を検索
する第1のステップと、前記検索条件中のタームごと
に、検索対象文書数、当該タームが出現する文書数、及
びこの文書数の相違による重みの変動を調整する複数の
調整パラメータを用いて重みを計算する第2のステップ
と、前記重みにより前記検索条件に適合する文書ごとに
文書スコアを計算する第3のステップと、前記文書スコ
アにより前記検索条件に適合する文書をランキングする
第4のステップとを実行させるためのプログラムを記録
したコンピュータ読み取り可能な記録媒体。A first step of searching a document that matches a search condition input from a stored document set of search targets, the number of search target documents for each term in the search condition, The second step of calculating a weight using a plurality of adjustment parameters for adjusting the number of documents in which the term appears and the weight variation due to the difference in the number of documents, and for each document that matches the search condition by the weight. A computer-readable recording medium recording a program for executing a third step of calculating a document score and a fourth step of ranking documents matching the search condition by the document score.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002076770A JP2003281181A (en) | 2002-03-19 | 2002-03-19 | Document retrieval device, document retrieval method, program and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002076770A JP2003281181A (en) | 2002-03-19 | 2002-03-19 | Document retrieval device, document retrieval method, program and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003281181A true JP2003281181A (en) | 2003-10-03 |
Family
ID=29227824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002076770A Pending JP2003281181A (en) | 2002-03-19 | 2002-03-19 | Document retrieval device, document retrieval method, program and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003281181A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7769771B2 (en) | 2006-07-19 | 2010-08-03 | Ricoh Company, Ltd. | Searching a document using relevance feedback |
JP2011039729A (en) * | 2009-08-10 | 2011-02-24 | Nec Corp | Keyword search device, method, program, and system |
US8065321B2 (en) | 2007-06-20 | 2011-11-22 | Ricoh Company, Ltd. | Apparatus and method of searching document data |
JP2021149234A (en) * | 2020-03-17 | 2021-09-27 | 株式会社日立製作所 | Document search system and method |
-
2002
- 2002-03-19 JP JP2002076770A patent/JP2003281181A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7769771B2 (en) | 2006-07-19 | 2010-08-03 | Ricoh Company, Ltd. | Searching a document using relevance feedback |
US8065321B2 (en) | 2007-06-20 | 2011-11-22 | Ricoh Company, Ltd. | Apparatus and method of searching document data |
JP2011039729A (en) * | 2009-08-10 | 2011-02-24 | Nec Corp | Keyword search device, method, program, and system |
JP2021149234A (en) * | 2020-03-17 | 2021-09-27 | 株式会社日立製作所 | Document search system and method |
JP7341090B2 (en) | 2020-03-17 | 2023-09-08 | 株式会社日立製作所 | Literature search system and method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7769771B2 (en) | Searching a document using relevance feedback | |
JPH11203294A (en) | Information retrieving system, device and method and recording medium | |
JP2004126840A (en) | Document retrieval method, program, and system | |
JP4746439B2 (en) | Document search server and document search method | |
JPH1145241A (en) | Japanese syllabary-chinese character conversion system and computer-readable recording medium where programs making computer function as means of same system is recorded | |
JP2009009461A (en) | Keyword inputting-supporting system, content-retrieving system, content-registering system, content retrieving and registering system, methods thereof, and program | |
JP2000200281A (en) | Device and method for information retrieval and recording medium where information retrieval program is recorded | |
JP4179858B2 (en) | Document search apparatus, document search method, program, and recording medium | |
JP2003281181A (en) | Document retrieval device, document retrieval method, program and recording medium | |
JPH1145261A (en) | Information retrieval device and computer-readable recording medium where program making computer function as samd device is recorded | |
JP4212347B2 (en) | Document search apparatus, program, and recording medium | |
JP4671212B2 (en) | Document search apparatus, document search method, program, and recording medium | |
JP3059710B1 (en) | INFORMATION SEARCH SYSTEM, DATABASE MANAGEMENT DEVICE, DATABASE MANAGEMENT METHOD, AND COMPUTER-READABLE RECORDING MEDIUM RECORDING PROGRAM FOR CAUSING COMPUTER TO EXECUTE THE METHOD | |
JP2003242170A (en) | Document search device, document search method, and recording medium | |
JP4049543B2 (en) | Document search device, document search program, recording medium | |
JP4208402B2 (en) | Document search apparatus, document search method, and recording medium | |
JP2006251935A (en) | Document retrieval device, document retrieval method and document retrieval program | |
JP2002117043A (en) | Device and method for document retrieval, and recording medium with recorded program for implementing the same method | |
JP2003345824A (en) | Device, method, and program for document retrieval | |
JP4773003B2 (en) | Document search apparatus, document search method, program, and computer-readable storage medium | |
JP2000207422A (en) | Retrieval and ranking system and method for document using concept thesaurus | |
JP2001290826A (en) | Device and method for document classification and recording medium with recorded document classifying program | |
JP2003242177A (en) | Information retrieval supporting system, program and recording medium | |
JPH11232298A (en) | Data retrieving device and storage medium readable by computer | |
JP2004240769A (en) | Information retrieving device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070626 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070822 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071002 |