JP2014102625A - Information retrieval system, program, and method - Google Patents

Information retrieval system, program, and method Download PDF

Info

Publication number
JP2014102625A
JP2014102625A JP2012253300A JP2012253300A JP2014102625A JP 2014102625 A JP2014102625 A JP 2014102625A JP 2012253300 A JP2012253300 A JP 2012253300A JP 2012253300 A JP2012253300 A JP 2012253300A JP 2014102625 A JP2014102625 A JP 2014102625A
Authority
JP
Japan
Prior art keywords
theme
technical
information
extracted
technology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012253300A
Other languages
Japanese (ja)
Inventor
Eiji Hirata
英二 平田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ipros Corp
Original Assignee
Ipros Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ipros Corp filed Critical Ipros Corp
Priority to JP2012253300A priority Critical patent/JP2014102625A/en
Publication of JP2014102625A publication Critical patent/JP2014102625A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To output a retrieval result having less retrieval leakage and retrieval noise in an information retrieval system.SOLUTION: An information retrieval system 1 comprises: a technology classification database 31 storing technology fields, technology ranges (themes) belonging to the fields and technology characteristics (terms) for each theme; a technology content database 35 accumulating technology contents; an input character string acquisition part 11 acquiring an input character string from a retriever; a conceptualization part 15 collating the input character string with the terms stored in the technology classification database 31, extracting themes including matched terms, specifying one theme from among the extracted themes, and extracting a term group including the specified theme; a content search part 17 performing text search on the technology content database 35 using the term group as a keyword, and acquiring a technology content having a good evaluation; and a content display part 19 outputting display data for displaying the acquired technology content.

Description

本発明は、情報の検索処理に関する。より詳しくは、本発明は、与えられた文字列から検索したい技術の範囲を概念化して情報を検索する検索処理に関する。   The present invention relates to information search processing. More specifically, the present invention relates to a search process for searching for information by conceptualizing a range of technology desired to be searched from a given character string.

エンジニアリング、製品企画等の業務では、技術情報の収集は欠かすことができない。技術情報として、インターネット、イントラネット等で標準的に用いられているドキュメントシステムであるwebに蓄積されている情報が広く利用されている。これらの情報を検索する手段として、テキスト検索処理が使用されている。   In engineering, product planning, etc., collecting technical information is indispensable. As technical information, information stored in a web, which is a document system used as standard on the Internet, an intranet, and the like is widely used. A text search process is used as means for searching for such information.

従来の検索手法として、与えられた文字列をキーワードとする検索手法があり、例えば、製品名や仕様を示す文字列を入力して製品を検索する製品検索システムで実施されている(従来手法(1))。   As a conventional search method, there is a search method using a given character string as a keyword. For example, it is implemented in a product search system that searches for a product by inputting a character string indicating a product name or specification (conventional method ( 1)).

別の従来の検索手法として、大量の自由文等のテキストデータに対してデータマイニングを行い、相関関係や出現パターンなどを解析して情報を検索する手法があり、例えば、書籍検索システムで実施されている(従来手法(2))。   As another conventional search method, there is a method of performing data mining on a large amount of text data such as free text, and searching for information by analyzing correlations and appearance patterns. (Conventional method (2)).

さらに別の従来の検索手法として、検索対象となる技術文献に分類コードを付与し、分類コードを用いて検索する手法があり、例えば、分類が付与された特許公報を検索する特許検索装置が知られている(従来手法(3))。   As another conventional search method, there is a method of assigning a classification code to a technical document to be searched and performing a search using the classification code. For example, a patent search device that searches a patent publication with a classification is known. (Conventional method (3)).

特開2002−351896公報JP 2002-351896 A

上記の従来手法(1)は、与えられたキーワードとの一致検索であるため、製品名や仕様、術語が入力されないと、所望する検索結果が得られないという問題がある。   Since the conventional method (1) is a match search with a given keyword, there is a problem that a desired search result cannot be obtained unless a product name, specification, and terminology are input.

しかし、所望する技術情報を得るための適切なキーワードを入力できる検索者は多くはない。例えば、「ガラス板に穴を開ける手段」に関する情報を得たい場合に、既に知っている手段の「ドリル」に関連する検索結果を得ることが可能であっても、本当に知りたい他の手段、例えばレーザ、ウォータージェット、パンチング加工等に関連する技術情報を検索結果として得ることができない。   However, there are not many searchers who can input an appropriate keyword for obtaining desired technical information. For example, if you want to get information about "means for drilling holes in a glass plate", you can get search results related to "drill" of the means you already know, but other means you really want to know, For example, technical information related to laser, water jet, punching, etc. cannot be obtained as a search result.

一般的に、検索精度は、検索者が適正なキーワードを入力できるかに依存している。しかし、技術情報の検索の必要性は、検索したい技術情報について十分な知識がないから生ずるのであり、検索したい技術情報を十分に得ている時点では検索する必要性がなくなっていることが大半であるため、検索者が、適切なキーワードを思いつくことは困難であるとされている。   In general, the search accuracy depends on whether a searcher can input an appropriate keyword. However, the need for searching for technical information arises because there is not enough knowledge about the technical information to be searched, and in most cases the need for searching is no longer necessary when the technical information to be searched is sufficient. For this reason, it is difficult for searchers to come up with appropriate keywords.

上記の従来手法(2)は、従来手法(1)の問題を解決可能であるが、別の問題がある。すなわち、従来手法(2)は、与えられた語の共起性を利用した連想結果を提供するものであるため、本来の検索目的や意図に合致しない検索結果(検索ノイズ)が多いという問題がある。   Although the above conventional method (2) can solve the problem of the conventional method (1), there is another problem. That is, since the conventional method (2) provides an associative result using the co-occurrence of a given word, there is a problem that there are many search results (search noise) that do not match the original search purpose or intention. is there.

上記の従来手法(3)は、従来手法(1)、(2)の問題を解決可能であるが、別の問題がある。すなわち、検索対象の情報に付与されている分類コードが少ない場合には、検索対象の分類に柔軟性がなくなる反面、分類コードが多い場合には、検索ノイズの問題がある。さらに、検索者が入力するキーワードが適切でない場合には、分類コードによる検索範囲が不適切となり、検索漏れが発生する可能性がある。また、検索対象が、分類コードの付いた情報に限定され、収集できる情報が限定的であるという問題がある。また、他のデータベースに蓄積された論文、製品等の情報について横断的検索ができず検索者にとって不便であるという問題もある。   The conventional method (3) can solve the problems of the conventional methods (1) and (2), but has another problem. That is, when the number of classification codes assigned to the search target information is small, the search target classification is not flexible, but when there are many classification codes, there is a problem of search noise. Furthermore, when the keyword input by the searcher is not appropriate, the search range based on the classification code becomes inappropriate, and search omission may occur. In addition, the search target is limited to information with classification codes, and there is a problem that information that can be collected is limited. Another problem is that it is inconvenient for a searcher because a cross-sectional search cannot be performed for information such as articles and products stored in other databases.

本発明は、これらの従来手法を考慮してなされたものであり、その目的は、検索者の入力した単語や文が検索用キーワードとして適正ではない場合でも、検索ノイズや検索漏れが少なく、かつ、汎用的な検索対象に対する検索を行える情報検索技術を提供することである。   The present invention has been made in consideration of these conventional methods, and its purpose is to reduce search noise and search omission even when a word or sentence input by a searcher is not appropriate as a search keyword, and It is an object of the present invention to provide an information search technique capable of searching for a general search target.

本発明に係る情報検索システムは、技術が適用される範囲を示すフィールドと、該フィールドに属する技術の範囲を示すテーマと、該テーマ毎に該技術の範囲に含まれる技術の特性を複数の観点に対応付けて示すタームとを定める技術分類を記憶する技術分類データベースと、技術情報を示す技術コンテンツを蓄積する技術コンテンツデータベースとを備える。該情報検索システムは、さらに、検索者によって入力された単語または単語の組合せである入力文字列を取得する入力文字列取得部と、前記技術分類データベースに記憶された技術分類のタームを前記入力文字列で照合し、一致するタームを含む全てのテーマを抽出し、抽出した該テーマから少なくとも1つのテーマを特定し、該特定したテーマに含まれる複数のターム群を抽出する概念化部と、前記抽出したターム群をキーワードとして前記技術コンテンツデータベースをテキスト検索し、予め定めた評価方法で該検索した技術コンテンツを評価して、評価の良い技術コンテンツを取得するコンテンツ検索部と、前記取得した技術コンテンツを表示する表示用データを出力するコンテンツ表示部とを備える。   The information search system according to the present invention has a plurality of viewpoints on a field indicating a range to which the technology is applied, a theme indicating a range of the technology belonging to the field, and characteristics of the technology included in the technology range for each theme. A technical classification database that stores technical classifications that define terms associated with each other, and a technical content database that stores technical contents indicating technical information. The information search system further includes an input character string acquisition unit that acquires an input character string that is a word or a combination of words input by a searcher, and a technical classification term stored in the technical classification database. A conceptualization unit for collating in a column, extracting all themes including matching terms, identifying at least one theme from the extracted themes, and extracting a plurality of term groups included in the identified theme; and the extraction A content search unit that searches the technical content database by using the term group as a keyword, evaluates the searched technical content by a predetermined evaluation method, and acquires the technical content with good evaluation; and the acquired technical content A content display unit that outputs display data to be displayed.

上記した情報検索システムによれば、検索者が入力した文字列から、検索者が本来検索したいと思われる技術概念を示す検索条件(検索キーワード)を生成し、技術情報を検索することができる。例えば、検索者から、適切な検索キーワードが与えられていない場合でも、入力された文字列をもとに検索者が検索したい技術の範囲を特定し、特定した技術範囲に関連する概念を用いて検索処理を行うことにより検索対象を拡張し、さらに検索結果を評価することにより、検索漏れおよび検索ノイズが少ない検索結果を提供することができる。   According to the information search system described above, it is possible to generate a search condition (search keyword) indicating a technical concept that the searcher originally wants to search from a character string input by the searcher, and to search technical information. For example, even if an appropriate search keyword is not given by the searcher, the range of the technology that the searcher wants to search based on the input character string is specified, and the concept related to the specified technology range is used. By performing the search process, the search target is expanded, and further, the search result is evaluated, so that a search result with less search omission and search noise can be provided.

一実施例における情報検索システムのブロック構成例を示す図である。It is a figure which shows the block structural example of the information search system in one Example. 一実施例における概念化部のブロック構成例を示す図である。It is a figure which shows the block structural example of the conceptualization part in one Example. 一実施例における技術分類データベースのフィールド情報およびテーマ情報のデータ構成例を示す図である。It is a figure which shows the data structural example of the field information and theme information of the technical classification database in one Example. 一実施例における技術分類データベースのターム情報のデータ構成例を示す図である。It is a figure which shows the data structural example of the term information of the technical classification database in one Example. 一実施例における技術分類データベースのターム情報のデータ構成例を示す図である。It is a figure which shows the data structural example of the term information of the technical classification database in one Example. 一実施例における分類付テキストデータベースのデータ構成例を示す図である。It is a figure which shows the example of a data structure of the text database with a classification | category in one Example. 一実施例における技術コンテンツデータベースのデータ構成例を示す図である。It is a figure which shows the data structural example of the technical content database in one Example. 一実施例における情報検索システムの概要処理の処理フロー例を示す図である。It is a figure which shows the example of a processing flow of the outline | summary process of the information search system in one Example. 一実施例において、情報検索システムが表示する画面例を示す図である。It is a figure which shows the example of a screen which an information search system displays in one Example. 一実施例において、情報検索システムが表示する検索結果を表す画面例を示す図である。In one Example, it is a figure which shows the example of a screen showing the search result which an information search system displays. 一実施例における第1のブロック構成例でのテーマ特定処理のより詳細な処理フロー例を示す図である。It is a figure which shows the example of a more detailed process flow of the theme specific process in the 1st block structural example in one Example. 一実施例における第2のブロック構成例でのテーマ特定処理のより詳細な処理フロー例を示す図である。It is a figure which shows the example of a more detailed process flow of the theme specific process in the 2nd block structural example in one Example. 一実施例におけるフィールド特定処理のより詳細な処理フロー例を示す図である。It is a figure which shows the example of a more detailed process flow of the field specific process in one Example. 一実施例におけるフィールド選択域を備える画面例を示す図である。It is a figure which shows the example of a screen provided with the field selection area in one Example. 一実施例における検索結果の文献情報と製品情報とを表示する画面例を示す図である。It is a figure which shows the example of a screen which displays the literature information and product information of a search result in one Example. 一実施例における検索結果の企業情報と製品情報とを表示する画面例を示す図である。It is a figure which shows the example of a screen which displays the company information and product information of a search result in one Example. 一実施例における情報検索システムのハードウェア構成例を示す図である。It is a figure which shows the hardware structural example of the information search system in one Example.

以下、本発明の一態様として開示する情報検索システムについて説明する。   Hereinafter, an information search system disclosed as one embodiment of the present invention will be described.

図1は、一実施例における情報検索システムのブロック構成例を示す図である。   FIG. 1 is a diagram illustrating a block configuration example of an information search system according to an embodiment.

情報検索システム1は、予め備えた技術分類体系に基づいて、検索者が入力した文字列から検索条件を生成し、生成した検索条件で技術情報を検索する情報処理システムである。   The information search system 1 is an information processing system that generates a search condition from a character string input by a searcher based on a previously prepared technical classification system, and searches for technical information using the generated search condition.

情報検索システム1が備える技術分類体系は、技術が適用される産業に基づく分野(フィールド)を示すフィールド情報、各フィールドに属する技術について、その範囲を示す区分(テーマ)を示すテーマ情報、および1つのテーマに分類される技術的特徴を示す術語(ターム)を複数の観点に分類して定義しているターム情報で構成されている。   The technology classification system included in the information search system 1 includes field information indicating a field (field) based on an industry to which the technology is applied, theme information indicating a category (theme) indicating the range of technologies belonging to each field, and 1 It consists of term information that defines and defines technical terms (terms) classified into a plurality of viewpoints.

すなわち、技術分類体系では、複数のフィールドで構成され、各フィールドは、下位構成として1または複数のテーマを有する。さらに、各テーマは、1または複数の観点の分類に属する1または複数の階層化したタームを有する。技術分類体系を構成する情報の詳細は、後述する。   In other words, the technical classification system includes a plurality of fields, and each field has one or a plurality of themes as a subordinate structure. Furthermore, each theme has one or more hierarchical terms belonging to one or more viewpoint categories. Details of the information constituting the technical classification system will be described later.

情報検索システム1は、入力文字列取得部11、形態素解析部13、概念化部15、コンテンツ検索部17、コンテンツ表示部19を有する検索装置10と、技術分類データベース31、分類付テキストデータベース33、技術コンテンツデータベース35の記憶装置とを備える。また、情報検索システム1の検索装置10は、検索者が使用する情報処理端末である検索者端末5とネットワークNを介して接続している。   The information retrieval system 1 includes an input character string acquisition unit 11, a morpheme analysis unit 13, a conceptualization unit 15, a content search unit 17, and a content display unit 19, a technology classification database 31, a classified text database 33, a technology A storage device for the content database 35. The search device 10 of the information search system 1 is connected to a searcher terminal 5 that is an information processing terminal used by a searcher via a network N.

検索装置10の入力文字列取得部11は、検索者端末5で検索者が入力した文字列(入力文字列)を取得する。入力文字列は、単語、単語の組合せ、または任意の文等である。   The input character string acquisition unit 11 of the search device 10 acquires a character string (input character string) input by the searcher at the searcher terminal 5. The input character string is a word, a combination of words, or an arbitrary sentence.

形態素解析部13は、入力文字列取得部11が入力文字列として文の入力を受け付ける場合に、入力文字列に形態素解析を行い、形態素から自立語を取り出す。形態素解析部13は、既知の一般的な形態素解析処理を実施する。   When the input character string acquisition unit 11 receives an input of a sentence as an input character string, the morpheme analysis unit 13 performs a morphological analysis on the input character string and extracts an independent word from the morpheme. The morpheme analysis unit 13 performs a known general morpheme analysis process.

概念化部15は、入力文字列である単語、単語の組合せ、または入力文字列から取り出した自立語を用いて、検索者が検索したい技術の範囲を示すテーマを検索し、予め定めた評価方法により評価の良いテーマを特定して、特定したテーマに属する技術的特徴を示すターム群を取得する。   The conceptualization unit 15 searches for a theme indicating a range of technology that the searcher wants to search using words, combinations of words, or independent words extracted from the input character string, and uses a predetermined evaluation method. A theme with good evaluation is specified, and a term group indicating technical features belonging to the specified theme is acquired.

コンテンツ検索部17は、取得したターム群を用いて、技術コンテンツデータベース35に対するOR条件の検索処理を行い、予め定めた評価方法により検索結果を評価し、評価の良い技術コンテンツを取得する。   The content search unit 17 performs OR condition search processing for the technical content database 35 using the acquired term group, evaluates the search result by a predetermined evaluation method, and acquires technical content with good evaluation.

コンテンツ表示部19は、取得された技術コンテンツを検索者端末5に表示させる。   The content display unit 19 displays the acquired technical content on the searcher terminal 5.

検索装置10の概念化部15は、1つの構成例(第1の構成例)として、図2(A)に示すように、テーマ検索部151、ターム群取得部153を備える。さらに、第1の構成例をとる場合には、情報検索システム1の分類付テキストデータベース33は不要である。   The conceptualization unit 15 of the search device 10 includes a theme search unit 151 and a term group acquisition unit 153 as one configuration example (first configuration example) as shown in FIG. Furthermore, when taking the first configuration example, the classified text database 33 of the information search system 1 is not necessary.

テーマ検索部151は、技術分類データベース31に記憶されている技術分類体系を構成するテーマの中から、取り出した自立語に合致するテーマを抽出し、予め定められた評価方法でテーマを評価し、評価の良いテーマを少なくとも1つ特定する。   The theme search unit 151 extracts themes that match the retrieved independent words from the themes constituting the technical classification system stored in the technical classification database 31, and evaluates the themes with a predetermined evaluation method, Identify at least one good theme.

ターム群取得部153は、特定したテーマに含まれる全ターム(ターム群)を取得する。   The term group acquisition unit 153 acquires all the terms (term groups) included in the identified theme.

概念化部15は、第1の構成例において、さらに、フィールド特定部159を備えることができる。   The conceptualization unit 15 can further include a field specifying unit 159 in the first configuration example.

フィールド特定部159は、技術分類データベース31から、テーマ検索部151が抽出した各テーマが属するフィールドをそれぞれ抽出し、抽出した各フィールドを、そのフィールドに属するテーマの評価を用いて評価し、最良の評価のフィールドを特定する。さらに、フィールド特定部159は、評価が近いフィールドが複数ある場合に、検索者端末5に該当する複数のフィールドを表示させ、入力されたフィールド選択に示されたフィールドを特定する。   The field specifying unit 159 extracts each field to which each theme extracted by the theme search unit 151 belongs from the technical classification database 31 and evaluates each extracted field using the evaluation of the theme belonging to the field. Identify the evaluation field. Furthermore, when there are a plurality of fields with similar evaluations, the field specifying unit 159 displays a plurality of fields corresponding to the searcher terminal 5 and specifies the fields indicated in the input field selection.

検索装置10の概念化部15は、別の構成例(第2の構成例)として、図2(B)に示すように、分類付テキスト検索部157、ターム群取得部153を備える。   The conceptualization unit 15 of the search device 10 includes a classified text search unit 157 and a term group acquisition unit 153 as another configuration example (second configuration example), as shown in FIG.

分類付テキスト検索部157は、分類付テキストデータベース33に記憶されているテキストに付与されたタームに取り出した自立語に合致するタームを持つテキストおよびそのテキストに付与されたタームを抽出し、抽出したテキストを用いた評価方法で抽出した各テーマを評価し、評価の良いテーマを少なくとも1つ特定する。   The classified text search unit 157 extracts and extracts the text having the term that matches the independent word extracted from the term given to the text stored in the classified text database 33 and the term given to the text. Each theme extracted by the evaluation method using text is evaluated, and at least one theme with good evaluation is specified.

概念化部15は、第2の構成例において、さらに、フィールド特定部159を備えることができる。   The conceptualization unit 15 can further include a field specifying unit 159 in the second configuration example.

ターム群取得部153、フィールド特定部159は第1の構成例と同じであるので説明を省略する。   Since the term group acquisition unit 153 and the field identification unit 159 are the same as those in the first configuration example, the description thereof is omitted.

技術分類データベース31は、属性、用途、目的を含む多観点で技術を分類した分類体系を保持するデータベースである。   The technology classification database 31 is a database that holds a classification system that classifies technologies from various viewpoints including attributes, uses, and purposes.

図3〜図5は、技術分類データベース31のデータ構成例を示す図である。   3 to 5 are diagrams showing data configuration examples of the technology classification database 31.

技術分類データベース31は、フィールド情報311、テーマ情報313、およびターム情報315を含む。   The technology classification database 31 includes field information 311, theme information 313, and term information 315.

フィールド情報311は、技術が適用される産業に基づいて分類した分野(フィールド)を示す情報である。図3(A)に示すように、フィールド情報311では、各分野の名称を示す「フィールド名」とフィールドの識別情報である「フィールドID」とが対応付けられて記憶されている。例えば、フィールドID“2B”、フィールド名“畜産、漁業”は、自然資源のうち畜産や漁業に適用される技術が分類される区分であることを表している。   The field information 311 is information indicating a field (field) classified based on the industry to which the technology is applied. As shown in FIG. 3A, in the field information 311, a “field name” indicating the name of each field and a “field ID” that is field identification information are stored in association with each other. For example, the field ID “2B” and the field name “livestock and fishery” indicate that the technology applied to livestock and fishery among natural resources is classified.

テーマ情報313は、技術の範囲を示す区分(テーマ)を示す情報である。図3(B)に示すように、テーマ情報313では、技術の範囲の名称を示す「テーマ名」とテーマの識別情報である「テーマID」とテーマが属するフィールドを示す「フィールドID」とが対応付けられて記憶されている。例えば、テーマID“104”、テーマ名“養殖”は、フィールドID“2B”の畜産、漁業に属する技術であって、養殖に関連する技術が分類される区分であることを表している。   The theme information 313 is information indicating a category (theme) indicating the scope of technology. As shown in FIG. 3B, the theme information 313 includes a “theme name” that indicates the name of the technical range, a “theme ID” that is the theme identification information, and a “field ID” that indicates the field to which the theme belongs. It is stored in association with each other. For example, the theme ID “104” and the theme name “aquaculture” indicate that the technology belongs to the livestock and fisheries of the field ID “2B” and is a classification into which technologies related to aquaculture are classified.

ターム情報315は、1つのテーマに分類される技術的特徴を示す術語(ターム)を示す情報である。ターム情報315のタームが示す技術的特徴は、複数の観点に基づいて分類されて定義されている。   The term information 315 is information indicating terminology (term) indicating technical features classified into one theme. The technical features indicated by the terms of the term information 315 are classified and defined based on a plurality of viewpoints.

図4および図5に示すように、ターム情報315は、テーマ毎に構築され、観点上の分類の名称を示す「観点分類」と、観点分類の識別情報である「観点コード」とが対応付けられ、さらに、観点分類毎に、技術的特徴を示す「ターム名」とタームの識別情報である「タームコード」との対応が定義されている。各観点分類は、1または複数のタームコードおよびターム名の組(以下、単にタームと呼ぶことがある)を含み、複数のタームが階層的に定義されていてもよい。   As shown in FIG. 4 and FIG. 5, the term information 315 is constructed for each theme and associates “viewpoint classification” indicating the name of the classification on the viewpoint with “viewpoint code” that is identification information of the viewpoint classification. Further, for each viewpoint classification, a correspondence between a “term name” indicating a technical feature and a “term code” that is identification information of the term is defined. Each viewpoint classification includes a set of one or a plurality of term codes and term names (hereinafter simply referred to as terms), and a plurality of terms may be defined hierarchically.

観点分類は、多面的に、かつ、テーマに対応して設定される。各観点分類は、目的(課題を含む)や、テーマに応じて、対象(物等)、用途、構造、材料、製造方法、使用方法、管理方法等が任意に設定される。   The viewpoint classification is set in a multifaceted manner and corresponding to the theme. In each viewpoint classification, an object (including an issue), an object (thing etc.), an application, a structure, a material, a manufacturing method, a usage method, a management method, and the like are arbitrarily set according to the theme.

図4は、テーマ名が“養殖(104)”に対するターム情報315の例である。図4のターム情報315は、例えば、観点名(観点コード)が“対象(AA)”について、“魚類(010)”、“いか・たこ類(020)”、“甲殻類(030)”等の1次ターム群が設定され、ターム“魚類(010)”の下位タームとして、“サケ類(011)”が設定されていることを示している。   FIG. 4 is an example of the term information 315 for the theme name “Aquaculture (104)”. The term information 315 in FIG. 4 includes, for example, “fish (010)”, “squid / octopus (020)”, “crustacea (030)”, etc., when the viewpoint name (viewpoint code) is “object (AA)”. It is shown that “primary salmon (011)” is set as the lower term of the term “fish (010)”.

図5は、テーマ名が“飼料(150)”に対するターム情報315の例である。図5のターム情報315は、例えば、観点名(観点コード)が“装置(BA)”について、“網ヒビ(010)”、“小型藻場(020)”、“陸上養殖装置(030)”等の1次ターム群が設定され、下位タームも設定されうることを示している。   FIG. 5 is an example of term information 315 for the theme name “Feed (150)”. The term information 315 in FIG. 5 includes, for example, “net crack (010)”, “small seaweed basin (020)”, and “land aquaculture equipment (030)” when the viewpoint name (viewpoint code) is “device (BA)”. It is shown that primary terms such as can be set and lower terms can be set.

分類付テキストデータベース33は、分類コードとして、技術分類データベース31の分類体系に基づくテーマとタームとが付与されたテキストを蓄積するデータベースである。   The classified text database 33 is a database that accumulates text to which themes and terms based on the classification system of the technical classification database 31 are assigned as classification codes.

図6は、分類付テキストデータベース33のデータ構成例を示す図である。   FIG. 6 is a diagram illustrating a data configuration example of the classified text database 33.

分類付テキストデータベース33に蓄積されるテキストは、文献ID、題名、テーマID、タームコード、およびテキスト(本文)を含む。「文献ID」はテキストを識別する情報、「題名」は文献の題名、「テキスト」は文献の本文の内容である。テキストには、1または複数の分類コード、すなわち、1または複数のテーマIDが設定され、各テーマIDに対して1または複数のタームコードが設定されてもよい。   The text stored in the classified text database 33 includes a document ID, a title, a theme ID, a term code, and a text (body). “Document ID” is information for identifying text, “Title” is the title of the document, and “Text” is the content of the text of the document. One or more classification codes, that is, one or more theme IDs may be set in the text, and one or more term codes may be set for each theme ID.

技術コンテンツデータベース35は、さまざまな技術情報を示す技術コンテンツを蓄積するデータベースである。情報検索システム1は、複数の技術コンテンツデータベース35を備えてもよい。技術コンテンツデータベース35には、情報検索システム1がインターネット、イントラネット等のネットワークを介して接続可能であるデータベースを含む。   The technical content database 35 is a database that accumulates technical content indicating various technical information. The information search system 1 may include a plurality of technical content databases 35. The technical content database 35 includes a database to which the information search system 1 can be connected via a network such as the Internet or an intranet.

ここで、技術コンテンツに含まれる技術情報は、技術自体だけではなく、技術を提供する企業や研究機関等の技術に関連する情報を範囲とするものであり、技術コンテンツは、技術情報を示すテキストデータを含むデータであればよく、画像データ、音声データ等が含まれていてもよい。技術コンテンツは、具体的には、特許文献、論文、製品マニュアル、製品カタログ、仕様書、技法解説書、解析・適用事例集、実験報告書、技術ニュース、技術マガジン、ニュースリリース、企業、研究機関の事業報告書等である。   Here, the technical information included in the technical content covers not only the technology itself but also information related to the technology of companies or research institutions that provide the technology, and the technical content is a text indicating the technical information. Data including data may be used, and image data, audio data, and the like may be included. Technical contents are specifically patent documents, papers, product manuals, product catalogs, specifications, technical explanations, analysis / application examples, experimental reports, technical news, technical magazines, news releases, companies, research institutions Business reports.

図7は、技術コンテンツデータベース35に蓄積される技術コンテンツのデータ構成例を示す図である。   FIG. 7 is a diagram illustrating a data configuration example of technical content stored in the technical content database 35.

図7(A)は、製品情報を提供する技術コンテンツ(製品コンテンツ)のデータ構成例を示す。図7(A)の製品コンテンツは、製品ID、製品名、企業名、説明テキスト、リンク等のデータを含む。「製品ID」は製品を識別する情報、「製品名」は製品の名称、「企業名」は製品を製造、提供する企業の名称である。「説明テキスト」は、製品の特徴、用途等を説明する本文テキストである。「リンク」は、任意の情報であり、製品に関連する情報を提供する企業や関連団体へのサイトへのリンクを示す。   FIG. 7A shows an example data structure of technical content (product content) that provides product information. The product content in FIG. 7A includes data such as a product ID, a product name, a company name, an explanatory text, and a link. “Product ID” is information for identifying the product, “Product name” is the name of the product, and “Company name” is the name of the company that manufactures and provides the product. The “description text” is a body text that explains the feature, use, etc. of the product. “Link” is arbitrary information, and indicates a link to a site to a company or related organization that provides information related to a product.

図7(B)は、技術論文を提供する技術コンテンツ(論文コンテンツ)のデータ構成例を示す。図7(B)の論文コンテンツは、文献ID、題名、著者名、要約テキスト、本文テキスト等のデータを含む。「文献ID」は論文を識別する情報、「題名」は論文の題名、「著者名」は論文著作者の氏名である。「要約テキスト」は、論文の要約を記述するテキスト、「本文テキスト」は、論文本体のテキストである。   FIG. 7B shows a data configuration example of technical content (paper content) that provides a technical paper. The article content in FIG. 7B includes data such as a document ID, a title, an author name, a summary text, and a body text. “Document ID” is information for identifying a paper, “Title” is the title of the paper, and “Author” is the name of the paper author. “Summary text” is text describing the summary of the paper, and “body text” is text of the paper itself.

次に、情報検索システム1の処理の流れを説明する。以降の説明において、検索者からの情報入力、検索者への情報出力に関し、一般的なインタフェース機能およびその動作については既知であるので説明を省略する。   Next, the process flow of the information search system 1 will be described. In the following description, the general interface function and its operation regarding the input of information from the searcher and the output of information to the searcher are known and will not be described.

図8は、情報検索システム1の概要処理の処理フロー例を示す図である。   FIG. 8 is a diagram illustrating a processing flow example of the outline processing of the information search system 1.

ステップS1: 検索装置10の入力文字列取得部11が、検索者が検索者端末5で入力した文字列(入力文字列)を取得する。入力文字列は、単語、単語の組合せ、自由文等である。   Step S1: The input character string acquisition unit 11 of the search device 10 acquires a character string (input character string) input by the searcher at the searcher terminal 5. The input character string is a word, a combination of words, a free sentence, or the like.

図9は、情報検索システム1が表示する画面例を示す図である。図9に示す画面100が検索者端末5に表示される。画面100は、検索者が自由に語句や文を入力できる文字入力域101、検索実行を指示する検索ボタン103、検索結果の技術コンテンツを表示する結果表示域105を備える。   FIG. 9 is a diagram illustrating an example of a screen displayed by the information search system 1. A screen 100 shown in FIG. 9 is displayed on the searcher terminal 5. The screen 100 includes a character input area 101 in which a searcher can freely input a phrase or sentence, a search button 103 for instructing execution of a search, and a result display area 105 for displaying technical contents of the search result.

検索ボタン103がマウスクリック等で押下されると、入力文字列取得部11は、文字入力域101に入力された入力文字列を取得する。本例では、“養殖の改善”を取得する。本例は、“養殖”、“改善”を抽出する。   When the search button 103 is pressed by a mouse click or the like, the input character string acquisition unit 11 acquires the input character string input to the character input area 101. In this example, “aquaculture improvement” is acquired. In this example, “aquaculture” and “improvement” are extracted.

ステップS2: 形態素解析部13が、入力文字列取得部11が取得した入力文字列に対し形態素解析処理を行って、自立語(語)を抽出する。   Step S2: The morpheme analysis unit 13 performs a morpheme analysis process on the input character string acquired by the input character string acquisition unit 11, and extracts an independent word (word).

ステップS3: 概念化部15が、抽出した語を用いて技術分類データベース31または分類付テキストデータベース33のいずれかを用いてテーマを検索し、検索したテーマから最良の評価のテーマを1つ特定する。   Step S3: The conceptualization unit 15 searches the theme using either the technical classification database 31 or the classified text database 33 using the extracted word, and specifies one best evaluation theme from the searched themes.

本例では、テーマIDが“104(養殖)”、“150(飼料)”、…の順で評価値が良く、最良の評価のテーマとして、“104(養殖)”が特定されているとする。   In this example, it is assumed that the theme IDs are “104 (culture)”, “150 (feed)”,... In the order of good evaluation values, and “104 (culture)” is specified as the best evaluation theme. .

ステップS4: ターム群取得部153が、特定されたテーマに属する複数のタームを抽出する。または、技術分類データベース31のターム情報315が階層構造を持つ場合に、ターム群取得部153は、特定されたテーマに属するタームの中から入力文字列に一致したタームと上位下位関係(親子関係)を持つタームのみを抽出するようにしてもよい。すなわち、ターム群取得部153が、入力文字列に一致したタームの下位に属する全ターム、または、上位に連なるターム、または、これら両方のタームを抽出する。   Step S4: The term group acquisition unit 153 extracts a plurality of terms belonging to the identified theme. Alternatively, when the term information 315 of the technical classification database 31 has a hierarchical structure, the term group acquisition unit 153 selects a term that matches the input character string from terms belonging to the specified theme and a parent-child relationship (parent-child relationship) You may make it extract only the term which has. That is, the term group acquisition unit 153 extracts all the terms belonging to the lower order of the terms matching the input character string, the terms connected to the upper order, or both of these terms.

本例では、ターム群取得部153が、技術分類データベース31のテーマID“104(養殖)”、“150(飼料)”のターム情報315から、それぞれ、タームを全て抽出する。   In this example, the term group acquisition unit 153 extracts all the terms from the term information 315 of the theme IDs “104 (culture)” and “150 (feed)” in the technical classification database 31.

ステップS5: コンテンツ検索部17は、抽出したターム群を用いて、技術コンテンツDB35の技術コンテンツについてOR条件のテキスト検索を行う。コンテンツ検索部17は、既知の検索手法であればどの検索手法であっても実施できるが、例えば、重み付きOR検索、評価OR検索と呼ばれている検索手法を実施する。   Step S5: The content search unit 17 performs a text search of the OR condition for the technical content in the technical content DB 35 using the extracted term group. The content search unit 17 can execute any search method as long as it is a known search method. For example, the content search unit 17 executes a search method called a weighted OR search or an evaluation OR search.

ステップS6: コンテンツ表示部19は、特定された技術コンテンツから、ターム群と類似度が高い技術コンテンツを評価が良いものとし、良評価順の技術コンテンツを含む表示用データを生成し、検索者端末5に表示用データを表示させる。   Step S6: The content display unit 19 generates, from the identified technical content, a technical content having a high similarity to the term group, and generates display data including the technical content in the order of good evaluation. 5 displays the display data.

図10は、検索結果を表示する画面例を示す図である。   FIG. 10 is a diagram illustrating an example of a screen that displays search results.

コンテンツ表示部19は、検索者端末5に表示された図10に示す画面100の結果表示域105に、特定したテーマに属するターム群による検索結果の技術コンテンツを表示させる。本例では、図7(A)に示す製品情報、図7(B)に示す製品情報、文献情報を含む表示用データが生成、表示される。なお、画面100の結果表示域105に設けた次表示ボタン(次ボタン)105’のマウスクリック操作(押下)により、コンテンツ表示部19は、押下された表示領域に対応する技術情報の種類で未表示の技術コンテンツを、評価が良い順に表示する。   The content display unit 19 displays in the result display area 105 of the screen 100 shown in FIG. 10 displayed on the searcher terminal 5 the technical content of the search result by the term group belonging to the identified theme. In this example, display data including product information shown in FIG. 7A, product information shown in FIG. 7B, and literature information is generated and displayed. It should be noted that the content display unit 19 does not indicate the type of technical information corresponding to the pressed display area by the mouse click operation (pressed) of the next display button (next button) 105 ′ provided in the result display area 105 of the screen 100. Display technical contents in order of good evaluation.

さらに、コンテンツ表示部19は、画面100に、抽出テーマから特定したテーマを除外したテーマを評価が良い順に表示し、検索者が選択できるテーマ選択域113を表示する。本例では、テーマ選択域113に、評価の順に、“飼料”、…等のテーマが表示される。   Further, the content display unit 19 displays, on the screen 100, themes excluding the specified theme from the extracted themes in order of good evaluation, and displays a theme selection area 113 that can be selected by the searcher. In this example, themes such as “feed”,... Are displayed in the theme selection area 113 in the order of evaluation.

画面100のテーマ選択域113で、結果表示域105に検索結果を表示しているテーマと別のテーマが選択された場合に、概念化部15は、選択されたテーマを特定したテーマとし(ステップS3)、そのテーマに属する全ターム群を抽出し(ステップS4)、抽出したターム群でコンテンツ検索処理が実行される(ステップS5)。コンテンツ表示部19は、選択されたテーマから抽出されたターム群によるコンテンツ検索結果を示す画面100を表示する(ステップS6)。   When a theme different from the theme whose search result is displayed in the result display area 105 is selected in the theme selection area 113 of the screen 100, the conceptualization unit 15 sets the selected theme as a specified theme (step S3 ), All term groups belonging to the theme are extracted (step S4), and content search processing is executed with the extracted term groups (step S5). The content display unit 19 displays the screen 100 showing the content search result by the term group extracted from the selected theme (step S6).

以下に、ステップS3のテーマ検索処理のより詳細な処理を説明する。   Below, the more detailed process of the theme search process of step S3 is demonstrated.

図11は、第1の構成例におけるテーマ検索処理のより詳細な処理フロー例を示す図である。   FIG. 11 is a diagram illustrating a more detailed process flow example of the theme search process in the first configuration example.

概念化部15のテーマ検索部151は、形態素解析部13が抽出した語を用いて、技術分類データベース31のタームに対するOR条件の検索処理を行い、一致するタームを持つテーマを全て抽出する(ステップS31)。   The theme search unit 151 of the conceptualization unit 15 uses the words extracted by the morphological analysis unit 13 to perform an OR condition search process for terms in the technical classification database 31 and extracts all themes having matching terms (step S31). ).

本例では、“養殖”、“改善”のタームにより、図3(B)に示す技術分類データベースのテーマ情報313から、テーマID“104(養殖)”、“150(飼料)”等が検索されたとする。   In this example, the theme IDs “104 (culture)”, “150 (feed)”, etc. are searched from the theme information 313 of the technical classification database shown in FIG. 3B by the terms “aquaculture” and “improvement”. Suppose.

テーマ検索部151は、抽出したタームを用いて、検索した各テーマを予め定めた評価方法で評価する(ステップS32)。例えば、テーマ検索部151は、タームの希少性、重複性、網羅性をもとに検索したテーマを評価する。希少性は、語に一致するタームを持つテーマ数を調べ、タームを持つテーマ数が少ないほど、そのタームを持つテーマの評価が良くなる尺度である。重複性は、1つのテーマ内で語に一致するタームが出現している数を調べ、テーマ内での出現数が多いほど、そのタームを持つテーマの評価が良くなる尺度である。網羅性は、そのタームがテーマが有するターム全体に占める割合を調べ、語に一致するタームが全タームに占める割合が高いほど、そのタームを持つテーマの評価が良くなる尺度である。テーマ検索部151は、これらの尺度の1つまたは複数の組み合わせを用いて、抽出した各テーマの評価値を算出する。   The theme search unit 151 uses the extracted terms to evaluate each searched theme by a predetermined evaluation method (step S32). For example, the theme search unit 151 evaluates the searched theme based on the rarity, duplication, and completeness of terms. Rareness is a measure that examines the number of themes that have terms that match a word, and the smaller the number of themes that have terms, the better the evaluation of the themes that have the terms. Redundancy is a measure by which the number of occurrences of a term that matches a word in one theme is examined, and the larger the number of occurrences in the theme, the better the evaluation of the theme having that term. Comprehensiveness is a measure by which the ratio of the term to the whole term of the theme is examined, and the higher the ratio of the term matching the word to all the terms, the better the evaluation of the theme having the term. The theme search unit 151 calculates an evaluation value of each extracted theme by using one or a combination of these scales.

そして、テーマ検索部151は、最良の評価のテーマを特定する(ステップS33)。   Then, the theme search unit 151 specifies the theme with the best evaluation (step S33).

図12は、第2の構成例におけるテーマ検索処理のより詳細な処理フロー例を示す図である。   FIG. 12 is a diagram illustrating a more detailed process flow example of the theme search process in the second configuration example.

分類付テキスト検索部157は、形態素解析部13が抽出した自立語(語)を用いて、分類付テキストデータベース33に記憶されている分類付テキストにOR条件でテキスト検索を行い、分類付テキストを抽出する(ステップS35)。   The classified text search unit 157 uses the independent words (words) extracted by the morphological analysis unit 13 to perform a text search on the classified text stored in the classified text database 33 using an OR condition, and finds the classified text. Extract (step S35).

分類付テキスト検索部157は、取得する分類付テキストを絞り込み、予め定めておいた数の分類付テキストを取得するようにしてもよい。本例では、分類付テキスト検索部157が、語の重み付けとして、図11のステップS32の処理と同様に、語の希少性、重複性、網羅性を算出して分類付テキストを評価し、評価の良い所定数の分類付テキストを取得する。なお、分類付テキスト検索部157は、既知の他の絞り込み処理を実行するものであってもよい。   The classified text search unit 157 may narrow down the classified text to be acquired, and acquire a predetermined number of classified texts. In this example, the classified text search unit 157 evaluates the classified text by calculating the rarity, redundancy, and completeness of the words as the weighting of the words, as in the process of step S32 in FIG. Get a good number of classified texts. Note that the classified text search unit 157 may execute another known narrowing process.

次に、分類付テキスト検索部157は、取得した各分類付テキストに付与されたテーマを抽出し(ステップS36)、抽出した各テーマを評価し、評価の良い順に所定数のテーマを抽出する(ステップS37)。例えば、抽出したテーマ毎に分類付テキスト数を算出し、分類付テキスト数が多いほど、良評価とする。また、分類付テキスト数の代わりに語と一致するタームの類似度を用いた評価を行ってもよく、類似度と分類付テキスト数とを組み合わせた評価を行ってもよい。   Next, the classified text search unit 157 extracts themes given to the acquired classified texts (step S36), evaluates the extracted themes, and extracts a predetermined number of themes in order of good evaluation ( Step S37). For example, the number of classified texts is calculated for each extracted theme, and the higher the number of classified texts, the better the evaluation. Further, instead of using the number of classified texts, an evaluation using the similarity of terms that match a word may be performed, or an evaluation combining the similarity and the number of classified texts may be performed.

分類付テキスト検索部157は、最良の評価のテーマを特定する(ステップS38)。   The classified text search unit 157 specifies the theme of the best evaluation (step S38).

また、情報検索システム1は、抽出したテーマが属するフィールドを検索者に選択させ、選択されたフィールドの検索結果を表示することができる。この場合に、情報検索システム1のフィールド特定部159は、図8に示すステップS3とS4との間に、フィールド特定処理を実行する。さらに、以下に説明するフィールド特定処理で特定されたフィールドについて、ステップS3の処理を再実行する。   Further, the information search system 1 can cause the searcher to select the field to which the extracted theme belongs, and display the search result of the selected field. In this case, the field specifying unit 159 of the information search system 1 executes a field specifying process between steps S3 and S4 shown in FIG. Further, the process of step S3 is re-executed for the field specified by the field specifying process described below.

情報検索システム1は、検索装置10の概念化部15がフィールド特定部159を備える場合に、フィールド特定部159は以下の処理を行う。   In the information search system 1, when the conceptualization unit 15 of the search device 10 includes the field specifying unit 159, the field specifying unit 159 performs the following processing.

図13は、フィールド特定処理のより詳細な処理フロー例を示す図である。   FIG. 13 is a diagram showing a more detailed processing flow example of the field specifying process.

フィールド特定部159は、第1の構成例におけるテーマ検索部151または第2の構成例における分類付テキスト検索部157によって実行されたステップS3の処理で抽出された各テーマが属するフィールドを取得する(ステップS41)。   The field specifying unit 159 acquires the field to which each theme extracted in the process of step S3 executed by the theme search unit 151 in the first configuration example or the classified text search unit 157 in the second configuration example belongs ( Step S41).

フィールド特定部159は、フィールド毎に、抽出されたテーマをまとめ(ステップS42)、各フィールドを評価する(ステップS43)。本例では、フィールド特定部159は、フィールドの評価として、まとめたテーマの評価値の合算値をフィールドの評価値とする。   The field specifying unit 159 summarizes the extracted themes for each field (step S42) and evaluates each field (step S43). In this example, the field specifying unit 159 sets the sum of evaluation values of the collected themes as the field evaluation value as the field evaluation.

算出した評価値が近いフィールドが複数ある場合に(ステップS44のY)、フィールド特定部159は、検索者に複数のフィールド名を表示して、検索者のフィールド選択を取得し(ステップS45)、フィールド選択に示されたフィールドを特定する(ステップS46)。評価値が近いフィールドが複数ない場合には(ステップS44のN)、最も良い評価値のフィールドを特定する(ステップS47)。   When there are a plurality of fields with similar calculated evaluation values (Y in step S44), the field specifying unit 159 displays a plurality of field names to the searcher to acquire the searcher's field selection (step S45), The field indicated in the field selection is specified (step S46). If there are not a plurality of fields with similar evaluation values (N in step S44), the field with the best evaluation value is specified (step S47).

図14は、フィールドを選択できるフィールド選択域121を持つ画面例を示す図である。図14に示す画面100は、入力文字列から抽出された語が“ラーメン”である場合の検索結果を示す画面例である。   FIG. 14 is a diagram showing an example of a screen having a field selection area 121 for selecting a field. A screen 100 shown in FIG. 14 is an example of a screen showing search results when the word extracted from the input character string is “ramen”.

抽出された語“ラーメン”が橋等の構築物の構造に関連する術語であり、かつ、穀物加工製品の名称でもあり、異なる2つのフィールドに属するテーマのタームとして存在しているため、検索された2つのフィールドの評価値が近くなる。   The extracted word “ramen” is a term related to the structure of structures such as bridges, and is also the name of a grain processed product. The evaluation values of the two fields are close.

フィールド特定部159は、画面100のフィールド選択域121に、“ラーメン”から特定された2つのフィールド“橋または陸橋”と“穀類誘導製品、スープ、その他食品”とを表示し、検索者のフィールド選択を受け付ける。   The field specifying unit 159 displays two fields “bridge or overpass” specified from “ramen” and “cereal-derived products, soups, and other foods” in the field selection area 121 of the screen 100, and the searcher's field Accept selection.

これにより、入力文字列から抽出される語が、複数のフィールドで使用される術語であって検索対象とする技術分野の判別が難しい場合にも、検索者に技術分野を選択させ、より適切な検索結果を表示させることが可能となる。   This allows the searcher to select a technical field, even if the words extracted from the input character string are technical terms used in a plurality of fields and it is difficult to determine the technical field to be searched. Search results can be displayed.

図15および図16は、情報検索システム1により検索者端末5に表示される他の画面例を示す図である。   FIG. 15 and FIG. 16 are diagrams showing other screen examples displayed on the searcher terminal 5 by the information search system 1.

情報検索システム1は、検索結果を技術情報の種類毎に技術コンテンツを表示することができる。この場合に、コンテンツ検索部17は、製品情報、文献情報、企業情報等をそれぞれ蓄積する複数の技術コンテンツデータベース35を横断的に検索し、検索した技術コンテンツを技術情報の種類に基づいて分類し、良い評価の技術コンテンツから表示する。   The information search system 1 can display the technical content as a search result for each type of technical information. In this case, the content search unit 17 searches across a plurality of technical content databases 35 each storing product information, literature information, company information, etc., and classifies the searched technical content based on the type of technical information. View from technical content, good evaluation.

図15は、検索結果として文献情報と製品情報とを表示する場合の画面例を示す図である。図15に示す画面100は、結果表示域105に相当する検索結果の表示領域として、文献情報を示す文献検索結果表示域115、製品情報を示す製品検索結果表示域117を有する。   FIG. 15 is a diagram illustrating an example of a screen when document information and product information are displayed as search results. The screen 100 shown in FIG. 15 includes a document search result display area 115 indicating document information and a product search result display area 117 indicating product information as display areas for search results corresponding to the result display area 105.

画面100の文献検索結果表示域115に設けた次表示ボタン(次ボタン)115’(図示しない)、または、製品検索結果表示域117に設けた次表示ボタン(次ボタン)117’のマウスクリック操作(押下)により、コンテンツ表示部19は、押下された表示領域に対応する技術情報の種類で未表示の技術コンテンツを、評価が良い順に表示する。   Mouse click operation of the next display button (next button) 115 ′ (not shown) provided in the document search result display area 115 of the screen 100 or the next display button (next button) 117 ′ provided in the product search result display area 117. By (pressing), the content display unit 19 displays technical contents that are not displayed with the type of technical information corresponding to the pressed display area in the order of good evaluation.

図16は、検索結果として企業情報と製品情報とを表示する場合の画面例を示す図である。図16に示す画面100は、結果表示域105に相当する検索結果の表示領域として、製品検索結果表示域117と企業情報を示す企業検索結果表示域119とを有する。   FIG. 16 is a diagram showing an example of a screen when displaying company information and product information as search results. A screen 100 shown in FIG. 16 includes a product search result display area 117 and a company search result display area 119 indicating company information as display areas for search results corresponding to the result display area 105.

さらに、情報検索システム1は、画面100に表示する技術情報に、関連する他の技術情報や副次的情報に対するリンク情報を設定することができる。   Furthermore, the information search system 1 can set link information for other related technical information and subsidiary information in the technical information displayed on the screen 100.

コンテンツ表示部19は、画面100に表示する検索結果の表示用データを生成する際に、検索結果の技術コンテンツ毎に、関連するサイト等へのリンク情報を付加することができる。例えば、図16に示すように、コンテンツ表示部19は、画面100の製品検索結果表示域117に表示させる各製品情報に、その製品に関連する企業サイトへのリンク情報が設定、表示する。   When generating the search result display data to be displayed on the screen 100, the content display unit 19 can add link information to a related site or the like for each technical content of the search result. For example, as shown in FIG. 16, the content display unit 19 sets and displays link information to a company site related to the product in each product information to be displayed in the product search result display area 117 of the screen 100.

以上説明した情報検索システム1の検索装置10は、図1に示す処理部を備える専用ハードウェアとして実施することができる。   The search device 10 of the information search system 1 described above can be implemented as dedicated hardware including the processing unit shown in FIG.

また、検索装置10は、図17に示すような、CPU301、メモリ302、表示制御部304、表示装置303、記憶装置(ハードディスク)305、入力装置(キーボード)306、通信制御部307が内部のネットワーク等で接続されたコンピュータ300として実施することができる。   The search device 10 includes a CPU 301, a memory 302, a display control unit 304, a display device 303, a storage device (hard disk) 305, an input device (keyboard) 306, and a communication control unit 307 as shown in FIG. It can be implemented as a computer 300 connected by, for example.

さらに、検索装置10は、コンピュータ300で実行可能なプログラムとして実施することができる。この場合に、図1に示す情報検索システム1の処理部の機能を実現するプログラムを実装し、コンピュータ100上で実行することにより、実施する。   Furthermore, the search device 10 can be implemented as a program that can be executed by the computer 300. In this case, a program that realizes the function of the processing unit of the information search system 1 shown in FIG. 1 is installed and executed on the computer 100.

すなわち、図1に示した入力文字列取得部11、形態素解析部13、概念化部15、コンテンツ検索部17、コンテンツ表示部19の機能をコンピュータ300に実行させる実行プログラムをコンピュータ300に読み込ませ、実行させることによって、検索装置10を実施することができる。なお、実行プログラムは、CD−ROM、CD−RW、DVD−R、DVD−RAM、DVD−RW等やフレキシブルディスク等の記録媒体だけでなく、通信回線の先に備えられた他の記憶装置やコンピュータのハードディスク等に記憶されるものであってもよい。   That is, an execution program that causes the computer 300 to execute the functions of the input character string acquisition unit 11, the morphological analysis unit 13, the conceptualization unit 15, the content search unit 17, and the content display unit 19 illustrated in FIG. By doing so, the search device 10 can be implemented. The execution program is not only a recording medium such as a CD-ROM, CD-RW, DVD-R, DVD-RAM, DVD-RW, or flexible disk, but also other storage devices provided at the end of the communication line. It may be stored in a computer hard disk or the like.

なお、情報検索システム1を構成する要素は、任意の組合せで実現されてもよい。複数の構成要素が1つの部材として実現されてもよく、1つの構成要素が複数の部材から構成されてもよい。また、情報検索システム1は、上述した実施形態に限定されず、本発明の要旨を逸脱しない範囲において各種の改良および変更を行ってもよいことは当然である。例えば、上述の実施例において、情報検索システム1の検索対象を、文献情報、製品情報、企業情報等の技術情報を例に説明したが、情報検索システム1は、例えば論文、事例集、技術ニュース、実験報告書等の他の情報検索にも適用することができる。   Note that the elements constituting the information search system 1 may be realized in any combination. A plurality of components may be realized as one member, and one component may be configured from a plurality of members. In addition, the information search system 1 is not limited to the above-described embodiment, and various improvements and changes may naturally be made without departing from the gist of the present invention. For example, in the above-described embodiment, the search target of the information search system 1 has been described using technical information such as literature information, product information, and company information as an example. It can also be applied to other information retrieval such as experiment reports.

以上説明したように、本発明に係る情報検索システム1によれば、検索者によって入力された文字列“養殖の改善”から抽出された単語(養殖、改善)のみによる検索処理ではなく、検索したい技術に関連するテーマとして特定した範囲の技術の概念を形成するターム群を用いた検索処理を実行することができる。これにより、検索者が入力文字列によって提示できなかった概念を表す術語(例えば、図4に示すターム群)による検索処理が行われ、その検索結果の全体から、評価の良い検索結果(技術情報)が検索者端末5に表示される。   As described above, according to the information search system 1 according to the present invention, it is desired to search instead of a search process using only words (culture, improvement) extracted from the character string “improvement of culture” input by the searcher. It is possible to execute a search process using terms that form a concept of technology in a range specified as a technology-related theme. As a result, a search process is performed using a terminology (eg, a term group shown in FIG. 4) representing a concept that the searcher cannot present with the input character string, and a search result (technical information) having a good evaluation is obtained from the entire search result. ) Is displayed on the searcher terminal 5.

すなわち、情報検索システム1によれば、従来の入力文字列による検索手法では検索結果中での評価が低くなり表示される可能性が低くなるような技術コンテンツ、例えば、図7(A)の製品名「使い捨て製品」の製品情報等を、検索結果の上位に表示させることができ、検索ノイズや検索漏れを配慮した検索処理を実現することができる。   That is, according to the information search system 1, technical content that has a low evaluation in the search result and is less likely to be displayed by a conventional search method using an input character string, for example, the product shown in FIG. Product information and the like of the name “disposable product” can be displayed at the top of the search results, and a search process in consideration of search noise and search omission can be realized.

よって、検索者は、入力した単語の組合せや文が適切でなくても、検索したい技術概念に合致した情報コンテンツを取得できる可能性が非常に高くなる。   Therefore, the searcher is very likely to be able to acquire information content that matches the technical concept to be searched even if the input word combination or sentence is not appropriate.

また、情報検索システム1によれば、入力された文字列に関連する複数のテーマを表示して、検索者に選択させることができる。   Further, according to the information search system 1, a plurality of themes related to the input character string can be displayed and can be selected by the searcher.

よって、検索者は、検索したい技術と類似または関連する範囲を認識して、より適切な検索結果を取得できる可能性が高くなる。   Therefore, the searcher is likely to be able to acquire a more appropriate search result by recognizing a range similar to or related to the technique to be searched.

1 情報検索システム
10 検索装置
11 入力文字列取得部
13 形態素解析部
15 概念化部
151 テーマ検索部
153 ターム群取得部
157 分類付テキスト検索部
159 フィールド特定部
17 コンテンツ検索部
19 コンテンツ表示部
31 技術分類データベース(DB)
33 分類付テキストデータベース(DB)
35 技術コンテンツデータベース
5 検索者端末
DESCRIPTION OF SYMBOLS 1 Information search system 10 Search apparatus 11 Input character string acquisition part 13 Morphological analysis part 15 Conceptualization part 151 Theme search part 153 Term group acquisition part 157 Classification text search part 159 Field specification part 17 Content search part 19 Content display part 31 Technical classification Database (DB)
33 Text database with classification (DB)
35 Technical Content Database 5 Searcher Terminal

Claims (8)

情報を検索するシステムであって、
技術が適用される範囲を示すフィールドと、該フィールドに属する技術の範囲を示すテーマと、該テーマ毎に該技術の範囲に含まれる技術の特性を複数の観点に対応付けて示すタームとを定める技術分類を記憶する技術分類データベースと、
技術情報を示す技術コンテンツを蓄積する技術コンテンツデータベースと、
検索者によって入力された単語または単語の組合せである入力文字列を取得する入力文字列取得部と、
前記技術分類データベースに記憶された技術分類のタームを前記入力文字列で照合し、一致するタームを含む全てのテーマを抽出し、抽出した該テーマから少なくとも1つのテーマを特定し、該特定したテーマに含まれる複数のターム群を抽出する概念化部と、
前記抽出したターム群をキーワードとして前記技術コンテンツデータベースをテキスト検索し、予め定めた評価方法で該検索した技術コンテンツを評価して、評価の良い技術コンテンツを取得するコンテンツ検索部と、
前記取得した技術コンテンツを表示する表示用データを出力するコンテンツ表示部とを、備える
ことを特徴とする情報検索システム。
A system for retrieving information,
A field indicating a range to which the technology is applied, a theme indicating the range of the technology belonging to the field, and a term indicating the characteristics of the technology included in the technology range in association with a plurality of viewpoints for each theme. A technical classification database for storing technical classifications;
A technical content database for storing technical content indicating technical information;
An input string acquisition unit that acquires an input string that is a word or a combination of words input by a searcher;
The technical classification terms stored in the technical classification database are collated with the input character string, all themes including the matching terms are extracted, at least one theme is identified from the extracted themes, and the identified theme A conceptualization unit for extracting a plurality of term groups included in
A text search unit that searches the technical content database using the extracted term group as a keyword, evaluates the searched technical content using a predetermined evaluation method, and obtains a highly evaluated technical content; and
An information search system comprising: a content display unit that outputs display data for displaying the acquired technical content.
前記技術分類データベースに記憶された技術分類に基づくテーマおよびタームが付与された技術情報に関する分類付テキストを蓄積する分類付テキストデータベースを備えるとともに、
前記概念化部は、前記技術分類データベースの検索処理の代わりに、前記分類付テキストデータベースに記憶された分類付テキストに付与されたタームを前記形態素で照合し、一致するタームが付与されたテキストを抽出し、抽出したテキストに含まれる全てのテーマを抽出し、該抽出したテキスト数に基づいて該抽出したテーマから少なくとも1つのテーマを特定する
ことを特徴とする請求項1に記載の情報検索システム。
A categorized text database for storing categorized text relating to technical information to which themes and terms based on the technical classification stored in the technical classification database are stored;
The conceptualizing unit collates the term given to the classified text stored in the classified text database with the morpheme and extracts the text with the matching term instead of the search processing of the technical classification database. The information retrieval system according to claim 1, wherein all themes included in the extracted text are extracted, and at least one theme is specified from the extracted themes based on the number of extracted texts.
前記概念化部は、前記技術分類データベースから抽出した前記テーマが属するフィールドを抽出し、抽出した該フィールド各々の評価値を予め定めた評価方法により算出し、該評価値が近いフィールドが複数存在する場合に、該複数のフィールドから選択されたフィールドが属するテーマを特定する
ことを特徴とする請求項1または請求項2に記載の情報検索システム。
The conceptualization unit extracts a field to which the theme extracted from the technical classification database belongs, calculates an evaluation value of each of the extracted fields by a predetermined evaluation method, and when there are a plurality of fields having similar evaluation values The information search system according to claim 1 or 2, wherein a theme to which a field selected from the plurality of fields belongs is specified.
前記入力文字列取得部が、前記入力文字列として文を取得し、
前記概念化部が、前記入力文字列に対して形態素解析を行って形態素を抽出し、前記技術分類データベースに記憶された技術分類のタームを前記抽出した形態素で照合し、一致するタームを含む全てのテーマを抽出する
ことを特徴とする請求項1ないし請求項3のいずれか一項に記載の情報検索システム。
The input character string acquisition unit acquires a sentence as the input character string,
The conceptualization unit performs morphological analysis on the input character string to extract morphemes, collates the technical classification terms stored in the technical classification database with the extracted morphemes, and includes all matching terms. The information retrieval system according to any one of claims 1 to 3, wherein a theme is extracted.
前記概念化部は、前記特定したテーマに含まれる全てのターム群を抽出する
ことを特徴とする請求項1ないし請求項4のいずれか一項に記載の情報検索システム。
The information retrieval system according to claim 1, wherein the conceptualization unit extracts all term groups included in the identified theme.
前記概念化部は、前記技術分類のタームが階層構造を有する場合に、前記特定したテーマに含まれるタームから、前記入力文字列と一致したタームの上位に直接連なるタームまたは下位に属する全てのタームを抽出する
ことを特徴とする請求項1ないし請求項4のいずれか一項に記載の情報検索システム。
When the terms of the technical classification have a hierarchical structure, the conceptualizing unit obtains all the terms belonging to the terms that match the input character string directly from the terms included in the identified theme or all the terms belonging to the lower order. The information search system according to any one of claims 1 to 4, wherein the information search system is extracted.
情報を検索するために、コンピュータに、
検索者によって入力された単語または単語の組合せである入力文字列を取得し、
技術分類データベースに記憶された、技術が適用される範囲を示すフィールドと、該フィールドに属する技術の範囲を示すテーマと、該テーマ毎に該技術の範囲に含まれる技術の特性を複数の観点に対応付けて示すタームとを定める技術分類に対して、該技術分類のタームを前記入力文字列で照合し、一致するタームを含む全てのテーマを抽出し、抽出した該テーマから少なくとも1つのテーマを特定し、
前記特定したテーマに含まれる複数のターム群を抽出し、
技術情報を示すコンテンツを蓄積する技術コンテンツデータベースに対して、前記抽出したターム群をキーワードとしてテキスト検索を行い、予め定めた評価方法で該検索した技術コンテンツを評価して、評価の良い技術コンテンツを取得し、
前記取得した技術コンテンツを表示する表示用データを出力する、処理を実行させる
ことを特徴とする情報検索プログラム。
To retrieve information, on a computer,
Get an input string that is a word or combination of words entered by a searcher,
From a plurality of viewpoints, a field indicating a range to which the technology is applied, a theme indicating a range of the technology belonging to the field, and a characteristic of the technology included in the technology range for each theme, stored in the technology classification database For the technical classification that defines the terms shown in association with each other, the term of the technical classification is collated with the input character string, all themes including the matching terms are extracted, and at least one theme is extracted from the extracted themes. Identify,
Extracting a plurality of terms included in the identified theme,
Perform a text search using the extracted term group as a keyword with respect to a technical content database storing content indicating technical information, evaluate the searched technical content by a predetermined evaluation method, and obtain a technical content with good evaluation. Acquired,
An information retrieval program for executing a process of outputting display data for displaying the acquired technical content.
情報を検索するために、コンピュータが、
検索者によって入力された単語または単語の組合せである入力文字列を取得する処理過程と、
技術分類データベースに記憶された、技術が適用される範囲を示すフィールドと、該フィールドに属する技術の範囲を示すテーマと、該テーマ毎に該技術の範囲に含まれる技術の特性を複数の観点に対応付けて示すタームとを定める技術分類に対して、該技術分類のタームを前記入力文字列で照合し、一致するタームを含む全てのテーマを抽出し、抽出した該テーマから少なくとも1つのテーマを特定する処理過程と、
前記特定したテーマに含まれる複数のターム群を抽出する処理過程と、
技術情報を示す技術コンテンツを蓄積する技術コンテンツデータベースに対して、前記抽出したターム群をキーワードとしてテキスト検索を行い、予め定めた評価方法で該検索した技術コンテンツを評価して、評価の良い技術コンテンツを取得する処理過程と、
前記取得した技術コンテンツを表示する表示用データを出力する処理過程とを、備える
ことを特徴とする情報検索方法。
To retrieve information, the computer
A process of obtaining an input string that is a word or combination of words entered by a searcher;
From a plurality of viewpoints, a field indicating a range to which the technology is applied, a theme indicating a range of the technology belonging to the field, and a characteristic of the technology included in the technology range for each theme, stored in the technology classification database For the technical classification that defines the terms shown in association with each other, the term of the technical classification is collated with the input character string, all themes including the matching terms are extracted, and at least one theme is extracted from the extracted themes. Process to identify;
A process of extracting a plurality of term groups included in the identified theme;
A technical content database storing technical content indicating technical information is used to perform a text search using the extracted term group as a keyword, and the searched technical content is evaluated by a predetermined evaluation method. Process to get
A process for outputting display data for displaying the acquired technical content. An information search method comprising:
JP2012253300A 2012-11-19 2012-11-19 Information retrieval system, program, and method Pending JP2014102625A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012253300A JP2014102625A (en) 2012-11-19 2012-11-19 Information retrieval system, program, and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012253300A JP2014102625A (en) 2012-11-19 2012-11-19 Information retrieval system, program, and method

Publications (1)

Publication Number Publication Date
JP2014102625A true JP2014102625A (en) 2014-06-05

Family

ID=51025092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012253300A Pending JP2014102625A (en) 2012-11-19 2012-11-19 Information retrieval system, program, and method

Country Status (1)

Country Link
JP (1) JP2014102625A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615650A (en) * 2014-12-29 2015-05-13 厦门欣旅通科技有限公司 Content acquiring method and device
JP2017084240A (en) * 2015-10-30 2017-05-18 株式会社インタラクティブソリューションズ Slide retrieval device, slide retrieval system, slide retrieval method, and slide retrieval program
JP2020021501A (en) * 2019-10-04 2020-02-06 株式会社インタラクティブソリューションズ Slide retrieval device, slide retrieval system, slide retrieval method, and slide retrieval program
US10918267B2 (en) 2016-02-18 2021-02-16 Olympus Corporation Endoscope

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615650A (en) * 2014-12-29 2015-05-13 厦门欣旅通科技有限公司 Content acquiring method and device
CN104615650B (en) * 2014-12-29 2018-01-02 厦门欣旅通科技有限公司 A kind of content acquisition method and device
JP2017084240A (en) * 2015-10-30 2017-05-18 株式会社インタラクティブソリューションズ Slide retrieval device, slide retrieval system, slide retrieval method, and slide retrieval program
US10918267B2 (en) 2016-02-18 2021-02-16 Olympus Corporation Endoscope
JP2020021501A (en) * 2019-10-04 2020-02-06 株式会社インタラクティブソリューションズ Slide retrieval device, slide retrieval system, slide retrieval method, and slide retrieval program

Similar Documents

Publication Publication Date Title
Mokhtari et al. A bibliometric analysis and visualization of the Journal of Documentation: 1945–2018
WO2009154153A1 (en) Document search system
JP5023176B2 (en) Feature word extraction apparatus and program
JP2014102626A (en) Recommendation device, program, and method
Zhao et al. Intellectual structure of information science 2011–2020: An author co-citation analysis
Spitz et al. EVELIN: Exploration of event and entity links in implicit networks
JP2006285460A (en) Information search system
JP2014102625A (en) Information retrieval system, program, and method
KR20110010664A (en) System for analyzing documents
JPWO2010013472A1 (en) Data classification system, data classification method, and data classification program
JP2003345829A (en) Method and apparatus for retrieving information, and computer program for information retrieval
Fadloun et al. EpidVis: A visual web querying tool for animal epidemiology surveillance
JP2020013413A (en) Judgment support device and judgment support method
CN109213830B (en) Document retrieval system for professional technical documents
JP5269399B2 (en) Structured document retrieval apparatus, method and program
Cao et al. Extraction of informative blocks from web pages
Yoon et al. A conference paper exploring system based on citing motivation and topic
JP2021064143A (en) Sentence generating device, sentence generating method, and sentence generating program
KR101078978B1 (en) System for grouping documents
Lama Clustering system based on text mining using the k-means algorithm
Zaman et al. Knowledge Mapping for Research Papers
CN115617980A (en) Litigation case retrieval report generation method and system
KR101667918B1 (en) Methodand device of providing query-adaptive smart search service
KR101440385B1 (en) Device for managing information using indicator
KR101088483B1 (en) Method and apparatus for mapping the heterogeneous classification systems