JP5234992B2 - Response document classification apparatus, response document classification method, and program - Google Patents

Response document classification apparatus, response document classification method, and program Download PDF

Info

Publication number
JP5234992B2
JP5234992B2 JP2009121438A JP2009121438A JP5234992B2 JP 5234992 B2 JP5234992 B2 JP 5234992B2 JP 2009121438 A JP2009121438 A JP 2009121438A JP 2009121438 A JP2009121438 A JP 2009121438A JP 5234992 B2 JP5234992 B2 JP 5234992B2
Authority
JP
Japan
Prior art keywords
keyword
condition
classification
main
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009121438A
Other languages
Japanese (ja)
Other versions
JP2010271800A (en
Inventor
晴美 川島
優 甲谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009121438A priority Critical patent/JP5234992B2/en
Publication of JP2010271800A publication Critical patent/JP2010271800A/en
Application granted granted Critical
Publication of JP5234992B2 publication Critical patent/JP5234992B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、質問についての回答を分類する装置に関し、特に、質問についての複数の回答を、キーワード毎に分類して提供する回答文書分類装置に関する。   The present invention relates to an apparatus for classifying answers to a question, and more particularly to an answer document classification apparatus that classifies and provides a plurality of answers to a question for each keyword.

従来、インターネット等のネットワーク上で公開されている情報を探す手段として、キーワード検索がよく利用されている。キーワード検索は、利用者から1つまたは複数の検索キーワードを入力し、入力された検索キーワードの全て、またはいずれかを含む文書を検索して出力するサービスである。検索結果として出力される文書の数は、検索キーワードが一般的な語であるほど数が多く、利用者が目的に合った情報を見つけるのは困難である。そのために、利用者は検索キーワードを追加したり、調べたい分野に特徴的な検索キーワードを指定したりして、検索結果を絞り込む作業を行なっている。   Conventionally, keyword search is often used as a means for searching for information published on a network such as the Internet. The keyword search is a service in which one or a plurality of search keywords are input from a user, and a document including all or any of the input search keywords is searched and output. The number of documents output as search results increases as the search keyword is a general word, and it is difficult for the user to find information suitable for the purpose. For this purpose, the user performs a task of narrowing down search results by adding a search keyword or specifying a search keyword that is characteristic of the field to be searched.

また、キーワード検索でうまく目的に合った情報を見つけられない場合や、人に相談したいような場合に、利用者同士が質問と回答をやり取りするQ&Aコミュニティーサイトを利用する場合がある。Q&Aコミュニティーサイトでは、図5に示すように、質問したい利用者が投稿した1つの質問32に対して、複数の回答者によって、回答33、34、35が投稿され、サイト上でコミュニケーションが行われる。Q&Aコミュニティーサイトにおいてもキーワード検索する機能が提供され、検索する対象を質問だけ、質問・回答の両方等と指定して検索することができる。この場合も、検索キーワードが一般的な語であれば検索結果の数は多くなり、目的に合った情報を探すのは容易ではない。   Also, there are cases where users use Q & A community sites where users exchange questions and answers when they cannot find information that suits their purpose well by keyword search, or when they want to consult people. In the Q & A community site, as shown in FIG. 5, responses 33, 34, and 35 are posted by a plurality of respondents to one question 32 posted by a user who wants to ask questions, and communication is performed on the site. . The Q & A community site also provides a keyword search function, and the search target can be specified by specifying only a question or both a question and an answer. Also in this case, if the search keyword is a general word, the number of search results increases, and it is not easy to search for information suitable for the purpose.

目的に合った情報を探しやすくするために、検索結果をグループ化して提示する手法がある。たとえば、利用者が入力した検索キーワードに対して、過去に入力された検索キーワードの履歴の中から、利用者が入力した検索キーワードに隣接して良く入力されるキーワードを関連語として抽出し、該関連語毎にグループ化して検索結果を表示する発明が知られている(たとえば、特許文献1参照)。この発明によれば、利用者が自分で検索結果を絞り込むためのキーワードを考える必要がなく、選択するだけで良いという利点がある。   In order to make it easier to search for information that suits the purpose, there is a method of presenting search results in groups. For example, for a search keyword input by a user, a keyword that is often input adjacent to the search keyword input by the user is extracted as a related word from a history of search keywords input in the past. There has been known an invention that displays search results by grouping for each related word (for example, see Patent Document 1). According to the present invention, there is an advantage that the user does not need to think about a keyword for narrowing down the search result by himself and only has to select it.

また、回答文書を分類する方法として、クラスタリング技術を利用することができる。クラスタリング技術は、文章集合が与えられると、文章間の類似度を算出し、類似した文章毎にグループを作成する方法である。文章間の類似度は、単語出現頻度に基づく文章ベクトルで文章を表し、文章ベクトル間のコサイン類似度を適用する手法が広く用いられている。すなわち、文章dを文章ベクトル Further, a clustering technique can be used as a method for classifying answer documents. The clustering technique is a method of calculating a similarity between sentences when a sentence set is given, and creating a group for each similar sentence. As the similarity between sentences, a technique is widely used in which sentences are represented by sentence vectors based on the word appearance frequency, and the cosine similarity between sentence vectors is applied. In other words, the sentence vector sentence d n

Figure 0005234992
Figure 0005234992

により表す場合、vは、単語集合W={w,w,…,w}中の単語の総数を示し、xniは、文章dにおける単語wの重みを示す。このとき、文章dと文章dの類似度は、各文章ベクトルがなす角 If represented by, v is word set W = {w 1, w 2 , ..., w v} indicates the total number of words in, x ni indicates the weight of a word w i in sentence d n. At this time, the similarity between the sentence d j and the sentence d k is the angle formed by each sentence vector.

Figure 0005234992
Figure 0005234992

で表される。またwの重みは、単語の文章内での出現頻度tf(term frequency)をそのまま利用する場合や、出現頻度tfに、単語出現数を全文章数で割った値の対数idfを乗算したtf−idf(term frequency/inverse document)を利用する。つまり、類似度の高い文章同士は、この単語の重みの傾向が似通っている文章同士であることを意味する。 It is represented by The weight of w i is the tf obtained by multiplying the appearance frequency tf (term frequency) in the sentence of the word as it is or by multiplying the appearance frequency tf by the logarithm idf obtained by dividing the word appearance number by the total sentence number. -Idf (term frequency / inverse document) is used. That is, sentences with high similarity mean sentences having similar word weight trends.

特許第4009937号公報Japanese Patent No. 4009937

本来、Q&Aコミュニティーサイトの利用者の目的は、質問についての回答を得ることであるので、回答文書を分類して提供することが望ましい。上記特許文献1記載の従来技術を、Q&Aコミュニティーサイトに適用する場合、検索する利用者は知りたい情報の分野に詳しくない場合が多く、適切なキーワードを入力しているとは限らない。このために、検索キーワードを分類用のキーワードとして利用するだけでは、回答文書を精度良く分類できないという問題がある。   Originally, the purpose of users of Q & A community sites is to obtain answers to questions, so it is desirable to classify and provide answer documents. When the prior art described in Patent Document 1 is applied to a Q & A community site, the user who searches is often not familiar with the field of information he / she wants to know, and an appropriate keyword is not always input. For this reason, there is a problem that the answer document cannot be classified with high accuracy only by using the search keyword as a keyword for classification.

また、クラスタリング技術によって回答文書を分類する場合、文章数の二乗に比例して処理時間がかかるので、キーワード検索結果の文章集合が多い場合、分類結果が出力されるまでに時間がかかるという問題がある。   Also, when answer documents are classified by clustering technology, the processing time is proportional to the square of the number of sentences. Therefore, if there are many sentence sets of keyword search results, it takes time to output the classification results. is there.

本発明は、検索キーワードに含まれないキーワードも利用して、短時間で回答文書を分類することができる回答文書分類装置、回答文書分類方法およびプログラムの提供を目的とする。   An object of the present invention is to provide an answer document classification device, an answer document classification method, and a program that can classify answer documents in a short time using a keyword that is not included in a search keyword.

本発明は、質問文書に対する回答文書を、グループを代表するキーワードである分類キーワードを含むグループ毎に分類する回答文書分類装置において、単語と品詞との組み合わせによって構成されているパターンであって、所定の条件を示すパターンである条件パターンを蓄積している条件パターン蓄積手段と、入力テキスト集合に含まれている文が、上記条件パターン蓄積手段に蓄積されている条件パターンを含んでいるか否かを判定する条件パターン判定手段と、上記条件パターンを含んでいれば、上記条件パターンの前方に配置されている単語の配列である条件キーワードを抽出する条件キーワード抽出手段と、上記条件パターンを含んでいなければ、主格になる文節に含まれている単語である主格キーワードを抽出する主格キーワード抽出手段と、上記条件キーワードおよび上記主格キーワードに含まれるキーワード毎に、着目しているキーワードが上記条件キーワードとして出現する回数である出現回数と、上記主格キーワードとして出現する回数である出現回数とを集計し、上記条件キーワードの出現回数と上記主格キーワードの出現回数とが所定の条件を満たす場合に、上記着目しているキーワードを分類キーワードであると判定する分類キーワード判定手段とを有する回答文書分類装置である。   The present invention relates to a pattern composed of combinations of words and parts of speech in an answer document classification apparatus for classifying an answer document to a question document for each group including a classification keyword that is a keyword representing the group, and a predetermined pattern. A condition pattern accumulating means for accumulating a condition pattern which is a pattern indicating the condition of the condition, and whether or not a sentence included in the input text set includes the condition pattern accumulated in the condition pattern accumulating means. Condition pattern determining means for determining, condition keyword extracting means for extracting a condition keyword that is an array of words arranged in front of the condition pattern if the condition pattern is included, and the condition pattern Otherwise, a prominent keyword that extracts a prominent keyword that is a word contained in the phrase that becomes the prominent For each keyword included in the condition keyword and the main keyword, the number of appearances that is the number of times that the keyword of interest appears as the condition keyword, and the number of appearances that is the number of times that the keyword appears as the main keyword An answer document having classification keyword determination means for determining that the keyword of interest is a classification keyword when the number of appearances of the conditional keyword and the number of appearances of the main keyword satisfy a predetermined condition It is a classification device.

本発明によれば、質問についての回答文書を検索したい利用者が、検索キーワードとして入力しないキーワードも利用して、回答文書を分類することができ、質問者は、分類された情報を選択するだけで、所望の情報を取得することができるという効果を奏する。   According to the present invention, a user who wants to search for an answer document about a question can classify the answer document using a keyword that is not input as a search keyword, and the questioner simply selects the classified information. Thus, there is an effect that desired information can be acquired.

また、本発明によれば、回答文書集合に含まれるキーワードの出現回数に基づいて分類キーワードの判定を行うので、処理が高速であるという効果を奏する。   In addition, according to the present invention, since the classification keyword is determined based on the number of appearances of the keyword included in the answer document set, there is an effect that the processing is fast.

本発明の原理を説明する図である。It is a figure explaining the principle of this invention. 本発明の実施例1である回答文書分類装置100の構成を示す図である。It is a figure which shows the structure of the reply document classification | category apparatus 100 which is Example 1 of this invention. 条件パターン蓄積手段11が蓄積している条件パターンの例を示す図である。It is a figure which shows the example of the condition pattern which the condition pattern storage means 11 has accumulate | stored. 条件パターン判定手段12の処理を示すフローチャートである。3 is a flowchart showing processing of a condition pattern determination unit 12. Q&Aコミュニティサイトの構成を示す図である。It is a figure which shows the structure of a Q & A community site. 条件パターン判定手段12が判定した形態素解析結果を示す図である。It is a figure which shows the morphological analysis result which the condition pattern determination means 12 determined. 実施例1において、条件キーワード抽出手段13が抽出した係り受け解析した結果の例を示す図である。In Example 1, it is a figure which shows the example of the result of the dependency analysis which the conditional keyword extraction means 13 extracted. 主格キーワード抽出手段14の動作を示す図である。It is a figure which shows operation | movement of the main character keyword extraction means. 分類キーワード判定手段15の動作の説明図である。FIG. 10 is an explanatory diagram of the operation of the classification keyword determination unit 15. 分類キーワード判定手段19の動作を示すフローチャートである。4 is a flowchart showing the operation of a classification keyword determination unit 19. 本発明の実施例2である回答文書分類装置200を示すブロック図である。It is a block diagram which shows the answer document classification | category apparatus 200 which is Example 2 of this invention. 実施例2における分類キーワード蓄積手段18の蓄積例を示す図である。It is a figure which shows the example of accumulation | storage of the classification keyword storage means 18 in Example 2. FIG.

発明を実施するための形態は、以下の実施例である。   The modes for carrying out the invention are the following examples.

本発明では、グループを代表するキーワードであり、回答文書を分類するためのキーワードである分類キーワードを、回答文書の中から抽出する。質問された内容に詳しい回答者は、質問文書中に含まれていない語句を用いて、詳細な情報を提供することが考えられるので、上記分類キーワードを回答文書から抽出する。質問文書についての回答文書を、分類キーワード毎にグループ化して利用者に提供する。これによって、利用者は、分類キーワードを手がかりに、所望の情報を容易に取得することができる。   In the present invention, a classification keyword that is a keyword representing a group and is a keyword for classifying an answer document is extracted from the answer document. Since respondents who are familiar with the questioned content may provide detailed information using words or phrases that are not included in the question document, the classification keywords are extracted from the answer document. Answer documents for question documents are grouped for each classification keyword and provided to the user. Thus, the user can easily obtain desired information using the classification keyword as a clue.

本発明は、質問文書についての回答文書を、分類キーワード毎にグループ化する回答文書分類装置において、与えられた回答文書集合に含まれているキーワード(単語)から、グループを代表するキーワードである分類キーワードを判定する。   The present invention provides a classification that is a keyword representing a group from keywords (words) included in a given set of answer documents in an answer document classification apparatus that groups answer documents for a question document for each classification keyword. Determine keywords.

まず、回答文書の特徴について説明する。たとえば、次のような質問文書があった場合について考える。   First, the characteristics of the answer document will be described. For example, consider the case where there is the following question document.

「6月にテーマパークXに遊びに行こうと計画しています。雨に備えて傘か合羽を用意しようと思っていますが、どちらがいいでしょう?」
この質問に対して3人の回答者がそれぞれ以下の回答をしたとする。
“I am planning to go to theme park X in June. I'm planning to prepare an umbrella or a pair in case of rain, which is better?”
Assume that three respondents answered the following questions.

回答者A:「傘は人が多いと迷惑になるので、合羽がお勧めです。」
回答者B:「大人だけなら、傘で大丈夫ですよ。小さい子供が一緒なら、合羽が楽です。」
回答者C:「大人は傘で良いと思うよ。」
回答者Aは、質問文書に記載された内容の範囲で自分の意見を述べている。回答者Bは、質問文書には記載されていない「大人だけ」なのか「子供が一緒」なのかの情報を追加して、それぞれの場合について自分の意見を述べている。
Respondent A: “Umbrellas are annoying if there are many people.
Respondent B: “If you are an adult, you can use an umbrella.
Respondent C: “I think adults can use umbrellas.”
Respondent A states his opinion within the scope of the contents described in the question document. Respondent B adds his / her own opinion about each case by adding information about “adult only” or “children together” which is not included in the question document.

質問者は、「大人だけ」か「子供が一緒」かによって、お勧めの情報が異なることを、質問した時点では知らないが、回答文書の分類キーワードとして、「大人だけ」、「子供が一緒」というキーワードが提示されれば、自分の状況に合わせて分類キーワードを選択することができ、的確な回答文書を参照することが可能になる。   The questioner does not know at the time of the question that the recommended information varies depending on whether "adults only" or "children are together", but the classification keywords in the answer document are "adults only" and "children together." If the keyword "is presented, the classification keyword can be selected in accordance with the user's situation, and an accurate answer document can be referred to.

回答者Cは「大人は」と述べ、条件パターンである「○○なら」を用いていない。なお、上記「条件パターン」は、明示的に条件であることが分かる文節である。   Respondent C stated “Adults are” and does not use the condition pattern “If ○○”. Note that the “condition pattern” is a clause that clearly indicates a condition.

回答者Cによる回答文書中、「大人は」という主格となる文節に、暗黙的に「大人の場合」という条件を含めて記述している。回答文書において、ハ格である「○○は」は、○○について説明をする場合に用いられる場合が多い。そこで、「○○は」という文節の○○の中にも、回答文書を分類する場合に適したキーワードが含まれていると考える。   In the answer document by the respondent C, the phrase “adult is” is implicitly described including the condition “in the case of an adult” implicitly. In the answer document, “XX is”, which is a case, is often used to explain XX. Therefore, it is considered that keywords suitable for classifying response documents are also included in XX of the phrase “XX is”.

図1は、本発明の原理を説明するフローチャートである。   FIG. 1 is a flowchart illustrating the principle of the present invention.

まず、入力されたテキスト集合に含まれている各文に対して、上記条件パターンが記述されているか否かを判定する(S1)。上記「条件パターン」は、たとえば「○○なら、××です。」という文における「○○なら」中の「なら」である。   First, it is determined whether or not the condition pattern is described for each sentence included in the input text set (S1). The “condition pattern” is, for example, “if” in “if it is XX” in the sentence “if it is XX, it is XX”.

なお、条件パターンとして、次のパターンもが考えられる。   In addition, the following pattern is also considered as a condition pattern.

「○○であれば」中の「であれば」、
「○○の場合」中の「の場合」、
「○○ですと」中の「ですと」。
“If” in “If ○○”,
“In the case of ○○”, “In the case of”
“If it ’s ○○”, “It ’s”.

文中に、上記条件パターンが記述されていると判定さると、「○○なら」という条件を示す文節中の単語「○○」に含まれているキーワードを、「条件キーワード」として抽出する(S2)。つまり、「条件キーワード」は、条件パターンを含む文節から、条件パターンを除いた単語に含まれているキーワードである。また、条件パターンが記述されていないと判定されると、「○○は」のように、主格になる文節が存在するかどうかを調べ、主格になる文節が存在すれば、主格になる文節「○○」に含まれているキーワードを、「主格キーワード」として抽出する(S3)。   If it is determined that the condition pattern is described in the sentence, the keyword included in the word “XX” in the phrase indicating the condition “if XX” is extracted as the “condition keyword” (S2). ). That is, the “condition keyword” is a keyword included in a word excluding the condition pattern from the clause including the condition pattern. Also, if it is determined that the condition pattern is not described, it is checked whether there is a clause that becomes a major, such as “XX”, and if there is a clause that becomes a major, the phrase that becomes the major “ The keywords included in “OO” are extracted as “main keywords” (S3).

つまり、「主格キーワード」は、主格になる文節に含まれている名詞句である。   That is, the “prominent keyword” is a noun phrase included in the phrase that becomes the prominent.

条件キーワードと主格キーワードとは、少なくとも1つの単語によって構成されている。   The condition keyword and the main keyword are composed of at least one word.

次に、与えられている入力テキスト集合全体から抽出したキーワードのうちで、着目しているキーワードが、上記条件キーワードとして出現する回数である出現回数と、上記主格キーワードとして出現する回数である出現回数とを求め、上記条件キーワードの出現回数と上記主格キーワードの出現回数とが所定の条件を満たす場合に、上記着目しているキーワードを分類キーワードであると判定する(S4)。   Next, among the keywords extracted from the entire set of input texts, the number of appearances, which is the number of times that the focused keyword appears as the conditional keyword, and the number of appearances, which is the number of appearances as the main keyword If the number of appearances of the conditional keyword and the number of appearances of the main keyword satisfy a predetermined condition, it is determined that the keyword of interest is a classification keyword (S4).

つまり、「分類キーワード」は、条件キーワードの出現回数と、主格キーワードの出現回数とが、所定の条件を満たす場合におけるキーワードである。   That is, the “classification keyword” is a keyword when the number of appearances of the condition keyword and the number of appearances of the main keyword satisfy a predetermined condition.

図2は、本発明の実施例1である回答文書分類装置100の構成を示す図である。   FIG. 2 is a diagram showing the configuration of the answer document classification apparatus 100 that is Embodiment 1 of the present invention.

回答文書分類装置100は、テキスト入力手段20とテキスト出力手段40とに、接続され、条件パターン蓄積手段11と、条件パターン判定手段12と、条件キーワード抽出手段13と、主格キーワード抽出手段14と、分類キーワード判定手段15とを有する。   The answer document classification device 100 is connected to the text input means 20 and the text output means 40, and the condition pattern storage means 11, the condition pattern determination means 12, the condition keyword extraction means 13, the main character keyword extraction means 14, Classification keyword determination means 15.

条件パターン判定手段12は、テキスト入力手段20から回答文書の集合を入力すると、入力した回答文書を文単位に分割し、各文に条件パターンが含まれているかどうかを判定し、そして、条件パターンが含まれている文を、条件キーワード抽出手段13へ送り、条件パターンが含まれていない文を、主格キーワード抽出手段14へ送る。   When a set of answer documents is input from the text input means 20, the condition pattern determination means 12 divides the input answer document into sentence units, determines whether each sentence includes a condition pattern, and the condition pattern Is sent to the condition keyword extraction means 13, and a sentence not containing the condition pattern is sent to the main keyword extraction means 14.

条件キーワード抽出手段13は、条件パターン判定手段12から、条件パターンを含む形態素解析結果の文と、検出された条件パターンを示す情報とを受け取り、条件パターンに一致する箇所の前方に存在するキーワードを、条件キーワードとして抽出し、記憶装置に記憶する手段である。   The condition keyword extraction unit 13 receives a sentence of the morphological analysis result including the condition pattern and information indicating the detected condition pattern from the condition pattern determination unit 12, and selects a keyword that exists in front of a location that matches the condition pattern. These are means for extracting as condition keywords and storing them in the storage device.

主格キーワード抽出手段14は、条件パターン判定手段12から、条件パターンを含まないと判定された文を受け取り、係り受け解析し、記憶装置に記憶する。この解析結果中に、主格となる文節が存在するかどうかを調べ、主格となる文節が存在すれば、主格となる文節に含まれているキーワード(名詞句)を、「主格キーワード」として抽出し、記憶装置に記憶する。   The main keyword extracting unit 14 receives a sentence determined not to include the condition pattern from the condition pattern determining unit 12, performs dependency analysis, and stores the sentence in the storage device. In this analysis result, it is checked whether there is a main phrase, and if there is a main phrase, the keywords (noun phrases) included in the main phrase are extracted as “main keywords”. And store it in the storage device.

分類キーワード判定手段15は、条件キーワード抽出手段13が抽出した条件キーワードと、主格キーワード抽出手段14が抽出した主格キーワードとを入力し、キーワード毎に、所定の条件(後述の式(1)、式(2)に示す条件)を満たすかどうかを判定し、この予め設定された条件を満たすキーワードを、分類キーワードとして、記憶装置に記憶し、この分類キーワードを出力する。分類キーワード判定手段15は、具体的には、分類キーワードと、このキーワードを含む回答文章IDと、文番号の情報とを組みにして、テキスト出力手段40に送る。   The classification keyword determination means 15 inputs the condition keyword extracted by the condition keyword extraction means 13 and the main keyword extracted by the main keyword extraction means 14, and for each keyword, a predetermined condition (formula (1), formula described later) It is determined whether or not the condition (2) is satisfied, a keyword satisfying the preset condition is stored in the storage device as a classification keyword, and the classification keyword is output. Specifically, the classification keyword determination unit 15 sends the classification keyword, the answer sentence ID including the keyword, and the sentence number information to the text output unit 40 in combination.

なお、テキスト入力手段20とテキスト出力手段40との間に、質問・回答文書蓄積手段30が接続されている。質問・回答文書蓄積手段30は、Q&Aコミュニティーサイトにおいて投稿された質問文書、回答文書を多数、蓄積している。   A question / answer document storage unit 30 is connected between the text input unit 20 and the text output unit 40. The question / answer document storage means 30 stores a large number of question documents and answer documents posted on the Q & A community site.

テキスト入力手段20は、質問・回答文書蓄積手段30から、後述する特定の条件に合致する回答文書の集合を取得し、条件パターン判定手段12に送る。   The text input means 20 acquires a set of answer documents that meet a specific condition, which will be described later, from the question / answer document storage means 30 and sends it to the condition pattern determination means 12.

後述する特定の条件に合致する回答文書の集合を取得するための条件は、特定のキーワードを含む質問に回答した回答文書の集合等である。   A condition for acquiring a set of answer documents that meet a specific condition described later is a set of answer documents that answered a question including a specific keyword.

テキスト出力手段40は、分類キーワード判定手段15が出力した分類キーワードを入力し、分類キーワード毎に、回答文書を分類し、記憶装置に記憶し、出力する。   The text output means 40 inputs the classification keyword output by the classification keyword determination means 15, classifies the answer document for each classification keyword, stores it in the storage device, and outputs it.

図3は、条件パターン蓄積手段11が蓄積している条件パターンの例を示す図である。   FIG. 3 is a diagram showing an example of condition patterns stored in the condition pattern storage unit 11.

条件パターン蓄積部11は、条件パターンとして抽出したい単語と、この単語の出現順序パターンとを、図3に示すように予め蓄積する。図3に示す蓄積例では、1行に1つの条件パターンが記述されている。1つの条件パターンは、「品詞:読み」がカンマで接続され、左から順に連続して単語が出現するパターンである。4行目の単語パターン、「判定詞:デ、動詞語幹:ア、動詞活用語尾:レ、動詞接尾辞:バ」は、「であれば」という条件パターンを抽出するための記述である。   The condition pattern accumulating unit 11 accumulates in advance the word to be extracted as the condition pattern and the appearance order pattern of this word as shown in FIG. In the accumulation example shown in FIG. 3, one condition pattern is described in one line. One condition pattern is a pattern in which “part of speech: reading” is connected by a comma, and words appear successively from the left. The word pattern on the fourth line, “determinant: de, verb stem: a, verb inflection ending: les, verb suffix: ba” is a description for extracting the conditional pattern “if”.

条件パターン判定手段12は、テキスト入力手段20から回答文書の集合を入力すると、入力した回答文書を文単位に分割し、各文に条件パターンが含まれているかどうかを判定する。そして、条件パターンが含まれている文を、条件キーワード抽出手段13へ送り、条件パターンが含まれていない文を、主格キーワード抽出手段14へ送る。なお、各回答文書には、回答文書を一意に特定する回答文章IDがそれぞれ付与される。   When a set of answer documents is input from the text input means 20, the condition pattern determination means 12 divides the input answer document into sentence units, and determines whether each sentence includes a condition pattern. Then, the sentence including the condition pattern is sent to the condition keyword extracting means 13, and the sentence not including the condition pattern is sent to the main keyword extracting means 14. Each answer document is given an answer sentence ID that uniquely identifies the answer document.

図4は、条件パターン判定手段12の動作を示すフローチャートである。   FIG. 4 is a flowchart showing the operation of the condition pattern determination unit 12.

まず、条件パターン蓄積手段11に蓄積されている条件パターンを全て読み込み(S51)、テキスト入力手段20から受け取った回答文書について、回答文書毎に、回答文章IDに対応する回答文書を文単位に分割し、この分割された文に、回答文書内での出現番号を付与する(S52、S53)。   First, all the condition patterns stored in the condition pattern storage unit 11 are read (S51), and for the response document received from the text input unit 20, for each response document, the response document corresponding to the response text ID is divided into sentence units. Then, an appearance number in the answer document is given to the divided sentence (S52, S53).

続いて、未処理の文番号が存在すれば(S54)、未処理の文番号を1つ選択し、形態素解析処理を行う(S55)。形態素解析結果の単語の品詞と読みとが、条件パターンに一致する箇所があるかどうかを調べ(S56)、条件パターンに一致する箇所があれば(S56、YES)、処理対象の回答文章IDと、文番号と、文と条件パターンとが一致した箇所とを、条件キーワード抽出手段13へ送る(S57)。条件パターンと一致する箇所がなければ(S56、NO)、処理対象の回答文章IDと、文番号と、文とを、主格キーワード抽出手段14へ送る(S58)。   Subsequently, if there is an unprocessed sentence number (S54), one unprocessed sentence number is selected and a morpheme analysis process is performed (S55). It is checked whether or not there is a place where the part of speech and the reading of the word of the morphological analysis result matches the condition pattern (S56), and if there is a place matching the condition pattern (S56, YES), the answer sentence ID to be processed and The sentence number and the part where the sentence and the condition pattern match are sent to the condition keyword extracting means 13 (S57). If there is no portion that matches the condition pattern (S56, NO), the answer text ID to be processed, the sentence number, and the sentence are sent to the main keyword extracting means 14 (S58).

図5は、Q&Aコミュニティサイトの構成例を示す図である。   FIG. 5 is a diagram illustrating a configuration example of the Q & A community site.

図5に示す回答文書33、34、35を、条件パターン判定手段12が入力した場合における具体的な動作について説明する。回答文書33、34、35の文章IDを、それぞれ、33、34、35とする。まず、未処理の回答文章ID33が選択され(S52、S53)、この選択された回答文章ID33は、1文から構成されているので(S53)、1文が選択され、形態素解析処理が行われる(S54、S55)。   A specific operation when the condition pattern determination unit 12 inputs the answer documents 33, 34, and 35 shown in FIG. 5 will be described. The sentence IDs of the answer documents 33, 34, and 35 are set to 33, 34, and 35, respectively. First, an unprocessed answer sentence ID 33 is selected (S52, S53). Since the selected answer sentence ID 33 is composed of one sentence (S53), one sentence is selected and a morphological analysis process is performed. (S54, S55).

図6は、条件パターン判定手段12が判定した形態素解析結果を示す図である。   FIG. 6 is a diagram illustrating a morphological analysis result determined by the condition pattern determination unit 12.

形態素解析結果61において、1行目に回答文章IDが記載され、2行目に文番号が記載され、3行目以降に、形態素毎の表記、品詞、読みが記載されている。形態素解析結果61の中に、条件パターンと一致する単語出現パターン(単語が出現するパターン)があるかどうかを調べる(S56)。図6に示す形態素解析結果61には、条件パターンと一致する箇所がないので(S56、NO)、形態素解析結果61を主格キーワード抽出手段14へ送る。   In the morpheme analysis result 61, the answer sentence ID is described in the first line, the sentence number is described in the second line, and the notation, part of speech, and reading for each morpheme are described in the third and subsequent lines. It is checked whether or not the morphological analysis result 61 includes a word appearance pattern (a pattern in which a word appears) that matches the condition pattern (S56). Since the morpheme analysis result 61 shown in FIG. 6 does not have a location that matches the condition pattern (S56, NO), the morpheme analysis result 61 is sent to the main keyword extraction means 14.

回答文章ID33には他に文がないので(S54、NO)、次の未処理の回答文書34を選択する(S52)。回答文章ID34の文章は、2つの文に分割され(S53)、1番の文が選択され、形態素解析処理される(S55)。形態素解析結果62に、条件パターンに一致する単語出現パターンがあるかどうかを調べると(S56)、条件パターン「判定詞:ナラ」と一致する箇所63が発見される。   Since there is no other sentence in the reply sentence ID 33 (S54, NO), the next unprocessed reply document 34 is selected (S52). The sentence with the answer sentence ID 34 is divided into two sentences (S53), the first sentence is selected, and morphological analysis processing is performed (S55). When it is checked whether or not the morphological analysis result 62 includes a word appearance pattern that matches the condition pattern (S56), a location 63 that matches the condition pattern “determinant: Nara” is found.

条件パターンと一致する箇所63があるので(S56、YES)、形態素解析結果62中で、条件パターンと一致する箇所を明示するために、「*」を付与し、条件キーワード抽出部13へ送る(S57)。続いて、回答文章ID34の文章の2番目の文(形態素解析結果64)について、S54〜S56の処理を実行し、条件パターンに一致する箇所65が発見される。   Since there is a location 63 that matches the condition pattern (S56, YES), “*” is added to indicate the location that matches the condition pattern in the morphological analysis result 62, and the result is sent to the condition keyword extraction unit 13 ( S57). Subsequently, the processing of S54 to S56 is executed for the second sentence (morpheme analysis result 64) of the sentence with the answer sentence ID 34, and a portion 65 that matches the condition pattern is found.

次に、回答文章ID35の文章について、S52〜S56の処理を実行し、形態素解析結果66に、条件パターンが存在しないので(S56、NO)、形態素解析結果66を、主格キーワード抽出手段14へ送る。未処理の回答文章IDがなくなったので(S52、NO)、処理を終了する。   Next, the process of S52-S56 is performed about the sentence of reply sentence ID35, and since a condition pattern does not exist in the morphological analysis result 66 (S56, NO), the morphological analysis result 66 is sent to the main keyword extraction means 14. . Since there is no unprocessed answer sentence ID (S52, NO), the process is terminated.

条件キーワード抽出手段13は、条件パターン判定手段12から、条件パターンを含む形態素解析結果の文と、条件パターンに一致する箇所(検出された条件パターン)を示す情報とを受け取り、条件パターンに一致する箇所の前方に存在するキーワードを、条件キーワードとして抽出する。   The condition keyword extraction unit 13 receives from the condition pattern determination unit 12 a morphological analysis result sentence including the condition pattern and information indicating a location (detected condition pattern) that matches the condition pattern, and matches the condition pattern. A keyword existing in front of the location is extracted as a condition keyword.

条件キーワードを抽出する方法として、次の[方法1]〜[方法3]が考えられる。
[方法1]検出された条件パターンに最も近い前方の名詞を、条件キーワードとして抽出する方法、
[方法2]検出された条件パターンを含む文節から、条件パターンを除いた語句を、条件キーワードとして抽出する方法、
[方法3]上記[方法2]において、検出された条件パターンを含む文節に係る文節を、N個追加したものを、条件キーワードとして抽出する方法。
The following [Method 1] to [Method 3] can be considered as methods for extracting the condition keyword.
[Method 1] A method of extracting a forward noun closest to the detected condition pattern as a condition keyword,
[Method 2] A method of extracting a word / phrase excluding a condition pattern from a clause including the detected condition pattern as a condition keyword,
[Method 3] A method of extracting, as a condition keyword, an addition of N clauses related to the clause including the detected condition pattern in [Method 2] above.

上記[方法3]における整数値Nを、予め設定するようにしてもよく、利用者が設定できるようにしてもよい。   The integer value N in [Method 3] may be set in advance or may be set by the user.

図7は、実施例1において、条件キーワード抽出手段13が抽出した係り受け解析した結果の例を示す図である。   FIG. 7 is a diagram illustrating an example of a result of dependency analysis extracted by the conditional keyword extraction unit 13 in the first embodiment.

つまり、図7は、回答文章ID34の文章の文番号1の形態素解析結果62を、係り受け解析した結果71と、文番号2の形態素解析結果64を、係り受け解析した結果72とを示す図である。係り受け解析した結果71において、上記[方法1]では、「大人」が、条件キーワードとして抽出され、上記[方法2]では、「大人だけ」が、条件キーワードとして抽出され、上記[方法3]では、「大人だけなら」に係る文節が存在しないので、「大人だけ」が、条件キーワードとして抽出される。   That is, FIG. 7 is a diagram showing a result 71 of dependency analysis of the morphological analysis result 62 of the sentence number 1 of the answer sentence ID 34 and a result 72 of dependency analysis of the morphological analysis result 64 of the sentence number 2. It is. In the result 71 of the dependency analysis, “adult” is extracted as a conditional keyword in [Method 1], and “adult only” is extracted as a conditional keyword in [Method 2]. Then, since there is no clause related to “if only adults”, “only adults” is extracted as a conditional keyword.

係り受け解析した結果72において、上記[方法1]では、「一緒」が、条件キーワードとして抽出され、上記[方法2]でも、「一緒」が、条件キーワードとして抽出され、上記[方法3]では、条件パターンを含む文節に係る文節の数N=1であれば、「子供が一緒」が、条件キーワードとして抽出される。抽出された条件キーワードは、抽出された回答文章IDと文番号とに対応付けられ、分類キーワード判定手段15へ渡される。   In the result 72 of the dependency analysis, “together” is extracted as a condition keyword in the above [Method 1], and “together” is extracted as a condition keyword in the above [Method 2], and in the above [Method 3]. If the number of clauses related to the clause including the condition pattern is N = 1, “children together” is extracted as the condition keyword. The extracted condition keyword is associated with the extracted answer sentence ID and sentence number, and passed to the classification keyword determining means 15.

主格キーワード抽出手段14は、条件パターン判定手段12から、条件パターンを含まないと判定された文を受け取り、係り受け解析を行う。この解析結果中に、主格となる文節が存在するかどうかを調べ、主格となる文節が存在すれば、主格となる文節に含まれているキーワード(名詞句)を、「主格キーワード」として抽出する。本発明では、主格となる文節として、ハ格「OOは」を抽出する。ハ格「○○は」は、動作主体となる場合もあるが、名詞句「○○」について説明する場合にも用いられる。このために、回答文書の中で、名詞句「○○」の説明をしている箇所は、質問者にとって有益な情報となる可能性があると考え、ハ格「○○は」を抽出することとする。   The main keyword extraction unit 14 receives from the condition pattern determination unit 12 a sentence determined not to include the condition pattern, and performs dependency analysis. In this analysis result, it is checked whether there is a main phrase, and if there is a main phrase, the keywords (noun phrases) included in the main phrase are extracted as “main keywords”. . In the present invention, the case “OO is” is extracted as the main phrase. The case “XX is” may be an action subject, but is also used to describe the noun phrase “XX”. For this reason, the part that explains the noun phrase “XX” in the answer document is considered to be useful information for the questioner, and the case “XX” is extracted. I will do it.

主格キーワードとして、ハ格の名詞句部分「○○」だけを抽出する場合と、条件キーワードを抽出する場合における上記[方法3]のように、主格となる文節に係る文節を、N個追加したものを、主格キーワードとして抽出するようにしてもよい。   As the main keyword, N clauses related to the main clause were added as in [Method 3] above when extracting only the noun phrase part “XX” of the C case and when extracting the conditional keyword. You may make it extract a thing as a main keyword.

図8は、主格キーワード抽出手段14の動作を示す図である。   FIG. 8 is a diagram illustrating the operation of the main keyword extracting unit 14.

図8(1)は、たとえば、回答文章ID33、35の文が、主格キーワード抽出部14に入力された場合、回答文章ID33を、係り受け解析した結果を示す図である。図8(2)は、回答文章ID35の文を、係り受け解析した結果を示す図である。   FIG. 8A is a diagram showing a result of dependency analysis of the answer sentence ID 33 when, for example, sentences with the answer sentence IDs 33 and 35 are input to the main keyword extracting unit 14. FIG. 8B is a diagram illustrating the result of dependency analysis of the sentence with the answer sentence ID 35.

図8(1)に示す例において、主格となる文節は、「傘は」であり、この文節から、名詞「傘」を、主格キーワードとして抽出する。これと同様に、図8(2)に示す例において、主格となる文節は、「大人は」であり、この文節から名詞「大人」を、主格キーワードとして抽出する。抽出された主格キーワード「傘」、「大人」を、それぞれ回答文章IDと文番号とを対応付け、「分類キーワード」として分類キーワード判定手段15へ送る。なお、分類キーワードと回答文章IDと文番号を対応づけて分類キーワード判定手段15へ送るのであり、回答文章IDと文番号が分類キーワードに含まれるわけではない。   In the example shown in FIG. 8A, the phrase that becomes the main phrase is “umbrella is”, and the noun “umbrella” is extracted as the main keyword from this phrase. Similarly, in the example shown in FIG. 8 (2), the phrase that is the main phrase is “adult is”, and the noun “adult” is extracted from this phrase as the main keyword. The extracted main character keywords “umbrella” and “adult” are respectively associated with the answer sentence ID and the sentence number and sent to the classification keyword determination means 15 as “classification keyword”. Note that the classification keyword, the answer sentence ID, and the sentence number are associated with each other and sent to the classification keyword determination unit 15, and the answer sentence ID and the sentence number are not included in the classification keyword.

分類キーワード判定手段15は、条件キーワード抽出手段13が抽出した条件キーワードと回答文章IDと文番号、主格キーワード抽出手段14が抽出した主格キーワードと回答文章IDと文番号を入力し、キーワード毎に、後述の式(1)、式(2)に示す条件を満たすかどうかを判定し、この予め設定された条件を満たすキーワードを、分類キーワードとして出力する。   The classification keyword determination means 15 inputs the condition keyword, answer sentence ID and sentence number extracted by the condition keyword extraction means 13, and the main keyword, answer sentence ID and sentence number extracted by the main keyword extraction means 14, and for each keyword, It is determined whether or not the conditions shown in the following expressions (1) and (2) are satisfied, and the keywords that satisfy the preset conditions are output as classification keywords.

つまり、上記「分類キーワード」は、条件キーワードと、主格キーワードとが、予め設定された条件を満たすキーワードである。   That is, the “classification keyword” is a keyword in which the condition keyword and the main keyword satisfy a preset condition.

上記予め設定された条件は、キーワードwが条件キーワードとして出現する回数である出現回数X(w)と、キーワードwが主格キーワードとして出現する回数である出現回数Y(w)とに応じた条件である。たとえば、次の式(1)を条件とし、判定式F(w)を求める。   The preset condition is a condition according to the number of appearances X (w) that is the number of times that the keyword w appears as a conditional keyword and the number of appearances Y (w) that is the number of times that the keyword w appears as a main keyword. is there. For example, the following formula (1) is used as a condition to determine the determination formula F (w).

F(w)=αX(w)+(1一α)Y(w)…式(1)
F(w)≧th…式(2)
ここで、0≦α≦1であり、αを1に近い値に設定すると、上記式(1)は、条件キーワードとしての出現回数が多いキーワードほど、高い値になる。さらに、上記式(2)によって、予め設定された閾値th以上の値をとるキーワードのみを、分類キーワードとして判定することができる。
F (w) = αX (w) + (1 1α) Y (w) (1)
F (w) ≧ th (2)
Here, when 0 ≦ α ≦ 1 and α is set to a value close to 1, the above formula (1) becomes a higher value for a keyword having a larger number of appearances as a conditional keyword. Furthermore, according to the above formula (2), only keywords having a value equal to or greater than a preset threshold th can be determined as classification keywords.

出現回数を集計するときに、厳密に一致するキーワードだけを、出現回数としてカウントする場合と、一部が一致する場合(部分一致)も、出現回数としてカウントする場合とが考えられる。以下では、部分一致した場合に出現回数としてカウントする場合について説明する。   When counting up the number of appearances, only the keywords that exactly match are counted as the number of appearances, and when they partially match (partial match), they may be counted as the number of appearances. Below, the case where it counts as the frequency | count of appearance when it corresponds partially is demonstrated.

図9は、分類キーワード判定手段15の動作の説明図である。   FIG. 9 is an explanatory diagram of the operation of the classification keyword determination unit 15.

たとえば、条件キーワード抽出手段において「大人だけ」「小さな子供」の2語が抽出され、主格キーワード抽出手段14において「傘」「大人」の2語が主格キーワードとして抽出された場合について考える。   For example, let us consider a case where two words “only adult” and “small child” are extracted by the conditional keyword extracting means, and two words “umbrella” and “adult” are extracted as the main keywords by the main keyword extracting means 14.

条件キーワード情報91は、1行に「条件キーワード 回答文章ID 文番号」の順にスペース区切りで記載されている。主格キーワード情報92は、1行に「主格キーワード 回答文章ID 文番号」の順にスペース区切りで記載されている。   The condition keyword information 91 is described in one line in the order of “condition keyword answer sentence ID sentence number”, separated by spaces. The main character keyword information 92 is described in one line in the order of “main character keyword answer sentence ID sentence number” in a space delimiter.

図10は、分類キーワード判定手段15の動作を示すフローチャートである。   FIG. 10 is a flowchart showing the operation of the classification keyword determination means 15.

分類キーワード判定手段15は、分類キーワード候補を選ぶ(S101)。分類キーワード候補は、入力された条件キーワードと主格キーワードとの中から、重複を除去したキーワードの集合である。   The classification keyword determination means 15 selects a classification keyword candidate (S101). The classification keyword candidates are a set of keywords from which duplicates are removed from the input condition keywords and main keywords.

集計結果93における分類キーワード候補の列に記載する4種類が選ばれる。次に、未処理の分類キーワード候補が存在すれば(S102、YES)、分類キーワード候補を1つ選択し、この分類キーワード候補の条件キーワード出現回数と主格キーワード出現回数とを0に初期化する(S103)。   Four types described in the classification keyword candidate column in the total result 93 are selected. Next, if there is an unprocessed classification keyword candidate (S102, YES), one classification keyword candidate is selected, and the condition keyword appearance count and the main keyword appearance count of this classification keyword candidate are initialized to 0 ( S103).

次に、入力された条件キーワードを、1つずつ「比較キーワード」として選択し、この選択された比較キーワードを、分類キーワード候補と比較する。なお、分類キーワード候補と比較する条件キーワードを、便宜上、「比較キーワード」と表現する。   Next, the inputted condition keywords are selected one by one as “comparison keywords”, and the selected comparison keywords are compared with classification keyword candidates. For convenience, the condition keyword to be compared with the classification keyword candidate is expressed as “comparison keyword”.

未処理の条件キーワードが存在すれば(S104)、未処理の条件キーワードを、比較キーワードとして、1つ選択し、分類キーワード候補と比較する(S105)。   If there is an unprocessed conditional keyword (S104), one unprocessed conditional keyword is selected as a comparison keyword and compared with a classification keyword candidate (S105).

この比較の結果、完全一致の場合、または分類キーワード候補に比較キーワードを含む場合(部分一致の場合)には(S106、YES)、条件キーワード出現回数を1増やす(S107)。これ以外の場合は(S106、NO)、S104に戻り、未処理の条件キーワードがなくなるまで、S104〜S107の処理を実行する。未処理の条件キーワードがなくなれば(S104、NO)、主格キーワード似ついて比較する処理に移行する。   As a result of this comparison, if the comparison keyword is a complete match or the classification keyword candidate includes a comparison keyword (partial match) (S106, YES), the condition keyword appearance count is incremented by 1 (S107). In other cases (S106, NO), the process returns to S104, and the processes of S104 to S107 are executed until there is no unprocessed conditional keyword. If there is no unprocessed conditional keyword (S104, NO), the process proceeds to a process of comparing the main keyword similarities.

未処理の主格キーワードが存在すれば(S108、YES)、未処理の主格キーワードを、比較キーワードとして、1つ選択し、分類キーワード候輔と比較する(S109)。この比較の結果、完全一致である場合、または分類キーワード候補に比較キーワードを含む場合(部分一致の場合)には(S110、YES)、主格キーワード出現回数を、1増やす(S111)。これ以外の場合(S110、NO)、S108に戻り、未処理の主格キーワードがなくなるまで、S108〜S111の処理を実行する。   If there is an unprocessed main keyword (S108, YES), one unprocessed main keyword is selected as a comparison keyword and compared with the classified keyword Kyosuke (S109). As a result of this comparison, if the comparison keyword is a complete match, or if the comparison keyword is included in the classification keyword candidate (partial match) (S110, YES), the number of appearances of the main keyword is increased by 1 (S111). In other cases (S110, NO), the process returns to S108, and the processes of S108 to S111 are executed until there is no unprocessed main keyword.

未処理の主格キーワードがなくなると(S108、NO)、次の分類キーワード候補の比較処理に移行する。未処理のキーワードを選択し、条件キーワード出現回数と主格キーワード出現回数とをカウントする処理(S102〜S111)を、分類キーワード候補の全てについて実行し、処理を終了する。   When there is no unprocessed main keyword (S108, NO), the process proceeds to the comparison processing of the next classification keyword candidate. A process (S102 to S111) of selecting an unprocessed keyword and counting the number of appearances of the condition keyword and the number of appearances of the main keyword is executed for all the classified keyword candidates, and the process ends.

上記比較によって、図9に示す集計結果93を得ることができる。   By the above comparison, the total result 93 shown in FIG. 9 can be obtained.

図9に示す条件キーワード情報91と、主格キーワード情報92との例では、まず、分類キーワード候補「大人だけ」を選択し(S102)、入力された条件キーワードと比較する。条件キーワード「大人だけ」を選択し、比較すると(S105)、完全一致するので、条件キーワード出現回数を、1増やす(S107)。   In the example of the condition keyword information 91 and the main character keyword information 92 shown in FIG. 9, first, the classification keyword candidate “adult only” is selected (S102) and compared with the input condition keyword. When the condition keyword “adult only” is selected and compared (S105), the condition keyword appearance count is incremented by 1 (S107) because it matches completely.

次に、条件キーワード「小さな子供」と比較するが、S106の条件を満たさないので、未処理の条件キーワードが存在するかどうかを調べる(S104)。未処理の条件キーワードが存在しなければ(S104、NO)、主格キーワードとの比較処理を実行する。未処理の主格キーワード「傘」を選択し、分類キーワード候補「大人だけ」と比較する(S109)。この比較の結果、完全一致または部分一致であるというS110の条件を満たさないので、処理S108に戻る。未処理の主格キーワード「大人」が存在するので、「大人」を選択し、分類キーワード候補「大人だけ」と比較する(S109)。   Next, although it is compared with the condition keyword “small child”, since the condition of S106 is not satisfied, it is checked whether or not an unprocessed condition keyword exists (S104). If there is no unprocessed condition keyword (S104, NO), a comparison process with the main keyword is executed. The unprocessed main keyword “umbrella” is selected and compared with the classification keyword candidate “adult only” (S109). As a result of the comparison, the condition of S110 that is a complete match or a partial match is not satisfied, and the process returns to S108. Since there is an unprocessed main keyword “adult”, “adult” is selected and compared with the classification keyword candidate “adult only” (S109).

分類キーワード候補「大人だけ」に、上記比較キーワード「大人」が含まれているので、主格キーワード出現回数を、1増やす。未処理の主格キーワードが無くなるので(S108、NO)、未処理の分類キーワード候補「小さな子供」を選択し(S103)、(S104〜S111)の処理を実行する。この結果、分類キーワード候補「小さな子供」について、条件キーワード出現回数が、1増え、1になり、分類キーワード侯補「傘」について、主格キーワード出現回数が1増え、1になる。   Since the comparison keyword “adult” is included in the classification keyword candidate “adult only”, the number of appearances of the main keyword is increased by one. Since there is no unprocessed main keyword (S108, NO), an unprocessed classification keyword candidate “small child” is selected (S103), and the processes of (S104 to S111) are executed. As a result, the condition keyword appearance count increases by 1 for the classification keyword candidate “small child” to 1, and the main keyword appearance count increases by 1 for the classification keyword supplement “umbrella”.

また、分類キーワード侯補「大人」と、条件キーワード「大人だけ」とを比較すると、部分一致はするが、「大人」に「大人だけ」が含まれていないので、条件キーワード出現回数をカウントすることができない。分類キーワード侯補「大人」と、主格キーワード「大人」とを比較すると、完全一致するので、主格キーワード出現回数を、1増やし、1とする。このように処理した結果、図9に示す集計結果93を得ることができる。   In addition, comparing the classification keyword supplement “Adult” with the condition keyword “Adult only”, there is a partial match, but “Adult only” is not included in “Adult”, so the number of occurrences of the condition keyword is counted. I can't. When the classification keyword supplement “adult” and the main keyword “adult” are compared with each other, they match completely. As a result of processing in this way, a total result 93 shown in FIG. 9 can be obtained.

実施例1では、分類キーワード候補と比較キーワードとが部分一致である場合にも、出現回数をカウントするが、完全一致する場合にのみ、カウントするようにしてもよい。   In the first embodiment, the number of appearances is counted even when the classification keyword candidate and the comparison keyword are partially matched, but may be counted only when they are completely matched.

このようにして求めた条件キーワード出現回数と主格出現回数とが所定の条件を満たすキーワードを、分類キーワードとして判定する。上記所定の条件は、たとえば、上記式(1)、式(2)に示す条件である。   A keyword that satisfies the predetermined condition for the number of appearances of the conditional keyword and the number of appearances of the main character thus determined is determined as a classification keyword. The predetermined condition is, for example, a condition shown in the above expressions (1) and (2).

上記式(1)、式(2)において、α=0.8、th=1であるとした場合、各キーワードについての式(1)の値は、以下のようになり、「大人だけ」が、分類キーワードとして抽出される。   In the above formulas (1) and (2), when α = 0.8 and th = 1, the value of formula (1) for each keyword is as follows, and “only adult” is , Extracted as a classification keyword.

f(大人だけ)=0.8*1+0.2*1=1.0
f(小さな子供)=0.8*1=0.8
f(傘)=0.2*1=0.2
f(大人)=0.2*1=0.2
f (Adult only) = 0.8 * 1 + 0.2 * 1 = 1.0
f (small child) = 0.8 * 1 = 0.8
f (umbrella) = 0.2 * 1 = 0.2
f (adult) = 0.2 * 1 = 0.2

実施例1では、説明を簡単にするために、3つの回答文書から、分類キーワードを求めているが、本来、大量の回答文書を入力し、分類キーワードを求める。このために、式(2)の閾値thの値によっては、多くのキーワードが分類キーワードとして判定されることがある。この場合、式(1)の値の上位何件等のように、件数による条件を追加することによって、分類キーワードを判定するようにしてもよい。   In the first embodiment, for easy explanation, classification keywords are obtained from three answer documents. Originally, a large number of answer documents are input to obtain classification keywords. For this reason, depending on the value of the threshold value th in Equation (2), many keywords may be determined as classification keywords. In this case, the classification keyword may be determined by adding a condition based on the number of cases, such as the top number of values of the expression (1).

分類キーワード判定手段15は、分類キーワードと、このキーワードを含む回答文章IDと、文番号の情報とを組みにして、テキスト出力手段40に送る。   The classification keyword determination unit 15 sends the classification keyword, the answer sentence ID including the keyword, and the sentence number information to the text output unit 40 in combination.

テキスト出力手段40は、分類キーワード判定手段15が出力した分類キーワードを入力し、分類キーワード毎に、回答文書を分類して出力する。分類キーワードとなるキーワード抽出の処理を、文単位に行うので、出力も文単位で行う例について説明する。   The text output means 40 receives the classification keyword output by the classification keyword determination means 15 and classifies and outputs the answer document for each classification keyword. Since the process of extracting keywords that are classification keywords is performed in units of sentences, an example in which output is also performed in units of sentences will be described.

入力として受け取ったキーワードと、このキーワードを含む回答文章IDと、文番号の情報都に基づいて、質問・回答文書蓄積手段30から、該当する文を検索して取得し、分類キーワード毎に、文の集合を生成する。分類キーワードとこのキーワードを含む文の集合とを一度に出力してもよく、まず、分類キーワードだけを表示し、利用者が選択した分類キーワードを含む文の集合を表示するようにしてもよい。   Based on the keyword received as input, the answer sentence ID including this keyword, and the information capital of the sentence number, the corresponding sentence is retrieved and acquired from the question / answer document accumulating means 30. Generate a set of A classification keyword and a set of sentences including the keyword may be output at a time. First, only the classification keyword may be displayed, and a set of sentences including the classification keyword selected by the user may be displayed.

つまり、回答文書分類装置100は、質問文書に対する回答文書を、グループを代表するキーワードである分類キーワードを含むグループ毎に分類する回答文書分類装置である。   That is, the answer document classification apparatus 100 is an answer document classification apparatus that classifies the answer document for the question document for each group including a classification keyword that is a keyword representing the group.

条件パターン蓄積手段11は、単語と品詞との組み合わせによって構成されているパターンであって、所定の条件を示すパターンである条件パターンを蓄積している条件パターン蓄積手段の例である。条件パターン判定手段12は、入力テキスト集合に含まれている文が、上記条件パターン蓄積手段に蓄積されている条件パターンを含んでいるか否かを判定する条件パターン判定手段の例である。条件キーワード抽出手段14は、上記条件パターンを含んでいれば、上記条件パターンの前方に配置されている単語の配列である条件キーワードを抽出する条件キーワード抽出手段の例である。主格キーワード抽出手段14は、上記条件パターンを含んでいなければ、主格になる文節に含まれている単語である主格キーワードを抽出する主格キーワード抽出手段の例である。   The condition pattern accumulating unit 11 is an example of a condition pattern accumulating unit that is configured by a combination of a word and a part of speech and that accumulates a condition pattern that is a pattern indicating a predetermined condition. The condition pattern determination unit 12 is an example of a condition pattern determination unit that determines whether a sentence included in the input text set includes a condition pattern stored in the condition pattern storage unit. The conditional keyword extracting unit 14 is an example of a conditional keyword extracting unit that extracts a conditional keyword that is an array of words arranged in front of the conditional pattern if the conditional pattern is included. The main keyword extracting means 14 is an example of a main keyword extracting means for extracting a main keyword, which is a word included in a phrase that becomes the main sentence, if the condition pattern is not included.

また、分類キーワード判定手段15は、上記条件キーワードおよび上記主格キーワードに含まれるキーワード毎に、着目しているキーワードが上記条件キーワードとして出現する回数である出現回数と、上記主格キーワードとして出現する回数である出現回数とを集計し、上記条件キーワードの出現回数と上記主格キーワードの出現回数とが所定の条件を満たす場合に、上記着目しているキーワードを分類キーワードであると判定する分類キーワード判定手段の例である。   In addition, the classification keyword determination unit 15 determines, for each keyword included in the conditional keyword and the main keyword, the number of appearances that is the number of times that the focused keyword appears as the conditional keyword and the number of times that the keyword appears as the main keyword. A classification keyword determining unit that counts a certain number of appearances and determines that the keyword of interest is a classification keyword when the number of appearances of the conditional keyword and the number of appearances of the main keyword satisfy a predetermined condition; It is an example.

図11は、本発明の実施例2である回答文書分類装置200を示すブロック図である。   FIG. 11 is a block diagram showing an answer document classification apparatus 200 that is Embodiment 2 of the present invention.

回答文書分類装置200は、条件キーワード抽出手段16と、主格キーワード抽出手段17とが抽出した分類キーワード候補を、分類キーワード候補蓄積手段18に蓄積し、利用者からの検索要求に応じて、検索結果に含まれている回答文章IDを持つ文における分類キーワード候補を、分類キーワード蓄積手段18から取得し、各分類キーワード候補の条件キーワード出現回数と主格キーワード出現回数とを集計し、分類キーワードを判定する装置である。   The answer document classification apparatus 200 accumulates the classification keyword candidates extracted by the conditional keyword extraction unit 16 and the main keyword extraction unit 17 in the classification keyword candidate accumulation unit 18, and the search result according to the search request from the user. The classification keyword candidates in the sentence having the answer sentence ID included in the are acquired from the classification keyword storage means 18, the condition keyword appearance count and the main keyword appearance count of each classification keyword candidate are aggregated, and the classification keyword is determined. Device.

つまり、回答文書分類装置200は、テキスト入力手段21とテキスト出力手段40とに、接続され、条件パターン蓄積手段11と、条件パターン判定手段12と、条件キーワード抽出手段16と、主格キーワード抽出手段17と、分類キーワード候補蓄積手段18と、分類キーワード判定手段19とを有する。なお、実施例1における構成要素と同一の構成要素には、同一符号を付してある。   In other words, the answer document classification device 200 is connected to the text input means 21 and the text output means 40, and the condition pattern storage means 11, the condition pattern determination means 12, the condition keyword extraction means 16, and the main character keyword extraction means 17. And classified keyword candidate accumulating means 18 and classified keyword determining means 19. In addition, the same code | symbol is attached | subjected to the component same as the component in Example 1. FIG.

テキスト入力手段21は、質問・回答文書蓄積手段30に蓄積されている未処理の回答文書を定期的に取得し、条件パターン判定手段12に送る。   The text input means 21 periodically acquires unprocessed answer documents stored in the question / answer document storage means 30 and sends them to the condition pattern determination means 12.

条件パターン判定手段12と条件パターン蓄積手段11とは、実施例1の構成と同じであるので、その説明を省略する。   The condition pattern determination unit 12 and the condition pattern storage unit 11 are the same as those in the first embodiment, and thus the description thereof is omitted.

条件キーワード抽出手段16は、条件パターン判定手段12から条件パターンを含む形態素解析結果の文と、条件パターンに一致する箇所とを受け取り、条件パターンに一致する箇所の前方に存在するキーワードを、条件キーワードとして抽出し、記憶装置に記憶する。   The condition keyword extraction unit 16 receives the sentence of the morpheme analysis result including the condition pattern and the part that matches the condition pattern from the condition pattern determination unit 12, and selects the keyword that exists in front of the part that matches the condition pattern as the condition keyword. Are extracted and stored in the storage device.

実施例1において、抽出した条件キーワードに、回答文章IDと文番号とを対応付けて分類キーワード判定手段15へ渡したが、実施例2では、入力された形態素解析結果に、条件キーワードを示す記号を追加し、分類キーワード侯補蓄積手段18に記録する。なお、上記のように、入力された形態素解析結果に、条件キーワードを示す記号を追加する理由は、条件キーワードを明示するためである。   In the first embodiment, an answer sentence ID and a sentence number are associated with the extracted condition keyword and passed to the classification keyword determining unit 15. In the second embodiment, a symbol indicating the condition keyword is included in the input morphological analysis result. And is recorded in the classification keyword supplement storage means 18. As described above, the reason for adding the symbol indicating the condition keyword to the input morpheme analysis result is to clearly indicate the condition keyword.

図12は、実施例2における分類キーワード蓄積手段18の蓄積例を示す図である。   FIG. 12 is a diagram illustrating an accumulation example of the classification keyword accumulation unit 18 according to the second embodiment.

条件キーワードを示す記号122、123は、分類キーワード候補蓄積手段18に蓄積されている分類キーワード候補が条件キーワードであることを示す記号であり、分類キーワード候補の行末に、記号「X」が付与されている。記号「X」が複数行に渡って付与されていれば、単語ではなく文節が抽出されていることを示す。   Symbols 122 and 123 indicating condition keywords are symbols indicating that the classification keyword candidates stored in the classification keyword candidate storage unit 18 are condition keywords, and a symbol “X” is added to the end of the classification keyword candidate line. ing. If the symbol “X” is given across a plurality of lines, it indicates that a phrase is extracted instead of a word.

主格キーワード抽出手段17は、条件パターン判定手段12から、条件パターンを含まないと判定された文を受け取り、係り受け解析を行い、この解析結果から、文の中に主格となる文節が存在するかどうかを調べ、存在すれば、主格となる文節に含まれているキーワード(単語、名詞、名詞句)を、主格キーワードとして抽出し、記憶装置に記憶する。   The main keyword extracting unit 17 receives a sentence determined not to include the condition pattern from the condition pattern determining unit 12, performs dependency analysis, and based on the result of the analysis, whether there is a main phrase in the sentence. If it exists, the keywords (words, nouns, noun phrases) included in the main phrase are extracted as main keywords and stored in the storage device.

実施例1において、抽出した主格キーワードに、回答文章IDと文番号とを対応付け、分類キーワード判定手段15へ渡したが、実施例2では、入力された形態素解析結果に、主格キーワードを示す記号を追加し、分類キーワード候補蓄積手段18に記録する。主格キーワードを示す記号121、124は、分類キーワード候補蓄積手段18に蓄積されている分類キーワードが主格キーワードであることを示す記号であり、分類キーワード候補の行末に、記号Yが付与されている。   In the first embodiment, an answer sentence ID and a sentence number are associated with the extracted main keyword and passed to the classification keyword determining unit 15. In the second embodiment, a symbol indicating the main keyword is included in the input morphological analysis result. And is recorded in the classification keyword candidate accumulating means 18. Symbols 121 and 124 indicating the main keyword are symbols indicating that the classification keyword stored in the classification keyword candidate storage unit 18 is a main keyword, and a symbol Y is given to the end of the classification keyword candidate line.

テキスト入力手段21において、処理を定期的に実行する度に、条件パターン判定手段12、条件キーワード抽出手段16、主格キーワード抽出手段17が処理し、分類キーワード候補蓄積手段18に、分類キーワード候補を含む文を蓄積する。   In the text input means 21, the condition pattern determination means 12, the condition keyword extraction means 16, and the main keyword extraction means 17 process each time the processing is periodically executed, and the classification keyword candidate storage means 18 includes the classification keyword candidates. Accumulate sentences.

次に、利用者が、キーワード検索手段50に検索キーワードを入力すると、キーワード検索手段50は、質問・回答文書蓄積手段30を検索し、検索キーワードを含む質問文書について回答している回答文書の集合を取得する。取得した回答文書集合の回答文章IDの集合を、分類キーワード判定手段19に渡す。   Next, when the user inputs a search keyword to the keyword search means 50, the keyword search means 50 searches the question / answer document storage means 30 and a set of answer documents that answer the question document including the search keyword. To get. A set of answer text IDs of the acquired answer document set is passed to the classification keyword determination means 19.

分類キーワード判定手段19は、処理対象となるキーワード検索手段50から、回答文章IDを受け取ると、回答文章IDが一致する文を、分類キーワード候補蓄積手段18から取得する。各文から、条件キーワードまたは主格キーワードを取得し、「条件キーワード 回答文章ID 文番号」の組からなる条件キーワード情報91の集合と、「主格キーワード 回答文章ID 文番号」の組からなる主格キーワード情報92の集合とを取得し、図10に示す分類キーワード判定処理を実行し、分類キーワードを判定する。判定した結果、分類キーワードと、このキーワードを含む回答文章IDと、文番号の情報とを組みにして、テキスト出力手段40に送る。   When the classification keyword determination unit 19 receives the answer sentence ID from the keyword search unit 50 to be processed, the classification keyword determination unit 19 acquires a sentence with the same answer sentence ID from the classification keyword candidate accumulation unit 18. Condition keywords or main keywords are acquired from each sentence, and main keyword information consisting of a set of condition keyword information 91 consisting of a set of “condition keyword answer sentence ID sentence number” and a set of “main keyword answer text ID sentence number”. 92 sets are acquired, and the classification keyword determination process shown in FIG. 10 is executed to determine the classification keyword. As a result of the determination, the classification keyword, the answer sentence ID including the keyword, and the sentence number information are combined and sent to the text output means 40.

実施例1では、テキスト入力手段20から、回答文章IDが与えられてから、分類キーワードを出力するまでに、形態素解析処理、係り受け処理、分類キーワード判定処理の時間を加算した処理時間が必要である。これらの処理は、文章数に比例する処理であるので、従来技術で説明したクラスタリング処理(文章数の2乗に比例する)に比較すれば高速である。   In the first embodiment, the processing time is required to add the time of the morphological analysis process, the dependency process, and the classification keyword determination process until the classification keyword is output after the answer sentence ID is given from the text input unit 20. is there. Since these processes are processes proportional to the number of sentences, they are faster than the clustering process described in the prior art (proportional to the square of the number of sentences).

実施例2では、分類キーワード候補蓄積手段18が、分類キーワード候補を予め抽出して蓄積するので、分類キーワード判定処理のみの時間で、分類キーワードを出力することができ、大変高速である。   In the second embodiment, the classification keyword candidate accumulating unit 18 extracts and accumulates the classification keyword candidates in advance, so that the classification keyword can be output in only the classification keyword determination processing time, which is very fast.

分類キーワード候補蓄積手段18は、回答文書の文章毎に、条件キーワードであることを示す情報または主格キーワードであることを示す情報が追加されている解析結果と、回答文書を一意に示す回答文章IDとを対応付けた分類キーワード候補を蓄積する分類キーワード候補蓄積手段の例である。   The classification keyword candidate accumulating unit 18 adds an analysis result in which information indicating that it is a condition keyword or information indicating that it is a main keyword is added to each sentence of the answer document, and an answer sentence ID that uniquely indicates the answer document. This is an example of classified keyword candidate accumulation means for accumulating classified keyword candidates associated with.

分類キーワード判定手段19は、回答文章IDが複数与えられた際に、回答文章IDに該当する回答文書の解析結果の集合を、上記分類キーワード侯補蓄積手段から取得し、上記解析結果の集合に含まれている条件キーワードおよび主格キーワードに含まれるキーワード毎に、着目しているキーワードが上記条件キーワードとして出現する回数である出現回数と、上記主格キーワードとして出現する回数である出現回数とを集計し、上記条件キーワードの出現回数と上記主格キーワードの出現回数とが所定の条件を満たす場合に、上記着目しているキーワードを分類キーワードであると判定する分類キーワード判定手段の例である。   When a plurality of response sentence IDs are given, the classification keyword determination unit 19 acquires a set of analysis results of the answer document corresponding to the response sentence ID from the classification keyword complement accumulation unit, and adds the analysis result set to the set of analysis results. For each keyword included in the condition keyword and the main keyword included, the number of appearances, which is the number of times the keyword of interest appears as the condition keyword, and the number of appearances, the number of appearances as the main keyword, are tabulated. This is an example of a classification keyword determination unit that determines that the keyword of interest is a classification keyword when the number of appearances of the conditional keyword and the number of appearances of the main keyword satisfy a predetermined condition.

また、上記実施例において、上記条件キーワード抽出手段は、上記条件パターンを含む文節から、条件パターンを除いた語句に、条件パターンを含む文節へ係る0個以上の文節を追加した語句を、条件キーワードとして抽出する手段である。また、上記主格キーワード抽出手段は、主格になる文節に含まれている名詞句に、主格になる文節へ係る0個以上の文節を追加した語句を、上記条件キーワードとして抽出する手段である。そして、上記分類キーワード判定手段は、上記条件キーワードとしての出現回数が多いほど、上記分類キーワードとして判定され易くなる条件を用いて、上記分類キーワードを判定する手段である。   Further, in the above embodiment, the conditional keyword extracting means adds a phrase obtained by adding zero or more phrases related to the phrase including the condition pattern to the phrase excluding the condition pattern from the phrase including the condition pattern. As a means of extraction. The main keyword extracting means is means for extracting, as the conditional keyword, a phrase obtained by adding zero or more phrases related to the main phrase to the noun phrase included in the main phrase. And the said classification keyword determination means is a means to determine the said classification keyword using the conditions which become easy to determine as the said classification keyword, so that there are many appearance frequency as the said conditional keyword.

上記実施例において、手段を工程に置き換えれば、上記実施例を方法の発明として把握することができる。つまり、上記実施例は、質問文書に対する回答文書を、グループを代表するキーワードである分類キーワードを含むグループ毎に分類する回答文書分類方法において、単語と品詞との組み合わせによって構成されているパターンであって、所定の条件を示すパターンである条件パターンが蓄積されている条件パターン蓄積手段に蓄積されている条件パターンを、入力テキスト集合に含まれている文が含んでいるか否かを、条件パターン判定手段が判定し、記憶装置に記憶する条件パターン判定工程と、上記条件パターンを含んでいれば、上記条件パターンの前方に配置されている単語の配列である条件キーワードを、条件キーワード抽出手段が抽出し、記憶装置に記憶する条件キーワード抽出工程と、上記条件パターンを含んでいなければ、主格になる文節に含まれている単語である主格キーワードを、主格キーワード抽出手段が抽出し、記憶装置に記憶する主格キーワード抽出工程と、上記条件キーワードおよび上記主格キーワードに含まれるキーワード毎に、着目しているキーワードが上記条件キーワードとして出現する回数である出現回数と、上記主格キーワードとして出現する回数である出現回数とを集計し、上記条件キーワードの出現回数と上記主格キーワードの出現回数とが所定の条件を満たす場合に、上記着目しているキーワードを分類キーワードであると、分類キーワード判定手段が判定し、記憶装置に記憶する分類キーワード判定工程とを有する回答文書分類方法の例である。   In the above embodiment, if the means is replaced with a process, the above embodiment can be grasped as a method invention. That is, the above embodiment is a pattern composed of combinations of words and parts of speech in an answer document classification method for classifying answer documents for a question document into groups each including a classification keyword that is a keyword representing the group. A condition pattern determination is made as to whether or not a sentence included in the input text set includes a condition pattern stored in a condition pattern storage means in which a condition pattern that is a pattern indicating a predetermined condition is stored. The condition keyword extracting means extracts a condition keyword that is an array of words arranged in front of the condition pattern if the condition pattern is determined and stored in the storage device and the condition pattern is included. If the condition keyword extraction step stored in the storage device and the condition pattern are not included, The main keyword that is a word included in the phrase to be rated is extracted by the main keyword extracting means and stored in the storage device, and the condition keyword and the keyword included in the main keyword are focused on. The number of appearances, which is the number of appearances of the keyword as the conditional keyword, and the number of appearances, which is the number of appearances of the main keyword, are counted, and the number of appearances of the conditional keyword and the number of appearances of the main keyword are predetermined. When the above condition is satisfied, this is an example of an answer document classification method including a classification keyword determination step in which a classification keyword determination unit determines that the keyword of interest is a classification keyword and stores it in a storage device.

また、上記実施例は、質問文書に対する回答文書を、グループを代表するキーワードである分類キーワードを含むグループ毎に分類する回答文書分類方法において、単語と品詞との組み合わせによって構成されているパターンであって、所定の条件を示すパターンである条件パターンを蓄積している条件パターン蓄積手段に蓄積されている条件パターンを、回答文書集合に含まれている文が含んでいるか否かを、条件パターン判定手段が判定し、記憶装置に記憶する条件パターン判定工程と、上記条件パターンを含んでいれば、上記条件パターンの前方に配置されている単語の配列である条件キーワードを、条件キーワード抽出手段が抽出し、記憶装置に記憶する条件キーワード抽出工程と、上記条件パターンを含んでいなければ、主格になる文節に含まれている単語である主格キーワードを、主格キーワード抽出手段が抽出し、記憶装置に記憶する主格キーワード抽出工程と、回答文書の文章毎に、条件キーワードであることを示す情報または主格キーワードであることを示す情報が追加されている解析結果と、回答文書を一意に示す回答文章IDとを対応付けた分類キーワード候補とを、分類キーワード候補蓄積手段が蓄積し、記憶装置に記憶する分類キーワード候補蓄積工程と、回答文章IDが複数与えられた際に、回答文章IDに該当する回答文書の上記解析結果の集合を、上記分類キーワード侯補蓄積工程から取得し、上記解析結果の集合に含まれている条件キーワード毎にまたは主格キーワード毎に、着目しているキーワードが上記条件キーワードとして出現する回数である出現回数と、上記主格キーワードとして出現する回数である出現回数とを集計し、上記条件キーワードの出現回数と上記主格キーワードの出現回数とが所定の条件を満たす場合に、上記着目しているキーワードを分類キーワードであると、分類キーワード判定が判定し、記憶装置に記憶する分類キーワード判定工程とを有する回答文書分類方法の例である。   In the above embodiment, the answer document classification method for classifying the answer document for the question document into groups each including a classification keyword that is a keyword representing the group is a pattern configured by a combination of words and parts of speech. The condition pattern determination determines whether the sentence included in the answer document set includes the condition pattern stored in the condition pattern storage means that stores the condition pattern that is a pattern indicating a predetermined condition. The condition keyword extracting means extracts a condition keyword that is an array of words arranged in front of the condition pattern if the condition pattern is determined and stored in the storage device and the condition pattern is included. If the condition keyword extraction process stored in the storage device and the above condition pattern are not included, The main keyword that is a word included in the phrase is extracted by the main keyword extracting means and stored in the storage device, and information indicating that it is a condition keyword for each sentence of the answer document or the main keyword The classification keyword candidate accumulating unit accumulates the classification keyword candidate in which the analysis result to which the information indicating that the information is added and the answer sentence ID uniquely indicating the answer document are associated is stored in the storage device When a plurality of keyword candidate accumulation steps and answer sentence IDs are given, a set of the analysis results of the answer document corresponding to the answer sentence ID is acquired from the classification keyword supplement accumulation step, and the set of analysis results is obtained. Number of times the keyword of interest appears as the above condition keyword for each included condition keyword or for each main keyword When the number of appearances and the number of appearances, which is the number of appearances as the main keyword, are counted, and the condition keyword and the number of appearances of the main keyword satisfy a predetermined condition, the keyword of interest This is an example of an answer document classification method including a classification keyword determination step in which classification keyword determination is determined to be a classification keyword and stored in a storage device.

さらに、上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、請求項1〜請求項5のいずれか1項に記載の回答文書分類装置を構成する各手段としてコンピュータを機能させるプログラムの例である。   Further, the above embodiment can be grasped as a program invention. That is, the said Example is an example of the program which makes a computer function as each means which comprises the reply document classification | category apparatus of any one of Claims 1-5.

100…回答文書分類装置、
11…条件パターン蓄積手段、
12…条件パターン判定手段、
13…条件キーワード抽出手段、
14…主格キーワード抽出手段、
15…分類キーワード判定手段、
20…テキスト入力手段、
30…質問・回答文書蓄積手段、
40…テキスト出力手段、
200…回答文書分類装置、
16…条件キーワード抽出手段、
17…主格キーワード抽出手段、
18…分類キーワード候補蓄積手段、
19…分類キーワード判定手段、
50…キーワード検索手段。
100 ... Reply document classification device,
11 ... Condition pattern storage means,
12 ... Condition pattern determination means,
13: Conditional keyword extraction means,
14 ... Main keyword extraction means,
15: Classification keyword determination means,
20 ... Text input means,
30: Question / answer document storage means,
40 ... text output means,
200 ... Reply document classification device,
16 ... Conditional keyword extraction means,
17 ... main keyword extraction means,
18: Classification keyword candidate storage means,
19: Classification keyword determination means,
50: Keyword search means.

Claims (8)

質問文書に対する回答文書を、グループを代表するキーワードである分類キーワードを含むグループ毎に分類する回答文書分類装置において、
単語と品詞との組み合わせによって構成されているパターンであって、所定の条件を示すパターンである条件パターンを蓄積している条件パターン蓄積手段と;
入力テキスト集合に含まれている文が、上記条件パターン蓄積手段に蓄積されている条件パターンを含んでいるか否かを判定する条件パターン判定手段と;
上記条件パターンを含んでいれば、上記条件パターンの前方に配置されている単語の配列である条件キーワードを抽出する条件キーワード抽出手段と;
上記条件パターンを含んでいなければ、主格になる文節に含まれている単語である主格キーワードを抽出する主格キーワード抽出手段と;
上記条件キーワードおよび上記主格キーワードに含まれるキーワード毎に、着目しているキーワードが上記条件キーワードとして出現する回数である出現回数と、上記主格キーワードとして出現する回数である出現回数とを集計し、上記条件キーワードの出現回数と上記主格キーワードの出現回数とが所定の条件を満たす場合に、上記着目しているキーワードを分類キーワードであると判定する分類キーワード判定手段と;
を有することを特徴とする回答文書分類装置。
In an answer document classification device that classifies answer documents for a question document into groups each including a classification keyword that is a keyword representing the group,
A condition pattern accumulating means for accumulating a condition pattern which is a pattern composed of a combination of a word and a part of speech and which indicates a predetermined condition;
Condition pattern determination means for determining whether a sentence included in the input text set includes a condition pattern stored in the condition pattern storage means;
Condition keyword extraction means for extracting a condition keyword that is an array of words arranged in front of the condition pattern if the condition pattern is included;
If it does not include the condition pattern, a main keyword extracting means for extracting a main keyword that is a word included in the main clause;
For each keyword included in the conditional keyword and the main keyword, the number of appearances, which is the number of times that the keyword of interest appears as the conditional keyword, and the number of appearances, which is the number of appearances as the main keyword, are tabulated. Classification keyword determination means for determining that the keyword of interest is a classification keyword when the number of appearances of a conditional keyword and the number of appearances of the main keyword satisfy a predetermined condition;
An answer document classification device characterized by comprising:
質問文書に対する回答文書を、グループを代表するキーワードである分類キーワードを含むグループ毎に分類する回答文書分類装置において、
単語と品詞との組み合わせによって構成されているパターンであって、所定の条件を示すパターンである条件パターンを蓄積している条件パターン蓄積手段と;
回答文書集合に含まれている文が、上記条件パターン蓄積手段に蓄積されている条件パターンを含んでいるか否かを判定する条件パターン判定手段と;
上記条件パターンを含んでいれば、上記条件パターンの前方に配置されている単語の配列である条件キーワードを抽出する条件キーワード抽出手段と;
上記条件パターンを含んでいなければ、主格になる文節に含まれている単語である主格キーワードを抽出する主格キーワード抽出手段と;
回答文書の文章毎に、条件キーワードであることを示す情報または主格キーワードであることを示す情報が追加されている解析結果と、回答文書を一意に示す回答文章IDとを対応付けた分類キーワード候補を蓄積する分類キーワード候補蓄積手段と;
回答文章IDが複数与えられた際に、回答文章IDに該当する回答文書の解析結果の集合を、上記分類キーワード侯補蓄積手段から取得し、上記解析結果の集合に含まれている条件キーワードおよび主格キーワードに含まれるキーワード毎に、着目しているキーワードが上記条件キーワードとして出現する回数である出現回数と、上記主格キーワードとして出現する回数である出現回数とを集計し、上記条件キーワードの出現回数と上記主格キーワードの出現回数とが所定の条件を満たす場合に、上記着目しているキーワードを分類キーワードであると判定する分類キーワード判定手段と;
を有することを特徴とする回答文書分類装置。
In an answer document classification device that classifies answer documents for a question document into groups each including a classification keyword that is a keyword representing the group,
A condition pattern accumulating means for accumulating a condition pattern which is a pattern composed of a combination of a word and a part of speech and which indicates a predetermined condition;
Condition pattern determination means for determining whether or not a sentence included in the answer document set includes a condition pattern stored in the condition pattern storage means;
Condition keyword extraction means for extracting a condition keyword that is an array of words arranged in front of the condition pattern if the condition pattern is included;
If it does not include the condition pattern, a main keyword extracting means for extracting a main keyword that is a word included in the main clause;
Classification keyword candidates in which an analysis result in which information indicating that it is a condition keyword or information indicating that it is a main keyword is added to each answer document sentence and an answer sentence ID that uniquely indicates the answer document Classification keyword candidate accumulation means for accumulating;
When a plurality of answer sentence IDs are given, a set of analysis results of the answer document corresponding to the answer sentence ID is acquired from the classification keyword supplement accumulation means, and the condition keyword included in the set of analysis results and For each keyword included in the main keyword, the number of appearances, which is the number of times that the keyword of interest appears as the condition keyword, and the number of appearances, which is the number of appearances as the main keyword, are tabulated, and the number of appearances of the condition keyword And a classification keyword determination unit that determines that the keyword of interest is a classification keyword when the number of appearances of the main keyword satisfies a predetermined condition;
An answer document classification device characterized by comprising:
請求項1または請求項2において、
上記条件キーワード抽出手段は、上記条件パターンを含む文節から、条件パターンを除いた語句に、条件パターンを含む文節へ係る0個以上の文節を追加した語句を、条件キーワードとして抽出する手段であることを特徴とする回答文書分類装置。
In claim 1 or claim 2,
The conditional keyword extraction means is a means for extracting, as a conditional keyword, a phrase obtained by adding zero or more phrases related to a phrase including a conditional pattern to a phrase excluding the conditional pattern from the phrase including the conditional pattern. An answer document classification device characterized by
請求項1または請求項2において、
上記主格キーワード抽出手段は、主格になる文節に含まれている名詞句に、主格になる文節へ係る0個以上の文節を追加した語句を、上記条件キーワードとして抽出する手段であることを特徴とする回答文書分類装置。
In claim 1 or claim 2,
The prominent keyword extracting means is a means for extracting, as the conditional keyword, a phrase obtained by adding zero or more phrases related to a prominent phrase to a noun phrase included in the prominent phrase. Answer document classification device.
請求項1〜請求項4のいずれか1項において、
上記分類キーワード判定手段は、上記条件キーワードとしての出現回数が多いほど、上記分類キーワードとして判定され易くなる条件を用いて、上記分類キーワードを判定する手段であることを特徴とする回答文書分類装置。
In any one of Claims 1-4,
An answer document classification device, wherein the classification keyword determination means is a means for determining the classification keyword using a condition that is more likely to be determined as the classification keyword as the number of appearances as the conditional keyword increases.
質問文書に対する回答文書を、グループを代表するキーワードである分類キーワードを含むグループ毎に分類する回答文書分類方法において、
単語と品詞との組み合わせによって構成されているパターンであって、所定の条件を示すパターンである条件パターンが蓄積されている条件パターン蓄積手段に蓄積されている条件パターンを、入力テキスト集合に含まれている文が含んでいるか否かを、条件パターン判定手段が判定し、記憶装置に記憶する条件パターン判定工程と;
上記条件パターンを含んでいれば、上記条件パターンの前方に配置されている単語の配列である条件キーワードを、条件キーワード抽出手段が抽出し、記憶装置に記憶する条件キーワード抽出工程と;
上記条件パターンを含んでいなければ、主格になる文節に含まれている単語である主格キーワードを、主格キーワード抽出手段が抽出し、記憶装置に記憶する主格キーワード抽出工程と;
上記条件キーワードおよび上記主格キーワードに含まれるキーワード毎に、着目しているキーワードが上記条件キーワードとして出現する回数である出現回数と、上記主格キーワードとして出現する回数である出現回数とを集計し、上記条件キーワードの出現回数と上記主格キーワードの出現回数とが所定の条件を満たす場合に、上記着目しているキーワードを分類キーワードであると、分類キーワード判定手段が判定し、記憶装置に記憶する分類キーワード判定工程と;
を有することを特徴とする回答文書分類方法。
In an answer document classification method for classifying answer documents for a question document into groups each including a classification keyword that is a keyword representing the group,
The input text set includes a condition pattern stored in a condition pattern storage means that is a pattern composed of a combination of words and parts of speech and that stores a condition pattern that is a pattern indicating a predetermined condition. A condition pattern determination means for determining whether or not the sentence contains a sentence, and storing it in a storage device;
A condition keyword extraction step in which the condition keyword extraction means extracts a condition keyword that is an array of words arranged in front of the condition pattern and stores the condition keyword in a storage device;
If it does not include the condition pattern, a main keyword extraction means that the main keyword extracting means extracts a main keyword that is a word included in the main clause and stores it in a storage device;
For each keyword included in the conditional keyword and the main keyword, the number of appearances, which is the number of times that the keyword of interest appears as the conditional keyword, and the number of appearances, which is the number of appearances as the main keyword, are tabulated. When the number of appearances of the condition keyword and the number of appearances of the main keyword satisfy a predetermined condition, the classification keyword determination unit determines that the keyword of interest is a classification keyword, and stores the classification keyword in the storage device A judging step;
An answer document classification method characterized by comprising:
質問文書に対する回答文書を、グループを代表するキーワードである分類キーワードを含むグループ毎に分類する回答文書分類方法において、
単語と品詞との組み合わせによって構成されているパターンであって、所定の条件を示すパターンである条件パターンを蓄積している条件パターン蓄積手段に蓄積されている条件パターンを、回答文書集合に含まれている文が含んでいるか否かを、条件パターン判定手段が判定し、記憶装置に記憶する条件パターン判定工程と;
上記条件パターンを含んでいれば、上記条件パターンの前方に配置されている単語の配列である条件キーワードを、条件キーワード抽出手段が抽出し、記憶装置に記憶する条件キーワード抽出工程と;
上記条件パターンを含んでいなければ、主格になる文節に含まれている単語である主格キーワードを、主格キーワード抽出手段が抽出し、記憶装置に記憶する主格キーワード抽出工程と;
回答文書の文章毎に、条件キーワードであることを示す情報または主格キーワードであることを示す情報が追加されている解析結果と、回答文書を一意に示す回答文章IDとを対応付けた分類キーワード候補とを、分類キーワード候補蓄積手段が蓄積し、記憶装置に記憶する分類キーワード候補蓄積工程と;
回答文章IDが複数与えられた際に、回答文章IDに該当する回答文書の上記解析結果の集合を、上記分類キーワード侯補蓄積工程から取得し、上記解析結果の集合に含まれている条件キーワードおよび主格キーワードに含まれるキーワード毎に、着目しているキーワードが上記条件キーワードとして出現する回数である出現回数と、上記主格キーワードとして出現する回数である出現回数とを集計し、上記条件キーワードの出現回数と上記主格キーワードの出現回数とが所定の条件を満たす場合に、上記着目しているキーワードを分類キーワードであると、分類キーワード判定が判定し、記憶装置に記憶する分類キーワード判定工程と;
を有することを特徴とする回答文書分類方法。
In an answer document classification method for classifying answer documents for a question document into groups each including a classification keyword that is a keyword representing the group,
The answer document set includes condition patterns stored in the condition pattern storage means that are configured by combinations of words and parts of speech and that store condition patterns that are patterns indicating predetermined conditions. A condition pattern determination means for determining whether or not the sentence contains a sentence, and storing it in a storage device;
A condition keyword extraction step in which the condition keyword extraction means extracts a condition keyword that is an array of words arranged in front of the condition pattern and stores the condition keyword in a storage device;
If it does not include the condition pattern, a main keyword extraction means that the main keyword extracting means extracts a main keyword that is a word included in the main clause and stores it in a storage device;
Classification keyword candidates in which an analysis result in which information indicating that it is a condition keyword or information indicating that it is a main keyword is added to each answer document sentence and an answer sentence ID that uniquely indicates the answer document And a classified keyword candidate accumulating step in which the classified keyword candidate accumulating means accumulates and stores it in the storage device;
When a plurality of response text IDs are given, a set of the analysis results of the response document corresponding to the response text ID is acquired from the classification keyword supplement accumulation step, and the condition keyword included in the analysis result set For each keyword included in the main keyword, the number of appearances, which is the number of times that the keyword of interest appears as the condition keyword, and the number of appearances, which is the number of appearances as the main keyword, are tabulated, and the appearance of the condition keyword A classification keyword determination step in which the classification keyword determination determines that the keyword of interest is a classification keyword when the number of times and the number of appearances of the main keyword satisfy the predetermined condition;
An answer document classification method characterized by comprising:
請求項1〜請求項5のいずれか1項に記載の回答文書分類装置を構成する各手段としてコンピュータを機能させるプログラム。   6. A program for causing a computer to function as each means constituting the answer document classification device according to claim 1.
JP2009121438A 2009-05-19 2009-05-19 Response document classification apparatus, response document classification method, and program Active JP5234992B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009121438A JP5234992B2 (en) 2009-05-19 2009-05-19 Response document classification apparatus, response document classification method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009121438A JP5234992B2 (en) 2009-05-19 2009-05-19 Response document classification apparatus, response document classification method, and program

Publications (2)

Publication Number Publication Date
JP2010271800A JP2010271800A (en) 2010-12-02
JP5234992B2 true JP5234992B2 (en) 2013-07-10

Family

ID=43419791

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009121438A Active JP5234992B2 (en) 2009-05-19 2009-05-19 Response document classification apparatus, response document classification method, and program

Country Status (1)

Country Link
JP (1) JP5234992B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5556711B2 (en) * 2011-03-18 2014-07-23 富士通株式会社 Category classification processing apparatus, category classification processing method, category classification processing program recording medium, category classification processing system
JP5711674B2 (en) * 2012-01-12 2015-05-07 Kddi株式会社 Question answering program, server and method using a large amount of comment text
WO2015040860A1 (en) * 2013-09-18 2015-03-26 日本電気株式会社 Classification dictionary generation device, classification dictionary generation method, and recording medium
CN107092593B (en) * 2017-04-12 2020-11-03 华中师范大学 Sentence semantic role recognition method and system for elementary mathematics hierarchical sampling application questions
WO2020240756A1 (en) * 2019-05-29 2020-12-03 富士通株式会社 Reply processing program, reply processing method, and information processing device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01121928A (en) * 1987-11-06 1989-05-15 Hitachi Ltd Stepwise keyword extracting system
JP2572314B2 (en) * 1991-05-31 1997-01-16 株式会社テレマティーク国際研究所 Keyword extraction device
JPH11203318A (en) * 1998-01-19 1999-07-30 Seiko Epson Corp Method for classifying document device therefor and recording medium for recording document classification processing program
JP2000259666A (en) * 1999-03-11 2000-09-22 Nippon Hoso Kyokai <Nhk> Topic extraction device

Also Published As

Publication number Publication date
JP2010271800A (en) 2010-12-02

Similar Documents

Publication Publication Date Title
CN110232149B (en) Hot event detection method and system
CN106156204B (en) Text label extraction method and device
CN109508414B (en) Synonym mining method and device
JP3882048B2 (en) Question answering system and question answering processing method
US20100205198A1 (en) Search query disambiguation
CN110134792B (en) Text recognition method and device, electronic equipment and storage medium
CN111221962B (en) Text emotion analysis method based on new word expansion and complex sentence pattern expansion
US20100235343A1 (en) Predicting Interestingness of Questions in Community Question Answering
US20110196670A1 (en) Indexing content at semantic level
JP5710581B2 (en) Question answering apparatus, method, and program
CN106960001B (en) A kind of entity link method and system of term
JP5085708B2 (en) Keyword presentation apparatus, method, and program
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
US9864795B1 (en) Identifying entity attributes
JP2011095905A (en) Information processing apparatus and method, and program
CN111460251A (en) Data content personalized push cold start method, device, equipment and storage medium
CN110909116B (en) Entity set expansion method and system for social media
US8428933B1 (en) Usage based query response
Tiwari et al. Ensemble approach for twitter sentiment analysis
CN114065758A (en) Document keyword extraction method based on hypergraph random walk
JP5234992B2 (en) Response document classification apparatus, response document classification method, and program
CN108280689A (en) Advertisement placement method, device based on search engine and search engine system
US9063923B2 (en) Method for identifying the integrity of information
CN109298796A (en) A kind of Word association method and device
JP5224532B2 (en) Reputation information classification device and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111012

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130322

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350