JP2015232855A - Event identity determination method, event identity determination device, and event identity determination program - Google Patents
Event identity determination method, event identity determination device, and event identity determination program Download PDFInfo
- Publication number
- JP2015232855A JP2015232855A JP2014120061A JP2014120061A JP2015232855A JP 2015232855 A JP2015232855 A JP 2015232855A JP 2014120061 A JP2014120061 A JP 2014120061A JP 2014120061 A JP2014120061 A JP 2014120061A JP 2015232855 A JP2015232855 A JP 2015232855A
- Authority
- JP
- Japan
- Prior art keywords
- event
- similarity
- electronic documents
- threshold
- identity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、複数の電子文書(以下、文書とする。)の記述内容の同一性を判定する情報処理の技術に関する。 The present invention relates to an information processing technique for determining the identity of description contents of a plurality of electronic documents (hereinafter referred to as documents).
ブログに代表されるソーシャルテキストなどの文書の記述内容、即ち文書に記述された事実(以下、「イベント」と呼ぶ。)を抽出する方法として、該テキストからイベント情報を抽出する技術が提案されている。 As a method for extracting description contents of a document such as social text represented by a blog, that is, a fact described in the document (hereinafter referred to as “event”), a technique for extracting event information from the text has been proposed. Yes.
例えば非特許文献1には、テキストに含まれる名前,場所,日時の三つの組を構造情報の利用により抽出してイベント情報として保存する方法が提案されている。このような方法によれば、ブログなどのソーシャルテキストの文書に記述されたイベント情報を保存し、再利用することが可能である。
For example, Non-Patent
ところが、テキストから抽出される複数のイベント情報が、同一のイベントを表現しているか否かについて判定する方法は提案されていない。この場合に考えられる方法の一つとしては、元となる文書間の類似度を計算し、該文書間が一定以上の類似度を持つ場合は同一のイベントについて記述された文書と判断し、抽出されたイベント情報を同一と認定する方法が考えられる。 However, a method for determining whether or not a plurality of pieces of event information extracted from text express the same event has not been proposed. One possible method in this case is to calculate the similarity between the original documents, and if the documents have similarities of a certain level or more, it is determined that the documents describe the same event and extracted. It is conceivable that the event information is recognized as the same.
文書間の類似度を計算する方法としては、情報検索分野で利用されているキーワードベクトルの比較がよく知られている(非特許文献2参照)。 As a method for calculating the similarity between documents, comparison of keyword vectors used in the information search field is well known (see Non-Patent Document 2).
ソーシャルテキスト中には、複数の文書に同一のイベントについて記述されていることが頻繁に発生している。そのため、ソーシャルテキスト中から抽出したイベントの情報を提供する際には、同一イベントを集約/排除するため、イベントの情報の同一性の判定を行うことが必要である。この場合、単純には名前,場所,日時などイベントを表現する情報が同一であれば、同一のイベントであるとみなすのが妥当と思われる。 In social text, the same event is frequently described in a plurality of documents. Therefore, when providing event information extracted from social text, it is necessary to determine the identity of event information in order to aggregate / exclude the same event. In this case, if the information expressing the event, such as name, location, date and time, is the same, it is reasonable to consider that they are the same event.
しかしながら、ソーシャルテキスト中からイベントの名前,場所,日時を抽出する際に名前や場所,日時それぞれに記述が異なる場合が多く、複数文書に記述された同一のイベントを同じイベントとして集約することが困難なことが少なくない。 However, when extracting the name, location, and date / time of an event from social text, the description is often different for each name, location, and date / time, making it difficult to aggregate the same event described in multiple documents as the same event. There are many things.
また、非特許文献2のようにキーワードベクトルを単純に同一性判定に利用する場合、同一であることを判別するための閾値を設定しなければならないが、イベント情報を対象として合理的に閾値を決定する方法は提案されていない。 In addition, when a keyword vector is simply used for identity determination as in Non-Patent Document 2, a threshold value for determining the identity must be set, but a reasonable threshold value is set for event information. No way to decide has been proposed.
本発明は、このような従来技術の問題を解決するためになされ、複数文書の表現するイベントの同一性を判定する際の閾値を適切に設定することを解決課題としている。 The present invention has been made in order to solve such a problem of the prior art, and an object of the present invention is to appropriately set a threshold for determining the identity of events expressed by a plurality of documents.
本発明のイベント同一性判定方法は、あらかじめイベントを特定するためのイベント情報の集合と、イベントの抽出元となった文書の文書情報の集合とから統計データを計算し、文書間における類似度の閾値を決定する閾値決定ステップと、判定対象のイベント情報に基づき文書を読み出して文書間の類似度を算出し、算出された類似度と前記閾値とを対比することで文書間の同一性を判定する同一性判定ステップと、を有することを特徴としている。 The event identity determination method of the present invention calculates statistical data from a set of event information for specifying an event in advance and a set of document information of a document from which the event is extracted, and calculates similarity between documents. Threshold determination step for determining a threshold, and documents are read based on event information to be determined, the similarity between the documents is calculated, and the similarity between the documents is determined by comparing the calculated similarity with the threshold. And an identity determination step.
本発明のイベント同一性判定装置は、あらかじめイベントを特定するためのイベント情報の集合と、イベントの抽出元となった文書の文書情報の集合とから統計データを計算し、文書間における類似度の閾値を決定する閾値決定部と、判定対象のイベント情報に基づき文書を読み出して文書間の類似度を算出し、算出された類似度と前記閾値とを対比することで文書間の同一性を判定する同一性判定部と、を備えることを特徴としている。 The event identity determination device of the present invention calculates statistical data from a set of event information for specifying an event in advance and a set of document information of a document from which an event is extracted, and calculates the similarity between documents. A threshold value determination unit that determines a threshold value, reads a document based on event information to be determined, calculates a similarity between documents, and determines the identity between documents by comparing the calculated similarity with the threshold. And an identity determining unit.
なお、本発明は、前記イベント同一性判定装置としてコンピュータを機能させるプログラムとして構成することもできる。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。 The present invention can also be configured as a program that causes a computer to function as the event identity determination device. This program can be provided through a network or a recording medium.
本発明によれば、複数文書の表現するイベントの同一性を判定する際の閾値を適切に設定することができる。 According to the present invention, it is possible to appropriately set a threshold for determining the identity of events expressed by a plurality of documents.
以下、本発明の実施形態に係るイベント同一性判定装置を説明する。このイベント同一性判定装置は、イベントの同一性判定においてイベントを記載した文書の特徴ベクトルを利用する。すなわち、特徴ベクトルを用いた類似度によりイベントの同一性を判定する際の閾値を最適化させている。 Hereinafter, an event identity determination device according to an embodiment of the present invention will be described. This event identity determination device uses a feature vector of a document describing an event in the event identity determination. That is, the threshold for determining the identity of an event is optimized based on the similarity using a feature vector.
≪構成例≫
図1に基づき前記イベント同一性判定装置の構成例を説明する。このイベント判定装置100は、主にブログなどのソーシャルテキストの文書から抽出したイベント情報の提供に利用され、同一イベントの集約・排除のためにイベントの同一性を判定する。
≪Configuration example≫
A configuration example of the event identity determination device will be described with reference to FIG. This
このイベント同一性判定装置100は、コンピュータにより構成され、CPU,主記憶装置(RAM,ROM等),補助記憶装置(ハードディスクドライブ装置,「Flash SSD」等)などのハードウェアリソースを備える。
The event
このハードウェアリソースとソフトウェアリソースとの協働の結果、前記イベント同一性判定装置100は、同一性判定部101,イベントDB102,文書DB103,閾値決定部104,閾値格納部105を実装する。この前記各DB102,103および前記格納部105は、それぞれ前記記憶装置に構築されているものとする。
As a result of the cooperation between the hardware resource and the software resource, the event
表1はイベントDB102の格納データ例を示し、該DB102にはイベントを特定するイベント情報が格納されている。ここではイベント情報として、イベントを同定するためのイベントIDと、抽出されたイベントの名称と、該イベントの開催地と、該イベントの開催日時と、表示しないイベントか否かを示す非表示フラグと、抽出元となった元文書の文書IDと、イベントDB102に格納された更新日時とがペアに記録されている。
Table 1 shows an example of data stored in the
表2は文書DB103の格納データ例を示し、該DB103には文書情報が格納されている。ここでは文書情報として、前記イベントDB102の元文書IDから参照可能な文書ID(例えばURLなど)と、文書DB103に格納された更新日時と、本文テキストとがペアに記録されている。この本文テキストとしては、テキストそのまま、あるいは事前にテキストを形態素解析されたものでよい。
Table 2 shows an example of data stored in the
同一性判定部101は、イベントDB102に格納されたイベント情報を読み出した後にそれぞれのイベントの抽出元となった文書を文書DB103から抽出し、抽出された文書間の類似度を計算する。この計算後に閾値格納部105から閾値を読み出し、文書間の類似度と前記閾値とを対比する。この対比の結果、文書間の類似度が閾値以上であれば文書同士を同一と判定し、イベントDB102の表示フラグを更新する。
After reading the event information stored in the
閾値決定部104は、あらかじめ前記両DB102,103のそれぞれの格納データを利用して前記閾値を決定する。ここで決定された前記閾値は閾値格納部105に保存される。以下、前記各部101,104の処理内容を説明する。
The threshold
≪同一性判定部101≫
同一性判定部101の同一性判定は、前記各DB102,103の生成方法に応じてバッチ処理あるいは増分処理により実行される。すなわち、文書が定期的に解析され、複数のイベント情報が同時にイベントDB102に格納される場合はバッチ処理を行う。
<<
The identity determination of the
一方、文書をストリームとして随時イベント抽出が処理され、一度に1つのイベント情報のみがイベントDB102に格納される場合は、その都度増分処理を行う。なお、増分処理を行う場合は定期的にバッチ処理を実行し、イベントDB102内のすべてのイベント情報について同一性判定を再計算することがある。
On the other hand, when event extraction is processed at any time using a document as a stream, and only one event information is stored in the
(1)バッチ処理
図2に基づき同一性判定部101のバッチ処理を説明する。ここでは既に閾値格納部105には閾値が格納されているものとする。
(1) Batch processing The batch processing of the
S201,S202:まず処理が開始されると、同一性判定部101は閾値格納部105から閾値を読み出す(S201)。この閾値は1つの数値とする。
S201, S202: When processing is started, the
つぎにイベントDB102からイベント情報を読み出す(S202)。このとき非表示フラグが「0」のイベント情報のみを選択して読み出すことで計算量を削減することができる。 Next, event information is read from the event DB 102 (S202). At this time, it is possible to reduce the amount of calculation by selecting and reading only the event information whose non-display flag is “0”.
S203,S204:同一性判定部101は、S202で読み出した各イベント情報の元文書IDに基づき文書DB103から文書情報を読み出す(S203)。その後にイベント情報および文書情報に基づき各文書の特徴ベクトルを生成し、生成した特徴ベクトルを中間ファイル、即ち文書の特徴ベクトルファイル210に格納する(S204)。
S203, S204: The
S205:同一性判定部101は、前記特徴ベクトルファイル210に格納されたすべての特徴ベクトルについてベクトル間の類似度を計算する。ここで計算されたベクトル間の類似度が閾値「θ」以上であれば、同一のイベントを扱った文書と判定する。
S205: The
ここで同一と判定されたイベントはグループ化し、同一イベントグループと呼ぶ。同一イベントグループの内、更新日に基づいて1つのイベントを選択し、選択されたイベントの非表示フラグを「0」のままとする。一方、同一イベントグループ内の選択されたイベント以外の他のイベントは、「1」以上に設定してイベントDB102のレコードを更新し、処理を終了する。
Here, the events determined to be the same are grouped and called the same event group. One event is selected based on the update date in the same event group, and the non-display flag of the selected event is kept “0”. On the other hand, other events other than the selected event in the same event group are set to “1” or more, the record of the
(2)増分処理
図3に基づき同一性判定部101の増分処理を説明する。ここでは処理が始まる前において、既にバッチ処理によりイベントDB102内の既存のイベント情報について文書の特徴ベクトルが計算されているものとする。ここで計算された特徴ベクトルは事前に中間ファイル、即ち特徴ベクトルファイル310に格納されているものとする。
(2) Increment processing The increment processing of the
S301:まず処理が開始されると、S201と同じく同一性判定部101は閾値格納部105から閾値を読み出す。ここで読みだされる閾値も1つの数値とする。
S301: First, when processing is started, the
S302:つぎに同一性判定部101は、イベントDB102から最新のイベント情報を1件読み出す。このとき最新のイベント情報、即ち未処理のイベント情報が格納されていなければ、該最新のイベント情報が読み出し可能となるまで処理を中断するものとする。
S <b> 302: Next, the
S303,S304:同一性判定部101は、S302で読み出した各イベント情報の元文書IDに基づき文書DB103から文書情報を読み出す(S303)。その後にイベント情報および文書情報に基づき各文書の特徴ベクトルを生成し、生成した特徴ベクトルを前記特徴ベクトルファイル310に格納する(S304)。
S303, S304: The
S305:同一性判定部101は、S304で新たに格納した当該特徴ベクトルについて、前記特徴ベクトルファイル310中における既存のすべての特徴ベクトルとの間での類似度を計算する。
S305: The
このベクトル間の類似度が閾値「θ」以上であれば、同一のイベントを扱った文書と判定する。ここで他のイベントと同一のイベントと判定されたイベントについては、イベント情報の表示フラグを「1」以上に設定してイベントDB102のレコードを更新する。この処理の終了後にS302に戻る。
If the similarity between the vectors is equal to or greater than the threshold “θ”, it is determined that the documents handle the same event. Here, for an event determined to be the same as another event, the event information display flag is set to “1” or more, and the record in the
≪閾値決定部104≫
図4に基づき閾値決定部104の処理内容を説明する。処理が開始されると、閾値決定部104はイベント情報をイベントDB102から読みだす(S401)。このイベント情報に対応する文書情報を、元文書IDに基づき文書DBから読みだす(S402)。
<<
The processing content of the threshold
S401,S402で読みだされたイベント情報の集合および文書情報の集合から統計データを計算し、閾値を決定する(S403)。決定された閾値を閾値格納部105に格納して処理を終了する。
Statistical data is calculated from the set of event information and the set of document information read in S401 and S402, and a threshold value is determined (S403). The determined threshold value is stored in the threshold
≪具体的な処理内容≫
(1)類似度計算
同一性判定部101における類似度計算(S205,S305)の一例として、単語集合による類似度計算、即ちちキーワードによる重みベクトルを用いた類似度計算を説明する。
≪Specific processing contents≫
(1) Similarity Calculation As an example of similarity calculation (S205, S305) in the
この類似度計算では、文書に含まれる単語を等しく扱ってキーワード毎の重みベクトルとし、この重みベクトルを文書の特徴ベクトルとする。この重みベクトルの構成方法としては非特許文献2に記載された手法を採用することができる。 In this similarity calculation, the words contained in the document are treated equally and used as a weight vector for each keyword, and this weight vector is used as the feature vector of the document. As a method for configuring this weight vector, the method described in Non-Patent Document 2 can be employed.
具体的にはS202,S302で読みだした文書情報について、文書のテキストを形態素解析して単語に分割して単語毎の重みベクトルを構成し、ベクトル間の類似度を計算する。 Specifically, for the document information read in S202 and S302, the text of the document is morphologically analyzed and divided into words to form a weight vector for each word, and the similarity between the vectors is calculated.
重みベクトルの構成方法としては、単語を個別に特徴ベクトルに変換するのではなく、文書テキスト中の単語の連接を要素とする特徴ベクトルを構成する。これによりイベントについての特徴的な表現を「形容詞+名詞」などの形式(例えば「ソウルフルなディーヴァ」や「笑いあり涙あり」)を特徴ベクトルとすることができる。 As a method of constructing the weight vector, a feature vector having a concatenation of words in a document text as an element is constructed instead of converting individual words into feature vectors. As a result, a characteristic expression of the event can be a characteristic vector of a form such as “adjective + noun” (for example, “soulful diva” or “with tears with laughter”).
この場合、対比される文書における特徴ベクトル間の計算には、コサイン距離と呼ばれる指標が使用される。例えば二つの文書の「特徴ベクトルdi,dj」についての類似度は式(1)で与えられる。 In this case, an index called cosine distance is used for calculation between feature vectors in the compared documents. For example, the similarity of “feature vectors d i , d j ” of two documents is given by equation (1).
ただし、「θij」は「di,dj」のなす角を表し、「x・y」は二つのベクトルの内積を表し、「||x||」はベクトルのノルムを表している。 However, “θ ij ” represents the angle formed by “d i , d j ”, “x · y” represents the inner product of two vectors, and “|| x ||” represents the norm of the vector.
(2)閾値の決定
前述のキーワードによる重みベクトルを用いた類似度計算を用いた場合、イベントの同一性判定には類似度の閾値を設定する必要がある。ここでは類似度の閾値を実験的に求める方法を説明する。
(2) Determination of threshold value When similarity calculation using the above-described keyword weight vector is used, it is necessary to set a similarity threshold value for event identity determination. Here, a method for experimentally obtaining the threshold value of similarity will be described.
この方法は、ある分量の文書集合から抽出されたイベント集合について文書間の類似度を求め、その分布から閾値を決定する。ここでは「2013年10月〜2014年1月」までの3ヶ月間に記述されたブログから抽出したイベント集合の内、無作為に選択した「10,988」件のイベント情報について、文書内の単語の出現頻度に基づいて重みベクトルを構成して類似度を計算した。 In this method, the similarity between documents is obtained for an event set extracted from a certain amount of document set, and a threshold is determined from the distribution. Here, “10,988” event information randomly selected from the event set extracted from the blog described in “October 2013 to January 2014” is included in the document. Based on the appearance frequency of words, weight vectors were constructed to calculate the similarity.
図5は計算結果の類似度の分布を、横軸に類似度:縦軸にイベント対の個数(対数)としてグラフ化した状態を示している。ここでは同一イベントが含まれていない場合、グラフは概ね右に向かって単調に減少することが期待される。すなわち、異なるイベントについて言及した文書対について、大部分は類似度「0」の付近に分布し、類似度が高い(「1」に近い)文書対は類似度が低い文書対よりも少なくなることが予想される。 FIG. 5 is a graph showing the distribution of similarity of calculation results, with the horizontal axis representing similarity and the vertical axis representing the number of event pairs (logarithm). Here, if the same event is not included, the graph is expected to monotonously decrease toward the right. That is, for document pairs that refer to different events, most of the document pairs are distributed in the vicinity of similarity “0”, and document pairs with high similarity (close to “1”) are less than document pairs with low similarity. Is expected.
ところが、図6に示すように、大部分の文書対の類似度が「0」付近に分布していることは予想通りであるものの、類似度「0.6〜0.8」を谷間として、「0.8」よりも類似度が高い領域で文書対の数が増加していることが判明した。 However, as shown in FIG. 6, although it is expected that the similarity of most document pairs is distributed in the vicinity of “0”, the similarity “0.6 to 0.8” is defined as a valley. It was found that the number of document pairs is increasing in the region where the similarity is higher than “0.8”.
したがって、この場合は類似度「0.6〜0.8」の間に閾値を設定すればよく、偶然に閾値以上の類似度となる文書対が存在する可能性は残るものの、全体からみれば少なく、実用上は問題にならないと考えられる。 Therefore, in this case, it is only necessary to set a threshold value between the similarities “0.6 to 0.8”, and although there is a possibility that there is a document pair having a similarity degree equal to or higher than the threshold value by chance, There are few, and it is thought that it does not become a problem in practical use.
このような分布から閾値を設定する方法として、スライディングウインドウを使用する方法が考えられる。例えば類似度を「0.01」刻みで度数化し、類似度「0〜0.01」のイベント対の個数を「a1」とし、類似度「0.01〜0.02」のイベント対の個数を「a2」とし、以下同様に類似度「(k−0.01)〜k」のイベント対の個数を「ak」とする(類似度が0.01刻みの場合は、k=1,...,100)。 As a method for setting a threshold from such a distribution, a method using a sliding window can be considered. For example, the similarity is frequencyized in increments of “0.01”, the number of event pairs with similarity “0 to 0.01” is “a 1 ”, and event pairs with similarity “0.01 to 0.02” are The number is “a 2 ”, and similarly, the number of event pairs with similarity “(k−0.01) to k ” is “a k ” (when the similarity is in increments of 0.01, k = 1, ..., 100).
このときウインドウサイズwについて、「i」を「1」から順に増加し、ウインドウサイズ毎のイベント対の個数の和が上昇に転じた点を閾値とする。より厳密には、類似度の範囲を「n」個に分割したときの閾値は式(2)によって得られる。なお、式(2)の「min」は集合内の要素の内で最小の値を示している。 At this time, with respect to the window size w, “i” is sequentially increased from “1”, and a point at which the sum of the number of event pairs for each window size starts to increase is set as a threshold value. More precisely, the threshold when the similarity range is divided into “n” is obtained by equation (2). Note that “min” in Equation (2) indicates the minimum value among the elements in the set.
あるいは同様にスライディングウインドウによって分布を平準化した上で、最も度数の小さい区間の中央を閾値とする。この場合の閾値は式(3)によって得ることができる。 Alternatively, similarly, the distribution is leveled by the sliding window, and the center of the section with the smallest frequency is set as the threshold value. The threshold value in this case can be obtained by equation (3).
このようにイベント同一性判定装置100によれば、複数文書の表現するイベントの同一性を判定する際の閾値が実験的に求められる。このとき実験で得られた分布からスライディングウインドウに基づき機械的に適切な閾値に設定することができる。
As described above, according to the event
≪その他・プログラム≫
本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で変形して実施することができる。例えば閾値決定部104および閾値格納部105をクラウド化することもできる。
≪Other ・ Program≫
The present invention is not limited to the above-described embodiment, and can be implemented by being modified within the scope described in each claim. For example, the threshold
また、本発明は、イベント同一性判定装置100の各部101〜105の一部もしくは全部として、コンピュータを機能させる文書検索プログラムとして構成することもできる。このプログラムによればS201〜S205,S301〜S305,S401〜S404の一部あるいは全部をコンピュータに実行させることが可能となる。
In addition, the present invention may be configured as a document search program that causes a computer to function as a part or all of the
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。 The program can be provided through a network such as a website or e-mail. The program is stored in a recording medium such as a CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, BD-ROM, BD-R, or BD-RE. It is also possible to record, save and distribute. This recording medium is read using a recording medium driving device, and the program code itself realizes the processing of the above embodiment, so that the recording medium also constitutes the present invention.
100…イベント同一性判定装置
101…同一性判定部
102…イベントDB
103…文書DB
104…閾値決定部
105…閾値格納部
210,310…特徴ベクトルファイル(中間ファイル)
DESCRIPTION OF
103 ... Document DB
104: Threshold
Claims (7)
あらかじめ前記イベントを特定するためのイベント情報の集合と、前記イベントの抽出元となった電子文書の文書情報の集合とから統計データを計算し、電子文書間における類似度の閾値を決定する閾値決定ステップと、
判定対象のイベント情報に基づき電子文書を読み出して電子文書間の類似度を算出し、算出された類似度と前記閾値とを対比することで電子文書間の同一性を判定する同一性判定ステップと、
を有することを特徴とするイベント同一性判定方法。 An event identity determination method for determining the identity of events described in a plurality of electronic documents by a computer,
Threshold determination for calculating statistical data from a set of event information for specifying the event in advance and a set of document information of the electronic document from which the event is extracted, and determining a threshold of similarity between the electronic documents Steps,
An identity determination step of reading out electronic documents based on event information to be determined, calculating a similarity between the electronic documents, and comparing the calculated similarity with the threshold to determine the identity between the electronic documents; ,
An event identity determination method characterized by comprising:
算出された類似度の分布を、横軸が類似度で縦軸がイベント対の個数としてグラフ化するステップと、
前記グラフ中、前記類似度を任意値刻みで度数化させたスライディングウインドウ化し、前記度数を徐々に増やしたときにウインドウサイズ毎のイベント対の個数和が減少傾向から増加傾向に転じた箇所を前記閾値とするステップと、
を有することを特徴とする請求項1記載のイベント同一性判定方法。 The threshold determination step calculates in advance similarity between documents for a set of electronic documents based on the set of event information;
Graphing the calculated similarity distribution with the horizontal axis being the similarity and the vertical axis being the number of event pairs;
In the graph, a sliding window in which the similarity is frequencyized in arbitrary value increments, and when the frequency is gradually increased, the number of event pairs for each window size has changed from a decreasing trend to an increasing trend. A threshold value step;
The event identity determination method according to claim 1, further comprising:
算出された類似度の分布を、横軸が類似度で縦軸がイベント対の個数としてグラフ化するステップと、
前記グラフ中、前記類似度を任意値刻みで度数化させたスライディングウインドウによって分布を平準化した上で、最も度数の小さい区間の中央を前記閾値とするステップと、
を有することを特徴とする請求項1記載のイベント同一性判定方法。 The threshold determination step calculates in advance similarity between documents for a set of electronic documents based on the set of event information;
Graphing the calculated similarity distribution with the horizontal axis being the similarity and the vertical axis being the number of event pairs;
In the graph, after leveling the distribution by a sliding window in which the similarity is frequencyized in arbitrary value increments, the center of the interval with the smallest frequency as the threshold value,
The event identity determination method according to claim 1, further comprising:
あらかじめ前記イベントを特定するためのイベント情報の集合と、前記イベントの抽出元となった電子文書の文書情報の集合とから統計データを計算し、電子文書間における類似度の閾値を決定する閾値決定部と、
判定対象のイベント情報に基づき電子文書を読み出して電子文書間の類似度を算出し、算出された類似度と前記閾値とを対比することで電子文書間の同一性を判定する同一性判定部と、
を備えることを特徴とするイベント同一性判定装置。 An event identity determination device for determining the identity of events described in a plurality of electronic documents,
Threshold determination for calculating statistical data from a set of event information for specifying the event in advance and a set of document information of the electronic document from which the event is extracted, and determining a threshold of similarity between the electronic documents And
An identity determination unit that reads out electronic documents based on event information to be determined, calculates a similarity between the electronic documents, and compares the calculated similarity with the threshold to determine the identity between the electronic documents; ,
An event identity determination device comprising:
算出された類似度の分布を、横軸が類似度で縦軸がイベント対の個数としてグラフ化する手段と、
前記グラフ中、前記類似度を任意値刻みで度数化させたスライディングウインドウ化し、前記度数を徐々に増やしたときにウインドウサイズ毎のイベント対の個数和が減少傾向から増加傾向に転じた箇所を前記閾値とする手段と、
を備えることを特徴とする請求項4記載のイベント同一性判定装置。 The threshold determination unit calculates a similarity between documents for a set of electronic documents based on the set of event information in advance;
Means for graphing the calculated similarity distribution, with the horizontal axis representing similarity and the vertical axis representing the number of event pairs;
In the graph, a sliding window in which the similarity is frequencyized in arbitrary value increments, and when the frequency is gradually increased, the number of event pairs for each window size has changed from a decreasing trend to an increasing trend. Means for thresholding;
The event identity determination device according to claim 4, further comprising:
算出された類似度の分布を、横軸が類似度で縦軸がイベント対の個数としてグラフ化する手段と、
前記グラフ中、前記類似度を任意値刻みで度数化させたスライディングウインドウによって分布を平準化した上で、最も度数の小さい区間の中央を前記閾値とする手段と、
を備えることを特徴とする請求項4記載のイベント同一性判定装置 The threshold determination unit calculates a similarity between documents for a set of electronic documents based on the set of event information in advance;
Means for graphing the calculated similarity distribution, with the horizontal axis representing similarity and the vertical axis representing the number of event pairs;
In the graph, after leveling the distribution with a sliding window in which the similarity is frequencyized in arbitrary value increments, the center of the section with the smallest frequency as the threshold,
The event identity determination device according to claim 4, further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014120061A JP6209492B2 (en) | 2014-06-11 | 2014-06-11 | Event identity determination method, event identity determination device, event identity determination program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014120061A JP6209492B2 (en) | 2014-06-11 | 2014-06-11 | Event identity determination method, event identity determination device, event identity determination program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015232855A true JP2015232855A (en) | 2015-12-24 |
JP6209492B2 JP6209492B2 (en) | 2017-10-04 |
Family
ID=54934237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014120061A Active JP6209492B2 (en) | 2014-06-11 | 2014-06-11 | Event identity determination method, event identity determination device, event identity determination program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6209492B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722593A (en) * | 2021-08-31 | 2021-11-30 | 北京百度网讯科技有限公司 | Event data processing method and device, electronic equipment and medium |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145288A (en) * | 1997-07-29 | 1999-02-16 | Just Syst Corp | Document processor, storage medium storing document processing program and document processing method |
JP2001331529A (en) * | 2000-03-17 | 2001-11-30 | Fujitsu Ltd | Device and method for presenting news information |
JP2005251203A (en) * | 2004-03-02 | 2005-09-15 | Microsoft Corp | Principle and method for personalizing news feed via analysis of information novelty and information dynamics |
JP2005276205A (en) * | 2004-03-22 | 2005-10-06 | Microsoft Corp | Detection/suppression method for look-alike (duplication) |
JP2008067332A (en) * | 2006-09-11 | 2008-03-21 | Sony Corp | Apparatus and method for information processing, and program |
JP2011227688A (en) * | 2010-04-20 | 2011-11-10 | Univ Of Tokyo | Method and device for extracting relation between two entities in text corpus |
WO2013089260A1 (en) * | 2011-12-12 | 2013-06-20 | 日本電気株式会社 | Image processing system, and image processing method |
JP2013250677A (en) * | 2012-05-30 | 2013-12-12 | Rakuten Inc | Information processor, information processing method, information processing program and recording medium |
-
2014
- 2014-06-11 JP JP2014120061A patent/JP6209492B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145288A (en) * | 1997-07-29 | 1999-02-16 | Just Syst Corp | Document processor, storage medium storing document processing program and document processing method |
JP2001331529A (en) * | 2000-03-17 | 2001-11-30 | Fujitsu Ltd | Device and method for presenting news information |
JP2005251203A (en) * | 2004-03-02 | 2005-09-15 | Microsoft Corp | Principle and method for personalizing news feed via analysis of information novelty and information dynamics |
JP2005276205A (en) * | 2004-03-22 | 2005-10-06 | Microsoft Corp | Detection/suppression method for look-alike (duplication) |
JP2008067332A (en) * | 2006-09-11 | 2008-03-21 | Sony Corp | Apparatus and method for information processing, and program |
JP2011227688A (en) * | 2010-04-20 | 2011-11-10 | Univ Of Tokyo | Method and device for extracting relation between two entities in text corpus |
WO2013089260A1 (en) * | 2011-12-12 | 2013-06-20 | 日本電気株式会社 | Image processing system, and image processing method |
JP2013250677A (en) * | 2012-05-30 | 2013-12-12 | Rakuten Inc | Information processor, information processing method, information processing program and recording medium |
Non-Patent Citations (1)
Title |
---|
邱 起仁,他: ""ニュース記事に関連するツイート収集手法の提案とのその評価"", 情報処理学会研究報告 ヒューマンコンピュータインタラクション(HCI) 2014−HCI−157 [, JPN6017024100, 6 March 2014 (2014-03-06), pages 1 - 6, ISSN: 0003588596 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722593A (en) * | 2021-08-31 | 2021-11-30 | 北京百度网讯科技有限公司 | Event data processing method and device, electronic equipment and medium |
CN113722593B (en) * | 2021-08-31 | 2024-01-16 | 北京百度网讯科技有限公司 | Event data processing method, device, electronic equipment and medium |
Also Published As
Publication number | Publication date |
---|---|
JP6209492B2 (en) | 2017-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11562012B2 (en) | System and method for providing technology assisted data review with optimizing features | |
US10339468B1 (en) | Curating training data for incremental re-training of a predictive model | |
US10592481B2 (en) | Classifying an unmanaged dataset | |
US20150256475A1 (en) | Systems and methods for designing an optimized infrastructure for executing computing processes | |
Ahmed et al. | Defining big data and measuring its associated trends in the field of information and library management | |
US9967218B2 (en) | Online active learning in user-generated content streams | |
Hartmann | Large-deviation properties of largest component for random graphs | |
US20170154077A1 (en) | Method for comment tag extraction and electronic device | |
CN110334356A (en) | Article matter method for determination of amount, article screening technique and corresponding device | |
US10600501B2 (en) | System and methods for identifying a base call included in a target sequence | |
US20140229496A1 (en) | Information processing device, information processing method, and computer program product | |
US9542669B1 (en) | Encoding and using information about distributed group discussions | |
CN106598997B (en) | Method and device for calculating text theme attribution degree | |
CN111316191A (en) | Prediction engine for multi-level pattern discovery and visual analysis recommendation | |
JP6209492B2 (en) | Event identity determination method, event identity determination device, event identity determination program | |
JP2016031629A (en) | Feature selection device, feature selection system, feature selection method and feature selection program | |
JP2012173793A (en) | Predictor selection device, predictor selection method, and predictor selection program | |
JP5756052B2 (en) | User attribute estimation apparatus, method and program | |
CN110019783B (en) | Attribute word clustering method and device | |
JP2018049437A (en) | Evaluation device, evaluation method and evaluation program | |
US10990883B2 (en) | Systems and methods for estimating and/or improving user engagement in social media content | |
JP2016099685A (en) | Information reliability determination system, information reliability determination method, and information reliability determination program | |
JP2015064856A (en) | Data analysis program, data analysis method, and data analyzer | |
US10409992B2 (en) | Investigation apparatus, computer-readable recording medium, and investigation method | |
CN115470190A (en) | Multi-storage-pool data classification storage method and system and electronic equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160915 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170824 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170911 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6209492 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |