JP4536445B2 - データ類別装置 - Google Patents

データ類別装置 Download PDF

Info

Publication number
JP4536445B2
JP4536445B2 JP2004217580A JP2004217580A JP4536445B2 JP 4536445 B2 JP4536445 B2 JP 4536445B2 JP 2004217580 A JP2004217580 A JP 2004217580A JP 2004217580 A JP2004217580 A JP 2004217580A JP 4536445 B2 JP4536445 B2 JP 4536445B2
Authority
JP
Japan
Prior art keywords
determination
type
attribute
pairwise
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004217580A
Other languages
English (en)
Other versions
JP2006039862A (ja
Inventor
秀俊 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004217580A priority Critical patent/JP4536445B2/ja
Publication of JP2006039862A publication Critical patent/JP2006039862A/ja
Application granted granted Critical
Publication of JP4536445B2 publication Critical patent/JP4536445B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、観測データを類別するデータ類別装置に関するものである。
従来のデータ類別装置は、類別対象の観測データを受信すると、その観測データから属性値を取得して特徴量ベクトルを生成し、その特徴量ベクトルを用いて、種類対毎にペアワイズ判定を実施する。
そして、種類対毎のペアワイズ判定結果からメンバーシップ関数を生成し、そのメンバーシップ関数のファジイ論理積を実施することにより、その観測データを類別する(例えば、非特許文献1参照)。
Inoue,T. and Abe,S.,"Fuzzy Support Vector Machines for Pattern Classification," Proc.Int.Joint Conf.on Neural Networks,pp.1449−1454,(Jul.2001).
従来のデータ類別装置は以上のように構成されているので、例えば、種類対毎のペアワイズ判定結果が三竦みの状態になると、メンバーシップ関数のファジイ論理積を実施するに際して、いずれかのペアワイズ判定結果が無視される。そのため、観測データの類別精度が劣化することがある課題があった。
この発明は上記のような課題を解決するためになされたもので、種類対毎のペアワイズ判定結果の状態に拘わらず、常に観測データを正確に類別することができるデータ類別装置を得ることを目的とする。
この発明に係るデータ類別装置は、種類対が相互に異なるペアワイズ判定用の判定器レコードを複数個有し、種類対毎に当該判定器レコードの特徴量ベクトルと特徴量ベクトル生成手段により生成された特徴量ベクトルからペアワイズ判定を実施するペアワイズ判定手段を設け、種類対毎のペアワイズ判定結果から観測データが各種類に属する可能性を示す判定属性を求めるようにしたものである。
また、ペアワイズ判定結果を種類対における当該種類の帰属値と乖離値で表す場合、ペアワイズ判定手段が、当該種類の帰属値と乖離値を数値化する関数に、当該判定器レコードの特徴量ベクトルと特徴量ベクトル生成手段により生成された特徴量ベクトルを代入することで、当該種類の帰属値と乖離値を計算し、属性判定手段が、種類対毎のペアワイズ判定結果から当該種類の乖離値を取り出し、観測データが当該種類に属する可能性を示す判定属性として、当該種類の乖離値の総和を求めるようにしたものである。
この発明によれば、種類対が相互に異なるペアワイズ判定用の判定器レコードを複数個有し、種類対毎に当該判定器レコードの特徴量ベクトルと特徴量ベクトル生成手段により生成された特徴量ベクトルからペアワイズ判定を実施するペアワイズ判定手段を設け、種類対毎のペアワイズ判定結果から観測データが各種類に属する可能性を示す判定属性を求めるように構成したので、種類対毎のペアワイズ判定結果の状態に拘わらず、常に観測データを正確に類別することができる効果がある。
また、ペアワイズ判定結果を種類対における当該種類の帰属値と乖離値で表す場合、ペアワイズ判定手段が、当該種類の帰属値と乖離値を数値化する関数に、当該判定器レコードの特徴量ベクトルと特徴量ベクトル生成手段により生成された特徴量ベクトルを代入することで、当該種類の帰属値と乖離値を計算し、属性判定手段が、種類対毎のペアワイズ判定結果から当該種類の乖離値を取り出し、観測データが当該種類に属する可能性を示す判定属性として、当該種類の乖離値の総和を求めるように構成したので、客観性のあるペアワイズ判定結果が得られるとともに、全てのペアワイズ判定結果を考慮した判定属性が得られる効果がある。
実施の形態1.
図1はこの発明の実施の形態1によるデータ類別装置を示す構成図であり、図において、整形部1は類別対象の観測データを受信すると、その観測データから属性値を抽出して、1以上の属性値からなる特徴量ベクトルxを生成し、その特徴量ベクトルxを含む観測レコードを観測DB部2に出力する。なお、整形部1は特徴量ベクトル生成手段を構成している。
観測DB部2は整形部1により生成された特徴量ベクトルxを含む観測レコードを観測DB3に格納するとともに、その観測レコードに含まれている観測タグと特徴量ベクトルxを判定器DB部5に出力し、また、判定部6から判定属性を受けると、その判定属性に応じて観測データの類別結果を提示する。
観測DB3は特徴量ベクトルxを含む観測レコードを格納する。
判定器DB4は種類対が相互に異なるペアワイズ判定用の判定器レコードを複数個格納している。
判定器DB部5は判定器DB4から「無効フラグ」が有効である種類対毎の判定器レコードを取得し、種類対毎に当該判定器レコードの特徴量ベクトルs〜sと整形部1により生成された特徴量ベクトルxからペアワイズ判定を実施する。なお、判定器DB4及び判定器DB部5からペアワイズ判定手段が構成されている。
判定部6は判定器DB部5による種類対毎のペアワイズ判定結果を取得し、種類対毎のペアワイズ判定結果から観測データが各種類に属する可能性を示す判定属性を求める。なお、判定部6は属性判定手段を構成している。
図2はこの発明の実施の形態1によるデータ類別装置の処理内容を示すフローチャートである。
次に動作について説明する。
類別対象の観測データは複数の属性値から構成されており、その属性値には、例えば、レーダ強度などが数値化されている数値属性のほか、天気が晴れや曇り、あるいは、気圧が○○hPaなどのカテゴリを示すカテゴリ属性がある。
整形部1は、類別対象の観測データを受信すると、その観測データから属性値を抽出する(ステップST1)。
即ち、整形部1は、類別対象の観測データに含まれている属性値が所定の数値属性であれば、その属性値を単純に抽出するだけであるが、その属性値がカテゴリ属性であれば、そのカテゴリ属性を抽出してから、例えばN次元空間数量化四類などの数値化ルールにしたがってカテゴリ属性を数値化する。例えば、晴れ→1、曇り→0.5、雨→0のように、カテゴリ属性を数値化する。
整形部1は、上記のようにして、複数の属性値zを抽出すると、複数の属性値zからなる特徴量ベクトルxを生成する(ステップST2)。
x=z,z,z,・・・,z,・・・,z (1)
m=1〜Mの整数
整形部1は、複数の属性値zからなる特徴量ベクトルxを生成すると、図3に示すような観測レコードに特徴量ベクトルxを格納するとともに、その観測レコードを識別するユニークな観測タグを付加する。
また、整形部1は、観測データの中に、特徴量ベクトルxに含まれない数値属性やカテゴリ属性が存在する場合、その数値属性やカテゴリ属性を説明属性として観測レコードに格納する。
この段階では、観測レコードの判定属性は不定でよく、後段の観測DB部2が判定属性を観測レコードに格納する。
整形部1は、図3の観測レコードを観測DB部2に出力する。
観測DB部2は、整形部1から観測タグや特徴量ベクトルxなどが含まれている観測レコードを受けると、その観測タグをキーにして、その観測レコードを観測DB3に格納するとともに、その観測レコードに含まれている観測タグと特徴量ベクトルxを判定器DB部5に出力する。
判定器DB4は、観測データの類別用に作成された複数の判定器を判定器レコードの形式で格納している。
ここで、判定器とは、特徴量ベクトルの張る特徴量空間において、多数ある種類の中から2つの種類に着目し、2つの種類の間の境界面と帰属種類を関数で表現するものである。
種類の数がN個であれば、N個の中から2個選択する組み合せの数だけ、判定器が用意されていることになる。
上記の関数は、その値が“0”であれば、2つの種類の境界面を表現し、その値が正値であれば、2つの種類のうちの一方の種類(以下、正種類という)を表現し、その値が負値であれば、2つの種類のうちの他方の種類(以下、負種類という)を表現するものである。
このような関数としては、サポートベクターマシン(以下、SVMという)の関数が代表的である。
図4は判定器レコードの構成例を示す説明図である。
判定器レコードは、正種類、負種類、距離属性、性能、無効フラグ(使用属性)、複数の係数及び複数の特徴量ベクトルの組から構成されている。
ここで、「距離属性」は、SVMのカーネル(距離の決定方法に関わる関数)の選択を表現するものであり、カーネルの種類を示すカテゴリ属性と、カーネル毎に必要なパラメータとから構成されている。
カーネルの種類を示すカテゴリ属性の取る値としては、例えば、線形、多項式、RBFがある。
線形カーネルのパラメータは、ソフトマージン用のスラック係数であり、その数は標本全体で共通にして1つにすることもできるし、標本毎に決めることもできる。あるいは、距離属性には記録せずにパラメータなしでもよい。
多項式カーネルのパラメータは、線形カーネルのパラメータに加えて、次数のパラメータが1つ加わる。
RBFカーネルのパラメータは、線形カーネルのパラメータに加えて、距離の規準に相当するパラメータが1つ加わる。
「性能」は、判定器の性能を表現するものであり、例えば、学習に用いた標本の自己識別成功率などを格納している。これにより、同じ種類対について、距離属性や特徴量ベクトルが異なる複数の判定器を格納し、類別する際に最高性能の判定器を1つ選択して使用することができる。
「無効フラグ」は、初期値・有効・無効のうちのいずれかによって、その判定器の使用の可否を表現するものである。ユーザがある種類を考慮しないで類別を行うことを希望する場合に、無効フラグを無効にすれば、判定器を実際に削除せずに、観測データの類別結果や判定属性の修正が可能となる。
判定器DB部5は、上記のようにして、観測DB部2から観測レコードに含まれている観測タグと特徴量ベクトルxを受けると、判定器DB4から「無効フラグ」が有効である種類対毎の判定器レコードを取得する(ステップST3)。
例えば、観測データを「旅客機」、「戦闘機」、「ミサイル」のいずれかの種類に類別する場合、判定器DB4から種類対(正種類、負種類)が(旅客機、戦闘機)、(旅客機、ミサイル)、(戦闘機、ミサイル)であるような判定器レコードを検索して取得する。
このとき、種類対(正種類、負種類)が(旅客機、戦闘機)の判定器レコードが判定器DB4に格納されていないが、種類対(正種類、負種類)が(戦闘機、旅客機)の判定器レコードが判定器DB4に格納されている場合、その判定器レコードが保有する係数値の正負をすべて反転し、その判定器レコードを(旅客機、戦闘機)の判定器レコードとして見なすものとする。
判定器DB部5は、判定器DB4から種類対毎の判定器レコードを取得すると、種類対毎に当該判定器レコードの特徴量ベクトルs〜sと整形部1により生成された特徴量ベクトルxからペアワイズ判定を実施する(ステップST4)。
即ち、判定器DB部5は、図5に示すように、ペアワイズ判定結果を示すペアワイズ判定レコードを正種類の帰属値(観測データが正種類である可能性を示す数値であり、その数値が大きい程、正種類である可能性が高い)と、負種類の帰属値(=正種類の乖離値:観測データが正種類でない可能性を示す数値であり、その数値が大きい程、正種類でない可能性が高い)で表す場合、正種類の帰属値と、負種類の帰属値(正種類の乖離値)を以下のように計算する。
判定器DB部5は、各判定器レコードからそれぞれ特徴量ベクトルであるn個のs〜sと、係数であるn個のa〜aと、カーネル関数であるKを取得する。
この場合、SVM関数R(x)は、次式で表される。
R(x)=ΣaK(s,x) (2)
ただし、Σはi=1〜nの総和を表すものとする。
判定器DB部5は、SVM関数R(x)の計算結果に応じて、次のように正種類の帰属値と、負種類の帰属値(正種類の乖離値)を決定する。
R(x)<0 → 正種類の帰属値=0
0≦R(x)≦1 → 正種類の帰属値=R(x)
R(x)>1 → 正種類の帰属値=1
R(x)<−1 → 負種類の帰属値=1
−1≦R(x)≦0 → 負種類の帰属値=−R(x)
R(x)>0 → 負種類の帰属値=0
なお、カーネル関数Kは、判定器レコードの距離属性におけるカーネル種類が線形である場合、標本と特徴量ベクトルの内積、即ち、R(x)=Σaxという式で表される。
また、距離属性におけるカーネル種類が多項式である場合、次数のパラメータdを用いて、R(x)=Σa(1+sx)という式で表される。
また、距離属性におけるカーネル種類がRBFである場合、標本からの距離の規準に相当するパラメータrを用いて、R(x)=Σaexp[−||s−x||/2r]という式で表される。
判定部6は、判定器DB部5から種類対毎のペアワイズ判定結果であるペアワイズ判定レコードを取得すると、種類対毎のペアワイズ判定レコードから観測データが各種類に属する可能性を示す判定属性を求める(ステップST5)。
具体的には、次のようにして判定属性を求める。
判定部6は、例えば、判定器DB部5から以下に示すような3個のペアワイズ判定レコードが出力されたものとする。
・種類対(正種類、負種類)→(A、B)
正種類の帰属値=0.5 負種類の帰属値=0
・種類対(正種類、負種類)→(B、C)
正種類の帰属値=0 負種類の帰属値=0.3
・種類対(正種類、負種類)→(C、A)
正種類の帰属値=0 負種類の帰属値=0.6
この場合、判定部6は、3個のペアワイズ判定レコードから種類Aの乖離値を取り出し(種類Aが正種類であれば負種類の帰属値を取り出し、種類Aが負種類であれば正種類の帰属値を取り出す)、種類Aの乖離値の総和Tを求める。
=0+0=0
また、3個のペアワイズ判定レコードから種類Bの乖離値を取り出し(種類Bが正種類であれば負種類の帰属値を取り出し、種類Bが負種類であれば正種類の帰属値を取り出す)、種類Bの乖離値の総和Tを求める。
=0.5+0.3=0.8
また、3個のペアワイズ判定レコードから種類Cの乖離値を取り出し(種類Cが正種類であれば負種類の帰属値を取り出し、種類Cが負種類であれば正種類の帰属値を取り出す)、種類Cの乖離値の総和Tを求める。
=0+0.6=0.6
判定部6は、上記のようにして、種類A,B,Cの乖離値の総和T,T,Tを求めると、その総和T,T,Tを判定属性として観測DB部2に出力する。
観測DB部2は、判定部6から判定属性である総和T,T,Tを受けると、その判定属性に付加されている観測タグをキーにして、観測DB3に格納されている観測レコードを取り出し、その観測レコードに判定属性である総和T,T,Tを格納する。
また、観測DB部2は、判定属性である総和T,T,Tを相互に比較し、最も数値が小さい総和を特定する。
観測DB部2は、上記の例では総和Tの数値が最も小さいので、観測データが種類Aに属していることを示す類別結果を例えば表示器に表示することにより、その類別結果をユーザに提示する(ステップST6)。
以上のように、この実施の形態1によれば、種類対毎に当該判定器レコードの特徴量ベクトルs〜sと整形部1により生成された特徴量ベクトルxからペアワイズ判定を実施する判定器DB部5を設け、種類対毎のペアワイズ判定レコードから観測データが各種類に属する可能性を示す判定属性を求めるように構成したので、種類対毎のペアワイズ判定結果の状態に拘わらず、常に観測データを正確に類別することができる効果を奏する。
また、この実施の形態1によれば、正種類の帰属値と負種類の帰属値(正種類の乖離値)を数値化する関数に、判定器レコードの特徴量ベクトルs〜sと整形部1により生成された特徴量ベクトルxを代入するように構成したので、客観性のあるペアワイズ判定結果が得られる効果を奏する。
さらに、この実施の形態1によれば、種類対毎のペアワイズ判定レコードから当該種類の乖離値を取り出し、当該種類の乖離値の総和を求めるように構成したので、全てのペアワイズ判定結果を考慮した判定属性が得られる効果を奏する。
実施の形態2.
上記実施の形態1では、判定器DB部5が判定器DB4に格納されている種類対毎の判定器レコードを取得するものについて示したが、判定器DB4に種類対が同一の判定器レコードが複数個格納されている場合、判定器レコードに記述されている「性能」を相互に比較し、最も性能が高い判定器レコードを1つ選択するようにしてもよい。
ここでは、「性能」を相互に比較して判定器レコードを選択しているが、「性能」以外のパラメータを基準にして判定器レコードを選択するようにしてもよいことは言うまでもない。
この実施の形態2によれば、同じ種類対について、距離属性や特徴量ベクトルが異なる複数の判定器レコードを判定器DB4に格納することができるので、判定器レコードを改善する際の改善履歴を判定器DB4に記録することができる効果を奏する。
また、観測データを類別する際に適正な判定器レコードを選択してペアワイズ判定を実施することができるようになり、ペアワイズの判定精度を高めることができる効果を奏する。
実施の形態3.
図6はこの発明の実施の形態3によるデータ類別装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
使用属性設定部11は判定器DB4に格納されている判定器レコードの使用属性である「無効フラグ」の設定を受け付け、例えば、判定器レコードの「無効フラグ」を有効から無効、あるいは、無効から有効に変更する。なお、使用属性設定部11はペアワイズ判定手段を構成している。
判定部12は図1の判定部6と同様に、種類対毎のペアワイズ判定結果から観測データが各種類に属する可能性を示す判定属性を求めるが、その判定属性を求めた後に、任意の判定器レコードの「無効フラグ」が有効から無効に変更された場合、その判定器レコードに係るペアワイズ判定結果を除外して判定属性を再度求める一方、任意の判定器レコードの「無効フラグ」が無効から有効に変更された場合、判定器DB部5から当該判定器レコードに係るペアワイズ判定結果を取得し、そのペアワイズ判定結果を考慮して判定属性を再度求める。なお、判定部12は属性判定手段を構成している。
観測DB部13は図1の観測DB部2と同様の処理を実施するほか、観測データの類別結果を提示した後、使用属性設定部11が判定器レコードの「無効フラグ」の設定を変更すると、判定部12により再度求められた判定属性に応じて観測データの類別結果を再提示する。
次に動作について説明する。
観測データの類別結果をユーザに提示する処理は、上記実施の形態1と同様であるため説明を省略するが、観測DB部13が図1の観測DB部2と同様にして観測データの類別結果を提示した後、ユーザが使用属性設定部11を操作して、ある種類対の判定器レコードの「無効フラグ」を有効から無効に変更する場合がある。
例えば、観測データの類別結果が「旅客機」であるとき、ユーザが「旅客機」ではないと認定するような場合には、種類対に「旅客機」が含まれている判定器レコードの「無効フラグ」を有効から無効に変更することがある。
判定部12は、図1の判定部6と同様にして、種類対毎のペアワイズ判定結果から判定属性を求めるが、その判定属性を求めた後に、任意の判定器レコードの「無効フラグ」が有効から無効に変更された場合、その判定器レコードに係るペアワイズ判定結果を除外して判定属性を再度求める。
具体的には、以下の通りである。
判定部12は、例えば、5個の判定器レコードの「無効フラグ」が有効であり、判定器DB部5から5個のペアワイズ判定レコードを受けていれば、5個のペアワイズ判定レコードから各種類毎に、当該種類の乖離値を取り出して、当該種類の乖離値の総和を判定属性として求める。
しかし、その後、そのうちの2個の判定器レコードの「無効フラグ」が有効から無効に変更されると、2個のペアワイズ判定レコードを除外し、3個のペアワイズ判定レコードから各種類毎に、当該種類の乖離値を取り出して、当該種類の乖離値の総和を判定属性として求める。
観測DB部13は、観測データの類別結果を提示した後、使用属性設定部11により判定器レコードの「無効フラグ」が有効から無効に変更されると、判定部12により再度求められた判定属性に応じた観測データを例えば表示器に表示することにより、その類別結果をユーザに再提示する。
また、観測DB部13が図1の観測DB部2と同様にして観測データの類別結果を提示した後、ユーザが使用属性設定部11を操作して、ある種類対の判定器レコードの「無効フラグ」を無効から有効に変更する場合がある。
例えば、種類対に「旅客機」が含まれている判定器レコードの「無効フラグ」が無効であって、観測データの類別結果が「戦闘機」であるとき、ユーザが「戦闘機」ではないと認定するような場合には、種類対に「旅客機」が含まれている判定器レコードの「無効フラグ」を無効から有効に変更することがある。
判定器DB部5は、判定器DB4から「無効フラグ」が有効である種類対毎の判定器レコードを取得して、ペアワイズ判定を実施した後、ある判定器レコードの「無効フラグ」が無効から有効に変更されると、その判定器レコードを取得してペアワイズ判定を実施する。
そして、そのペアワイズ判定結果であるペアワイズ判定レコードを判定部12に出力する。
判定部12は、図1の判定部6と同様にして、種類対毎のペアワイズ判定結果から判定属性を求めるが、その判定属性を求めた後に、任意の判定器レコードの「無効フラグ」が無効から有効に変更された場合、判定器DB部5から当該判定器レコードに係るペアワイズ判定結果を取得し、そのペアワイズ判定結果を考慮して判定属性を再度求める。
具体的には、以下の通りである。
判定部12は、例えば、5個の判定器レコードの「無効フラグ」が有効であり、判定器DB部5から5個のペアワイズ判定レコードを受けていれば、5個のペアワイズ判定レコードから各種類毎に、当該種類の乖離値を取り出して、当該種類の乖離値の総和を判定属性として求める。
しかし、その後、3個の判定器レコードの「無効フラグ」が無効から有効に変更されると、判定器DB部5から3個の判定器レコードに係るペアワイズ判定レコードを取得し、合計8個のペアワイズ判定レコードから各種類毎に、当該種類の乖離値を取り出して、当該種類の乖離値の総和を判定属性として再度求める。
観測DB部13は、観測データの類別結果を提示した後、使用属性設定部11により判定器レコードの「無効フラグ」が無効から有効に変更されると、判定部12により再度求められた判定属性に応じた観測データを例えば表示器に表示することにより、その類別結果をユーザに再提示する。
以上で明らかなように、この実施の形態3によれば、判定器DB4に格納されている判定器レコードの「無効フラグ」の設定を受け付けるように構成したので、観測データを類別する種類を必要に応じて簡単に修正することができる効果を奏する。
また、この実施の形態3によれば、種類対毎のペアワイズ判定レコードから判定属性を求めた後に、任意の判定器レコードの「無効フラグ」が有効から無効に変更された場合、その判定器レコードに係るペアワイズ判定結果を除外して判定属性を再度求めるように構成したので、ある種類を除外した類別結果を再提示することができる効果を奏する。
また、この実施の形態3によれば、種類対毎のペアワイズ判定レコードから判定属性を求めた後に、任意の判定器レコードの「無効フラグ」が無効から有効に変更された場合、判定器DB部5から当該判定器レコードに係るペアワイズ判定レコードを取得し、そのペアワイズ判定レコードを考慮して判定属性を再度求めるように構成したので、ある種類を追加した類別結果を再提示することができる効果を奏する。
実施の形態4.
上記実施の形態1〜3では、特に言及していないが、判定器DB部5がカーネル関数Kを含む計算を実施する部分は、全ての種類対において、互いに共有する情報がカーネル関数と、パラメータと、観測データだけである。
したがって、判定器DB部5が複数の計算実行モジュール(プロセッサ)を実装し、判定器DB部5が複数の計算実行モジュールに対して、カーネル関数とパラメータと観測データとを配付するようにすれば、複数の計算実行モジュールが並列処理によってペアワイズ判定を実施することができる。
以上で明らかなように、この実施の形態4によれば、判定器DB部5が複数の計算実行モジュールを用いて、複数のペアワイズ判定の実施を並列処理するように構成したので、ペアワイズ判定処理の高速化を図ることができる効果を奏する。
この発明の実施の形態1によるデータ類別装置を示す構成図である。 この発明の実施の形態1によるデータ類別装置の処理内容を示すフローチャートである。 観測レコードの構成例を示す説明図である。 判定器レコードの構成例を示す説明図である。 ペアワイズ判定レコードの構成例を示す説明図である。 この発明の実施の形態3によるデータ類別装置を示す構成図である。
符号の説明
1 整形部(特徴量ベクトル生成手段)、2 観測DB部、3 観測DB、4 判定器DB(ペアワイズ判定手段)、5 判定器DB部(ペアワイズ判定手段)、6 判定部(属性判定手段)、11 使用属性設定部(ペアワイズ判定手段)、12 判定部(属性判定手段)、13 観測DB部。

Claims (7)

  1. 類別対象の観測データから属性値を抽出し、1以上の属性値からなる特徴量ベクトルを生成する特徴量ベクトル生成手段と、種類対が相互に異なるペアワイズ判定用の判定器レコードを複数個有し、種類対毎に当該判定器レコードの特徴量ベクトルと上記特徴量ベクトル生成手段により生成された特徴量ベクトルからペアワイズ判定を実施するペアワイズ判定手段と、上記ペアワイズ判定手段による種類対毎のペアワイズ判定結果を取得し、種類対毎のペアワイズ判定結果から上記観測データが各種類に属する可能性を示す判定属性を求める属性判定手段とを備えたデータ類別装置において、
    上記ペアワイズ判定手段は、ペアワイズ判定結果を種類対における当該種類の帰属値と乖離値で表す場合、当該種類の帰属値と乖離値を数値化する関数に、当該判定器レコードの特徴量ベクトルと上記特徴量ベクトル生成手段により生成された特徴量ベクトルを代入することで、当該種類の帰属値と乖離値を計算し、
    上記属性判定手段は、種類対毎のペアワイズ判定結果から当該種類の乖離値を取り出し、上記観測データが当該種類に属する可能性を示す判定属性として、当該種類の乖離値の総和を求めることを特徴とするデータ類別装置。
  2. ペアワイズ判定手段は、種類対が同一の判定器レコードを複数個有する場合、複数の判定器レコードに記述されている性能を相互に比較することで、最も性能が高い判定器レコードを選択し、その判定器レコードの特徴量ベクトルを使用してペアワイズ判定を実施することを特徴とする請求項1記載のデータ類別装置。
  3. ペアワイズ判定手段は、複数の判定器レコードのうち、使用属性が無効である判定器レコードを使用せず、使用属性が有効である判定器レコードを使用してペアワイズ判定を実施することを特徴とする請求項1または請求項2記載のデータ類別装置。
  4. ペアワイズ判定手段は、判定器レコードの使用属性の設定を受け付けることを特徴とする請求項記載のデータ類別装置。
  5. 属性判定手段は、種類対毎のペアワイズ判定結果から観測データが各種類に属する可能性を示す判定属性を求めた後に、任意の判定器レコードの使用属性が有効から無効に変更された場合、その判定器レコードに係るペアワイズ判定結果を除外して判定属性を再度求めることを特徴とする請求項記載のデータ類別装置。
  6. 属性判定手段は、種類対毎のペアワイズ判定結果から観測データが各種類に属する可能性を示す判定属性を求めた後に、任意の判定器レコードの使用属性が無効から有効に変更された場合、ペアワイズ判定手段から当該判定器レコードに係るペアワイズ判定結果を取得し、そのペアワイズ判定結果を考慮して判定属性を再度求めることを特徴とする請求項記載のデータ類別装置。
  7. ペアワイズ判定手段は、複数のプロセッサを用いて、複数のペアワイズ判定の実施を並列処理することを特徴とする請求項1から請求項のうちのいずれか1項記載のデータ類別装置。
JP2004217580A 2004-07-26 2004-07-26 データ類別装置 Expired - Fee Related JP4536445B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004217580A JP4536445B2 (ja) 2004-07-26 2004-07-26 データ類別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004217580A JP4536445B2 (ja) 2004-07-26 2004-07-26 データ類別装置

Publications (2)

Publication Number Publication Date
JP2006039862A JP2006039862A (ja) 2006-02-09
JP4536445B2 true JP4536445B2 (ja) 2010-09-01

Family

ID=35904809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004217580A Expired - Fee Related JP4536445B2 (ja) 2004-07-26 2004-07-26 データ類別装置

Country Status (1)

Country Link
JP (1) JP4536445B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014096086A (ja) * 2012-11-12 2014-05-22 Hitachi Solutions Ltd 文書分類システムおよび方法
JP7075057B2 (ja) 2018-12-27 2022-05-25 オムロン株式会社 画像判定装置、画像判定方法及び画像判定プログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160503A (ja) * 1993-12-13 1995-06-23 Meidensha Corp 知識処理システム
JPH07182368A (ja) * 1993-12-24 1995-07-21 Hitachi Ltd データ加工システム
JP2000250925A (ja) * 1999-02-26 2000-09-14 Matsushita Electric Ind Co Ltd 文書検索・分類方法および装置
JP2002531906A (ja) * 1998-12-02 2002-09-24 マーズ インコーポレイテッド 分類方法と装置
JP2003345810A (ja) * 2002-05-28 2003-12-05 Hitachi Ltd 文書検索方法、文書検索システム及び文書検索結果示方システム
JP2004094521A (ja) * 2002-08-30 2004-03-25 Nippon Telegr & Teleph Corp <Ntt> 質問タイプ学習方法、学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習データを記録した記録媒体、学習データを用いた質問タイプ同定方法、装置、プログラム、および該プログラムを記録した記録媒体
JP2004521407A (ja) * 2000-09-01 2004-07-15 フレッド・ハッチソン・キャンサー・リサーチ・センター 大きなデータアレイを解析するための統計学的モデリング
JP2004280712A (ja) * 2003-03-18 2004-10-07 Just Syst Corp データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160503A (ja) * 1993-12-13 1995-06-23 Meidensha Corp 知識処理システム
JPH07182368A (ja) * 1993-12-24 1995-07-21 Hitachi Ltd データ加工システム
JP2002531906A (ja) * 1998-12-02 2002-09-24 マーズ インコーポレイテッド 分類方法と装置
JP2000250925A (ja) * 1999-02-26 2000-09-14 Matsushita Electric Ind Co Ltd 文書検索・分類方法および装置
JP2004521407A (ja) * 2000-09-01 2004-07-15 フレッド・ハッチソン・キャンサー・リサーチ・センター 大きなデータアレイを解析するための統計学的モデリング
JP2003345810A (ja) * 2002-05-28 2003-12-05 Hitachi Ltd 文書検索方法、文書検索システム及び文書検索結果示方システム
JP2004094521A (ja) * 2002-08-30 2004-03-25 Nippon Telegr & Teleph Corp <Ntt> 質問タイプ学習方法、学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習データを記録した記録媒体、学習データを用いた質問タイプ同定方法、装置、プログラム、および該プログラムを記録した記録媒体
JP2004280712A (ja) * 2003-03-18 2004-10-07 Just Syst Corp データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム

Also Published As

Publication number Publication date
JP2006039862A (ja) 2006-02-09

Similar Documents

Publication Publication Date Title
CN106021362B (zh) 查询式的图片特征表示的生成、图片搜索方法和装置
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
US6778941B1 (en) Message and user attributes in a message filtering method and system
JP4233836B2 (ja) 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
JP2017123168A (ja) セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法及び装置
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
JP2006172437A (ja) データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置
CN108734159B (zh) 一种图像中敏感信息的检测方法及系统
US20030182082A1 (en) Method for determining a quality for a data clustering and data processing system
US20080091627A1 (en) Data Learning System for Identifying, Learning Apparatus, Identifying Apparatus and Learning Method
WO2014118978A1 (ja) 学習方法、情報処理装置および学習プログラム
JP5391637B2 (ja) データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム
JP5128437B2 (ja) 時系列関係グラフに基づくエンティティ分類装置および方法
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
CN112926592A (zh) 一种基于改进Fast算法的商标检索方法及装置
Luqman et al. Subgraph spotting through explicit graph embedding: An application to content spotting in graphic document images
JP4802176B2 (ja) パターン認識装置、パターン認識プログラム及びパターン認識方法
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
JP4536445B2 (ja) データ類別装置
JP4479745B2 (ja) 文書の類似度補正方法、プログラムおよびコンピュータ
JP6004014B2 (ja) 学習方法、情報変換装置および学習プログラム
CN114943285B (zh) 互联网新闻内容数据智能审核系统
JPH10111869A (ja) 情報分類装置とその方法
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN116186298A (zh) 信息检索方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070510

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071015

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080718

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100616

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130625

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees