JP4536445B2 - データ類別装置 - Google Patents
データ類別装置 Download PDFInfo
- Publication number
- JP4536445B2 JP4536445B2 JP2004217580A JP2004217580A JP4536445B2 JP 4536445 B2 JP4536445 B2 JP 4536445B2 JP 2004217580 A JP2004217580 A JP 2004217580A JP 2004217580 A JP2004217580 A JP 2004217580A JP 4536445 B2 JP4536445 B2 JP 4536445B2
- Authority
- JP
- Japan
- Prior art keywords
- determination
- type
- attribute
- pairwise
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
そして、種類対毎のペアワイズ判定結果からメンバーシップ関数を生成し、そのメンバーシップ関数のファジイ論理積を実施することにより、その観測データを類別する(例えば、非特許文献1参照)。
また、ペアワイズ判定結果を種類対における当該種類の帰属値と乖離値で表す場合、ペアワイズ判定手段が、当該種類の帰属値と乖離値を数値化する関数に、当該判定器レコードの特徴量ベクトルと特徴量ベクトル生成手段により生成された特徴量ベクトルを代入することで、当該種類の帰属値と乖離値を計算し、属性判定手段が、種類対毎のペアワイズ判定結果から当該種類の乖離値を取り出し、観測データが当該種類に属する可能性を示す判定属性として、当該種類の乖離値の総和を求めるようにしたものである。
また、ペアワイズ判定結果を種類対における当該種類の帰属値と乖離値で表す場合、ペアワイズ判定手段が、当該種類の帰属値と乖離値を数値化する関数に、当該判定器レコードの特徴量ベクトルと特徴量ベクトル生成手段により生成された特徴量ベクトルを代入することで、当該種類の帰属値と乖離値を計算し、属性判定手段が、種類対毎のペアワイズ判定結果から当該種類の乖離値を取り出し、観測データが当該種類に属する可能性を示す判定属性として、当該種類の乖離値の総和を求めるように構成したので、客観性のあるペアワイズ判定結果が得られるとともに、全てのペアワイズ判定結果を考慮した判定属性が得られる効果がある。
図1はこの発明の実施の形態1によるデータ類別装置を示す構成図であり、図において、整形部1は類別対象の観測データを受信すると、その観測データから属性値を抽出して、1以上の属性値からなる特徴量ベクトルxを生成し、その特徴量ベクトルxを含む観測レコードを観測DB部2に出力する。なお、整形部1は特徴量ベクトル生成手段を構成している。
観測DB部2は整形部1により生成された特徴量ベクトルxを含む観測レコードを観測DB3に格納するとともに、その観測レコードに含まれている観測タグと特徴量ベクトルxを判定器DB部5に出力し、また、判定部6から判定属性を受けると、その判定属性に応じて観測データの類別結果を提示する。
観測DB3は特徴量ベクトルxを含む観測レコードを格納する。
判定器DB部5は判定器DB4から「無効フラグ」が有効である種類対毎の判定器レコードを取得し、種類対毎に当該判定器レコードの特徴量ベクトルs1〜snと整形部1により生成された特徴量ベクトルxからペアワイズ判定を実施する。なお、判定器DB4及び判定器DB部5からペアワイズ判定手段が構成されている。
判定部6は判定器DB部5による種類対毎のペアワイズ判定結果を取得し、種類対毎のペアワイズ判定結果から観測データが各種類に属する可能性を示す判定属性を求める。なお、判定部6は属性判定手段を構成している。
図2はこの発明の実施の形態1によるデータ類別装置の処理内容を示すフローチャートである。
類別対象の観測データは複数の属性値から構成されており、その属性値には、例えば、レーダ強度などが数値化されている数値属性のほか、天気が晴れや曇り、あるいは、気圧が○○hPaなどのカテゴリを示すカテゴリ属性がある。
整形部1は、類別対象の観測データを受信すると、その観測データから属性値を抽出する(ステップST1)。
整形部1は、上記のようにして、複数の属性値zmを抽出すると、複数の属性値zmからなる特徴量ベクトルxを生成する(ステップST2)。
x=z1,z2,z3,・・・,zm,・・・,zM (1)
m=1〜Mの整数
また、整形部1は、観測データの中に、特徴量ベクトルxに含まれない数値属性やカテゴリ属性が存在する場合、その数値属性やカテゴリ属性を説明属性として観測レコードに格納する。
この段階では、観測レコードの判定属性は不定でよく、後段の観測DB部2が判定属性を観測レコードに格納する。
整形部1は、図3の観測レコードを観測DB部2に出力する。
ここで、判定器とは、特徴量ベクトルの張る特徴量空間において、多数ある種類の中から2つの種類に着目し、2つの種類の間の境界面と帰属種類を関数で表現するものである。
種類の数がN個であれば、N個の中から2個選択する組み合せの数だけ、判定器が用意されていることになる。
このような関数としては、サポートベクターマシン(以下、SVMという)の関数が代表的である。
判定器レコードは、正種類、負種類、距離属性、性能、無効フラグ(使用属性)、複数の係数及び複数の特徴量ベクトルの組から構成されている。
ここで、「距離属性」は、SVMのカーネル(距離の決定方法に関わる関数)の選択を表現するものであり、カーネルの種類を示すカテゴリ属性と、カーネル毎に必要なパラメータとから構成されている。
カーネルの種類を示すカテゴリ属性の取る値としては、例えば、線形、多項式、RBFがある。
多項式カーネルのパラメータは、線形カーネルのパラメータに加えて、次数のパラメータが1つ加わる。
RBFカーネルのパラメータは、線形カーネルのパラメータに加えて、距離の規準に相当するパラメータが1つ加わる。
「無効フラグ」は、初期値・有効・無効のうちのいずれかによって、その判定器の使用の可否を表現するものである。ユーザがある種類を考慮しないで類別を行うことを希望する場合に、無効フラグを無効にすれば、判定器を実際に削除せずに、観測データの類別結果や判定属性の修正が可能となる。
例えば、観測データを「旅客機」、「戦闘機」、「ミサイル」のいずれかの種類に類別する場合、判定器DB4から種類対(正種類、負種類)が(旅客機、戦闘機)、(旅客機、ミサイル)、(戦闘機、ミサイル)であるような判定器レコードを検索して取得する。
このとき、種類対(正種類、負種類)が(旅客機、戦闘機)の判定器レコードが判定器DB4に格納されていないが、種類対(正種類、負種類)が(戦闘機、旅客機)の判定器レコードが判定器DB4に格納されている場合、その判定器レコードが保有する係数値の正負をすべて反転し、その判定器レコードを(旅客機、戦闘機)の判定器レコードとして見なすものとする。
即ち、判定器DB部5は、図5に示すように、ペアワイズ判定結果を示すペアワイズ判定レコードを正種類の帰属値(観測データが正種類である可能性を示す数値であり、その数値が大きい程、正種類である可能性が高い)と、負種類の帰属値(=正種類の乖離値:観測データが正種類でない可能性を示す数値であり、その数値が大きい程、正種類でない可能性が高い)で表す場合、正種類の帰属値と、負種類の帰属値(正種類の乖離値)を以下のように計算する。
この場合、SVM関数R(x)は、次式で表される。
R(x)=ΣaiK(si,x) (2)
ただし、Σはi=1〜nの総和を表すものとする。
R(x)<0 → 正種類の帰属値=0
0≦R(x)≦1 → 正種類の帰属値=R(x)
R(x)>1 → 正種類の帰属値=1
R(x)<−1 → 負種類の帰属値=1
−1≦R(x)≦0 → 負種類の帰属値=−R(x)
R(x)>0 → 負種類の帰属値=0
また、距離属性におけるカーネル種類が多項式である場合、次数のパラメータdを用いて、R(x)=Σai(1+six)dという式で表される。
また、距離属性におけるカーネル種類がRBFである場合、標本からの距離の規準に相当するパラメータrを用いて、R(x)=Σaiexp[−||si−x||2/2r2]という式で表される。
具体的には、次のようにして判定属性を求める。
・種類対(正種類、負種類)→(A、B)
正種類の帰属値=0.5 負種類の帰属値=0
・種類対(正種類、負種類)→(B、C)
正種類の帰属値=0 負種類の帰属値=0.3
・種類対(正種類、負種類)→(C、A)
正種類の帰属値=0 負種類の帰属値=0.6
TA=0+0=0
また、3個のペアワイズ判定レコードから種類Bの乖離値を取り出し(種類Bが正種類であれば負種類の帰属値を取り出し、種類Bが負種類であれば正種類の帰属値を取り出す)、種類Bの乖離値の総和TBを求める。
TB=0.5+0.3=0.8
また、3個のペアワイズ判定レコードから種類Cの乖離値を取り出し(種類Cが正種類であれば負種類の帰属値を取り出し、種類Cが負種類であれば正種類の帰属値を取り出す)、種類Cの乖離値の総和TCを求める。
TC=0+0.6=0.6
また、観測DB部2は、判定属性である総和TA,TB,TCを相互に比較し、最も数値が小さい総和を特定する。
観測DB部2は、上記の例では総和TAの数値が最も小さいので、観測データが種類Aに属していることを示す類別結果を例えば表示器に表示することにより、その類別結果をユーザに提示する(ステップST6)。
上記実施の形態1では、判定器DB部5が判定器DB4に格納されている種類対毎の判定器レコードを取得するものについて示したが、判定器DB4に種類対が同一の判定器レコードが複数個格納されている場合、判定器レコードに記述されている「性能」を相互に比較し、最も性能が高い判定器レコードを1つ選択するようにしてもよい。
ここでは、「性能」を相互に比較して判定器レコードを選択しているが、「性能」以外のパラメータを基準にして判定器レコードを選択するようにしてもよいことは言うまでもない。
また、観測データを類別する際に適正な判定器レコードを選択してペアワイズ判定を実施することができるようになり、ペアワイズの判定精度を高めることができる効果を奏する。
図6はこの発明の実施の形態3によるデータ類別装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
使用属性設定部11は判定器DB4に格納されている判定器レコードの使用属性である「無効フラグ」の設定を受け付け、例えば、判定器レコードの「無効フラグ」を有効から無効、あるいは、無効から有効に変更する。なお、使用属性設定部11はペアワイズ判定手段を構成している。
観測データの類別結果をユーザに提示する処理は、上記実施の形態1と同様であるため説明を省略するが、観測DB部13が図1の観測DB部2と同様にして観測データの類別結果を提示した後、ユーザが使用属性設定部11を操作して、ある種類対の判定器レコードの「無効フラグ」を有効から無効に変更する場合がある。
例えば、観測データの類別結果が「旅客機」であるとき、ユーザが「旅客機」ではないと認定するような場合には、種類対に「旅客機」が含まれている判定器レコードの「無効フラグ」を有効から無効に変更することがある。
具体的には、以下の通りである。
しかし、その後、そのうちの2個の判定器レコードの「無効フラグ」が有効から無効に変更されると、2個のペアワイズ判定レコードを除外し、3個のペアワイズ判定レコードから各種類毎に、当該種類の乖離値を取り出して、当該種類の乖離値の総和を判定属性として求める。
例えば、種類対に「旅客機」が含まれている判定器レコードの「無効フラグ」が無効であって、観測データの類別結果が「戦闘機」であるとき、ユーザが「戦闘機」ではないと認定するような場合には、種類対に「旅客機」が含まれている判定器レコードの「無効フラグ」を無効から有効に変更することがある。
そして、そのペアワイズ判定結果であるペアワイズ判定レコードを判定部12に出力する。
具体的には、以下の通りである。
しかし、その後、3個の判定器レコードの「無効フラグ」が無効から有効に変更されると、判定器DB部5から3個の判定器レコードに係るペアワイズ判定レコードを取得し、合計8個のペアワイズ判定レコードから各種類毎に、当該種類の乖離値を取り出して、当該種類の乖離値の総和を判定属性として再度求める。
上記実施の形態1〜3では、特に言及していないが、判定器DB部5がカーネル関数Kを含む計算を実施する部分は、全ての種類対において、互いに共有する情報がカーネル関数と、パラメータと、観測データだけである。
したがって、判定器DB部5が複数の計算実行モジュール(プロセッサ)を実装し、判定器DB部5が複数の計算実行モジュールに対して、カーネル関数とパラメータと観測データとを配付するようにすれば、複数の計算実行モジュールが並列処理によってペアワイズ判定を実施することができる。
Claims (7)
- 類別対象の観測データから属性値を抽出し、1以上の属性値からなる特徴量ベクトルを生成する特徴量ベクトル生成手段と、種類対が相互に異なるペアワイズ判定用の判定器レコードを複数個有し、種類対毎に当該判定器レコードの特徴量ベクトルと上記特徴量ベクトル生成手段により生成された特徴量ベクトルからペアワイズ判定を実施するペアワイズ判定手段と、上記ペアワイズ判定手段による種類対毎のペアワイズ判定結果を取得し、種類対毎のペアワイズ判定結果から上記観測データが各種類に属する可能性を示す判定属性を求める属性判定手段とを備えたデータ類別装置において、
上記ペアワイズ判定手段は、ペアワイズ判定結果を種類対における当該種類の帰属値と乖離値で表す場合、当該種類の帰属値と乖離値を数値化する関数に、当該判定器レコードの特徴量ベクトルと上記特徴量ベクトル生成手段により生成された特徴量ベクトルを代入することで、当該種類の帰属値と乖離値を計算し、
上記属性判定手段は、種類対毎のペアワイズ判定結果から当該種類の乖離値を取り出し、上記観測データが当該種類に属する可能性を示す判定属性として、当該種類の乖離値の総和を求めることを特徴とするデータ類別装置。 - ペアワイズ判定手段は、種類対が同一の判定器レコードを複数個有する場合、複数の判定器レコードに記述されている性能を相互に比較することで、最も性能が高い判定器レコードを選択し、その判定器レコードの特徴量ベクトルを使用してペアワイズ判定を実施することを特徴とする請求項1記載のデータ類別装置。
- ペアワイズ判定手段は、複数の判定器レコードのうち、使用属性が無効である判定器レコードを使用せず、使用属性が有効である判定器レコードを使用してペアワイズ判定を実施することを特徴とする請求項1または請求項2記載のデータ類別装置。
- ペアワイズ判定手段は、判定器レコードの使用属性の設定を受け付けることを特徴とする請求項3記載のデータ類別装置。
- 属性判定手段は、種類対毎のペアワイズ判定結果から観測データが各種類に属する可能性を示す判定属性を求めた後に、任意の判定器レコードの使用属性が有効から無効に変更された場合、その判定器レコードに係るペアワイズ判定結果を除外して判定属性を再度求めることを特徴とする請求項4記載のデータ類別装置。
- 属性判定手段は、種類対毎のペアワイズ判定結果から観測データが各種類に属する可能性を示す判定属性を求めた後に、任意の判定器レコードの使用属性が無効から有効に変更された場合、ペアワイズ判定手段から当該判定器レコードに係るペアワイズ判定結果を取得し、そのペアワイズ判定結果を考慮して判定属性を再度求めることを特徴とする請求項4記載のデータ類別装置。
- ペアワイズ判定手段は、複数のプロセッサを用いて、複数のペアワイズ判定の実施を並列処理することを特徴とする請求項1から請求項6のうちのいずれか1項記載のデータ類別装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004217580A JP4536445B2 (ja) | 2004-07-26 | 2004-07-26 | データ類別装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004217580A JP4536445B2 (ja) | 2004-07-26 | 2004-07-26 | データ類別装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006039862A JP2006039862A (ja) | 2006-02-09 |
JP4536445B2 true JP4536445B2 (ja) | 2010-09-01 |
Family
ID=35904809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004217580A Expired - Fee Related JP4536445B2 (ja) | 2004-07-26 | 2004-07-26 | データ類別装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4536445B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014096086A (ja) * | 2012-11-12 | 2014-05-22 | Hitachi Solutions Ltd | 文書分類システムおよび方法 |
JP7075057B2 (ja) | 2018-12-27 | 2022-05-25 | オムロン株式会社 | 画像判定装置、画像判定方法及び画像判定プログラム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07160503A (ja) * | 1993-12-13 | 1995-06-23 | Meidensha Corp | 知識処理システム |
JPH07182368A (ja) * | 1993-12-24 | 1995-07-21 | Hitachi Ltd | データ加工システム |
JP2000250925A (ja) * | 1999-02-26 | 2000-09-14 | Matsushita Electric Ind Co Ltd | 文書検索・分類方法および装置 |
JP2002531906A (ja) * | 1998-12-02 | 2002-09-24 | マーズ インコーポレイテッド | 分類方法と装置 |
JP2003345810A (ja) * | 2002-05-28 | 2003-12-05 | Hitachi Ltd | 文書検索方法、文書検索システム及び文書検索結果示方システム |
JP2004094521A (ja) * | 2002-08-30 | 2004-03-25 | Nippon Telegr & Teleph Corp <Ntt> | 質問タイプ学習方法、学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習データを記録した記録媒体、学習データを用いた質問タイプ同定方法、装置、プログラム、および該プログラムを記録した記録媒体 |
JP2004521407A (ja) * | 2000-09-01 | 2004-07-15 | フレッド・ハッチソン・キャンサー・リサーチ・センター | 大きなデータアレイを解析するための統計学的モデリング |
JP2004280712A (ja) * | 2003-03-18 | 2004-10-07 | Just Syst Corp | データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム |
-
2004
- 2004-07-26 JP JP2004217580A patent/JP4536445B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07160503A (ja) * | 1993-12-13 | 1995-06-23 | Meidensha Corp | 知識処理システム |
JPH07182368A (ja) * | 1993-12-24 | 1995-07-21 | Hitachi Ltd | データ加工システム |
JP2002531906A (ja) * | 1998-12-02 | 2002-09-24 | マーズ インコーポレイテッド | 分類方法と装置 |
JP2000250925A (ja) * | 1999-02-26 | 2000-09-14 | Matsushita Electric Ind Co Ltd | 文書検索・分類方法および装置 |
JP2004521407A (ja) * | 2000-09-01 | 2004-07-15 | フレッド・ハッチソン・キャンサー・リサーチ・センター | 大きなデータアレイを解析するための統計学的モデリング |
JP2003345810A (ja) * | 2002-05-28 | 2003-12-05 | Hitachi Ltd | 文書検索方法、文書検索システム及び文書検索結果示方システム |
JP2004094521A (ja) * | 2002-08-30 | 2004-03-25 | Nippon Telegr & Teleph Corp <Ntt> | 質問タイプ学習方法、学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習データを記録した記録媒体、学習データを用いた質問タイプ同定方法、装置、プログラム、および該プログラムを記録した記録媒体 |
JP2004280712A (ja) * | 2003-03-18 | 2004-10-07 | Just Syst Corp | データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2006039862A (ja) | 2006-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106021362B (zh) | 查询式的图片特征表示的生成、图片搜索方法和装置 | |
US6654744B2 (en) | Method and apparatus for categorizing information, and a computer product | |
US6778941B1 (en) | Message and user attributes in a message filtering method and system | |
JP4233836B2 (ja) | 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム | |
JP2017123168A (ja) | セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法及び装置 | |
JP2012118977A (ja) | 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム | |
JP2006172437A (ja) | データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置 | |
CN108734159B (zh) | 一种图像中敏感信息的检测方法及系统 | |
US20030182082A1 (en) | Method for determining a quality for a data clustering and data processing system | |
US20080091627A1 (en) | Data Learning System for Identifying, Learning Apparatus, Identifying Apparatus and Learning Method | |
WO2014118978A1 (ja) | 学習方法、情報処理装置および学習プログラム | |
JP5391637B2 (ja) | データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム | |
JP5128437B2 (ja) | 時系列関係グラフに基づくエンティティ分類装置および方法 | |
JP2006252333A (ja) | データ処理方法、データ処理装置およびそのプログラム | |
CN112926592A (zh) | 一种基于改进Fast算法的商标检索方法及装置 | |
Luqman et al. | Subgraph spotting through explicit graph embedding: An application to content spotting in graphic document images | |
JP4802176B2 (ja) | パターン認識装置、パターン認識プログラム及びパターン認識方法 | |
JP6025487B2 (ja) | フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム | |
JP4536445B2 (ja) | データ類別装置 | |
JP4479745B2 (ja) | 文書の類似度補正方法、プログラムおよびコンピュータ | |
JP6004014B2 (ja) | 学習方法、情報変換装置および学習プログラム | |
CN114943285B (zh) | 互联网新闻内容数据智能审核系统 | |
JPH10111869A (ja) | 情報分類装置とその方法 | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN116186298A (zh) | 信息检索方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070510 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071015 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080718 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100302 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100405 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100608 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100616 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130625 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |