JP5391637B2 - データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム - Google Patents
データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム Download PDFInfo
- Publication number
- JP5391637B2 JP5391637B2 JP2008264442A JP2008264442A JP5391637B2 JP 5391637 B2 JP5391637 B2 JP 5391637B2 JP 2008264442 A JP2008264442 A JP 2008264442A JP 2008264442 A JP2008264442 A JP 2008264442A JP 5391637 B2 JP5391637 B2 JP 5391637B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- subset
- class
- similarity
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ここでは、商品やサービスの顧客に関するデータ間の類似度を求める場合を例にして本発明の実施形態を説明する。なお、有料で商品やサービスを利用する者だけでなく、無料で商品やサービスを利用する者や、今後商品やサービスを利用すると思われる人も顧客と呼ぶ。無料の場合は、売価は0とする。また、商品またはサービスの概念としては、製品等の完成品だけでなく、製品の機能を維持するための最小単位も含まれる。さらに、ある商品またはサービスのカテゴリを1つの商品と考えて適用することもできる。
図1は、本発明の第1の実施形態の例を示すブロック図である。本発明によるデータ類似度計算システム1は、部分集合生成部11と、分類器生成部12と、自己評価部13と、類似度算出部14とを備える。
図3は、第1の実施形態のデータ類似度計算システムの処理経過の例を示すフローチャートである。例えば、データ類似度計算システム1に設けられたキーボード等の入力装置(図示せず)を介して、データの集合が入力されると、データ類似度計算システムは以下のように動作する。ただし、データの集合に属する個々のデータ(個別データと称する)の数をNとする。また、データの集合の部分集合を生成する回数をTとする。Tは、例えば、100、500、1000等の数であるが、Tはこれらの値に限定されない。また、部分集合生成部11が1つの部分集合に属する個別データとしてデータの集合から選択する個別データの数をMとする。Mは、例えば、Nの1%、5%、または10%等の値とすればよいが、Mはこれらの値に限定されない。部分集合の生成を繰り返す繰り返し回数であるTや、部分集合に含める個別データ数であるMは、それぞれ、キーボード等の入力装置(図示せず)を介して、データ類似度計算システムのユーザによって入力されてもよい。あるいは、他の態様でT,Mが指定されてもよい。
+(7/14)×{−(0/7)×log(0/7)−(7/7)×log(7/7)}
=0.432
第1の実施形態によれば、与えられたデータの集合に属するデータ同士の組に対して、それぞれ類似度の初期値を定める。そして、そのデータの集合から部分集合を生成し、その部分集合に含まれる各データに定められている属性(例えば、顧客の特徴や販売条件)およびクラスから、分類器を生成する。さらに、分類器を用いて、その属性からクラスを判定し、部分集合に含まれているデータ同士であって、判定されたクラスが同じデータの類似度に所定値を加算する。上記の部分集合生成以後の処理を複数回繰り返すことで、各データ同士の類似度を決定する。本願発明では、このような処理によって、自動的に、各データ間の類似度を算出することができる。
図6は、本発明の第2の実施形態の例を示すブロック図である。第2の実施形態のデータ類似度計算システム20は、部分集合生成部11と、分類器生成部12と、自己評価部13と、類似度算出部14と、類似度クラスタリング部21とを備える。第1の実施形態と同様の構成要素については、図1と同一の符号を付し、詳細な説明を省略する。第2の実施形態のデータ類似度計算システム20は、第1の実施形態と同様に、データの集合に属する個別データ間の類似度を計算した後、その類似度を用いて個別データを分類する。従って、第2の実施形態のデータ類似度計算システム20は、分類システムと称することができる。以下、本実施形態において、個別データのグループをクラスタと記す。
データ集合に属する各個別データ間の類似度を求める処理は、第1の実施形態と同様である。部分集合生成部11、分類器生成部12、自己評価部13および類似度算出部14がそれぞれ第1の実施形態と同様に動作し、例えば、図3に示す処理を行って、i,jの組毎に、個別データ間の類似度Sim(i,j)を求めればよい。
図8は、本発明の第3の実施形態の例を示すブロック図である。第3の実施形態のデータ類似度計算システム30は、部分集合生成部11と、分類器生成部12と、自己評価部13と、類似度算出部14と、類似度クラスタリング部21と、属性データ分類部31と、関連性算出部32とを備える。第1の実施形態や第2の実施形態と同様の構成要素については、図1、図6と同一の符号を付し、詳細な説明を省略する。第3の実施形態のデータ類似度計算システム30は、第2の実施形態と同様に類似度を用いて個別データを分類するので、分類システムと称することができる。なお、本実施の形態においても、類似度クラスタリング部21によって分類された個別データのグループをクラスタと記す。また、第3の実施形態のデータ類似度計算システム30は、類似度算出に対する属性の関連度を算出する。類似度算出に対する属性の関連度とは、類似度算出に対する属性の関連性の度合い(換言すれば、類似度算出に対して属性が影響を与える度合い)を示す数値である。
類似度クラスタリング部21が個別データを分類するまでの動作は、第2の実施形態と同様である。部分集合生成部11、分類器生成部12、自己評価部13および類似度算出部14は、第1および第2の実施形態と同様に動作し、例えば、図3に示す処理を行って、i,jの組毎に、個別データ間の類似度Sim(i,j)を求めればよい。その後、類似度クラスタリング部21は、第2の実施形態と同様に、指定されたクラスタ数に個別データを分類する。
本発明によれば、類似度によるクラスタリングと属性値との関連の度合いを調べることができる。例えば、商品またはサービスに対する顧客の行動に応じて算出した類似度によるクラスタリングと属性値との関連を調べることができる。具体例を挙げると、例えば、類似度によるクラスタリングと男女(性別)との関連性が高いかどうかを調べることができ、商品またはサービスに対する顧客の行動に応じて、顧客を分類する際に関連のある顧客の特徴や販売条件を抽出することができる。これにより、商品またはサービスの今後ターゲットとすべき顧客等を分析することができる。
12 分類器生成部
13 自己評価部
14 類似度算出部
21 類似度クラスタリング部
31 属性データ分類部
32 関連性算出部
Claims (24)
- データの特徴を示す属性とデータの類別を示すクラスとを含むデータの集合から、データの重複を許して前記集合の部分集合を複数回生成する部分集合生成手段と、
部分集合が生成される毎に、属性からクラスを判定するルールである分類器を、前記部分集合に基づいて生成する分類器生成手段と、
分類器が生成される毎に、分類器を用いて、前記部分集合に属する個々のデータのクラスを判定するクラス判定手段と、
データの集合の部分集合が生成され、クラス判定手段が当該部分集合に属する個々のデータのクラスを判定したときに、同一のクラスと判定されたデータ同士の類似度に値を加算する類似度算出手段とを備える
ことを特徴とするデータ類似度計算システム。 - データ同士の類似度に基づいて、データの集合に属するデータを複数のグループに分類するデータグループ化手段を備える
請求項1に記載のデータ類似度計算システム。 - データグループ化手段は、データの集合に属する個々のデータをそれぞれ別々のグループに分類し、互いに異なる二つのグループに属するデータ同士の類似度を求め、前記類似度が最大となる二つのグループを併合することを繰り返し、グループの総数を目標数まで減少させる
請求項2に記載のデータ類似度計算システム。 - データ集合に属するデータを、特定の属性の属性値に応じて、グループに分類する属性データ分類手段と、
データグループ化手段によって分類されたデータのグループと、属性データ分類手段によって分類されたデータのグループとの関係に基づいて、類似度算出に対する前記特定の属性の関連度を計算する関連度計算手段とを備える
請求項2または請求項3に記載のデータ類似度計算システム。 - 部分集合生成手段は、データの集合からデータをランダムサンプリングすることによって、前記集合の部分集合を生成する
請求項1から請求項4のうちのいずれか1項に記載のデータ類似度計算システム。 - 類似度算出手段は、クラス判定手段によって特定のクラスと判定されたデータ同士の類似度に対してのみ値を加算する
請求項1から請求項5のうちのいずれか1項に記載のデータ類似度計算システム。 - 分類器生成手段は、部分集合に属するデータのうち所与のクラスが特定のクラスであるデータを加重して分類器を生成する
請求項1から請求項6のうちのいずれか1項に記載のデータ類似度計算システム。 - 部分集合生成手段は、少なくとも顧客の特徴または販売条件を属性とし顧客の行動をクラスとするデータの集合から、当該集合の部分集合を生成する
請求項1から請求項7のうちのいずれか1項に記載のデータ類似度計算システム。 - 部分集合生成手段が、データの特徴を示す属性とデータの類別を示すクラスとを含むデータの集合から、データの重複を許して前記集合の部分集合を複数回生成する部分集合生成ステップと、
分類器生成手段が、部分集合が生成される毎に、属性からクラスを判定するルールである分類器を、前記部分集合に基づいて生成する分類器生成ステップと、
クラス判定手段が、分類器が生成される毎に、分類器を用いて、前記部分集合に属する個々のデータのクラスを判定するクラス判定ステップと、
類似度算出手段が、データの集合の部分集合が生成され、クラス判定ステップで当該部分集合に属する個々のデータのクラスを判定したときに、同一のクラスと判定されたデータ同士の類似度に値を加算する類似度算出ステップとを含む
ことを特徴とするデータ類似度計算方法。 - データグループ化手段が、データ同士の類似度に基づいて、データの集合に属するデータを複数のグループに分類するデータグループ化ステップを含む
請求項9に記載のデータ類似度計算方法。 - データグループ化手段が、データグループ化ステップで、データの集合に属する個々のデータをそれぞれ別々のグループに分類し、互いに異なる二つのグループに属するデータ同士の類似度を求め、前記類似度が最大となる二つのグループを併合することを繰り返し、グループの総数を目標数まで減少させる
請求項10に記載のデータ類似度計算方法。 - 属性データ分類手段が、データ集合に属するデータを、特定の属性の属性値に応じて、グループに分類する属性データ分類ステップと、
関連度計算手段が、データグループ化ステップで分類されたデータのグループと、属性データ分類ステップで分類されたデータのグループとの関係に基づいて、類似度算出に対する前記特定の属性の関連度を計算する関連度計算ステップとを備える
請求項10または請求項11に記載のデータ類似度計算方法。 - 部分集合生成手段が、部分集合生成ステップで、データの集合からデータをランダムサンプリングすることによって、前記集合の部分集合を生成する
請求項9から請求項12のうちのいずれか1項に記載のデータ類似度計算方法。 - 類似度算出手段が、類似度算出ステップで、クラス判定ステップで特定のクラスと判定されたデータ同士の類似度に対してのみ値を加算する
請求項9から請求項13のうちのいずれか1項に記載のデータ類似度計算方法。 - 分類器生成手段が、分類器生成ステップで、部分集合に属するデータのうち所与のクラスが特定のクラスであるデータを加重して分類器を生成する
請求項9から請求項14のうちのいずれか1項に記載のデータ類似度計算方法。 - 部分集合生成手段が、部分集合生成ステップで、少なくとも顧客の特徴または販売条件を属性とし顧客の行動をクラスとするデータの集合から、当該集合の部分集合を生成する
請求項9から請求項15のうちのいずれか1項に記載のデータ類似度計算方法。 - コンピュータに、
データの特徴を示す属性とデータの類別を示すクラスとを含むデータの集合から、データの重複を許して前記集合の部分集合を複数回生成する部分集合生成処理、
部分集合が生成される毎に、属性からクラスを判定するルールである分類器を、前記部分集合に基づいて生成する分類器生成処理、
分類器が生成される毎に、分類器を用いて、前記部分集合に属する個々のデータのクラスを判定するクラス判定処理、および、
データの集合の部分集合が生成され、クラス判定処理で当該部分集合に属する個々のデータのクラスを判定したときに、同一のクラスと判定されたデータ同士の類似度に値を加算する類似度算出処理
を実行させるためのデータ類似度計算プログラム。 - コンピュータに、
データ同士の類似度に基づいて、データの集合に属するデータを複数のグループに分類するデータグループ化処理
を実行させる請求項17に記載のデータ類似度計算プログラム。 - コンピュータに、
データグループ化処理で、データの集合に属する個々のデータをそれぞれ別々のグループに分類させ、互いに異なる二つのグループに属するデータ同士の類似度を求めさせ、前記類似度が最大となる二つのグループを併合することを繰り返させ、グループの総数を目標数まで減少させる
請求項18に記載のデータ類似度計算プログラム。 - コンピュータに、
データ集合に属するデータを、特定の属性の属性値に応じて、グループに分類する属性データ分類処理、および、
データグループ化処理で分類されたデータのグループと、属性データ分類処理で分類されたデータのグループとの関係に基づいて、類似度算出に対する前記特定の属性の関連度を計算する関連度計算処理
を実行させる請求項18または請求項19に記載のデータ類似度計算プログラム。 - コンピュータに、
部分集合生成処理で、データの集合からデータをランダムサンプリングすることによって、前記集合の部分集合を生成させる
請求項17から請求項20のうちのいずれか1項に記載のデータ類似度計算プログラム。 - コンピュータに、
類似度算出処理で、クラス判定処理で特定のクラスと判定されたデータ同士の類似度に対してのみ値を加算させる
請求項17から請求項21のうちのいずれか1項に記載のデータ類似度計算プログラム。 - コンピュータに、
分類器生成処理で、部分集合に属するデータのうち所与のクラスが特定のクラスであるデータを加重して分類器を生成させる
請求項17から請求項22のうちのいずれか1項に記載のデータ類似度計算プログラム。 - コンピュータに、
部分集合生成処理で、少なくとも顧客の特徴または販売条件を属性とし顧客の行動をクラスとするデータの集合から、当該集合の部分集合を生成させる
請求項17から請求項23のうちのいずれか1項に記載のデータ類似度計算プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008264442A JP5391637B2 (ja) | 2008-10-10 | 2008-10-10 | データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008264442A JP5391637B2 (ja) | 2008-10-10 | 2008-10-10 | データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010092432A JP2010092432A (ja) | 2010-04-22 |
JP5391637B2 true JP5391637B2 (ja) | 2014-01-15 |
Family
ID=42255051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008264442A Expired - Fee Related JP5391637B2 (ja) | 2008-10-10 | 2008-10-10 | データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5391637B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11907991B2 (en) | 2018-08-21 | 2024-02-20 | Walmart Apollo, Llc | Method and system for item line assignment |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016139939A1 (ja) * | 2015-03-03 | 2016-09-09 | 日本電気株式会社 | 分析装置、分析方法及びコンピュータ読み取り可能記録媒体 |
JP6670572B2 (ja) * | 2015-09-29 | 2020-03-25 | 株式会社エヌ・ティ・ティ・データ | 情報処理装置、情報処理方法、およびプログラム |
WO2017122437A1 (ja) * | 2016-01-12 | 2017-07-20 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
JP6538762B2 (ja) * | 2017-06-27 | 2019-07-03 | 株式会社東芝 | 類似度計算装置及び類似度計算方法 |
JP6637206B1 (ja) * | 2019-03-20 | 2020-01-29 | 株式会社 日立産業制御ソリューションズ | クラスタ分割評価装置、クラスタ分割評価方法及びクラスタ分割評価プログラム |
CN111026966B (zh) * | 2019-12-06 | 2023-12-22 | 创新奇智(成都)科技有限公司 | 基于用户和产品画像及两者关联程度的搜索推荐排序方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002149697A (ja) * | 2000-11-07 | 2002-05-24 | Mitsubishi Electric Corp | 類似事例検索装置 |
JP2005078240A (ja) * | 2003-08-29 | 2005-03-24 | Mamoru Tanaka | データマイニングによる知識抽出法 |
JP4041081B2 (ja) * | 2004-03-23 | 2008-01-30 | 東芝ソリューション株式会社 | 分割クラスタリング装置及び分割データ数決定方法 |
-
2008
- 2008-10-10 JP JP2008264442A patent/JP5391637B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11907991B2 (en) | 2018-08-21 | 2024-02-20 | Walmart Apollo, Llc | Method and system for item line assignment |
Also Published As
Publication number | Publication date |
---|---|
JP2010092432A (ja) | 2010-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220391767A1 (en) | System and method for relational time series learning with the aid of a digital computer | |
JP5391637B2 (ja) | データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム | |
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
US20080097937A1 (en) | Distributed method for integrating data mining and text categorization techniques | |
Kim et al. | Ordinal classification of imbalanced data with application in emergency and disaster information services | |
JP5104496B2 (ja) | 普及予測システム、方法およびプログラム、並びに影響度推定システム、方法およびプログラム | |
CN112559900B (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
US6563952B1 (en) | Method and apparatus for classification of high dimensional data | |
Alghobiri | A comparative analysis of classification algorithms on diverse datasets | |
Lumauag et al. | An enhanced recommendation algorithm based on modified user-based collaborative filtering | |
Hadju et al. | Sentiment analysis of indonesian e-commerce product reviews using support vector machine based term frequency inverse document frequency | |
AL-Bakri et al. | Multi label restaurant classification using support vector machine | |
US12095781B2 (en) | Hidden Markov model based data ranking for enhancement of classifier performance to classify imbalanced dataset | |
CN111309577A (zh) | 一种面向Spark的批处理应用执行时间预测模型构建方法 | |
US7272583B2 (en) | Using supervised classifiers with unsupervised data | |
TW201011575A (en) | Recommendation apparatus and method of integrating rough sets and multiple-characteristic exploration | |
CN113837266A (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
JP4194697B2 (ja) | 分類ルール探求式クラスター分析装置 | |
CN117708222A (zh) | 面向客户细分的关联规则挖掘方法 | |
Deng et al. | Sampling method based on improved C4. 5 decision tree and its application in prediction of telecom customer churn | |
CN111753992A (zh) | 筛选方法和筛选系统 | |
JP4234841B2 (ja) | データ分析装置 | |
KR102299618B1 (ko) | 리뷰 광고 매칭 장치 및 방법 | |
CN113962565A (zh) | 一种基于大数据的项目评分方法、系统和可读存储介质 | |
Romeu | On operations research and statistics techniques: Keys to quantitative data mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110908 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130319 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130930 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |