JP7231829B2 - Machine learning program, machine learning method and machine learning apparatus - Google Patents
Machine learning program, machine learning method and machine learning apparatus Download PDFInfo
- Publication number
- JP7231829B2 JP7231829B2 JP2019137027A JP2019137027A JP7231829B2 JP 7231829 B2 JP7231829 B2 JP 7231829B2 JP 2019137027 A JP2019137027 A JP 2019137027A JP 2019137027 A JP2019137027 A JP 2019137027A JP 7231829 B2 JP7231829 B2 JP 7231829B2
- Authority
- JP
- Japan
- Prior art keywords
- test data
- size
- machine learning
- variance
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は機械学習プログラム、機械学習方法および機械学習装置に関する。 The present invention relates to a machine learning program, a machine learning method and a machine learning device.
コンピュータを利用したデータ分析の1つとして、機械学習が行われることがある。機械学習では、幾つかの既知の事例を示す訓練データをコンピュータに入力する。コンピュータは、訓練データを分析して、要因(説明変数や独立変数と言うことがある)と結果(目的変数や従属変数と言うことがある)との間の関係を一般化したモデルを学習する。学習されたモデルを用いることで、未知の事例についての結果を予測することができる。 Machine learning may be performed as one of data analysis using a computer. In machine learning, a computer is fed training data representing a few known examples. A computer analyzes training data to learn a model that generalizes the relationship between factors (sometimes called explanatory or independent variables) and outcomes (sometimes called objective or dependent variables) . A learned model can be used to predict outcomes for unknown cases.
機械学習では、学習されるモデルの正確さ、すなわち、未知の事例の結果を正確に予測する能力(モデルの精度、予測性能、性能などと言うことがある)が問題となる。モデルの精度は、分析対象とする事象の性質、モデルの学習に使用する訓練データのサイズ、機械学習アルゴリズムなど様々な側面に依存する。精度が不十分なモデルが生成された場合、訓練データのサイズを増加させる、機械学習アルゴリズムを変更するなどの調整を行って、機械学習を再実行することもある。そこで、データ母集合から訓練データとは異なる既知の事例を示すテストデータを抽出し、訓練データを用いて学習されたモデルに対してテストデータを入力することで、モデルの精度を評価することが多い。 In machine learning, the accuracy of the learned model, that is, the ability to accurately predict the outcome of unknown cases (sometimes referred to as model accuracy, predictive performance, performance, etc.) is a problem. The accuracy of a model depends on many aspects, such as the nature of the events being analyzed, the size of the training data used to train the model, and the machine learning algorithms. If a model with insufficient accuracy is generated, we may make adjustments, such as increasing the size of the training data or changing the machine learning algorithm, and rerun the machine learning. Therefore, it is possible to evaluate the accuracy of the model by extracting test data showing known cases different from the training data from the data population and inputting the test data to the model learned using the training data. many.
なお、同一のデータ母集合から、異なる分割方法によって訓練データとテストデータのペアを複数通り生成し、ペア毎に訓練データを用いたモデルの学習とテストデータを用いた精度の評価を行い、精度の平均を算出する汎化能力評価方法が提案されている。また、データベースから訓練データを抽出して回帰分析を行い、回帰モデルの精度を評価し、精度が不十分である場合には訓練データを追加して回帰分析を再度行う結果予測装置が提案されている。また、教師ラベルが付されたサンプルのデータ母集合から、訓練データと類似するテストデータを抽出し、訓練データを用いて学習された分類モデルの精度を、訓練データと類似するテストデータを用いて評価する情報処理システムが提案されている。 In addition, from the same data population, multiple pairs of training data and test data are generated by different division methods, and model learning using training data and accuracy evaluation using test data are performed for each pair. A generalization ability evaluation method that calculates the average of In addition, a result prediction device has been proposed in which training data is extracted from a database, regression analysis is performed, the accuracy of the regression model is evaluated, and if the accuracy is insufficient, training data is added and regression analysis is performed again. there is In addition, we extract test data similar to the training data from the data population of samples with teacher labels, and evaluate the accuracy of the classification model learned using the training data using test data similar to the training data. An information processing system for evaluation has been proposed.
しかし、モデルの精度を評価するにあたり、テストデータのサイズをどの様に決定すればよいかが問題となる。テストデータが少な過ぎると、テストデータとして選択されるサンプルの偶然性の影響を強く受けて、算出される精度が不正確になり信頼性が低下する。一方、テストデータが多過ぎると、精度の評価に長時間かかることになり非効率である。この点、従来の機械学習では、訓練データのサイズの2分の1から4分の1程度をテストデータのサイズとするなど、経験則に基づいてサイズを決定していた。そのため、テストデータを用いたモデルの精度の評価について改善の余地があった。 However, in evaluating the accuracy of the model, the problem is how to determine the size of the test data. If the test data is too small, the randomness of the sample selected as the test data is strongly affected, and the calculated accuracy becomes inaccurate and unreliable. On the other hand, if there is too much test data, it will take a long time to evaluate accuracy, which is inefficient. In this regard, in conventional machine learning, the size is determined based on empirical rules, such as setting the size of the test data to be about 1/2 to 1/4 of the size of the training data. Therefore, there is room for improvement in evaluating the accuracy of the model using test data.
1つの側面では、本発明は、機械学習のテストデータのサイズを適切に決定できる機械学習プログラム、機械学習方法および機械学習装置を提供することを目的とする。 An object of the present invention is to provide a machine learning program, a machine learning method, and a machine learning apparatus that can appropriately determine the size of test data for machine learning.
1つの態様では、コンピュータに以下の処理を実行させる機械学習プログラムが提供される。データ集合から抽出された複数の第1の訓練データを用いて、機械学習により複数の第1の訓練データに対応する複数の第1のモデルを学習する。データ集合から抽出された第1のテストデータに含まれる2以上のレコードそれぞれを複数の第1のモデルに入力することで、複数の第1のモデルと2以上のレコードとの組み合わせ毎に算出された予測誤差を示す誤差情報を生成する。誤差情報に基づいて、テストデータのサイズとテストデータを用いて算出されるモデルの精度の測定値が有する分散との間の対応関係を判定する。データ集合から抽出された第2の訓練データを用いて学習された第2のモデルの精度を、データ集合から抽出される第2のテストデータを用いて測定する場合に、対応関係に基づいて、第2のモデルに対して算出される精度の測定値の分散が所定条件を満たすように第2のテストデータのサイズを決定する。 In one aspect, a machine learning program is provided that causes a computer to perform the following processes. Using a plurality of first training data extracted from the dataset, a plurality of first models corresponding to the plurality of first training data are learned by machine learning. By inputting each of the two or more records included in the first test data extracted from the data set into the plurality of first models, it is calculated for each combination of the plurality of first models and the two or more records. Generate error information that indicates the predicted error. Based on the error information, a correspondence between the size of the test data and the variance of a measure of model accuracy computed using the test data is determined. When measuring the accuracy of the second model learned using the second training data extracted from the dataset using the second test data extracted from the dataset, based on the correspondence, The size of the second test data is determined such that the variance of the accuracy measurements calculated for the second model satisfies a predetermined condition.
また、1つの態様では、コンピュータが実行する機械学習方法が提供される。また、1つの態様では、記憶部と処理部とを有する機械学習装置が提供される。 Also, in one aspect, a computer-implemented machine learning method is provided. Also, in one aspect, a machine learning device having a storage unit and a processing unit is provided.
1つの側面では、機械学習のテストデータのサイズが適切に決定される。 In one aspect, machine learning test data is sized appropriately.
以下、本実施の形態を図面を参照して説明する。
[第1の実施の形態]
第1の実施の形態を説明する。
Hereinafter, this embodiment will be described with reference to the drawings.
[First embodiment]
A first embodiment will be described.
図1は、第1の実施の形態の機械学習装置の例を説明する図である。
第1の実施の形態の機械学習装置10は、訓練データを用いて機械学習によりモデルを生成し、テストデータを用いてモデルの精度を測定する。機械学習装置10を、情報処理装置やコンピュータと言うこともできる。機械学習装置10は、ユーザが操作するクライアント装置でもよいし、他の装置からアクセスされるサーバ装置でもよい。
FIG. 1 is a diagram illustrating an example of a machine learning device according to the first embodiment.
The
機械学習装置10は、記憶部11および処理部12を有する。記憶部11は、RAM(Random Access Memory)などの揮発性半導体メモリでもよいし、HDD(Hard Disk Drive)やフラッシュメモリなどの不揮発性ストレージでもよい。処理部12は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)などのプロセッサである。ただし、処理部12は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの特定用途の電子回路を含んでもよい。プロセッサは、RAMなどのメモリ(記憶部11でもよい)に記憶されたプログラムを実行する。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うこともある。
A
記憶部11は、データ集合13を記憶する。データ集合13は、既知の事例を示す複数のレコードを含む。レコードを、サンプルや行やデータブロックと言うこともできる。各レコードは、1以上の説明変数の値と1つの目的変数の値とを含む。説明変数を、カラムと言うこともできる。目的変数の値は、ユーザから与えられる正解であり、教師ラベルと言うこともできる。データ集合13は、100万レコード以上の多数のレコードを含んでもよく、ビッグデータと言われる大規模データであってもよい。
処理部12は、データ集合13から、訓練データ14a,14b,14cを含む複数セットの訓練データ(第1の訓練データ)を抽出する。ここで抽出する訓練データのセット数は少数でよく、各訓練データのサイズは小さくてよい。例えば、訓練データのセット数を10セット程度とし、各訓練データのサイズを1万レコード程度とする。各訓練データのサイズは、後述する訓練データ18のサイズの100分の1程度でよい。処理部12は、同一のレコードが異なる訓練データに含まれないようにデータ集合13からレコードを抽出してもよいし、同一のレコードが異なる訓練データに含まれることを許容してもよい。処理部12は、データ集合13からランダムにレコードを抽出してもよい。
The
また、処理部12は、データ集合13からテストデータ15(第1のテストデータ)を抽出する。テストデータ15のサイズは、訓練データ14a,14b,14cのサイズより小さくてよい。テストデータ15のサイズは、訓練データ14a,14b,14cのサイズの2分の1から4分の1程度でもよく、例えば、5000レコード程度とする。処理部12は、テストデータ15に属するレコードを、訓練データ14a,14b,14cと重複しないようにデータ集合13から抽出することが好ましい。
The
処理部12は、訓練データ14a,14b,14cを含む複数セットの訓練データを用いて、機械学習によりそれら複数セットの訓練データに対応する複数のモデルを学習する。訓練データ14aから1つのモデルが学習され、それと独立に訓練データ14bから1つのモデルが学習され、それと独立に訓練データ14cから1つのモデルが学習される。
The
複数のモデルの学習には、同一の機械学習アルゴリズムが使用される。使用する機械学習アルゴリズムは、ユーザにより指定されてもよい。機械学習アルゴリズムとして、回帰分析、サポートベクタマシン、ランダムフォレストなどが挙げられる。モデルは、説明変数と目的変数との間の関係を示し、通常、1以上の説明変数と1以上の係数と1つの目的変数とを含む。係数は、機械学習を通じて訓練データに基づいて決定される。 The same machine learning algorithm is used to train multiple models. The machine learning algorithm to use may be specified by the user. Machine learning algorithms include regression analysis, support vector machines, and random forests. A model describes the relationship between explanatory variables and objective variables and typically includes one or more explanatory variables, one or more coefficients, and one objective variable. Coefficients are determined based on training data through machine learning.
次に、処理部12は、テストデータ15および学習した複数のモデルを用いて、誤差情報16を生成する。誤差情報16を、誤差プロファイルと言うこともできる。誤差情報16は、複数セットの訓練データに対応する複数のモデルとテストデータ15に含まれる2以上のレコードとの組み合わせ毎に算出された予測誤差を示す。
Next, the
このとき、処理部12は、ある訓練データから学習された1つのモデルに、テストデータ15に含まれる1つのレコードを入力することで、当該1つのモデルと当該1つのレコードの組に対応する1つの予測誤差を算出する。例えば、処理部12は、テストデータ15のレコードに含まれる説明変数の値をモデルの説明変数に代入する。処理部12は、モデルによって算出される目的変数の値である予測値と、テストデータ15のレコードに含まれる目的変数の値である正解値とを比較し、両者の差を予測誤差として算出する。
At this time, the
次に、処理部12は、誤差情報16に基づいて対応関係17を判定する。対応関係17は、テストデータのサイズと、テストデータを用いて算出されるモデルの精度の測定値が有するばらつきの程度である分散との間の対応関係を示す。モデルの精度は、未知の事例の結果を正確に予測する能力であり、予測性能や性能と言うこともできる。モデルの精度の指標として、正答率(Accuracy)、適合率(Precision)、平均二乗誤差(MSE)、二乗平均平方根誤差(RMSE)などが挙げられる。
Next, the
対応関係17は、例えば、テストデータのサイズの増加に応じて分散が下限に漸近するように減少する非線形関係である。一般に、データ集合13からのテストデータの抽出には、レコードの選択の偶然性がある。このため、テストデータのサイズが小さいと、レコードの選択の偶然性の影響を強く受けて、精度の測定値が真の値からずれるリスクが高くなる。テストデータのサイズを大きくすることで、分散を小さくすることができる。ただし、データ集合13からの訓練データの抽出にも、レコードの選択の偶然性がある。テストデータのサイズの増加だけでは、精度の測定値の分散は0にならない。
対応関係17は、機械学習に使用するデータ集合13や機械学習アルゴリズムに依存し得る。そこで、処理部12は、誤差情報16に基づいて対応関係17を判定する。例えば、処理部12は、誤差情報16が示す予測誤差のうち、テストデータ15のレコードが同一でモデルが異なる予測誤差を平均化することで、テストデータ15のレコード毎に予測バイアスを算出する。処理部12は、テストデータ15の2以上のレコードの予測バイアスを合成して、対応関係17を規定するパラメータの値を決定する。
The
対応関係17は、訓練データのサイズに依存しない第1のパラメータと、訓練データのサイズに依存する第2のパラメータと、テストデータのサイズを示す第3のパラメータとから分散を算出する分散関数であってもよい。この場合、処理部12は、誤差情報16を用いて第1のパラメータの値を推定してもよい。これにより、分散関数は、変数として第2のパラメータと第3のパラメータをもつ関数になる。
次に、処理部12は、データ集合13から訓練データ18(第2の訓練データ)を抽出する。訓練データ18のサイズは、訓練データ14a,14b,14cより十分に大きくてもよく、ユーザから指定されてもよい。例えば、訓練データ18のサイズを100万レコード程度とする。処理部12は、訓練データ18を用いてモデルを学習する。
Next, the
モデルが学習されると、処理部12は、データ集合13からテストデータ19(第2のテストデータ)を抽出する。処理部12は、テストデータ19に属するレコードを、訓練データ18と重複しないようにデータ集合13から抽出することが好ましい。処理部12は、訓練データ18から学習されたモデルの精度を、テストデータ19を用いて測定する。例えば、処理部12は、テストデータ19のレコードに含まれる説明変数の値をモデルの説明変数に代入し、モデルによって算出される目的変数の予測値とテストデータ19のレコードに含まれる目的変数の正解値とを比較して、精度を測定する。
After the model is trained, processing
このとき、処理部12は、対応関係17に基づいて、モデルの精度の測定値の分散が所定条件を満たすように、テストデータ19のサイズを決定する。例えば、処理部12は、対応関係17において、サイズの所定増加量に対する分散の減少度を示す効率性指標を算出し、効率性指標に基づいてテストデータ19のサイズを決定する。対応関係17が、テストデータのサイズの増加に応じて分散が下限に漸近する非線形関係である場合、効率性指標の値は、テストデータのサイズの増加に応じて減少する。テストデータ19のサイズは、効率性指標の値が閾値以上である範囲で最大のサイズとしてもよい。
At this time, the
また、例えば、処理部12は、訓練データ18を用いたモデルの学習結果に基づいて、分散関数に含まれる訓練データのサイズに依存する第2のパラメータの値を決定する。そして、処理部12は、決定された上記の第1のパラメータの値および第2のパラメータの値のもとで、テストデータのサイズを示す第3のパラメータの値を変動させることで、分散が所定条件を満たすテストデータのサイズを探索する。
Also, for example, the
なお、誤差情報16の生成および対応関係17の判定は、訓練データ18を用いた機械学習の前に行ってもよいし後に行ってもよい。処理部12は、訓練データ18を用いて学習されたモデルと、テストデータ19を用いて測定された精度を出力する。処理部12は、学習されたモデルと測定された精度を、記憶装置に保存してもよいし、表示装置に表示してもよいし、他の情報処理装置に送信してもよい。
Note that the generation of the
第1の実施の形態の機械学習装置10によれば、小さいサイズの訓練データ14a,14b,14cを用いて複数のモデルが学習される。小さいサイズのテストデータ15を用いて、それら複数のモデルとテストデータ15の2以上のレコードとの組み合わせ毎に算出された予測誤差を示す誤差情報16が生成される。誤差情報16に基づいて、テストデータのサイズとモデルの精度の測定値が有する分散との間の対応関係17が判定される。そして、訓練データ18を用いて学習されたモデルの精度を、テストデータ19を用いて測定するにあたり、対応関係17に基づいて、精度の測定値の分散が所定条件を満たすようにテストデータ19のサイズが決定される。
According to the
これにより、テストデータ19のサイズがモデル精度の測定値の分散に与える影響を考慮して、テストデータ19のサイズを適切に決定することができる。よって、テストデータ19のサイズが小さ過ぎることによる測定値の信頼性の低下を抑制できる。また、テストデータ19のサイズが大き過ぎることによる処理時間の増大を抑制できる。このため、機械学習により学習されたモデルの精度を、高信頼かつ短時間で測定することができ、モデルの精度の測定を効率化できる。特に、テストデータのサイズを訓練データのサイズの2分の1から4分の1程度とする経験則と比べて、テストデータのサイズを削減できる。
Accordingly, the size of the
[第2の実施の形態]
次に、第2の実施の形態を説明する。
図2は、第2の実施の形態の機械学習装置のハードウェア例を示す図である。
[Second embodiment]
Next, a second embodiment will be described.
FIG. 2 is a diagram illustrating a hardware example of a machine learning device according to the second embodiment.
機械学習装置100は、CPU101、RAM102、HDD103、画像インタフェース104、入力インタフェース105、媒体リーダ106および通信インタフェース107を有する。機械学習装置100が有するこれらのユニットは、機械学習装置100の内部でバスに接続されている。機械学習装置100は、第1の実施の形態の機械学習装置10に対応する。CPU101は、第1の実施の形態の処理部12に対応する。RAM102またはHDD103は、第1の実施の形態の記憶部11に対応する。
CPU101は、プログラムの命令を実行するプロセッサである。CPU101は、HDD103に記憶されたプログラムやデータの少なくとも一部をRAM102にロードし、プログラムを実行する。CPU101は複数のプロセッサコアを備えてもよく、機械学習装置100は複数のプロセッサを備えてもよい。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。
The
RAM102は、CPU101が実行するプログラムやCPU101が演算に使用するデータを一時的に記憶する揮発性半導体メモリである。機械学習装置100は、RAM以外の種類のメモリを備えてもよく、複数のメモリを備えてもよい。
The
HDD103は、OS(Operating System)やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。機械学習装置100は、フラッシュメモリやSSD(Solid State Drive)など他の種類のストレージを備えてもよく、複数のストレージを備えてもよい。
The
画像インタフェース104は、CPU101からの命令に従って、機械学習装置100に接続された表示装置111に画像を出力する。表示装置111として、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL(OEL:Organic Electro-Luminescence)ディスプレイ、プロジェクタなど、任意の種類の表示装置を使用することができる。機械学習装置100に、プリンタなど表示装置111以外の出力デバイスが接続されてもよい。
The
入力インタフェース105は、機械学習装置100に接続された入力デバイス112から入力信号を受け付ける。入力デバイス112として、マウス、タッチパネル、タッチパッド、キーボードなど、任意の種類の入力デバイスを使用することができる。機械学習装置100に複数種類の入力デバイスが接続されてもよい。
媒体リーダ106は、記録媒体113に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体113として、フレキシブルディスク(FD:Flexible Disk)やHDDなどの磁気ディスク、CD(Compact Disc)やDVD(Digital Versatile Disc)などの光ディスク、半導体メモリなど、任意の種類の記録媒体を使用することができる。媒体リーダ106は、例えば、記録媒体113から読み取ったプログラムやデータを、RAM102やHDD103などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、CPU101によって実行される。なお、記録媒体113は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体113やHDD103を、コンピュータ読み取り可能な記録媒体と言うことがある。
The
通信インタフェース107は、ネットワーク114に接続され、ネットワーク114を介して他の情報処理装置と通信する。通信インタフェース107は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。
The
次に、機械学習における訓練データサイズと予測性能について説明する。
第2の実施の形態の機械学習では、既知の事例を示す複数のレコードを含むデータ集合を予め収集しておく。レコードを、サンプル、インスタンス、行、データブロック、単位データなどと言うこともできる。機械学習装置100または他の情報処理装置が、センサデバイスなどの各種デバイスからネットワーク114経由でデータ集合を収集してもよい。収集されるデータ集合は、「ビッグデータ」と言われるサイズの大きなものであってもよい。各レコードは、通常、1以上の説明変数の値と1つの目的変数の値とを含む。例えば、商品の需要予測を行う機械学習では、気温や湿度など商品需要に影響を与える要因を説明変数とし、商品需要量を目的変数とした実績データを収集する。
Next, training data size and prediction performance in machine learning will be explained.
In machine learning according to the second embodiment, a data set including a plurality of records representing known cases is collected in advance. Records can also be referred to as samples, instances, rows, data blocks, unit data, and so on.
機械学習装置100は、収集されたデータ集合の中から一部のレコードを訓練データとしてサンプリングし、訓練データを用いてモデルを学習する。モデルは、説明変数と目的変数との間の関係を示し、通常、1以上の説明変数と1以上の係数と1つの目的変数とを含む。モデルは、例えば、線形式、二次以上の多項式、指数関数、対数関数などの各種数式によって表されてもよい。数式の形は、機械学習の前にユーザによって指定されてもよい。係数は、機械学習によって訓練データに基づいて決定される。
The
学習されたモデルを用いることで、未知の事例の説明変数の値(要因)から、未知の事例の目的変数の値(結果)を予測することができる。例えば、来期の気象予報から来期の商品需要量を予測できる。モデルによって予測される結果は、0以上1以下の確率などの連続量であってもよいし、YES/NOの2値などの離散値であってもよい。 By using the learned model, it is possible to predict the value (result) of the objective variable of the unknown case from the value (factor) of the explanatory variable of the unknown case. For example, it is possible to predict the product demand for the next term from the weather forecast for the next term. The result predicted by the model may be a continuous quantity, such as a probability of 0 to 1, or a discrete value, such as a binary value of YES/NO.
学習されたモデルに対しては「予測性能」を算出することができる。予測性能は、未知の事例の結果を正確に予測する能力であり、「精度」と言うこともできる。機械学習装置100は、収集されたデータ集合の中から訓練データ以外のレコードをテストデータとしてサンプリングし、テストデータを用いて予測性能を算出する。機械学習装置100は、テストデータに含まれる説明変数の値をモデルに入力し、モデルが出力する目的変数の値(予測値)とテストデータに含まれる目的変数の値(実績値)とを比較する。なお、学習したモデルの予測性能を検証することを「バリデーション」と言うことがある。
A "predictive performance" can be calculated for a trained model. Predictive performance is the ability to accurately predict the outcome of unknown cases, and can also be referred to as "accuracy." The
予測性能の指標としては、正答率(Accuracy)、適合率(Precision)、平均二乗誤差(MSE)、二乗平均平方根誤差(RMSE)などが挙げられる。例えば、結果がYES/NOの2値で表されるとする。また、n件のテストデータのレコードのうち、予測値=YESかつ実績値=YESの件数をTp、予測値=YESかつ実績値=NOの件数をFp、予測値=NOかつ実績値=YESの件数をFn、予測値=NOかつ実績値=NOの件数をTnとする。正答率は予測が当たった割合であり、(Tp+Tn)/nと算出される。適合率は「YES」の予測を間違えない確率であり、Tp/(Tp+Fp)と算出される。平均二乗誤差MSEは、各事例の実績値をYと表し予測値をyと表すと、sum(Y-y)2/nと算出される。二乗平均平方根誤差RMSEは、(sum(Y-y)2/n)1/2と算出される。MSE=RMSE2である。 Indicators of prediction performance include correct answer rate (Accuracy), precision rate (Precision), mean square error (MSE), root mean square error (RMSE), and the like. For example, assume that the result is represented by a binary value of YES/NO. Also, among the n test data records, Tp is the number of predicted value = YES and actual value = YES, Fp is the number of predicted value = YES and actual value = NO, predicted value = NO and actual value = YES Let Fn be the number of cases, and Tn be the number of cases where predicted value=NO and actual value=NO. The percentage of correct answers is the percentage of correct predictions, and is calculated as (Tp+Tn)/n. The precision is the probability of correct prediction of "YES" and is calculated as Tp/(Tp+Fp). The mean squared error MSE is calculated as sum(Y−y) 2 /n, where Y is the actual value of each case and y is the predicted value. The root mean square error RMSE is calculated as (sum(Yy) 2 /n) 1/2 . MSE= RMSE2 .
ここで、訓練データからモデルを学習する手順(機械学習アルゴリズム)には様々なものが存在する。機械学習装置100が使用する機械学習アルゴリズムは、ユーザから指定されてもよいし、機械学習装置100が所定の評価方法に従って選択するようにしてもよい。機械学習装置100が使用できる機械学習アルゴリズムの数は、数十~数百程度あってもよい。機械学習アルゴリズムの一例として、ロジスティック回帰分析、サポートベクタマシン、ランダムフォレストなどを挙げることができる。
Here, there are various procedures (machine learning algorithms) for learning a model from training data. The machine learning algorithm used by
ロジスティック回帰分析は、目的変数yの値と説明変数x1,x2,…,xdの値をS字曲線にフィッティングする回帰分析である。目的変数yおよび説明変数x1,x2,…,xdは、log(y/(1-y))=a1x1+a2x2+…+adxd+bの関係を満たすと仮定される。a1,a2,…,ad,bは係数であり、回帰分析によって決定される。 The logistic regression analysis is a regression analysis that fits the value of the objective variable y and the values of the explanatory variables x 1 , x 2 , . . . , x d to an S-curve. Objective variable y and explanatory variables x 1 , x 2 , . be done. a 1 , a 2 , . . . , a d , b are coefficients determined by regression analysis.
サポートベクタマシンは、空間に配置されたレコードの集合を、2つのクラスに最も明確に分割するような境界面を算出する機械学習アルゴリズムである。境界面は、各クラスとの距離(マージン)が最大になるように算出される。 A support vector machine is a machine learning algorithm that computes a boundary surface that most clearly divides a set of spatially arranged records into two classes. The boundary surface is calculated so that the distance (margin) to each class is maximized.
ランダムフォレストは、複数の単位データを適切に分類するためのモデルを生成する機械学習アルゴリズムである。ランダムフォレストでは、データ集合からレコードをランダムにサンプリングする。説明変数の一部をランダムに選択し、選択した説明変数の値に応じてサンプリングしたレコードを分類する。説明変数の選択とレコードの分類を繰り返すことで、複数の説明変数の値に基づく階層的な決定木を生成する。レコードのサンプリングと決定木の生成を繰り返すことで複数の決定木を取得し、それら複数の決定木を合成することで、レコードを分類するための最終的なモデルを生成する。 A random forest is a machine learning algorithm that generates models for appropriately classifying multiple units of data. Random forests randomly sample records from a dataset. Randomly select some of the explanatory variables and classify the sampled records according to the values of the selected explanatory variables. By repeating the selection of explanatory variables and the classification of records, a hierarchical decision tree based on the values of multiple explanatory variables is generated. A plurality of decision trees are obtained by repeating record sampling and decision tree generation, and the final model for classifying records is generated by synthesizing the plurality of decision trees.
あるデータ集合に1つの機械学習アルゴリズムを適用する場合、訓練データとしてサンプリングするレコードの数(訓練データサイズ)が大きいほど予測性能は高くなる。
図3は、訓練データサイズと予測性能の関係例を示すグラフである。
When one machine learning algorithm is applied to a certain data set, the larger the number of records sampled as training data (training data size), the higher the prediction performance.
FIG. 3 is a graph showing an example of the relationship between training data size and prediction performance.
曲線31は、モデルの予測性能と訓練データサイズとの間の関係を示す。訓練データサイズs1,s2,s3,s4,s5の間の大小関係は、s1<s2<s3<s4<s5である。例えば、s2はs1の2倍または4倍であり、s3はs2の2倍または4倍であり、s4はs3の2倍または4倍であり、s5はs4の2倍または4倍である。
曲線31が示すように、訓練データサイズがs2の場合の予測性能はs1の場合よりも高い傾向にある。同様に、訓練データサイズがs3の場合の予測性能はs2の場合よりも高い傾向にある。訓練データサイズがs4の場合の予測性能はs3の場合よりも高い傾向にある。訓練データサイズがs5の場合の予測性能はs4の場合よりも高い傾向にある。このように、訓練データサイズが大きくなるほど予測性能も高くなる傾向にある。ただし、予測性能が低いうちは、訓練データサイズの増加に応じて予測性能が大きく上昇する。一方で、予測性能には上限があり、予測性能が上限に近づくと、訓練データサイズの増加量に対する予測性能の上昇量の比は逓減する。すなわち、曲線31は、訓練データサイズの増加に応じて、ある上限に漸近するように予測性能が増加することを示している。
As
このような訓練データサイズと予測性能との間の関係は、使用する機械学習アルゴリズムによって異なり、収集したデータ集合の性質(データ集合の種類)によっても異なる。このため、曲線31に示すような予測性能の上限や各訓練データサイズにおける予測性能を、機械学習を開始する前に推定することは容易でない。
The relationship between such training data size and prediction performance varies depending on the machine learning algorithm used and also on the nature of the collected data set (type of data set). For this reason, it is not easy to estimate the upper limit of the prediction performance as shown by
次に、予測性能の測定値の信頼性について説明する。
図4は、予測性能の測定値の分散例を示すグラフである。
ある訓練データサイズのもとで学習されたモデルの予測性能の測定値は、機械学習アルゴリズムとデータ集合の性質とから決まる期待値から乖離するリスクがある。すなわち、同じデータ集合を使用しても、訓練データおよびテストデータとして選択するレコードの偶然性によって、予測性能の測定値にばらつきが生じる。測定値の「ばらつき」は、分散や標準偏差などと解釈することもできる。分散は、訓練データサイズが小さいほど大きく、訓練データサイズが大きいほど小さくなる傾向にある。また、分散は、テストデータサイズが小さいほど大きく、テストデータサイズが大きいほど小さくなる傾向にある。
Next, the reliability of the measured values of predictive performance will be described.
FIG. 4 is a graph showing an example variance of predictive performance measures.
A measure of the predictive performance of a model trained on a given training data size risks deviating from the expected value determined by the machine learning algorithm and the nature of the dataset. That is, even when using the same data set, randomness in the records selected for training and test data will cause variations in predictive performance measures. "Dispersion" in measured values can also be interpreted as variance, standard deviation, and the like. The variance tends to be larger as the training data size is smaller, and smaller as the training data size is larger. Also, the variance tends to be larger as the test data size is smaller, and smaller as the test data size is larger.
グラフ32は、訓練データサイズと予測性能との間の関係を示す。ここでは、同じ機械学習アルゴリズムおよび同じデータ集合を用いて、訓練データサイズ1つ当たり50回ずつモデルの生成および予測性能の測定を行っている。また、テストデータサイズは、訓練データサイズの2分の1または4分の1とするなど、訓練データサイズに比例するようにして訓練データサイズに従属させている。グラフ32は、1つの訓練データサイズにつき50個の予測性能の測定値をプロットしたものである。なお、グラフ32では、予測性能の指標として、値が大きいほど予測性能が高いことを示す正答率を用いている。
グラフ32では、訓練データサイズ=100の場合の予測性能の測定値は、約0.58~0.68であり広範囲に広がっている。訓練データサイズ=500の場合の予測性能の測定値は、約0.69~0.75であり、訓練データサイズ=100の場合よりも範囲が狭くなっている。以降、訓練データサイズが大きくなるに従って測定値の範囲は狭くなる。訓練データサイズが十分に大きくなると、測定値は約0.76に収束している。
In
以下では、予測性能の測定値の分散について更に検討する。
まず、バイアス・バリアンス分解について説明する。バイアス・バリアンス分解は、ある機械学習アルゴリズムの良否を評価するために用いられることがある。バイアス・バリアンス分解では、ロス(損失)とバイアスとバリアンスという3つの指標が用いられる。ロス=バイアスの二乗+バリアンスという関係が成立する。
Further consideration is given below to the variance of the predictive performance measure.
First, the bias/variance decomposition will be described. Bias-variance decomposition is sometimes used to evaluate the good or bad of a machine learning algorithm. Bias-variance decomposition uses three indices: loss, bias, and variance. The relationship of loss = square of bias + variance holds.
ロスは、機械学習によって生成されるモデルが予測を外す度合いを示す指標である。ロスの種類には0-1ロスや二乗ロスなどがある。0-1ロスは、予測に成功すれば0を付与し予測に失敗すれば1を付与することで算出されるロスであり、その期待値は予測が失敗する確率を示す。予測が外れることが少ないほど0-1ロスの期待値は小さく、予測が外れることが多いほど0-1ロスの期待値は大きい。二乗ロスは、予測値と真の値との差(予測誤差)の二乗である。予測誤差が小さいほど二乗ロスは小さく、予測誤差が大きいほど二乗ロスは大きい。期待ロス(ロスの期待値)と予測性能とは相互に変換できる。 Loss is a measure of the degree to which a model generated by machine learning misses predictions. Loss types include 0-1 loss and squared loss. The 0-1 loss is a loss calculated by assigning 0 if the prediction succeeds and assigning 1 if the prediction fails, and its expected value indicates the probability of prediction failure. The less the prediction is wrong, the smaller the expected value of the 0-1 loss, and the more the prediction is wrong, the higher the expected value of the 0-1 loss. The squared loss is the square of the difference (prediction error) between the predicted value and the true value. The smaller the prediction error, the smaller the squared loss, and the larger the prediction error, the larger the squared loss. Expected loss (expected value of loss) and predictive performance can be converted to each other.
予測性能が正答率(Accuracy)でありロスが0-1ロスである場合、期待ロス=1-予測性能である。予測性能が平均二乗誤差(MSE)でありロスが二乗ロスである場合、期待ロス=MSEである。予測性能が二乗平均平方根誤差(RMSE)でありロスが二乗ロスである場合、期待ロス=RMSEの二乗である。 If the prediction performance is the correct answer rate (Accuracy) and the loss is 0-1 loss, expected loss=1-prediction performance. If predictive performance is mean squared error (MSE) and loss is squared loss, expected loss=MSE. If predictive performance is root mean square error (RMSE) and loss is squared loss, expected loss=RMSE squared.
バイアスは、機械学習によって生成されるモデルの予測値が真の値に対して偏る程度を示す指標である。バイアスが小さいほど精度の高いモデルであると言うことができる。バリアンスは、機械学習によって生成されるモデルの予測値がばらつく程度を示す指標である。バリアンスが小さいほど精度の高いモデルであると言うことができる。ただし、バイアスとバリアンスの間にはトレードオフの関係があることが多い。 Bias is an index that indicates the degree to which the prediction values of a model generated by machine learning are biased toward the true value. It can be said that the smaller the bias, the higher the accuracy of the model. Variance is an index that indicates the degree to which prediction values of models generated by machine learning vary. It can be said that the smaller the variance, the higher the accuracy of the model. However, there is often a trade-off relationship between bias and variance.
次数の小さい多項式など複雑性の低いモデル(表現力の低いモデルと言うこともできる)では、モデルの係数をどの様に調整しても、複数のレコードの全てについて真の値に近い予測値を出力するようにすることは難しい。すなわち、複雑性の低いモデルを用いると複雑な事象を表現できない。よって、複雑性の低いモデルのバイアスは大きくなる傾向にある。この点、次数の大きい多項式など複雑性の高いモデル(表現力の高いモデルと言うこともできる)では、モデルの係数を適切に調整することで、複数のレコードの全てについて真の値に近い予測値を出力することができる余地がある。よって、複雑性の高いモデルのバイアスは小さくなる傾向にある。 A low-complexity model, such as a low-order polynomial (which can also be called a low-expressive model), produces predictions that are close to the true value for all records, regardless of how the model's coefficients are adjusted. It is difficult to make it output. In other words, a complex phenomenon cannot be expressed using a low-complexity model. Thus, models with low complexity tend to be biased. In this regard, highly complex models such as polynomials with a large degree (which can also be called highly expressive models) can make predictions that are close to the true values for all multiple records by appropriately adjusting the coefficients of the model. There is room for a value to be output. Therefore, models with higher complexity tend to have less bias.
一方で、複雑性の高いモデルでは、訓練データとして使用するレコードの特徴に過度に依存したモデルが生成されるという過学習が生じるリスクがある。過学習によって生成されたモデルは、他のレコードについて適切な予測値を出力できないことが多い。例えば、d次の多項式を用いると、d+1個のレコードについて真の値と完全に一致する予測値を出力するモデル(残差が0のモデル)を生成できる。 On the other hand, high-complexity models run the risk of overfitting, generating models that rely too heavily on the features of the records used as training data. Models generated by overfitting often fail to output good predictions for other records. For example, a polynomial of degree d can be used to generate a model (a model with 0 residuals) that outputs predicted values that exactly match the true values for d+1 records.
しかし、あるレコードについて残差が0になるモデルは、通常は過度に複雑なモデルであり、他のレコードについて予測誤差が著しく大きい予測値を出力してしまうリスクが高くなる。よって、複雑性の高いモデルのバリアンスは大きくなる傾向にある。この点、複雑性の低いモデルでは、予測誤差が著しく大きい予測値を出力してしまうリスクは低く、バリアンスは小さくなる傾向にある。このように、ロスの成分としてのバイアスとバリアンスは、モデルを生成する機械学習アルゴリズムの特性に依存している。 However, a model whose residual is 0 for a certain record is usually an overly complex model, and there is a high risk of outputting prediction values with significantly large prediction errors for other records. Therefore, models with high complexity tend to have a large variance. In this respect, a model with low complexity tends to have a low risk of outputting a prediction value with a significantly large prediction error, and the variance tends to be small. Thus, bias and variance as components of loss depend on the properties of the machine learning algorithms that generate the model.
次に、ロスとバイアスとバリアンスの形式的定義を説明する。ここでは、二乗ロスをバイアスとバリアンスに分解する例について説明する。
同一のデータ集合からm個の訓練データDk(k=1,2,…,m)が抽出され、m個のモデルが生成されたとする。また、上記のデータ集合からi個のレコードを含むテストデータTが抽出されたとする。i番目のレコード(テストケースと言うこともできる)は、説明変数の値Xiと目的変数の真の値Yiとを含む(i=1,2,…,n)。k番目のモデルからは説明変数の値Xiに対して目的変数の予測値yikが算出される。
Next, we explain formal definitions of loss, bias, and variance. Here, an example of decomposing the squared loss into bias and variance will be described.
Suppose that m training data D k (k=1, 2, . . . , m) are extracted from the same data set to generate m models. Assume also that test data T including i records is extracted from the above data set. The i-th record (which can also be called a test case) contains the explanatory variable value X i and the objective variable true value Y i (i=1, 2, . . . , n). From the k-th model, the predicted value yik of the objective variable is calculated for the value Xi of the explanatory variable.
すると、k番目のモデルとi番目のレコードとの間で算出される予測誤差eikはeik=Yi-yikと定義され、そのロス(ここでは二乗ロス)はeik 2と定義される。i番目のレコードに対しては、バイアスBiとバリアンスViとロスLiが定義される。バイアスBiはBi=ED[eik]と定義される。ED[]はm個の訓練データの間の平均値(期待値)を表す。バリアンスViはVi=VD[eik]と定義される。VD[]はm個の訓練データの間の分散を表す。ロスLiはLi=ED[eik 2]と定義される。前述のロスとバイアスとバリアンスの間の関係からLi=Bi 2+Viが成立する。 Then the prediction error e ik calculated between the k th model and the i th record is defined as e ik =Y i −y ik and its loss (here the squared loss) is defined as e ik 2 be. For the i-th record, bias B i , variance V i and loss L i are defined. Bias B i is defined as B i =E D [e ik ]. E D [ ] represents the average value (expected value) among m training data. The variance V i is defined as V i =V D [e ik ]. V D [ ] represents the variance among the m training data. The loss L i is defined as L i =E D [e ik 2 ]. From the relationships between loss, bias and variance described above, L i =B i 2 +V i holds.
テストデータT全体に対しては、期待バイアスEB2と期待バリアンスEVと期待ロスELが定義される。期待バイアスEB2はEB2=Ex[Bi 2]と定義される。Ex[]はn個のレコードの間の平均値(期待値)を表す。期待バリアンスEVはEV=Ex[Vi]と定義される。期待ロスELはEL=Ex[Li]と定義される。前述のロスとバイアスとバリアンスの間の関係からEL=EB2+EVが成立する。 For the entire test data T, an expected bias EB2, an expected variance EV, and an expected loss EL are defined. Expectation bias EB2 is defined as EB2=E x [B i 2 ]. E x [] represents the average value (expected value) among n records. The expected variance EV is defined as EV=E x [V i ]. The expected loss EL is defined as EL=E x [L i ]. From the relationship between loss, bias and variance described above, EL=EB2+EV.
バイアス・バリアンス分解の考え方を応用して、予測性能の測定値に生じる分散を推定することができる。測定値の分散は、次の数式によって近似される。VL=C×(EL+EB2)×(EL-EB2)。VLは訓練データサイズsにおける予測性能の測定値の分散を表す。Cは定数である。ELは訓練データサイズsにおける期待ロスを表す。EB2は期待バイアスを表す。以下、この数式の意味について説明を加える。 The concept of bias-variance decomposition can be applied to estimate the variance that occurs in predictive performance measures. The variance of the measurements is approximated by the following formula. VL=C*(EL+EB2)*(EL-EB2). VL represents the variance of the measure of predictive performance on the training data size s. C is a constant. EL represents the expected loss at training data size s. EB2 represents the expectation bias. The meaning of this formula will be explained below.
図5は、予測性能の期待ロスおよび期待バイアスの例を示すグラフである。
曲線33は、訓練データサイズとロスの推定値との間の関係を示すロス曲線である。図3では縦軸が予測性能であるのに対し、図5では縦軸がロスに変換されている。前述のように予測性能とロスは、予測性能の指標とロスの指標に応じて相互に変換可能である。曲線33は、訓練データサイズの増加に応じてロスが単調に減少し一定の下限ロスに漸近する非線形曲線である。訓練データサイズが小さいうちはロスの減少量が大きく、訓練データサイズが大きくなるとロスの減少量が小さくなる。
FIG. 5 is a graph showing an example of expected loss and expected bias in predictive performance.
訓練データサイズspにおける曲線33上の点のロス(ロス=0から曲線33上の点までの距離)は、訓練データサイズspの期待ロスELpに相当する。曲線33によって特定される下限ロスは、図3の曲線31によって特定される予測性能の上限に対応しており、0より大きい値である。例えば、予測性能の上限をcとおくと、予測性能が正答率である場合、下限ロスは1-cとなる。予測性能が平均二乗誤差(MSE)である場合、下限ロスはcとなる。予測性能が二乗平均平方根誤差(RMSE)である場合、下限ロスはc2となる。下限ロスは、この機械学習アルゴリズムにとっての期待バイアスEB2に相当する。訓練データサイズが十分大きくなると、機械学習に用いる訓練データの特徴がデータ集合の特徴に一致し、期待バリアンスが0に近づくためである。
The loss of a point on
期待ロスELpと期待バイアスEB2の差は、訓練データサイズspにおけるギャップと言うことができる。ギャップは、訓練データサイズを大きくすることでその機械学習アルゴリズムがロスを低減できる余地を表している。ギャップは、図3の曲線31上の点と予測性能の上限との間の距離に対応し、訓練データサイズを大きくすることでその機械学習アルゴリズムが予測性能を改善できる余地を表しているとも言える。ギャップは、訓練データサイズspにおける期待バリアンスの影響を受ける。
The difference between expected loss EL p and expected bias EB2 can be said to be a gap in training data size s p . A gap represents the room the machine learning algorithm can use to reduce loss by increasing the training data size. The gap corresponds to the distance between a point on
次に、予測性能の測定値の分散を示す数式の数学的根拠について説明する。
(a)問題の形式的な記述
同一のデータ集合からmセットの訓練データD1,D2,…,DmとテストデータTが抽出されたとする。ある機械学習アルゴリズムに訓練データDkを与えて学習されたモデルをfkとする(k=1,2,…,m)。テストデータTをレコード<Yi,Xi>の集合とする(i=1,2,…,n)。Xiは説明変数の値(入力値)であり、Yiは入力値Xiに対応する目的変数の既知の値(真値)である。入力値Xiに対してモデルfkが予測した値(予測値)をyik=fk(Xi)とする。入力値Xiに対するモデルfkによる予測の誤差はeik=Yi-yikと定義される。テストデータTに含まれるレコードの数、すなわち、テストデータTのサイズはnである。以下では主に、i,jはテストデータTのレコードを識別する添え字、kはモデルを識別する添え字として使用する。
Next, the mathematical basis for formulas that describe the variance of the predictive performance measurements will be described.
(a) Formal Description of Problem Suppose that m sets of training data D 1 , D 2 , . . . , D m and test data T are extracted from the same data set. Let fk be a model learned by giving training data Dk to a certain machine learning algorithm (k=1, 2, . . . , m). Let test data T be a set of records <Y i , X i > (i=1, 2, . . . , n). Xi is the value (input value) of the explanatory variable, and Yi is the known value (true value) of the objective variable corresponding to the input value Xi . Let y ik =f k (X i ) be the value (predicted value) predicted by the model f k for the input value X i . The error of prediction by model f k for input value X i is defined as e ik =Y i −y ik . The number of records included in the test data T, that is, the size of the test data T is n. Below, i and j are mainly used as suffixes for identifying records of test data T, and k as a suffix for identifying models.
機械学習アルゴリズムが回帰を目的とする場合、予測値は連続量であり、ロスの指標として数式(1)の二乗ロスが用いられることが多い。この二乗ロスをテストデータTの全てのレコードについて平均したものが数式(2)のMSE(平均二乗誤差)である。 When a machine learning algorithm aims at regression, the predicted value is a continuous quantity, and the squared loss of Equation (1) is often used as the loss index. The MSE (mean squared error) in Equation (2) is obtained by averaging this squared loss for all the records of the test data T.
ここで、E[・]は期待値を求める演算子であり、V[・]は分散を求める演算子である。E[・],V[・]に付加する添え字Xは、この演算子がテストデータTの複数のレコードの間の演算であることを示す。E[・],V[・]に付加する添え字Mは、この演算子が複数のモデルの間の演算であることを示す。すなわち、EX[・]はテストデータTの複数のレコードの間で平均化した期待値を示し、EM[・]は複数のモデルの間で平均化した期待値を示す。VX[・]はテストデータTの複数のレコードの間の分散を示し、VM[・]は複数のモデルの間の分散を示す。また、cov(・,・)は共分散を求める共分散関数であり、cor(・,・)は相関係数を求める相関係数関数である。cov(・,・),cor(・,・)にも添え字X,Mが付加される。 Here, E[•] is an operator for obtaining an expected value, and V[•] is an operator for obtaining a variance. The suffix X added to E[.] and V[.] indicates that this operator is an operation between multiple records of the test data T. FIG. The subscript M attached to E[•] and V[•] indicates that this operator is an operation between multiple models. That is, E X [·] indicates the expected value averaged among multiple records of the test data T, and E M [·] indicates the expected value averaged among multiple models. V X [·] indicates the variance among the multiple records of the test data T, and V M [·] indicates the variance among the multiple models. Also, cov(.,.) is a covariance function for obtaining a covariance, and cor(.,.) is a correlation coefficient function for obtaining a correlation coefficient. Subscripts X and M are also added to cov(·,·) and cor(·,·).
機械学習アルゴリズムが二値分類を目的とする場合、予測値は{-1,1}のような二値の離散値であり、ロスの指標として数式(3)の0-1ロスが用いられることが多い。この0-1ロスをテストデータTの全てのレコードについて平均して1から引いたものが、数式(4)の正答率(Accuracy)である。 If the machine learning algorithm aims at binary classification, the predicted value is a binary discrete value such as {-1, 1}, and the 0-1 loss in equation (3) is used as the loss indicator. There are many. Averaging this 0-1 loss for all records of the test data T and subtracting it from 1 is the correct answer rate (Accuracy) of the formula (4).
MSEは値が小さいほど予測性能が高いことを示し、正答率は値が大きいほど予測性能が高いことを示す。ただし、両者ともテストデータT全体について平均化したロスがモデルの予測性能の良否を表している点で共通しており、モデルロスと言うことができる。モデルfkに対するモデルロスMLkは数式(5)の通りである。予測性能の分散は、数式(6)のように複数のモデルの間のモデルロスの分散として表される。 A smaller MSE value indicates higher prediction performance, and a higher correct answer rate indicates higher prediction performance. However, both of them have in common that the loss averaged over the entire test data T represents the quality of the prediction performance of the model, and can be called a model loss. The model loss ML k for the model f k is given by Equation (5). The variance of predictive performance is expressed as the variance of model loss among multiple models as shown in Equation (6).
(b)バイアス・バリアンス分解
モデルによる予測で生じるロスはバイアスとバリアンスに分解できる。バイアスはモデルの予測値の偏りを示す量である。バイアスが低いモデルほど正確なモデルであると言える。表現力の低いモデル(調整可能な係数が少ないような複雑性の低いモデルなど)はバイアスが高くなる傾向にある。バリアンスはモデルの予測値のばらつきを示す量である。バリアンスが低いほど正確なモデルであると言える。表現力の高いモデル(調整可能な係数が多いような複雑性の高いモデルなど)はバリアンスが高くなる傾向にある。表現力の高いモデルには、訓練データに過剰適合するという過学習のリスクがある。
(b) Decomposition of bias and variance The loss caused by the prediction by the model can be decomposed into bias and variance. Bias is a quantity that indicates the bias of the model's predictions. A model with a lower bias can be said to be a more accurate model. Less expressive models (such as less complex models with fewer adjustable coefficients) tend to be more biased. Variance is a quantity that indicates the variability of the model's predictions. It can be said that the lower the variance, the more accurate the model. Highly expressive models (complex models with many adjustable coefficients, etc.) tend to have high variance. Highly expressive models run the risk of overfitting, overfitting the training data.
テストデータTの入力値Xiに対するロスLi、バイアスBiおよびバリアンスViは、数式(7)~(9)のように定義される。ロスLiは複数のモデルの間の二乗誤差の期待値であり、バイアスBiは複数のモデルの間の誤差の期待値であり、バリアンスViは複数のモデルの間の誤差の分散である。ロスLiとバイアスBiとバリアンスViとの間には、数式(10)の関係(バイアス・バリアンス分解)が成立する。 The loss L i , the bias B i and the variance V i for the input value X i of the test data T are defined by Equations (7) to (9). The loss L i is the expected value of the squared error between the models, the bias B i is the expected value of the error between the models, and the variance V i is the variance of the error between the models. . The relationship (bias-variance decomposition) of Equation (10) holds between the loss Li , the bias Bi , and the variance Vi .
様々な入力値Xiに対するロスLiの期待値を期待ロスEL、バイアスBiの二乗の期待値を期待バイアスEB2、バリアンスViの期待値を期待バリアンスEVとする。期待ロスEL、期待バイアスEB2、期待バリアンスEVは、数式(11)~(13)のように定義される。期待ロスELと期待バイアスEB2と期待バリアンスEVとの間には、数式(14)の関係(バイアス・バリアンス分解)が成立する。 Let expected loss EL be the expected value of loss Li for various input values Xi, expected bias EB2 be the expected value of the square of bias Bi , and expected variance EV be the expected value of variance Vi . Expected loss EL, expected bias EB2, and expected variance EV are defined as in equations (11) to (13). The relationship (bias/variance decomposition) of Equation (14) holds between the expected loss EL, the expected bias EB2, and the expected variance EV.
ここでの目的は、EL,EB2,EVとモデルロスの分散との間の関係を導出することである。なお、期待ロスELとモデルロスMLkの期待値とは、数式(15)に示すように等価である。一方、ロスLiの分散とモデルロスMLkの分散とは等価でない。以下では、予測性能の分散を推定する数式を次の流れで導出する。第1に、ロスの分散をバイアスとバリアンスで記述する。第2に、モデルロスの分散をインスタンス成分と相互作用成分に分解する。第3に、インスタンス成分を算出する。第4に、相互作用成分を算出する。第5に、モデルロスの分散をバイアスとバリアンスで記述する。 The aim here is to derive the relationship between EL, EB2, EV and the variance of the model loss. Note that the expected loss EL and the expected value of the model loss ML k are equivalent as shown in Equation (15). On the other hand, the variance of loss L i and the variance of model loss ML k are not equivalent. Below, a formula for estimating the variance of predictive performance is derived in the following flow. First, we describe the variance of loss in terms of bias and variance. Second, we decompose the model loss variance into an instance component and an interaction component. Third, compute the instance component. Fourth, the interaction component is calculated. Fifth, the variance of model loss is described by bias and variance.
(c)ロスの分散をバイアスとバリアンスで記述
テストデータTの入力値Xiを固定して複数のモデルの誤差を並べた誤差ベクトルを考える。誤差eを確率変数とみなしてその分布が正規分布に従うと仮定すると、複数のモデルの間のロスの分散は数式(16)のように定義され、バイアスBiとバリアンスViの組またはロスLiとバイアスBiの組によって記述することができる。数式(16)の1行目から2行目への変形では、数式(17)に示す統計学上の性質(確率変数の4乗の期待値)が利用されている。数式(17)においてXは確率変数であり、Sは歪度であり、Kは尖度である。正規分布の場合はS=0かつK=3である。
(c) Describing Loss Dispersion by Bias and Variance Let us consider an error vector in which the input value X i of the test data T is fixed and the errors of a plurality of models are arranged. Assuming that the error e is a random variable and its distribution follows a normal distribution, the variance of the loss among multiple models is defined as in Equation (16), and the set of bias B i and variance V i or loss L It can be described by a pair of i and bias B i . The transformation from the first line to the second line of Equation (16) utilizes the statistical property (expected value of the 4th power of a random variable) shown in Equation (17). In Equation (17), X is a random variable, S is skewness, and K is kurtosis. For the normal distribution, S=0 and K=3.
(d)モデルロスの分散をインスタンス成分と相互作用成分に分解
分散の基本的性質から、予測性能の分散(複数のモデルの間のモデルロスの分散)について数式(18)が成立する。これをn×n行列の成分の平均と考えると、i=jである対角成分は入力値Xiに対するロスの分散を表しており、その相関係数は1になる。一方、i≠jである非対角成分の相関係数は異なる入力値の間のロスの相関を表している。異なる入力値に対する誤差の発生状況は共通点が少ないため、その相関係数の絶対値は十分に小さくなることが多く、予測性能の高いモデルほどその相関係数は0に近づく。対角成分と非対角成分とは性質が異なるため、数式(19)のように両者を分離して考える。
(d) Decomposing Model Loss Variance into Instance Component and Interaction Component Based on the basic nature of variance, Equation (18) holds for predictive performance variance (model loss variance among multiple models). Considering this as the average of the elements of the n×n matrix, the diagonal element where i=j represents the variance of the loss with respect to the input value X i , and its correlation coefficient is one. On the other hand, the off-diagonal correlation coefficients for i≠j represent the loss correlation between different input values. Since there are few common points in the occurrence of errors for different input values, the absolute value of the correlation coefficient is often sufficiently small, and the correlation coefficient approaches 0 as the prediction performance of the model increases. Since the diagonal component and the off-diagonal component have different properties, they are considered separately as in Equation (19).
数式(19)では、モデルロスの分散を第1項のインスタンス成分と第2項の相互作用成分とに分解している。第1項はロスの分散の期待値を表しており、モデルロスの分散の大部分を占めることが多い。第2項は異なる入力値の間の共分散の期待値を表しており、モデルロスの分散に対する寄与は小さいことが多い。第1項はテストデータTのサイズnに反比例するため、テストデータTのレコードを増やすことでモデルロスの分散を低減できる。ただし、第2項が存在することから低減効果には限界がある。
(e)インスタンス成分を算出
数式(19)の第1項について検討する。上記の数式(16)より数式(20)が成立する。ここで、数式(20)の第1項と第2項を算出するために幾つかの仮定をおく。多くの機械学習アルゴリズムは不偏推定量を出力するようにモデルを学習することから、数式(21)のように誤差の期待値が0になるという仮定をおく。数式(21)からバイアスBiについて数式(22)の性質が導出される。
Equation (19) decomposes the variance of the model loss into the instance component of the first term and the interaction component of the second term. The first term represents the expected value of the variance of the loss and often accounts for most of the variance of the model loss. The second term represents the expected value of the covariance between different input values, and the contribution of the model loss to the variance is often small. Since the first term is inversely proportional to the size n of the test data T, increasing the number of test data T records can reduce the variance of the model loss. However, since the second term exists, there is a limit to the reduction effect.
(e) Calculate Instance Components Consider the first term of Equation (19). Equation (20) is established from Equation (16) above. Here, some assumptions are made to calculate the first and second terms of Equation (20). Since many machine learning algorithms learn a model so as to output an unbiased estimator, it is assumed that the expected value of the error is 0 as shown in Equation (21). From equation (21), the property of equation (22) is derived for bias B i .
確率分布の中には、訓練データサイズや訓練データのサンプリング方法に依存して期待値や分散が変化することはあっても、確率分布の形状を示す歪度や尖度は変化しない(または、変化が非常に緩やかである)ものがあると仮定する。具体的には、入力値Xiに対する複数のモデルの間の誤差の分布は正規分布を形成し、尖度=3かつ歪度=0になることを仮定する。また、バイアスBiの分布の尖度K1は変化しないことを仮定する。バイアスBiの分布の尖度K1は、数式(23)のように定義される。数式(23)と上記の数式(12)から数式(24)が算出される。 For some probability distributions, the expected value and variance may change depending on the training data size and training data sampling method, but the skewness and kurtosis that indicate the shape of the probability distribution do not change (or change very slowly). Specifically, we assume that the distribution of errors among the models for input values X i forms a normal distribution, with kurtosis=3 and skewness=0. It is also assumed that the kurtosis K1 of the bias B i distribution does not change. The kurtosis K1 of the distribution of the bias B i is defined as in Equation (23). Equation (24) is calculated from Equation (23) and Equation (12) above.
また、モデルfkに対する複数の入力値の間の誤差の分布の尖度K2は、モデル間で共通でありかつ変化しないことを仮定する。尖度K2は数式(25)のように定義される。K1,K2の値はそれぞれ3~10の範囲内であることが多く、両者は近いことが多い。 It is also assumed that the kurtosis K2 of the distribution of errors among multiple input values for the model f k is common among the models and does not change. The kurtosis K2 is defined as in Equation (25). The values of K1 and K2 are often within the range of 3 to 10, and both are often close to each other.
数式(25)から数式(26)が導出される。数式(26)を数式(18),(19)に代入することで数式(27)が算出される。ここで、尖度K2はサイズnより十分に小さいため、1-K2/nは1に近似される。数式(20),(23)を数式(18),(19)に代入することで数式(28)が算出される。数式(28)から数式(27)を減算して数式(29)が算出される。そして、数式(20),(24),(29)から数式(30)が算出される。これが、数式(19)の第1項の主要成分である。 Equation (26) is derived from Equation (25). Formula (27) is calculated by substituting formula (26) into formulas (18) and (19). Here, 1−K2/n is approximated to 1 because the kurtosis K2 is sufficiently smaller than the size n. Formula (28) is calculated by substituting formulas (20) and (23) into formulas (18) and (19). Equation (29) is calculated by subtracting Equation (27) from Equation (28). Equation (30) is calculated from Equations (20), (24), and (29). This is the main component of the first term of Equation (19).
(f)相互作用成分を算出
不動点Cor1vを数式(31)のように定義する。不動点Cor1vは、訓練データサイズを変化させても値が変化しないかまたは非常に緩やかに変化することが多いため、ここでは訓練データサイズに依存しないと仮定する。不動点Cor1vの値は0.001~0.1程度であることが多い。
(f) Calculation of interaction component A fixed point Cor1v is defined as in Equation (31). The fixed point Cor1v is assumed to be independent of the training data size because it often does not change or changes very slowly even when the training data size is changed. The value of the fixed point Cor1v is often about 0.001 to 0.1.
ここで、数式(32)に示す統計学上の性質(誤差の相関係数の期待値)を利用する。誤差の期待値が0であるとき、2つの誤差の相関係数の期待値は0に近似する。この性質から数式(33)が成立し、上記の数式(31)から数式(34)が算出される。 Here, the statistical property (expected value of error correlation coefficient) shown in Equation (32) is used. When the expected value of the error is 0, the expected value of the correlation coefficient of the two errors is close to 0. Equation (33) is established from this property, and equation (34) is calculated from the above equation (31).
また、数式(35)が成立する。数式(35)の2行目から3行目への変形では、相関係数corMとバリアンスVi,Vjとは互いに独立であることを仮定している。数式(35)の3行目から4行目への変形では、上記の数式(34)を利用しており、Vi・Vjの期待値がEV2に近似することを利用している。数式(35)の4行目の近似では、テストデータサイズnが1より十分に大きいため1/(n-1)2を無視している。 Also, the formula (35) is established. The second-to-third modification of equation (35) assumes that the correlation coefficient cor M and the variances V i and V j are independent of each other. The transformation from the third line to the fourth line of Equation (35) utilizes Equation (34) above, and utilizes the fact that the expected value of V i ·V j approximates EV 2 . The fourth line approximation of Equation (35) ignores 1/(n−1) 2 because the test data size n is much larger than one.
ここで、数式(36)に示す統計学上の性質(共分散の二乗と二乗の共分散の関係)を利用する。確率変数X,Yの結合確率が二次元正規分布に従うならば数式(36)が成立する。誤差の分散が正規分布に従うため、数式(36)を利用して数式(37)が算出される。また、数式(38)が成立する。数式(38)の1行目から2行目への変形では、共分散covMとバイアスBi,Bjは概ね独立であることを仮定している。数式(38)の2行目の近似では、BiBjの期待値はバイアスBiの期待値の二乗に近似しその結果0に近似するという性質を利用している。数式(35),(38)を数式(37)に代入することで数式(39)が算出される。これが、数式(19)の第2項の主要成分である。
Here, the statistical property (the relationship between the square of the covariance and the covariance of the square) shown in Equation (36) is used. Equation (36) holds if the joint probability of random variables X and Y follows a two-dimensional normal distribution. Equation (37) is calculated using Equation (36) because the error variance follows a normal distribution. Also, the formula (38) is established. The transformation from
(g)モデルロスの分散をバイアスとバリアンスで記述
上記の数式(18),(19),(30),(39)より数式(40)の近似式が成立する。尖度K2は尖度K1に近似するため、数式(40)は数式(41)のように近似される。典型的にはK1(EL+EB2)はcor1v(EL-EB2)より十分に大きいため、数式(41)は更に数式(42)のように近似される。尖度K1は事前には不明であるが、分散の比が判明すれば実用上十分であることも多い。そこで、数式(42)は比例定数Cを用いて数式(43)のように単純化できる。これにより、予測性能の測定値の分散が、期待ロスELと期待バイアスEB2の差に比例し、かつ、期待ロスELと期待バイアスEB2の和に比例するという数式が導出される。
(g) Describing Variance of Model Loss with Bias and Variance From the above Equations (18), (19), (30), and (39), the approximation of Equation (40) is established. Since kurtosis K2 approximates kurtosis K1, equation (40) is approximated as equation (41). Since K1(EL+EB2) is typically much larger than cor1v(EL-EB2), equation (41) is further approximated by equation (42). Although the kurtosis K1 is unknown in advance, it is often sufficient for practical use if the variance ratio is known. Therefore, equation (42) can be simplified to equation (43) using the proportionality constant C. As a result, a mathematical formula is derived that the variance of the measured value of predictive performance is proportional to the difference between the expected loss EL and the expected bias EB2, and proportional to the sum of the expected loss EL and the expected bias EB2.
予測性能の測定値の分散を示す数式(41)は、数式(44)のように変形することができる。テストデータサイズnに着目すると、数式(44)の第1項は、予測性能の測定値の分散のうち、テストデータサイズnの増大に応じて減少するテストデータ依存成分に相当する。一方、数式(44)の第2項は、予測性能の測定値の分散のうち、テストデータサイズnの増大によっては減少しない訓練データ依存成分に相当する。このため、数式(44)は、予測性能の測定値の分散が、テストデータサイズnの増大によって減少するものの、0より大きい下限が存在することを示している。 Equation (41), which describes the variance of the predictive performance measure, can be modified as in Equation (44). Focusing on the test data size n, the first term in Equation (44) corresponds to the test data dependent component of the variance of the measured values of predictive performance that decreases as the test data size n increases. On the other hand, the second term in Equation (44) corresponds to the training data dependent component of the variance of the predictive performance measurement that does not decrease as the test data size n increases. Equation (44) thus indicates that there is a lower bound greater than 0, although the variance of the predictive performance measure decreases with increasing test data size n.
前述の図4では、テストデータサイズを訓練データサイズの2分の1や4分の1とするなど、テストデータサイズを訓練データサイズに比例するように決定していた。しかし、このようなテストデータサイズの決定方法は、予測性能の測定値の信頼性と予測性能の測定の負荷とを両立させる観点から、改善の余地がある。テストデータサイズが小さ過ぎると、予測性能の測定値が有する潜在的な分散が大きくなり、算出される測定値の信頼性が低下する。一方、テストデータサイズが大き過ぎると、予測性能の測定値の分散があまり減少せず、測定値の信頼性の向上にあまり寄与しないにもかかわらず、テスト処理を無駄に繰り返すことになり、テスト処理の負荷が増大する。 In FIG. 4 described above, the test data size is determined to be proportional to the training data size, such as setting the test data size to 1/2 or 1/4 of the training data size. However, such a test data size determination method has room for improvement from the viewpoint of balancing the reliability of the prediction performance measurement value and the load of the prediction performance measurement. If the test data size is too small, the predictive performance measure will have a large potential variance and the calculated measure will be less reliable. On the other hand, if the test data size is too large, the variance of the predictive performance measurements will not be significantly reduced, and the test process will be repeated unnecessarily even though it will not contribute much to improving the reliability of the measurements. Processing load increases.
この点、数式(44)が示す予測性能の測定値の分散とテストデータサイズnとの間の対応関係によれば、測定値の信頼性とテスト負荷とを両立させるような効率的なテストデータサイズnが存在することになる。そこで、第2の実施の形態の機械学習装置100は、数式(44)に基づいて、適切なテストデータサイズを決定する。
In this regard, according to the correspondence relationship between the variance of the measured value of the predicted performance and the test data size n indicated by Equation (44), efficient test data that balances the reliability of the measured value and the test load There will be a size n. Therefore, the
データ集合と機械学習アルゴリズムが特定されると、機械学習装置100は、数式(44)の尖度K1と不動点Cor1vと期待バイアスEB2を決定する。これにより、機械学習装置100は、テストデータサイズnと期待ロスELを引数として有し、予測性能の測定値の分散を推定する分散関数f(n,EL)を生成する。尖度K1と不動点Cor1vと期待バイアスEB2は、訓練データサイズに依存しないパラメータである。そのため、データ集合と機械学習アルゴリズムが同じであれば、訓練データサイズが異なっても、同じ分散関数を用いて予測性能の測定値の分散を推定することができる。
Once the data set and machine learning algorithm are specified,
あるデータ集合と機械学習アルゴリズムの組に対する尖度K1と不動点Cor1vと期待バイアスEB2を決定するには、前述のように、mセットの訓練データと1セットのテストデータの間の網羅的な誤差を示す誤差プロファイルを用意することが好ましい。そこで、機械学習装置100は、予測性能を測定したいモデルの訓練データサイズよりも十分に小さい訓練データを、同一のデータ集合からmセット抽出し、mセットの訓練データを用いて機械学習によりm個のモデルを生成する。また、機械学習装置100は、十分に小さいテストデータを当該データ集合から抽出し、テストデータに含まれる複数のレコードとm個のモデルとの間で網羅的に誤差を算出する。
To determine the kurtosis K1, the fixed point Cor1v, and the expectation bias EB2 for a given dataset and set of machine learning algorithms, as before, the exhaustive error between m sets of training data and one set of test data It is preferable to provide an error profile showing Therefore, the
例えば、予測性能を測定したいモデルの訓練データサイズが100万レコードであるとする。この場合、誤差プロファイル生成のための訓練データの個数を10セットとし、各訓練データのサイズを1万レコードとする。また、テストデータサイズを、訓練データサイズの2分の1である5000レコードとする。これにより、10個のモデルとテストデータの5000レコードとの間で、10×5000個の誤差が算出される。機械学習装置100は、この誤差プロファイルを用いて、数式(23)の尖度K1と、数式(31)の不動点Cor1vと、数式(12)の期待バイアスEB2を算出する。
For example, suppose the training data size of the model whose predictive performance you want to measure is 1 million records. In this case, the number of training data sets for error profile generation is 10 sets, and the size of each training data is 10,000 records. Also, the test data size is set to 5000 records, which is half the training data size. This yields 10×5000 errors between the 10 models and the 5000 records of the test data. Using this error profile, the
分散関数f(n,EL)が生成されると、機械学習装置100は、予測性能を測定したいモデルに対応する期待ロスELを分散関数に代入する。期待ロスELは、図5に示すように、データ集合と機械学習アルゴリズムが同じでも訓練データサイズに応じて変化する。そのため、対象のモデルに対応する期待ロスELを使用することになる。
When the variance function f(n, EL) is generated, the
ある訓練データサイズに対応する期待ロスELは、測定せずに与えられることもあるし対象のモデルから測定して求めることもある。測定しない場合として、データ集合および機械学習アルゴリズムが同一であり訓練データサイズが異なる複数のモデルの予測性能が、既に測定済みである場合が考えられる。その場合、回帰分析などの統計的方法により、それら測定値から未知の期待ロスELを推定することが考えられる。未知の期待ロスELの推定には、図3や図5の非線形曲線を利用することができる。 The expected loss EL corresponding to a certain training data size may be given without measurement or obtained by measurement from the target model. As a case of not measuring, it is conceivable that the predictive performance of multiple models with the same data set and machine learning algorithm but different training data sizes has already been measured. In that case, it is conceivable to estimate the unknown expected loss EL from these measured values by a statistical method such as regression analysis. The non-linear curves in FIGS. 3 and 5 can be used to estimate the unknown expected loss EL.
対象のモデルから測定する場合、例えば、機械学習装置100は、誤差プロファイルの生成に使用した小さなテストデータを対象のモデルに入力し、テストデータに含まれる複数のレコードに対応する誤差を算出する。そして、機械学習装置100は、それら誤差から数式(11)の期待ロスELを算出する。例えば、5000レコードのテストデータから5000個の誤差が算出され、期待値としての期待ロスELが算出される。
When measuring from the target model, for example, the
上記の方法で測定される期待ロスELは、対象のモデルが大きい訓練データサイズで学習されているため、当該大きい訓練データサイズに対応した測定値になる。ただし、小さいテストデータを使用するため、大きいテストデータを使用して測定される本来の期待ロスELと比較すると、測定値の分散が大きくなる。その点で、小さなテストデータで測定される期待ロスELは、近似値または推定値であると言える。 The expected loss EL measured by the above method is a measured value corresponding to the large training data size because the target model is learned with a large training data size. However, since small test data is used, the dispersion of the measured values becomes large compared to the original expected loss EL measured using large test data. In that respect, the expected loss EL measured with small test data can be said to be an approximation or an estimate.
分散関数f(n,EL)に入力する期待ロスELの精度を上げるため、機械学習装置100は、期待ロスELの推定とテストデータサイズnの選択を2回繰り返してもよい。例えば、機械学習装置100は、小さなテストデータで測定した期待ロスELを分散関数f(n,EL)に入力し、以下で説明する方法でテストデータサイズnを仮選択する。機械学習装置100は、データ集合から当該仮選択したサイズのテストデータを抽出し、抽出したテストデータを用いて期待ロスELを再測定する。機械学習装置100は、再測定した期待ロスELを分散関数f(n,EL)に入力し、以下で説明する方法でテストデータサイズnを再選択し、これを最終的なテストデータサイズと決定する。
In order to increase the accuracy of the expected loss EL input to the variance function f(n, EL), the
期待ロスELを分散関数f(n,EL)に入力して期待ロスELを固定すると、分散関数は、テストデータサイズnと分散の推定値とを1対1に対応付ける対応関係を表す。機械学習装置100は、分散関数のテストデータサイズnを変動させながら分散の推定値を評価することで、適切なテストデータサイズnを決定する。
When the expected loss EL is input to the variance function f(n, EL) and the expected loss EL is fixed, the variance function represents a one-to-one correspondence between the test data size n and the estimated value of variance. The
テストデータサイズnと分散の推定値との対応関係は、テストデータサイズnの増加に応じて、分散の推定値が下限に漸近するように減少する非線形曲線に相当する。テストデータサイズnが小さいうちは、テストデータサイズnの単位増加量あたりの分散の推定値の減少量が大きい。テストデータサイズnが大きいほど、テストデータサイズnの単位増加量あたりの分散の推定値の減少量が小さくなる。予測性能の測定値の信頼性を維持しつつテストデータサイズnを小さくするため、適切なテストデータサイズnは、分散の推定値が許容できる程度に小さい範囲で、できる限り小さいサイズとする。 The correspondence between the test data size n and the estimated variance corresponds to a non-linear curve in which the estimated variance decreases as the test data size n increases so that the estimated variance approaches the lower limit. As long as the test data size n is small, the amount of decrease in the estimated variance per unit increase in the test data size n is large. The larger the test data size n, the smaller the decrease in variance estimate per unit increase in test data size n. In order to keep the test data size n small while maintaining a reliable measure of predictive performance, a suitable test data size n should be as small as possible while the variance estimate is acceptably small.
例えば、機械学習装置100は、効果指標としてf(n,EL)/f(2*n,EL)を算出する。この効果指標は、テストデータサイズnを2倍にした場合の分散の減少率に相当し、分散減少効果の評価指標である。効果指標の値が大きいほど分散減少効果が大きいことを示し、効果指標の値が小さいほど分散減少効果が小さいことを示す。テストデータサイズnと分散の推定値の関係から、nが大きいほど効果指標の値は小さくなる。
For example, the
機械学習装置100は、小さいテストデータサイズnで効果指標の値を算出し、閾値と比較する。閾値は、1.1などと予め決めておく。効果指標の値が閾値以上である場合、機械学習装置100は、テストデータサイズnを2倍にし、効果指標の値が閾値未満になるまで上記を繰り返す。効果指標の値が閾値未満になると、機械学習装置100は、その時点のテストデータサイズnを適切なテストデータサイズとして決定する。
The
なお、上記の方法におけるテストデータサイズnの増加速度である「2倍」や閾値の「1.1」は調整可能パラメータであり、ユーザがこれらのパラメータを変更することも可能である。また、分散関数f(n,EL)から適切なテストデータサイズnを探索する他の方法として、例えば、機械学習装置100は、テストデータサイズnを無限大にした場合の分散の推定値の下限を算出する。そして、機械学習装置100は、分散の推定値が下限の所定倍(例えば、1.1倍)になるようなテストデータサイズnを選択する。
It should be noted that the increasing speed of the test data size n in the above method of "double" and the threshold value of "1.1" are adjustable parameters, and the user can change these parameters. As another method of searching for an appropriate test data size n from the variance function f(n, EL), for example, the
このようにして機械学習装置100によって決定されるテストデータサイズは、訓練データサイズの2分の1または4分の1をテストデータサイズとする慣習的方法と比べて、十分に小さいサイズとなる。例えば、訓練データサイズが100万レコードである場合、慣習的方法では、テストデータサイズが50万レコードまたは25万レコードとなる。これに対して、第2の実施の形態の方法によれば、予測性能の測定値の分散を慣習的方法と同程度に維持しつつ、テストデータサイズを数万レコード程度に削減できる。よって、予測性能の測定値の信頼性を維持しつつ、テスト処理を高速化できる。
The test data size determined by the
なお、第2の実施の形態で決定される最終的なテストデータサイズnは、慣習的方法よりも十分に小さい。そのため、テストデータを用いて期待ロスELを算出することを1回または2回行っても、全体のテスト処理の負荷は慣習的方法よりも十分に小さくなる。 Note that the final test data size n determined in the second embodiment is much smaller than the conventional method. Therefore, even if the expected loss EL is calculated using the test data once or twice, the overall test processing load is much smaller than that of the conventional method.
次に、機械学習装置100の機能および処理手順について説明する。
図6は、機械学習装置の機能例を示すブロック図である。
機械学習装置100は、データ記憶部121、制御情報記憶部122、学習結果記憶部123、モデル生成部124、テスト実行部125、テストサイズ決定部126および機械学習制御部127を有する。データ記憶部121、制御情報記憶部122および学習結果記憶部123は、例えば、RAM102またはHDD103の記憶領域を用いて実現される。モデル生成部124、テスト実行部125、テストサイズ決定部126および機械学習制御部127は、例えば、CPU101が実行するプログラムを用いて実現される。
Next, functions and processing procedures of the
FIG. 6 is a block diagram showing an example of functions of the machine learning device.
The
データ記憶部121は、訓練データまたはテストデータに使用可能な多数のレコードを含むデータ集合を記憶する。各レコードは、説明変数の値と教師ラベルである目的変数の値とを含む。データ集合は、数百万レコードなどサイズの大きなものであってもよい。機械学習装置100は、ユーザからデータ集合を受け付けてもよいし、他の情報処理装置からデータ集合を受信してもよいし、センサデバイスからデータ集合を収集してもよい。
制御情報記憶部122は、訓練データを用いたモデルの学習やテストデータを用いたモデルの予測性能の測定の過程で生成される各種の制御情報を記憶する。制御情報には、分散関数の生成に用いられる誤差プロファイルや分散関数のパラメータが含まれる。
The control
学習結果記憶部123は、機械学習の結果を記憶する。機械学習の結果には、学習されたモデルおよび当該モデルの予測性能の測定値が含まれる。
モデル生成部124は、機械学習によりモデルを生成する。モデル生成部124は、機械学習制御部127から機械学習アルゴリズムの指定と訓練データを受け付ける。モデル生成部124は、指定された機械学習アルゴリズムに従って、訓練データに含まれるレコードを用いてモデルの係数を決定することでモデルを学習する。機械学習アルゴリズムには、回帰分析、サポートベクタマシン、ランダムフォレストなどが含まれる。モデル生成部124は、学習されたモデルを機械学習制御部127に提供する。
The learning
The
テスト実行部125は、モデルのテストを行う。テスト実行部125は、機械学習制御部127からモデルとテストデータを受け付ける。テスト実行部125は、テストデータのレコードに含まれる説明変数の値をモデルに入力し、モデルに従って目的変数の予測値を算出する。テスト実行部125は、テストデータのレコードに含まれる目的変数の真値とモデルから算出された予測値とを比較して、誤差を算出する。そして、テスト実行部125は、誤差を列挙した誤差プロファイルを生成する。
The
テスト実行部125は、誤差プロファイルを機械学習制御部127に提供する。または、テスト実行部125は、誤差プロファイルを予測性能または期待ロスに変換し、予測性能または期待ロスを機械学習制御部127に提供する。予測性能の指標には、正答率、適合率、平均二乗誤差、二乗平均平方根誤差などが含まれる。予測性能または期待ロスは、テストデータに含まれる複数のレコードに対応する誤差から算出することができる。機械学習制御部127に提供される情報は、機械学習制御部127の要求に応じて変わる。
テストサイズ決定部126は、テストデータサイズを決定する。まず、テストサイズ決定部126は、機械学習制御部127から誤差プロファイルを受け付ける。この誤差プロファイルは、mセットの小さな訓練データを用いて学習されたm個のモデルに対して、小さなテストデータを用いて測定された誤差を列挙したものである。テストサイズ決定部126は、この誤差プロファイルを用いて、予測性能の測定値の分散を推定するための分散関数のパラメータを決定する。分散関数のパラメータには、尖度K1と不動点Cor1vと期待バイアスEB2が含まれる。テストサイズ決定部126は、分散関数の式や分散関数のパラメータの決定方法を予め知っている。テストサイズ決定部126は、分散関数のパラメータを機械学習制御部127に提供する。
The test
また、テストサイズ決定部126は、機械学習制御部127から、先に算出した分散関数のパラメータと、対象のモデルの訓練データサイズに対応する期待ロスELを受け付ける。テストサイズ決定部126は、分散関数f(n,EL)に期待ロスELを代入し、テストデータサイズnを変えながら分散の推定値を算出する。そして、テストサイズ決定部126は、適切なテストデータサイズnを決定して機械学習制御部127に提供する。例えば、テストサイズ決定部126は、分散の推定値から算出される効果指標の値が閾値以上である範囲で、最大のテストデータサイズnを検出する。
The test
機械学習制御部127は、機械学習を制御する。まず、機械学習制御部127は、モデルの学習および予測性能の測定の対象とする機械学習アルゴリズムおよび訓練データサイズを特定する。対象の機械学習アルゴリズムおよび訓練データサイズは、ユーザから指定されてもよいし、所定の規則に従って機械学習制御部127が選択してもよい。
The machine
次に、機械学習制御部127は、テストサイズ決定部126に分散関数のパラメータを決定させる。ただし、分散関数のパラメータの決定は、予測性能を測定する対象のモデルが学習された後に行うようにすることも可能である。
Next, the machine
分散関数のパラメータの決定では、機械学習制御部127は、mセットの小さな訓練データと1セットの小さなテストデータを、データ記憶部121に記憶されたデータ集合から抽出する。機械学習制御部127は、mセットの訓練データをモデル生成部124に提供し、m個のモデルをモデル生成部124から取得する。機械学習制御部127は、m個のモデルと1セットのテストデータをテスト実行部125に提供し、誤差プロファイルをテスト実行部125から取得する。そして、機械学習制御部127は、誤差プロファイルをテストサイズ決定部126に提供し、分散関数のパラメータをテストサイズ決定部126から取得し、制御情報として制御情報記憶部122に格納する。
In determining the parameters of the variance function, the machine
次に、機械学習制御部127は、モデル生成部124に対象のモデルを学習させる。機械学習制御部127は、先に特定したサイズの訓練データを、データ記憶部121に記憶されたデータ集合から抽出する。機械学習制御部127は、抽出した訓練データをモデル生成部124に提供し、学習されたモデルをテスト実行部125から取得する。機械学習制御部127は、モデルを学習結果記憶部123に格納する。
Next, the machine
次に、機械学習制御部127は、対象のモデルの予測性能を測定するための適切なテストデータサイズをテストサイズ決定部126に決定させる。まず、機械学習制御部127は、学習結果記憶部123に記憶されたモデルと、分散関数のパラメータの決定の際に使用した小さなテストデータとを、テスト実行部125に提供する。機械学習制御部127は、このために小さなテストデータを保存しておいてもよい。また、機械学習制御部127は、分散関数のパラメータの決定の際に使用したテストデータに代えて、同等のサイズのテストデータを、データ記憶部121に記憶されたデータ集合から抽出してもよい。
Next, the machine
機械学習制御部127は、テスト実行部125から期待ロスを取得し、制御情報記憶部122に記憶された分散関数のパラメータと期待ロスをテストサイズ決定部126に提供する。ただし、機械学習制御部127は、対象のモデルを用いて期待ロスを測定する代わりに、回帰分析などの統計的方法によって期待ロスを推定してもよい。機械学習制御部127は、テストサイズ決定部126からテストデータサイズを取得する。
The machine
すると、機械学習制御部127は、データ記憶部121に記憶されたデータ集合から、決定されたサイズのテストデータを抽出する。テストデータに含まれるレコードは訓練データと重複しないことが好ましい。機械学習制御部127は、抽出したテストデータと学習結果記憶部123に記憶されたモデルとをテスト実行部125に提供する。機械学習制御部127は、テスト実行部125から予測性能の測定値を取得し、学習結果記憶部123に格納する。ただし、機械学習制御部127は、上記のテストデータに対して、更新された期待ロスをテスト実行部125から取得し、更新された期待ロスに基づいて、更新されたテストデータサイズをテストサイズ決定部126から取得してもよい。
Then, the machine
モデルの学習と予測性能の測定が完了すると、機械学習制御部127は、モデルおよび予測性能の測定値を出力する。例えば、機械学習制御部127は、表示装置111にモデルおよび予測性能の測定値を表示する。機械学習制御部127は、他の出力デバイスにモデルおよび予測性能の測定値を出力してもよい。また、例えば、機械学習制御部127は、他の情報処理装置にモデルおよび予測性能の測定値を送信する。
After model learning and prediction performance measurement is complete, the machine
図7は、誤差プロファイルテーブルの例を示す図である。
誤差プロファイルテーブル131は、制御情報記憶部122に記憶される。誤差プロファイルテーブル131は、mセットの訓練データとnレコードのテストデータとの間で網羅的に算出されたm×n個の誤差を記憶する。誤差プロファイルテーブル131の列は、訓練データD1,D2,…,Dmに対応する。誤差プロファイルテーブル131の行は、テストデータのn個のレコードに含まれる入力値X1,X2,…,Xnに対応する。1つの訓練データDkから学習された1つのモデルに、テストデータの1つのレコードに含まれる入力値Xiを入力することで、予測値と真値との差である誤差eikが算出される。
FIG. 7 is a diagram showing an example of an error profile table.
The error profile table 131 is stored in the control
図8は、分散関数テーブルの例を示す図である。
分散関数テーブル132は、制御情報記憶部122に記憶される。分散関数テーブル132は、尖度K1、不動点Cor1vおよび期待バイアスEB2の3つのパラメータに対応する値を記憶する。これら3つのパラメータは、数式(44)に含まれるパラメータであって、訓練データサイズに依存しないパラメータである。分散関数テーブル132に記憶される値は、誤差プロファイルテーブル131から算出される。
FIG. 8 is a diagram showing an example of a distributed function table.
The distributed function table 132 is stored in the control
図9は、機械学習の手順例を示すフローチャートである。
(S10)機械学習制御部127は、機械学習アルゴリズムと訓練データサイズを指定する。機械学習アルゴリズムと訓練データサイズの指定はユーザから受け付けてもよい。
FIG. 9 is a flowchart illustrating an example of machine learning procedures.
(S10) The machine
(S11)機械学習制御部127は、データ記憶部121からmセットの小サイズの訓練データと1セットの小サイズのテストデータを抽出する。例えば、1万レコードの訓練データが10セット抽出され、5000レコードのテストデータが1セット抽出される。
( S<b>11 ) The machine
(S12)モデル生成部124は、ステップS10で指定された機械学習アルゴリズムに従って、mセットの訓練データからm個のモデルを学習する。
(S13)テスト実行部125は、ステップS12で学習されたm個のモデルに、ステップS11のテストデータの各レコードを入力して誤差を算出し、算出した誤差を列挙した誤差プロファイルテーブル131を生成する。具体的には、テスト実行部125は、1つのモデルとテストデータの1つのレコードの組毎に、レコードに含まれる説明変数の値をモデルに入力し、モデルから算出された目的変数の予測値とレコードに含まれる真値との差を誤差として算出する。例えば、10個のモデルと5000レコードのテストデータから、10×5000個の誤差を含む誤差プロファイルテーブル131が生成される。
(S12) The
(S13) The
(S14)テストサイズ決定部126は、誤差プロファイルテーブル131から、所定の数式に従って、分散関数f(n,EL)を規定するパラメータの値を決定する。パラメータには、尖度K1と不動点Cor1vと期待バイアスEB2が含まれる。ここで決定されるパラメータの値は、使用するデータ集合と指定された機械学習アルゴリズムに依存するものである一方、訓練データサイズに依存しないものである。
(S14) From the error profile table 131, the test
(S15)機械学習制御部127は、データ記憶部121から、ステップS10で指定されたサイズの訓練データを抽出する。
(S16)モデル生成部124は、ステップS10で指定された機械学習アルゴリズムに従って、ステップS15で抽出された訓練データからモデルを学習する。
(S15) The machine
(S16) The
図10は、機械学習の手順例を示すフローチャート(続き)である。
(S17)テスト実行部125は、ステップS16で学習されたモデルに、ステップS11で抽出された小サイズのテストデータの各レコードを入力して誤差を算出する。ただし、ステップS11で抽出されたものとは異なるテストデータを使用してもよい。
FIG. 10 is a flowchart (continued) showing a procedure example of machine learning.
(S17) The
(S18)テスト実行部125は、ステップS17で算出された誤差から、所定の数式に従って、ステップS16で学習されたモデルの期待ロスELを推定する。
(S19)テストサイズ決定部126は、ステップS14で決定されたパラメータの値をもつ分散関数f(n,EL)に、ステップS18で推定された期待ロスELを代入する。テストサイズ決定部126は、分散関数f(n,EL)により算出される分散が所定条件を満たす範囲で、最大のテストデータサイズn1を判定する。例えば、テストサイズ決定部126は、テストデータサイズnを2倍にした場合の分散の減少率を示す効果指標の値と所定の閾値とを比較し、効果指標の値が閾値未満になるまでテストデータサイズnを2倍にすることを繰り返す。これにより、最大のテストデータサイズn1が選択される。
(S18) The
(S19) The test
(S20)機械学習制御部127は、データ記憶部121から、ステップS19で判定されたサイズn1のテストデータを抽出する。
(S21)テスト実行部125は、ステップS16で学習されたモデルに、ステップS20で抽出されたテストデータの各レコードを入力して誤差を算出する。
(S20) The machine
(S21) The
(S22)テスト実行部125は、ステップS21で算出された誤差から、所定の数式に従って、ステップS16で学習されたモデルの期待ロスELを再推定する。
(S23)テストサイズ決定部126は、ステップS14で決定されたパラメータの値をもつ分散関数f(n,EL)に、ステップS22で再推定された期待ロスELを代入する。テストサイズ決定部126は、分散関数f(n,EL)により算出される分散が所定条件を満たす範囲で、最大のテストデータサイズn2を判定する。テストデータサイズn2の判定方法は、ステップS19と同様の方法でよい。
(S22) The
(S23) The test
(S24)機械学習制御部127は、データ記憶部121から、ステップS23で判定されたサイズn2のテストデータを抽出する。
(S25)テスト実行部125は、ステップS16で学習されたモデルに、ステップS24で抽出されたテストデータの各レコードを入力して誤差を算出する。テスト実行部125は、算出された誤差から、当該モデルの予測性能の測定値を算出する。
(S24) The machine
(S25) The
(S26)機械学習制御部127は、ステップS16で学習されたモデルとステップS25で算出された予測性能の測定値を、学習結果記憶部123に保存する。また、機械学習制御部127は、モデルおよび予測性能の測定値を表示装置111に表示する。
(S26) The machine
なお、上記のフローチャートでは、対象となるモデルの期待ロスELの推定を2回繰り返している。期待ロスELの推定を1回だけ行う場合、上記のステップS19~S22を省略することができる。また、対象となるモデルを使用せずに統計的方法により期待ロスELを推定する場合、上記のステップS17~S22を省略することができる。 Note that in the above flowchart, the estimation of the expected loss EL of the target model is repeated twice. If the expected loss EL is estimated only once, the above steps S19 to S22 can be omitted. Also, when the expected loss EL is estimated by a statistical method without using the target model, the above steps S17 to S22 can be omitted.
第2の実施の形態の機械学習装置100によれば、複数セットの小さい訓練データと1セットの小さいテストデータを用いて、同一のデータ集合および機械学習アルゴリズムのもとで生じる誤差の分布を示す誤差プロファイルが生成される。誤差プロファイルに基づいて、期待ロスとテストデータサイズを引数としてもち、予測性能の測定値の分散を算出する分散関数が決定される。そして、大きい訓練データを用いて学習された対象モデルの期待ロスが推定され、分散関数が示すテストデータサイズと分散の対応関係に基づいて、対象モデルの予測性能を測定するための適切なテストデータサイズが決定される。
According to the
テストデータサイズは、予測性能の測定値が実用上十分な信頼性をもつ範囲、すなわち、その分散が許容できる範囲で、できる限り小さいサイズに決定される。これにより、テストデータサイズが小さ過ぎることにより予測性能の測定値の信頼性が低下することを抑制できる。また、テストデータサイズが大き過ぎることにより予測性能の測定値の信頼性向上に寄与しない無駄なテスト処理が発生することを抑制でき、テスト処理の負荷を軽減してテスト時間を短縮できる。よって、学習されたモデルの予測性能を高信頼かつ短時間で測定することができ、テスト処理を効率化することができる。例えば、テストデータサイズを訓練データサイズの2分の1から4分の1程度とする慣習的方法と比べて、測定値の分散を同程度に抑えつつ、テストデータサイズを削減することができる。 The test data size is determined to be as small as possible within a range in which the measured value of predictive performance is sufficiently reliable in practice, that is, within a range in which the variance is acceptable. As a result, it is possible to prevent the test data size from being too small, thereby reducing the reliability of the measured value of predictive performance. In addition, it is possible to suppress the occurrence of useless test processing that does not contribute to improving the reliability of the measured value of the predicted performance due to the test data size being too large, thereby reducing the load of the test processing and shortening the test time. Therefore, it is possible to measure the prediction performance of the learned model with high reliability and in a short period of time, and to improve the efficiency of test processing. For example, the test data size can be reduced while suppressing the variance of the measured values to the same degree as compared with the conventional method in which the test data size is set to about one-half to one-fourth of the training data size.
10 機械学習装置
11 記憶部
12 処理部
13 データ集合
14a,14b,14c,18 訓練データ
15,19 テストデータ
16 誤差情報
17 対応関係
REFERENCE SIGNS
Claims (8)
データ集合から抽出された複数の第1の訓練データを用いて、機械学習により前記複数の第1の訓練データに対応する複数の第1のモデルを学習し、
前記データ集合から抽出された第1のテストデータに含まれる2以上のレコードそれぞれを前記複数の第1のモデルに入力することで、前記複数の第1のモデルと前記2以上のレコードとの組み合わせ毎に算出された予測誤差を示す誤差情報を生成し、
前記誤差情報に基づいて、テストデータのサイズとテストデータを用いて算出されるモデルの精度の測定値が有する分散との間の対応関係を判定し、
前記データ集合から抽出された第2の訓練データを用いて学習された第2のモデルの精度を、前記データ集合から抽出される第2のテストデータを用いて測定する場合に、前記対応関係に基づいて、前記第2のモデルに対して算出される精度の測定値の分散が所定条件を満たすように前記第2のテストデータのサイズを決定する、
処理を実行させる機械学習プログラム。 to the computer,
Using a plurality of first training data extracted from a data set, learning a plurality of first models corresponding to the plurality of first training data by machine learning;
By inputting each of two or more records included in the first test data extracted from the data set into the plurality of first models, combining the plurality of first models and the two or more records Generate error information indicating the prediction error calculated for each
Based on the error information, determine the correspondence between the size of the test data and the variance of a measure of model accuracy calculated using the test data;
When measuring the accuracy of a second model learned using second training data extracted from the dataset using second test data extracted from the dataset, the correspondence relationship determining the size of the second test data such that the variance of the accuracy measurements calculated for the second model satisfies a predetermined condition based on
A machine learning program that makes you do things.
請求項1記載の機械学習プログラム。 The correspondence relationship is a non-linear relationship in which the variance decreases so as to asymptotically approach the lower limit as the size of the test data increases, and the size of the second test data indicates the degree of decrease in variance for a predetermined increase in size. determined based on the efficiency index shown,
The machine learning program according to claim 1.
請求項2記載の機械学習プログラム。 The predetermined condition is that the value of the efficiency index is equal to or greater than a threshold, and the size of the second test data is determined to be the maximum size within a range that satisfies the predetermined condition.
3. The machine learning program according to claim 2.
請求項1記載の機械学習プログラム。 In determining the correspondence relationship, a prediction bias is calculated by averaging the prediction errors calculated for the plurality of first models for each of the two or more records, and the prediction biases of the two or more records are synthesized. to determine the value of the parameter representing the correspondence,
The machine learning program according to claim 1.
前記第2のテストデータのサイズの決定では、前記第2のモデルの学習結果に基づいて前記第2のパラメータの値を推定し、前記第3のパラメータの値を変動させることで、分散が前記所定条件を満たすテストデータのサイズを探索する、
請求項1記載の機械学習プログラム。 In determining the correspondence relationship, the variance is calculated using a first parameter that does not depend on the size of the training data, a second parameter that depends on the size of the training data, and a third parameter that indicates the size of the test data. estimating a value of the first parameter for a function;
In determining the size of the second test data, the value of the second parameter is estimated based on the learning result of the second model, and the value of the third parameter is varied so that the variance is the search for a size of test data that satisfies a given condition;
The machine learning program according to claim 1.
請求項5記載の機械学習プログラム。 In determining the size of the second test data, the value of the second parameter is provisionally selected based on the prediction error calculated by inputting the first test data into the second model, and the provisional Prediction error calculated by tentatively selecting the size of test data using the value of the selected second parameter, and inputting the test data of the tentatively selected size extracted from the data set into the second model determining the value of the second parameter based on
The machine learning program according to claim 5.
データ集合から抽出された複数の第1の訓練データを用いて、機械学習により前記複数の第1の訓練データに対応する複数の第1のモデルを学習し、
前記データ集合から抽出された第1のテストデータに含まれる2以上のレコードそれぞれを前記複数の第1のモデルに入力することで、前記複数の第1のモデルと前記2以上のレコードとの組み合わせ毎に算出された予測誤差を示す誤差情報を生成し、
前記誤差情報に基づいて、テストデータのサイズとテストデータを用いて算出されるモデルの精度の測定値が有する分散との間の対応関係を判定し、
前記データ集合から抽出された第2の訓練データを用いて学習された第2のモデルの精度を、前記データ集合から抽出される第2のテストデータを用いて測定する場合に、前記対応関係に基づいて、前記第2のモデルに対して算出される精度の測定値の分散が所定条件を満たすように前記第2のテストデータのサイズを決定する、
機械学習方法。 the computer
Using a plurality of first training data extracted from a data set, learning a plurality of first models corresponding to the plurality of first training data by machine learning;
By inputting each of two or more records included in the first test data extracted from the data set into the plurality of first models, combining the plurality of first models and the two or more records Generate error information indicating the prediction error calculated for each
Based on the error information, determine the correspondence between the size of the test data and the variance of a measure of model accuracy calculated using the test data;
When measuring the accuracy of a second model learned using second training data extracted from the dataset using second test data extracted from the dataset, the correspondence relationship determining the size of the second test data such that the variance of the accuracy measurements calculated for the second model satisfies a predetermined condition based on
machine learning method.
前記データ集合から抽出された複数の第1の訓練データを用いて、機械学習により前記複数の第1の訓練データに対応する複数の第1のモデルを学習し、前記データ集合から抽出された第1のテストデータに含まれる2以上のレコードそれぞれを前記複数の第1のモデルに入力することで、前記複数の第1のモデルと前記2以上のレコードとの組み合わせ毎に算出された予測誤差を示す誤差情報を生成し、前記誤差情報に基づいて、テストデータのサイズとテストデータを用いて算出されるモデルの精度の測定値が有する分散との間の対応関係を判定し、前記データ集合から抽出された第2の訓練データを用いて学習された第2のモデルの精度を、前記データ集合から抽出される第2のテストデータを用いて測定する場合に、前記対応関係に基づいて、前記第2のモデルに対して算出される精度の測定値の分散が所定条件を満たすように前記第2のテストデータのサイズを決定する処理部と、
を有する機械学習装置。 a storage unit for storing data sets;
Using the plurality of first training data extracted from the data set, learning a plurality of first models corresponding to the plurality of first training data by machine learning, and the first model extracted from the data set By inputting each of two or more records included in one piece of test data into the plurality of first models, the prediction error calculated for each combination of the plurality of first models and the two or more records is calculated as determining, based on said error information, a correspondence between the size of the test data and the variance of a measure of model accuracy computed using the test data; When measuring the accuracy of the second model learned using the extracted second training data using the second test data extracted from the data set, based on the correspondence, the a processing unit that determines the size of the second test data such that the variance of the accuracy measurements calculated for the second model satisfies a predetermined condition;
A machine learning device having
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019137027A JP7231829B2 (en) | 2019-07-25 | 2019-07-25 | Machine learning program, machine learning method and machine learning apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019137027A JP7231829B2 (en) | 2019-07-25 | 2019-07-25 | Machine learning program, machine learning method and machine learning apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021022051A JP2021022051A (en) | 2021-02-18 |
JP7231829B2 true JP7231829B2 (en) | 2023-03-02 |
Family
ID=74573866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019137027A Active JP7231829B2 (en) | 2019-07-25 | 2019-07-25 | Machine learning program, machine learning method and machine learning apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7231829B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113075527A (en) * | 2021-02-23 | 2021-07-06 | 普赛微科技(杭州)有限公司 | Integrated circuit chip testing method, system and medium based on Shmoo test |
CN113435653B (en) * | 2021-07-02 | 2022-11-04 | 国网新疆电力有限公司经济技术研究院 | Method and system for predicting saturated power consumption based on logistic model |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015525413A (en) | 2012-06-21 | 2015-09-03 | フィリップ モリス プロダクツ エス アー | System and method for generating biomarker signatures using integrated bias correction and class prediction |
JP2019113915A (en) | 2017-12-21 | 2019-07-11 | 富士通株式会社 | Estimation method, estimation device, and estimation program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0954764A (en) * | 1995-08-15 | 1997-02-25 | Fujitsu Ltd | Evaluation method for generalization ability of model |
JP6536295B2 (en) * | 2015-08-31 | 2019-07-03 | 富士通株式会社 | Prediction performance curve estimation program, prediction performance curve estimation device and prediction performance curve estimation method |
-
2019
- 2019-07-25 JP JP2019137027A patent/JP7231829B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015525413A (en) | 2012-06-21 | 2015-09-03 | フィリップ モリス プロダクツ エス アー | System and method for generating biomarker signatures using integrated bias correction and class prediction |
JP2019113915A (en) | 2017-12-21 | 2019-07-11 | 富士通株式会社 | Estimation method, estimation device, and estimation program |
Also Published As
Publication number | Publication date |
---|---|
JP2021022051A (en) | 2021-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6849915B2 (en) | Comparison program, comparison method and comparison device | |
JP6536295B2 (en) | Prediction performance curve estimation program, prediction performance curve estimation device and prediction performance curve estimation method | |
JP6947981B2 (en) | Estimating method, estimation device and estimation program | |
US11762918B2 (en) | Search method and apparatus | |
US20170372229A1 (en) | Method and apparatus for managing machine learning process | |
JP6839342B2 (en) | Information processing equipment, information processing methods and programs | |
TWI444844B (en) | Simulation parameter correction technique | |
CN111242310B (en) | Feature validity evaluation method and device, electronic equipment and storage medium | |
US20210081805A1 (en) | Model learning apparatus, model learning method, and program | |
JP2012058972A (en) | Evaluation prediction device, evaluation prediction method, and program | |
JP5833817B2 (en) | A method for approximating user task representation by document usage clustering | |
Breuer et al. | Accounting for uncertainty: an application of Bayesian methods to accruals models | |
JP7071624B2 (en) | Search program, search method and search device | |
US20200334557A1 (en) | Chained influence scores for improving synthetic data generation | |
JP4627674B2 (en) | Data processing method and program | |
JP7231829B2 (en) | Machine learning program, machine learning method and machine learning apparatus | |
Roskams-Hieter et al. | Leveraging variational autoencoders for multiple data imputation | |
Harrell, Jr et al. | Describing, resampling, validating, and simplifying the model | |
Waldorp et al. | Network Inference with the Lasso | |
US20230214668A1 (en) | Hyperparameter adjustment device, non-transitory recording medium in which hyperparameter adjustment program is recorded, and hyperparameter adjustment program | |
Ruiz et al. | A Bayesian framework for accelerated reliability growth testing with multiple sources of uncertainty | |
US20240045923A1 (en) | Information processing device, information processing method, and computer program product | |
US20210124853A1 (en) | Simulation based on precomputed results of the simulation | |
US20190034825A1 (en) | Automatically selecting regression techniques | |
US20210157707A1 (en) | Transferability determination apparatus, transferability determination method, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220407 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230111 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7231829 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |