JP2015527635A - 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法 - Google Patents

統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法 Download PDF

Info

Publication number
JP2015527635A
JP2015527635A JP2015517784A JP2015517784A JP2015527635A JP 2015527635 A JP2015527635 A JP 2015527635A JP 2015517784 A JP2015517784 A JP 2015517784A JP 2015517784 A JP2015517784 A JP 2015517784A JP 2015527635 A JP2015527635 A JP 2015527635A
Authority
JP
Japan
Prior art keywords
classifier
data set
objective value
training
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015517784A
Other languages
English (en)
Other versions
JP6313757B2 (ja
Inventor
ヤン シアン,
ヤン シアン,
ユリア ヘンク,
ユリア ヘンク,
フロリアン マルティン,
フロリアン マルティン,
Original Assignee
フィリップ モリス プロダクツ エス アー
フィリップ モリス プロダクツ エス アー
ヤン シアン,
ヤン シアン,
ユリア ヘンク,
ユリア ヘンク,
フロリアン マルティン,
フロリアン マルティン,
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フィリップ モリス プロダクツ エス アー, フィリップ モリス プロダクツ エス アー, ヤン シアン,, ヤン シアン,, ユリア ヘンク,, ユリア ヘンク,, フロリアン マルティン,, フロリアン マルティン, filed Critical フィリップ モリス プロダクツ エス アー
Publication of JP2015527635A publication Critical patent/JP2015527635A/ja
Application granted granted Critical
Publication of JP6313757B2 publication Critical patent/JP6313757B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本明細書において、アンサンブル分類技法を使用してデータセットを分類するためのシステムおよび方法が説明されている。機械学習技法をトレーニングデータセットに適用することによって、分類器が反復して生成され、その分類器に従ってトレーニングデータセット中の要素を分類することによって、トレーニングクラスセットが生成される。客観値が、トレーニングクラスセットに基づいて計算され、異なる分類器と関連付けられる客観値が、所望の数の反復が達せられ、かつ、最終トレーニングクラスセットが出力されるまで、比較される。

Description

関連出願への参照
本願は、米国仮特許出願第61/662,812号(発明の名称「Systems and Methods for Generating Biomarker Signatures with Integrated Dual Ensemble and Generalized Simulated Annealing Techniques」、2012年6月21日出願)に対する35 U.S.C § 119の下での優先権を主張し、それは、本明細書にその全体が援用される。
生物医学分野において、特定の生物学的状態を示す物質、すなわち、バイオマーカを識別することが重要である。ゲノミクスおよびプロテオミクスの新しい技術が出現するにつれて、バイオマーカは、生物学的発見、薬剤開発、および、ヘルスケアにおいてますます重要になりつつある。バイオマーカは、多くの疾患の診断および予後のためだけではなく、治療法の開発のための基礎を理解するためにも有用である。バイオマーカの成功した効果的な識別は、新薬開発プロセスを加速させることができる。診断および予後と治療法との組み合わせによって、バイオマーカ識別はまた、現在の薬物治療の品質を向上させ、したがって、薬理遺伝学、薬理ゲノム学、および、薬理プロテオミクスの使用において重要な役割を果たす。
高スループットスクリーニングを含むゲノムおよびプロテオームの分析は、細胞において発現させられるタンパク質の数および形態に関する豊富な情報を供給し、各細胞について、特定の細胞状態の特性を示す発現させられたタンパク質のプロファイルを識別する潜在的可能性を提供する。特定の場合において、この細胞状態は、疾患と関連付けられる異常生理学的反応の特性を示し得る。結果として、疾患を有する患者からの細胞状態を識別し、それを正常な患者からの対応する細胞の細胞状態と比較することによって、疾患を診断して治療する機会を提供することができる。
これらの高スループットスクリーニング技法は、遺伝子発現情報の大量のデータセットを提供する。研究者らは、個人の多様な集団について再現可能に診断するパターンにこれらのデータセットを組織化するための方法を開発しようとしてきた。1つのアプローチは、複合データセットを形成するように複数のソースからのデータをプールし、次いで、データセットを発見/トレーニングセットおよびテスト/検証セットに分割することであった。しかしながら、転写プロファイリングデータおよびタンパク質発現プロファイリングデータは両方とも、しばしば、利用可能な数のサンプルに対する多数の変数によって特徴付けられる。
患者または対照の群からの検体の発現プロファイルの間の観察された差異は、典型的に、疾患または対照の集団内の生物学的変動または未知のサブ表現型、研究プロトコルにおける差異による部位特異的なバイアス、検体の取り扱い、器具条件(例えば、チップバッチ等)における差異によるバイアス、および、測定誤差による変動を含むいくつかの要因によって、弱められる。いくつかの技法は、データサンプルにおけるバイアスを補正しようとする(例えば、別のクラスよりもむしろ、データセットにおいて表されるサンプルの1つのクラスを有することに起因し得る)。
いくつかのコンピュータベースの方法が、疾患および対照のサンプルの間の差異を最も良く説明する一組の特徴(マーカ)を見出すために開発されてきた。いくつかの初期の方法は、LIMMA、乳癌に関するバイオマーカを識別するためのFDA承認マンマプリント技法、ロジスティック回帰技法、および、サポートベクトルマシン(SVM)等の機械学習方法のような統計的テストを含んでいた。概して、機械学習の視点から、バイオマーカの選択は、典型的に、分類タスクについての特徴選択問題である。しかしながら、これらの初期の解決策は、いくつかの不利点に直面した。これらの技法によって生成されるシグネチャは、しばしば、対象の包含および除外が異なるシグネチャにつながり得るので、再現可能ではなかった。これらの初期の解決策はまた、多くの偽陽性シグネチャを生成し、小サンプルサイズおよび高次元を有するデータセットに作用するので、ロバストではなかった。
したがって、臨床的な診断および/または予後についてのバイオマーカを識別するために、より一般的には、データセットの中の要素を2つ以上のクラスに分類するために使用されることができるデータマーカを識別するための改良型技法の必要性がある。
本明細書において、データセットの中の要素を2つ以上のクラスに分類するために使用されることができるデータマーカを識別するためのシステム、コンピュータプログラム製品、および、方法が、説明される。特定すると、出願人らは、方法と遺伝子セットデータとの組み合わせが、個別方法のみよりもテストデータの良好な予測を提供できることを認識している。本明細書で説明されるコンピュータシステムおよびコンピュータプログラム製品は、要素を2つ以上のクラスに分類するための1つ以上のそのような技法を含む方法を実装する。特定すると、統合デュアルアンサンブル(integrated dual ensemble)およびシミュレーテッドアニーリング技法を使用して、バイオマーカシグネチャが生成される。この技法は、データセットを再サンプリングし、デュアルアンサンブル方法を使用して表現型を予測することを伴う。特定すると、本明細書で説明されるシステム、コンピュータプログラム製品、および、方法は、一組の分類方法およびデータサンプルを示すランダムベクトルを形成するステップを含む。ランダムベクトルは、反復して摂動させられ、異なる摂動に対応する異なる客観値(objective value)が、計算される。
特定の局面において、本明細書で説明されるシステムおよび方法は、プロセッサによって実行される、2つ以上のクラスにデータセットを分類するための手段および方法を含む。本方法は、トレーニングデータセットを受信するステップを含み得る。トレーニングデータセットは、集約データセットを発見(トレーニング)セットと検証(テスト)セットとに分離することによって決定され得る。例えば、集約データセットは、複数のソースから一緒にプールされるデータを含んでもよく、集約データセットは、トレーニングデータセットとテストデータセットとにランダムに分割され得る。本方法はさらに、第1の機械学習技法をトレーニングデータセットに適用することによって、トレーニングデータセットについての第1の分類器を生成するステップを含み得る。例えば、機械学習技法は、サポートベクトルマシン(SVM)、または、特徴選択のための任意の好適な技法に対応し得る。第1のトレーニングクラスセットが、第1の分類器に従ってトレーニングデータセット中の要素を分類することによって生成される。特定すると、第1の分類器は、データセット中の各サンプルを生理学的状態(例えば、罹患または疾患なし等)に割り当てる分類規則に対応し得る。第1の分類器は、SVN、ネットワークベースのSVM、ニューラルネットワークベースの分類器、ロジスティック回帰分類器、決定木ベースの分類器、線形判別分析技法、ランダムフォレスト分析技法、任意の他の好適な分類方法、または、前述のものの組み合わせを使用する分類器等の複数の分類方法を組み合わせ得る。
第1の客観値が、トレーニングクラスセットに基づいて計算される。特定すると、客観値を計算するために、二進一般化シミュレーテッドアニーリング方法(binary generalized simulated annealing method)が、使用され得る。ランダムベクトルは、その要素として、使用されるべき分類技法を定義する一組のパラメータを含み得る。ランダムベクトルによって定義される本技法は、第1の客観値を計算するために使用される。次いで、複数の反復について、第2の機械学習技法が、トレーニングデータセットについての第2の分類器を生成するように、トレーニングデータセットに適用され、第2のトレーニングクラスセットが、第2の分類器に従ってトレーニングデータセット中の要素を分類することによって生成される。特定すると、第2の分類器は、第1の分類器を定義するために使用されるランダムベクトルをランダムに摂動させ、かつ、第2の分類器を定義するためにランダムベクトルのランダム摂動を使用することによって、生成され得る。さらに、第2のトレーニングクラスセットに基づく第2の客観値が計算され、第1の客観値と第2の客観値とが比較される。第1の客観値と第2の客観値との間の比較に基づいて、第1のトレーニングクラスセットは、第2のトレーニングクラスセットと置換され得、第1の客観値は、第2の客観値によって置換され得、次の反復が開始される。反復は、所望の数の反復が達せられ、かつ、第1のトレーニングクラスセットが出力されるまで繰り返される。
上記で説明される方法の特定の実施形態において、本方法のステップは、複数のトレーニングデータセットについて繰り返され、複数のトレーニングデータセットの中の各トレーニングデータセットは、集約トレーニングデータセットをブートストラップすることによって生成される。ブートストラッピングは、均衡のとれたサンプルを伴って、または、均衡のとれたサンプルを伴わずに行われ得る。均衡のとれたサンプルを伴って、または、均衡のとれたサンプルを伴わずにブートストラップするかどうかは、ランダムベクトルが摂動させられるときに値が更新され得るランダムベクトルの中の二進要素によって決定され得る。置換を伴って、または、置換もしくはいくつかのブートストラップを伴わずに、サンプルの集約セットからサンプルのサブセットをサンプリングするかどうか等の他のブートストラップパラメータが、要素としてランダムベクトルに含まれ得る。本方法の特定の実施形態において、サンプルが、テストデータセットの中で選択され、出力された第1のトレーニングクラスセットに対応する分類器は、選択されたサンプルと関連付けられる値を予測するために使用される。方法の特定の実施形態において、第2の分類器は、第2の分類器と関連付けられる分類スキームについてのパラメータを識別するように、ランダムベクトルを適用することによって生成され、そのランダムベクトルは、少なくとも1つの二進値を含む。本方法の特定の実施形態において、ランダムベクトルのパラメータは、均衡のとれたブートストラッピングを行うべきかどうかを示すフラグ変数、ブートストラップの数、分類方法のリスト、遺伝子のリスト、または、それらの組み合わせを含む。
本方法の特定の実施形態において、第2の客観値を計算するステップは、マシューズ相関係数に基づく。特定すると、客観値は、1と、結果のマシューズ相関係数との間の差に対応し得る。マシューズ相関係数は、複合性能スコアとして使用され得る性能測定基準である。本方法の特定の実施形態において、第2の客観値を計算するステップは、二進一般化シミュレーテッドアニーリング方法を実装するステップを含む。本方法の特定の実施形態において、二進一般化シミュレーテッドアニーリング方法は、分類スキームについてのパラメータを識別するように、ランダムベクトルの1つ以上の値を局所的に摂動させるステップを含む。本方法の特定の実施形態において、ランダムベクトルの1つ以上の値を局所的に摂動させるステップは、更新されたランダムベクトルを取得するように、ランダムベクトルの各要素をランダムに更新するステップと、更新されたランダムベクトルを使用して、更新された第2の客観値を計算するステップと、確率値と乱数との間の比較に基づいて、更新された第2の客観値を受理するステップとを含む。本方法の特定の実施形態において、ランダムベクトルの1つ以上の値を局所的に摂動させるステップは、各反復についてランダムベクトルの1つの要素を変更するステップを含む。
本方法の特定の実施形態において、第1のトレーニングクラスセットを第2のトレーニングクラスセットと置換し、第1の客観値を第2の客観値と置換するステップは、冷却式に基づく。特定すると、ランダムベクトルに対して大幅な摂動を行うことによって、二進一般化シミュレーテッドアニーリング方法において客観値を減少させることが、望ましくあり得る。シミュレーテッドアニーリングにおいて、冷却をシミュレートするように、人工温度値が徐々に低減される。1つの点(すなわち、ランダムベクトルについての第1の組の値)から別の点(すなわち、ランダムベクトルについての第2の組の値)までの試験ジャンプ距離(trial jump distance)をシミュレートするために、訪問分布(visiting distribution)が、シミュレーテッドアニーリングにおいて使用される。試験ジャンプは、第2の客観値が第1の客観値よりも小さいかどうか、および、受理確率に基づいて受理される。二進一般化シミュレーテッドアニーリング方法は、客観値を最小限化するためのグローバルミニマムを識別するために使用される。本方法の特定の実施形態において、第2の分類器は、線形判別分析、サポートベクトルマシンベースの方法、ランダムフォレスト方法、および、k最近傍方法を含む群から選択される。
本発明のコンピュータシステムは、上記で説明されるような方法の種々の実施形態を実装するための手段を備える。例えば、コンピュータプログラム製品が説明され、本製品は、少なくとも1つのプロセッサを備えるコンピュータ化システムにおいて実行される場合、上記で説明される方法のうちのいずれかの1つ以上のステップをプロセッサに実行させるコンピュータ可読命令を備える。別の例において、コンピュータ化システムが説明され、本システムは、実行される場合、上記で説明される方法のうちのいずれかをプロセッサに実行させる非一時的なコンピュータ可読命令を伴って構成されるプロセッサを備える。本明細書で説明されるコンピュータプログラム製品およびコンピュータ化方法は、1つ以上のプロセッサを各々が含む1つ以上のコンピューティングデバイスを有するコンピュータ化システムにおいて実装され得る。概して、本明細書で説明されるコンピュータ化システムは、本明細書で説明されるコンピュータ化方法のうちの1つ以上を実行するようにハードウェア、ファームウェア、および、ソフトウェアを伴って構成されるコンピュータ、マイクロプロセッサ、論理デバイス、または、他のデバイスもしくはプロセッサ等の、プロセッサまたはデバイスを含む1つ以上のエンジンを備え得る。これらのエンジンのうちのいずれか1つ以上は、いずれか1つ以上の他のエンジンから物理的に分離可能であり得るか、または、共通のまたは異なる回路基板上の別個のプロセッサ等の、複数の物理的に分離可能な構成要素を含み得る。本発明のコンピュータシステムは、上記で説明されるような方法およびその種々の実施形態を実装するための手段を備える。エンジンは、随時、相互接続され得、さらに、随時、摂動データベース、測定可能値データベース、実験データのデータベース、および、文献データベースを含む1つ以上のデータベースに接続され得る。本明細書で説明されるコンピュータ化システムは、ネットワークインターフェースを通して通信する1つ以上のプロセッサおよびエンジンを有する分散型コンピュータ化システムを含み得る。そのような実装は、複数の通信システムにわたる分散型計算のために適切であり得る。
本開示のさらなる特徴、その性質、および、種々の利点は、類似参照文字が全体を通して類似部分を指す添付図面と関連して検討される下記の詳細な説明を考慮すると明白になる。
図1は、1つ以上のバイオマーカシグネチャを識別するための例示的なシステムを描写する。 図2は、データサンプルの分類および分類規則の決定を描写するグラフである。 図3は、デュアルアンサンブル方法の流れ図である。 図4は、データセットを構築するための方法の流れ図である。 図5は、結果ベクトルおよび客観値を生成するための方法の流れ図である。 図6は、二進一般化シミュレーテッドアニーリング方法を初期化するための方法の流れ図である。 図7は、二進一般化シミュレーテッドアニーリング方法において客観値を減少させるための方法の流れ図である。 図8は、二進一般化シミュレーテッドアニーリング方法において客観値をさらに減少させるための方法の流れ図である。 図9は、図1のシステムの構成要素のうちのいずれか等のコンピューティングデバイスのブロック図である。 図10は、トレーニングデータセット中の遺伝子シグネチャのヒートマップである。
本明細書で説明されるシステムおよび方法の全体的な理解を提供するために、ここで、遺伝子バイオマーカシグネチャを識別するためのシステムおよび方法を含む特定の例証的実施形態が、説明される。しかしながら、本明細書で説明されるシステムおよび方法は、任意のデータ分類適用等の他の好適な適用のために適合させられかつ修正され得、そのような他の追加および修正は、その範囲から逸脱しないことが、当業者によって理解される。概して、本明細書で説明されるコンピュータ化システムは、本明細書で説明されるコンピュータ化方法のうちの1つ以上を実行するようにハードウェア、ファームウェア、および、ソフトウェアを伴って構成されるコンピュータ、マイクロプロセッサ、論理デバイス、または、他のデバイスもしくはプロセッサ等の、プロセッサまたはデバイスを含む1つ以上のエンジンを備え得る。
本明細書で説明されるシステムおよび方法は、統合デュアルアンサンブル(integrated dual ensemble)およびシミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するための技法を含む。本技法は、データセットを再サンプリングし、デュアルアンサンブル方法を使用して表現型を予測することを伴う。特定すると、本明細書で説明されるシステムおよび方法は、一組の分類方法およびデータサンプルを示すランダムベクトルを形成することと、そのランダムベクトルを反復して摂動させることと、異なる摂動に対応する異なる客観値を計算することとを含む。
図1は、本明細書で開示される分類技法が実装され得る、1つ以上のバイオマーカシグネチャを識別するための例示的なシステム100を描写する。システム100は、バイオマーカジェネレータ102と、バイオマーカコンソリデータ104とを含む。システム100はさらに、バイオマーカジェネレータ102およびバイオマーカコンソリデータ104の動作の特定の局面を制御するための中央制御装置(CCU)101を含む。動作中に、遺伝子発現データ等のデータが、バイオマーカジェネレータ102で受信される。バイオマーカジェネレータ102は、複数の候補バイオマーカおよび対応するエラー率を生成するようにデータを処理する。バイオマーカコンソリデータ104は、これらの候補バイオマーカおよびエラー率を受信し、最適な性能尺度およびサイズを有する好適なバイオマーカを選択する。
バイオマーカジェネレータ102は、データを処理して一組の候補バイオマーカおよび候補エラー率を生成するためのいくつかの構成要素を含む。特定すると、バイオマーカジェネレータ102は、データをトレーニングデータセットとテストデータセットとに分割するためのデータ前処理エンジン110を含む。バイオマーカジェネレータ102は、トレーニングデータセットおよびテストデータセットを受信してテストデータセットを2つ以上のクラス(例えば、罹患データおよび非罹患、感染しやすい、および、免疫がある等)のうちの1つに分類するための分類器114を含む。バイオマーカジェネレータ102は、データ前処理エンジン110によって選択されるテストデータに適用される場合の分類器の性能を決定するための分類器性能監視エンジン116を含む。分類器性能監視エンジン116は、分類器(例えば、分類にとって最も重要であるデータセットの要素の成分)に基づいて候補バイオマーカを識別し、1つ以上の候補バイオマーカについて、候補エラー率を含み得る性能尺度を生成する。バイオマーカジェネレータ102はさらに、1つ以上の候補バイオマーカおよび候補性能尺度を記憶するためのバイオマーカ記憶部118を含む。
バイオマーカジェネレータは、自動的に制御またはユーザ操作され得るCCU 101によって制御され得る。特定の実施形態において、バイオマーカジェネレータ102は、データをトレーニングデータセットとテストデータセットとにランダムに分割する度に、複数の候補バイオマーカを生成するように動作し得る。そのような複数の候補バイオマーカを生成するために、バイオマーカジェネレータ102の動作は、複数回、反復され得る。CCU 101は、所望の数の候補バイオマーカを含む1つ以上のシステム反復パラメータを受信し得、それらは、次に、バイオマーカジェネレータ102の動作が反復され得る回数を決定するように使用され得る。CCU 101はまた、バイオマーカ中の構成要素の数(例えば、バイオマーカ遺伝子シグネチャ中の遺伝子の数)を表し得る所望のバイオマーカサイズを含む他のシステムパラメータを受信し得る。バイオマーカサイズ情報は、トレーニングデータから候補バイオマーカを生成するために分類器性能監視エンジン116によって使用され得る。バイオマーカジェネレータ102、特に、分類器114の動作は、図2〜8への参照によってさらに詳細に説明される。
バイオマーカジェネレータ102は、1つ以上の候補バイオマーカおよび候補エラー率を生成し、それらは、ロバストなバイオマーカを生成するためにバイオマーカコンソリデータ104によって使用される。バイオマーカコンソリデータ104は、複数の候補バイオマーカを受信して複数の候補バイオマーカにわたって最も頻繁に発生する遺伝子を有する新しいバイオマーカシグネチャを生成するバイオマーカコンセンサスエンジン128を含む。バイオマーカコンソリデータ104は、複数の候補バイオマーカにわたって全体的なエラー率を決定するためのエラー計算エンジン130を含む。バイオマーカジェネレータ102と同様に、バイオマーカコンソリデータ104もまた、自動的に制御またはユーザ操作され得るCCU 101によって制御され得る。CCU 101は、最小バイオマーカサイズについての好適な閾値を受信および/または決定し得、バイオマーカジェネレータ102およびバイオマーカコンソリデータ104の両方を動作させる反復の数を決定するように、この情報を使用し得る。1つの実施形態において、各反復中に、CCU 101は、バイオマーカサイズを1つ減少させ、閾値が達せられるまでバイオマーカジェネレータ102およびバイオマーカコンソリデータ104の両方を反復する。そのような実施形態において、バイオマーカコンセンサスエンジン128は、各反復について、新しいバイオマーカシグネチャおよび新しい全体的なエラー率を出力する。したがって、バイオマーカコンセンサスエンジン128は、閾値から最大バイオマーカサイズまで様々である異なるサイズを各々が有する一組の新しいバイオマーカシグネチャ(複数)を出力する。バイオマーカコンソリデータ104はさらに、これらの新しいバイオマーカシグネチャの各々の性能尺度またはエラー率を検討して出力のために最適なバイオマーカを選択するバイオマーカ選択エンジン126を含む。
データ前処理エンジン110は、1つ以上のデータセットを受信する。概して、データは、サンプル中の複数の異なる遺伝子の発現値、および/または、任意の生物学的に意味のある被分析物のレベル等の種々の表現型の特性を表し得る。特定の実施形態において、データセットは、疾患状態についてのおよび対照状態についての発現レベルデータを含み得る。本明細書で使用される場合、「遺伝子発現レベル」という用語は、遺伝子によってコード化される分子(例えば、RNAまたはポリペプチド)の量、あるいは、miRNAの量を指し得る。mRNA分子の発現レベルは、mRNAの量(mRNAをコード化する遺伝子の転写活性によって決定される)、および、mRNAの安定性(mRNAの半減期によって決定される)を含み得る。遺伝子発現レベルはまた、遺伝子によってコード化される所与のアミノ酸配列に対応するポリペプチドの量を含み得る。したがって、遺伝子の発現レベルは、遺伝子から転写されるmRNAの量、遺伝子によってコード化されるポリペプチドの量、または、それら両方に対応することができる。遺伝子の発現レベルはさらに、遺伝子産物の異なる形態の発現レベルによってカテゴライズされ得る。例えば、遺伝子によってコード化されるRNA分子は、差次的に発現させられたスプライスバリアント(differentially expressed splice variant)、異なる開始または終結部位を有する転写産物、および/または、他の特異的に処理された形態を含み得る。遺伝子によってコード化されるポリペプチドは、ポリペプチドの開裂および/または修飾形態を含み得る。ポリペプチドは、リン酸化、脂質化、プレニル化、硫酸化、水酸化、アセチル化、リボシル化、ファルネシル化、炭水化物の追加、および、同等物によって修飾されることができる。さらに、所与の種類の修飾を有するポリペプチドの複数の形態が、存在し得る。例えば、ポリペプチドは、複数の部位においてリン酸化され、異なるレベルの特異的にリン酸化されたタンパク質を発現し得る。そのような修飾ポリペプチドの各々のレベルは、別々に決定され、データセットにおいて表され得る。
分類器114は、データ前処理エンジン110から1つ以上のデータのセットを受信する。特定の実施形態において、分類器114は、データを分類するように分類規則を生成する。図2は、そのような分類規則200を図式的に描写する。分類器114は、データセットを2つのクラスのうちのいずれか1つに割り当てるように、分類規則を適用し得る。例えば、分類器114は、データセットを疾患または対照のいずれかに割り当てるように、分類を適用し得る。
特定の実施形態において、図3〜8に関連して説明されるように、分類器114は、分類規則を生成するために、一般化シミュレーテッドアニーリング方法と組み合わせられたデュアルアンサンブル技法を使用する。特定すると、分類器114は、サポートベクトルマシン(SVM)、ネットワークベースのSVM、ニューラルネットワークベースの分類器、ロジスティック回帰分類器、決定木ベースの分類器、線形判別分析技法および/またはランダムフォレスト分析技法を用いる分類器、または、任意の他の好適な分類方法等の複数の分類方法を組み合わせ得る。アンサンブル分類方策は、最適な分類を識別するために、複数の多様な分類方法にわたって投票プロセスを使用し得る。複数の分類方法を組み込むことによって、アンサンブル技法は、少量のデータセットに過剰適合する可能性を低減する。このようにして、他の技法と比較して、アンサンブル技法を使用することによって、少量のデータセットが、より効率的に使用され得る。さらに、複数の分類方法のアンサンブルを使用して、特に、アンサンブルの中の複数の分類方法が相互に異なる場合に、単一の分類方法を使用することと比較して、強化された分類を可能にする。
加えて、データ前処理エンジン110から受信されるデータは、より良好な分類精度を提供しながら、全体的な多様性をさらに増加させるように摂動させられ得る。データの摂動の例は、図4、図7、および、図8に関連してさらに詳細に説明される。
本明細書で説明されるように、分類器114は、分類規則を生成するために、アンサンブル技法および一般化シミュレーティングアニーリング方法を使用し、生物情報学における適用に関連して説明される。しかしながら、本明細書で説明されるシステムおよび方法は、概して、特徴選択または抽出等の任意の大規模計算技法に適用され得る。
分類器性能監視エンジン116は、好適な性能測定基準を使用して、分類器114の性能を分析し得る。特定すると、分類器114の性能を分析する場合、分類器性能監視エンジン116は、1つ以上の候補バイオマーカのロバスト性または性能を分析していてもよい。特定の実施形態において、性能測定基準は、エラー率を含み得る。性能測定基準はまた、試行された予測の総数によって除算された正しい予測の数を含み得る。性能測定基準は、本開示の範囲から逸脱することなく、任意の好適な尺度であり得る。候補バイオマーカおよび対応する性能測定基準は、バイオマーカ記憶部118に記憶され得る。
特定の実施形態において、細胞または組織における遺伝子発現レベルは、遺伝子発現プロファイルによって表され得る。遺伝子発現プロファイルは、細胞または組織等の検体における遺伝子の発現レベルの特徴的な表現を指し得る。個体からの検体における遺伝子発現プロファイルの決定は、個体の遺伝子発現状態を表す。遺伝子発現プロファイルは、メッセンジャーRNAまたはポリペプチドの発現、あるいは、細胞中または組織中の1つ以上の遺伝子によってコード化されるそれらの形態を反映する。発現プロファイルは、概して、異なる細胞または組織の間で異なる発現パターンを示す生体分子(核酸、タンパク質、炭水化物)のプロファイルを指し得る。遺伝子発現プロファイルを表すデータサンプルは、発現レベルのベクトルとして記憶され得、ベクトルにおける各入力は、特定の生体分子または他の生物学的実体に対応する。
特定の実施形態において、データセットは、サンプル中の複数の異なる遺伝子の遺伝子発現値を表す要素を含み得る。他の実施形態において、データセットは、質量分析によって検出されるピークを表す要素を含み得る。概して、各データセットは、複数の生物学的状態クラスのうちの1つに各々が対応するデータサンプル(複数)を含み得る。例えば、生物学的状態クラスは、サンプルのソース(すなわち、サンプルが取得される患者)における疾患の有無、病期、疾患のリスク、疾患の再発の可能性、1つ以上の遺伝子座における共有遺伝子型(例えば、共通HLAハプロタイプ、遺伝子における突然変異、メチル化等の遺伝子の修飾等)、作用物質(例えば、毒性物質または潜在的に毒性の物質、環境汚染物質、候補薬剤等)または条件(温度、pH等)への曝露、人口学的特性(年齢、性別、体重、家族歴、既往歴等)、作用物質への耐性、作用物質への感受性(例えば、薬剤への反応性)、および、同等物を含むことができるが、それらに限定されない。
データセットは、最終的な分類器選択における収集バイアスを低減するように、互いから独立し得る。例えば、それらは、複数のソースから収集されることができ、異なる除外または包含の基準を使用して異なる時間に異なる場所から収集され得、すなわち、データセットは、生物学的状態クラスを定義する特性外の特性を考慮する場合に、比較的ヘテロジニアスであり得る。ヘテロジェナイティ(heterogeneity)に寄与する要因は、性別、年齢、民族性による生物学的変動、摂食、運動、睡眠の挙動による個体的変動、および、血液処理のための臨床プロトコルによるサンプル取り扱い変動を含むが、それらに限定されない。しかしながら、生物学的状態クラスは、1つ以上の共通特性を備え得る(例えば、サンプルソースは、疾患および同一の性別、または、1つ以上の他の共通の人口学的特性を有する個体を表し得る)。
特定の実施形態において、複数のソースからのデータセットは、異なる時間および/または異なる条件下における患者の同一の集団からのサンプルの収集によって生成される。
特定の実施形態において、複数のデータセットは、複数の異なる臨床試験場から取得され、各データセットは、各個別試験場で取得される複数の患者サンプルを備える。サンプル種類は、血液、血清、血漿、乳頭吸引物、尿、涙、唾液、髄液、リンパ液、細胞および/または組織溶解物、レーザ顕微解剖組織または細胞サンプル、(例えば、パラフィンブロック中の、または、凍結された)埋め込み細胞または組織、(例えば、剖検からの)新鮮なまたは保存用のサンプルを含むが、それらに限定されない。サンプルは、例えば、インビトロで細胞または組織培養から得ることができる。代替として、サンプルは、生体から、または、単細胞生物等の生物の集団から得ることができる。
1つの例において、特定の癌についてのバイオマーカを識別する場合、2つのテスト場で独立したグループによって選択される対象から、血液サンプルが収集され、それによって、独立したデータセットが開発されるサンプルを提供し得る。
いくつかの実装において、トレーニングセットおよびテストセットは、バルクデータを受信してそのバルクデータをトレーニングデータセットとテストデータセットとに分割するデータ前処理エンジン110によって生成される。特定の実施形態において、データ前処理エンジン110は、データをこれら2つのグループにランダムに分割する。データをランダムに分割することが、クラスを予測してロバストな遺伝子シグネチャを生成するために望ましくあり得る。他の実施形態において、データ前処理エンジン110は、データの種類または標識に基づいて、データを2つ以上のグループに分割する。概して、データは、本開示の範囲から逸脱することなく、所望に応じた任意の好適な方法で、トレーニングデータセットおよびテストデータセットに分割されることができる。トレーニングデータセットおよびテストデータセットは、任意の好適なサイズを有し得、同一のまたは異なるサイズであり得る。特定の実施形態において、データ前処理エンジン110は、データをトレーニングデータセットとテストデータセットとに分割することの前に、1つ以上のデータを破棄し得る。特定の実施形態において、データ前処理エンジン110は、任意のさらなる処理の前に、トレーニングデータセットおよび/またはテストデータセットから1つ以上のデータを破棄し得る。
分類器114は、データ前処理エンジン110から1つ以上の候補バイオマーカおよび1つ以上のデータのセットを受信し得る。分類器114は、データセットを2つのクラスのうちのいずれか1つに割り当てるように、分類規則を適用し得る。例えば、分類器114は、データセットを疾患または対照のいずれかに割り当てるように、分類を適用し得る。特定の実施形態において、分類器114は、サポートベクトルマシン(SVM)分類器、ネットワークベースのSVM、ニューラルネットワークベースの分類器、ロジスティック回帰分類器、決定木ベースの分類器、線形判別分析技法および/またはランダムフォレスト分析技法を用いる分類器を含み得る。分類器114およびそれぞれのエンジンの動作は、図2〜8への参照によってさらに詳細に説明される。
分類器性能監視エンジン116は、好適な性能測定基準を使用して、分類器114の性能を分析し得る。特定すると、分類器114の性能を分析する場合、分類器性能監視エンジン116は、1つ以上の候補バイオマーカのロバスト性または性能を分析していてもよい。特定の実施形態において、性能測定基準は、エラー率を含み得る。性能測定基準はまた、試行された予測の総数によって除算された正しい予測の数を含み得る。性能測定基準は、本開示の範囲から逸脱することなく、任意の好適な尺度であり得る。候補バイオマーカおよび対応する性能測定基準は、バイオマーカ記憶部118に記憶され得る。
前述のように、CCU 101はまた、バイオマーカジェネレータ102において生成されて記憶された候補バイオマーカに基づいて、好適かつロバストなバイオマーカを生成するために、バイオマーカコンソリデータ104の動作を制御し得る。バイオマーカコンソリデータ104は、バイオマーカ記憶部118から1つ以上の候補バイオマーカを受信するバイオマーカコンセンサスエンジン128を含む。バイオマーカコンセンサスエンジン128は、新しいバイオマーカシグネチャについて、1つ以上の候補バイオマーカ内で頻繁に発生する遺伝子を選択し得る。新しいバイオマーカシグネチャは、Nが、バイオマーカの所望のサイズ、バイオマーカの最大許容サイズ、バイオマーカの最小許容サイズ、または、最大サイズと最小サイズとの間のサイズであるN個の遺伝子を含み得る。特定の実施形態において、数Nは、ユーザ選択可能であり得、かつ、所望に応じて調整可能であり得る。
図3は、投票方法を使用して表現型クラスを予測するために分類器114によって使用される方法300の流れ図である。示されるように、方法300は、K個のデータセットを構築するステップ(ステップ302)と、M個の分類方法を識別するステップ(ステップ306)と、K個のデータセットの各々の中でG個のサンプルを識別するステップ(ステップ312)とを含む。方法300はさらに、K個のデータセット、M個の分類方法、および、G個のサンプルにわたって反復を行うステップを含む3つの反復ループを含み、Gは、テストデータセットのサンプルサイズである。特定すると、各反復において、分類方法jが、表現型を予測するようにデータセットi中のサンプルlに適用され(ステップ318)、i=1,2,...K、j=1,2,...M、かつ、l=1,2,...Gである。
ステップ302において、分類器114は、K個のデータセットを構築する。分類器は、K個のデータセットを構築するために、図4に描写される方法を使用し得る。特定すると、分類器114は、完全なデータセットの複数のデータセットを形成するためにブートストラッピング集約方法(boot strapping aggregation method)を使用し得る。ステップ304において、データセットに適用されるラベルを表すデータセット反復パラメータiが、1に初期化される。
ステップ306において、分類器114は、M個の分類方法を識別する。分類器114は、外部ソースから分類方法を受信し得るか、または、分類方法が、いくつかの入力に基づいて分類器114によって生成され得る。例として、分類器114は、方法308のリストに基づいて、M個の分類方法を識別し得る。方法の例は、線形判別分析、サポートベクトルマシンベースの方法、ランダムフォレスト方法(Breiman , Machine Learning, 45(1):5−32 (2001))、PAMR(Tibshirani et al., Proc Natl Acad Sci USA, 99(10):6567−6572 (2002))、または、k最近傍方法(Bishop, Neural Networks for Pattern Recognition, ed. O.U. Press, 1995)を含む。任意の数の分類方法が、使用され、考慮され得る。ステップ310において、分類方法に適用されるラベルを表す方法反復パラメータjが、1に初期化される。ステップ316において、データサンプルに適用されるラベルを表すサンプル反復パラメータlが、1に初期化される。各データサンプルは、個人、遺伝子、または、任意の他の好適なデータ点を表し得る。
ステップ312において、分類器114は、テストデータセット中のl番目のサンプルを選択し、ステップ318において、分類器114は、分類器を構築するように分類方法jをデータセットiに適用し、テストデータ中のサンプルlを予測する。サンプルlの予測は、表現型の予測に対応し得る。いくつかの実施形態において、表現型は、フラグ変数(すなわち、個人が表現型を発現すると予測される場合は1、そうでなければ0)であり得る。しかしながら、概して、表現型は、任意の数の値をとり得る。特定すると、表現型予測は、値として3次元行列P(i,j,l)320に記憶され得る。
決定ブロック322において、分類器114は、最後のデータセットが考慮されているかどうか、または、同等に、i=Kであるかどうかを決定する。iがKよりも小さい場合、分類器114は、ステップ324でデータセット反復パラメータiをインクリメントし、ステップ318に戻って新しいデータセットについての表現型を予測する。
K個全てのデータセットが考慮された後、分類器114は、決定ブロック326へ進んで、最後の分類方法が適用されているかどうか、または、同等に、j=Mであるかどうかを決定する。jがMよりも小さい場合、分類器114は、ステップ328で方法反復パラメータjをインクリメントし、ステップ318に戻って新しい分類方法についての表現型を予測する。
K個全てのデータセットが考慮され、M個全ての分類方法が適用された後、分類器114は、現在のデータサンプルlについてのK×M個の表現型予測を有する。これらの表現型予測は、投票と考えられ得、任意の種類の投票計数方法が、一組のK×M個の表現型予測を表す複合投票に到達するために使用され得る。
決定ブロック332において、分類器は、G個全てのデータサンプルが考慮されているかどうか、または、同等に、l=Gであるかどうかを決定する。
図4は、データセットを構築するための方法400の流れ図であり、図3におけるステップ302で分類器114によって使用され得る。概して、方法400は、より大きいデータセットの各サブセットである複数のデータセットを生成するための方法を提供する。データサブセットは、大きいデータセット中のサンプルのサブセットをランダムに選択することを伴うブートストラップ集約(「バギング」)方法によって形成され得る。サンプルのサブセットは、置換を伴うかまたは伴わずに、選択され得る。示されるように、方法400は、データを受信するステップ(ステップ440)と、置換を伴わずにブートストラッピングを行うことが望ましいかどうかを決定するステップ(決定ブロック454)とを含む。そうである場合、W個のサンプルが、データセットを形成するように各クラスからランダムに選択され得る(ステップ456)。代替として、H個のサンプルが、データセットを形成するようにトレーニングデータから置換を伴ってランダムに選択され得る(ステップ460および466)。Hの値は、トレーニングデータセットのサンプルサイズに対応し得る。上記のステップは、図3に関連して説明される各データセットiが考慮されるまで繰り返される。
ステップ440において、分類器114は、データを受信する。データは、2つのクラス(すなわち、クラス1サンプル442およびクラス2サンプル444)にソートされるサンプル、ブートストラップパラメータ446、および、結果として生じるデータセットi(すなわち、データサブセット)のサイズとクラス(すなわち、クラス1またはクラス2)のサイズとの間の比s 448を含み得る。例として、ブートストラップパラメータ446は、置換を伴うかまたは伴わずにブートストラップするかどうかを示す変数、および、ブートストラップデータセットの数(すなわち、K)を含み得る。データ442、444、446、および、448は、K個のデータセットを構築するために分類器114によって使用され得る。
ステップ452において、データセット反復パラメータiが、1に初期化される。反復パラメータiは、データセットに適用されるラベルを表す。
決定ブロック454において、分類器114は、均衡のとれたサンプルを用いてブートストラップすることが望ましいかどうかを決定する。特定すると、分類器114は、均衡のとれたサンプルを用いたブートストラッピングが望ましいかどうかを決定するように、ブートストラップパラメータ446等の変数を使用し得る。概して、均衡のとれたサンプルを用いたブートストラッピングは、K個全てのデータセットにわたって各サンプル点の発生の総数が同一であることを確実にする。
均衡のとれたブートストラッピングが望ましい場合、分類器114は、ステップ450へ進んでデータセットサイズWを決定する。特定すると、例えば、W=最小値{サイズ(クラス1サンプル),サイズ(クラス2サンプル)}*sのように、サイズWは、比s 448に依存し得る。特定すると、比sは、0から1の間の値であり得る。ステップ456において、トレーニングデータセットからのW個のサンプルが、均衡のとれたサンプルとともにランダムに選択され、データセットi 458を形成する。反復パラメータiが1よりも大きい場合、ステップ456におけるW個のサンプルの選択は、ブートストラッピングが均衡を保たれるように、以前に形成されたデータセットに依存し得る。
代替として、均衡のとれたサンプルを用いたブートストラッピングが望ましくない場合、分類器114は、ステップ460へ進んで、置換を伴ってトレーニングデータセットからH個のサンプルをランダムに選択する。選択されたサンプルは、データセットi 464を形成する。
図4に描写されるように、均衡のとれたブートストラッピングが、サイズWを有するデータセットをもたらす一方で、均衡のとれたサンプルを伴わずにデータをブートストラップすることは、サイズHを有するデータセットをもたらす。しかしながら、概して、サイズWを有するデータセットについての均衡のとれたサンプルを伴わないブートストラッピング、または、サイズHを有するデータセットについての均衡のとれたブートストラッピング等の、方法の任意の好適な組み合わせが使用され得る。加えて、置換方法を伴わないブートストラッピングもまた使用され得る。
現在のデータセットiが形成された後、分類器114は、決定ブロック470へ進んで、最後のデータセットが形成されているかどうか、または、同等に、i=Kであるかどうかを決定する。そうでない場合、ステップ472において、データセット反復パラメータiがインクリメントさせられ、分類器114は、決定ブロック454へ進んで次のデータセットを形成し始める。
図5は、結果ベクトルおよび客観値を生成するための方法の流れ図である。概して、方法500は、ランダムベクトルXに対応する客観値を計算する方法を提供する。方法500で描写されるように、ランダムベクトルXは、二進ベクトル(binary vector)Xであり、置換を伴ってブートストラップするかどうかに関する情報(506)、ブートストラップの数(510)、分類方法のリスト(514)、および、データサンプルのリスト(518)を含む。これらのデータに基づいて、予測行列が形成され(ステップ520)、主要クラスが決定される(ステップ524)。分類器114は、全てのデータサンプルが考慮されるまで、データサンプルにわたって反復を行い、客観値が、データサンプルについての決定された主要クラスに基づいて計算される(ステップ532)。
ステップ502において、分類器114は、二進ランダムベクトルXを受信する。例において、ベクトルXは、二進値のリストであり得る。二進値は、均衡のとれたブートストラッピングを行うかどうか、ブートストラップの数(すなわち、K)、分類方法のリスト、および/または、遺伝子のリストを示し得る。特定すると、ブートストラップの数は、ゼロ値またはゼロではない値(すなわち、例えば60)のいずれかをとり得る。この場合、ブートストラップの数に対応するベクトルXの中の二進値は、ブートストラップの数がゼロであるか、または、ゼロではないかを示し得る。乱数値ジェネレータ、または、乱数値を生成するための任意の他の好適な方法によって、乱数値が、生成され得る。本明細書で説明されるように、ランダムベクトルXは、ベクトルの中の各値が2つの値のうちの1つ(すなわち、0または1)であることを意味する二進ベクトルである。しかしながら、概して、ランダムベクトルXの中の値は、任意の数の値のうちの1つにあり得る。分類器114は、ベクトルXの中の乱数値に基づいて、種々のパラメータを識別する。例として、分類器114は、ステップ504において均衡のとれたサンプルを用いてサンプリングするかどうかを示すフラグ506についての値、ステップ508でブートストラップの数510、ステップ512において分類方法のリスト514、および、ステップ516において遺伝子のリスト518を識別する。
識別された種々のパラメータに基づいて、ステップ520で、分類器114は、予測行列を生成する。
ステップ522において、データサンプルに適用されるラベルを表すサンプル反復パラメータlが、1に初期化される。
ステップ524において、分類器114は、主要クラスP(.,.,l)を決定する。特定すると、分類器114は、K×M個の表現型予測を識別するように、方法300におけるステップ302〜330を通してパース(parse)を行い、主要クラスP(.,.,l)を決定するように、K×M個の予測について多数決を行ってもよい。概して、一組のK×M個の予測に基づいて複合予測を生成するための任意の他の好適な方法が、主要クラスを決定するように使用され得る。主要クラスは、入力として結果ベクトル526に記憶され得る。
決定ブロック528において、分類器114は、サンプル反復パラメータlがデータサンプルの総数Gに等しいかどうかを決定する。そうでない場合、反復パラメータlがステップ530でインクリメントさせられ、主要クラスが、次のデータサンプルについて決定される。
主要クラスが一組のG個のサンプルの中の各サンプルについて決定された後、分類器114は、ステップ532へ進んで客観値を計算する。客観値は、結果ベクトル526の中の、結果として生じた一組の入力に基づいて計算され得る。特定すると、複合性能スコアが、性能測定基準の平均であり得る。方法500で描写されるように、客観値532は、1と結果のマシューズ相関係数(MCC)との間の差として計算される。MCCは、複合性能スコアとして使用され得る性能測定基準である。特定すると、MCCは、−1と+1との間の値であり、本質的に、観察された二進分類と予測された二進分類との間の相関係数である。MCCは、下記の式を使用して計算され得る。
式中、TP:真陽性、FP:偽陽性、TN:真陰性、FN:偽陰性である。しかしながら、概して、一組の性能測定基準に基づいて複合性能測定基準を生成するための任意の好適な技法が、客観値を計算するために使用され得る。
図6〜8は、二進一般化シミュレーテッド方法のステップを通してパースを行うための方法の流れ図である。概して、二進一般化シミュレーテッドアニーリング方法は、図5で説明されるような客観値についての最適値(すなわち、グローバルミニマム)を識別するために使用され得る。本明細書で説明されるように、二進一般化シミュレーテッドアニーリング方法が、図3で説明されるデュアルアンサンブル方法と併せて使用される。特定すると、図5で説明されるようなランダムベクトルXが、最適な客観値を識別するように種々の方法で摂動させられる。図6は、二進一般化シミュレーテッドアニーリング方法を初期化するための流れ図である。図7は、客観値を減少させるようにランダムベクトルXの種々の成分をランダムに摂動させるための流れ図である。図8は、客観値をさらに減少させるようにランダムベクトルXを局所的に摂動させるための流れ図である。換言すると、図7で描写される方法が、ランダムベクトルXの大幅な摂動を生成する一方で、図8で描写される方法は、ランダムベクトルXの軽微な摂動を生成する。
図6は、二進一般化シミュレーテッドアニーリング方法を初期化するための方法600の流れ図である。方法600は、いくつかのパラメータを初期化し、ランダム二進ベクトルX(1)を生成する。特定すると、ステップ640、642、644において、分類器114は、それぞれ、パラメータt、y、および、1へのカウントを初期化する。パラメータtは、図7および8に関連して説明されるように、時間間隔に対応し、好適な客観値が決定されるときにインクリメントさせられる。反復パラメータyは、行われるべき大幅な摂動の数に対応し、図7に関連してさらに詳細に説明される。パラメータカウントは、現在のベクトルXの摂動バージョンが生成されているかどうかを記録するためのパラメータに対応し、図7に関連してさらに詳細に説明される。ステップ646において、分類器114は、ランダム二進ベクトルXを生成する。
ステップ648において、パラメータDが設定される。パラメータDは、摂動させられるように選択されるXの中の成分の数に対応する。特定すると、ステップ648において、パラメータDは、0.2*Cに設定され、Cは、二進ベクトルXの長さに対応する。
ステップ650において、分類器114は、結果ベクトルおよび客観値を生成する。特定すると、分類器114は、結果ベクトル526および客観値534を生成するために、図5で描写される方法を使用し得る。しかしながら、概して、複合性能測定基準を表す客観値を決定するための任意の好適な方法が、使用され得る。客観値を生成した後、分類器114は、図7のステップへ進んで、ランダムベクトルXを摂動させることによって客観値を減少させる。
図7は、ベクトルXに大幅な摂動を行うことによって、二進一般化シミュレーテッドアニーリング方法において客観値を減少させるための方法の流れ図である。シミュレーティングアニーリング方法において、人工温度が導入され(T(t=1))、冷却をシミュレートするように徐々に低減される。1つの点から第2の点まで(すなわち、1つのランダムベクトルX(1)から別のランダムベクトルX(2)まで)の試験ジャンプ距離をシミュレートするために、訪問分布が、シミュレーテッドアニーリングにおいて使用される。試験ジャンプは、ランダムベクトルX(2)に対応する、結果として生じる客観値が、ランダムベクトルX(1)に対応する客観値よりも小さいかどうか、および、下記で定義されるような受理確率に基づいて受理される。本明細書で説明されるように、グローバルミニマムの場所を特定するために(すなわち、客観値を最小限化するために)、二進一般化シミュレーテッドアニーリング方法が、使用される。しかしながら、概して、最急降下、共役勾配、シンプレックス、および、モンテカルロ法等の任意の好適なアルゴリズムが、使用され得る。
図6で描写される方法を使用してシミュレーションを初期化した後、分類器114は、ステップ760において、ベクトルX(1)のD個の成分を選択し始める。ベクトルX(1)のD個の成分は、ランダムに選択され得るか、または、ベクトルX(1)のD個の成分を選択する任意の他の好適な方法が、行われ得る。ステップ762において、カウント変数が2に設定される。ステップ764において、変更されたD個の成分を有する元のランダムベクトルX(1)に対応する第2のランダム二進ベクトルX(2)が、生成される。
ステップ766において、分類器114は、第2のベクトルX(2)についての結果ベクトル768および客観値770を生成する。特定すると、分類器114は、結果ベクトルおよび客観値を生成するために、図5で描写される方法を使用し得る。しかしながら、概して、複合性能測定基準を表す客観値を決定するための任意の好適な方法が、使用され得る。
第2の結果ベクトルおよび第2の客観値を生成した後、分類器は、決定ブロック772において、カウント変数が2に等しいことを決定し、決定ブロック776へ進んで、第1の客観値(すなわち、ランダムベクトルX(1)に対応する)と第2の客観値(すなわち、ランダムベクトルX(2)に対応する)とを比較する。
第2の客観値が第1の客観値よりも小さくない場合、これは、第1のベクトルX(1)が、第2のベクトルX(2)としてより良好であるかまたは平しい相関をもたらしたことを意味する。この場合、分類器は、ステップ778へ進んで確率Pを計算する。特定すると、確率Pは、第2の客観値を受理する確率に対応し、下記の方程式に基づく。
は、確率Pを受理するための制御パラメータである。
qvは、温度値である。
本明細書で説明されるように、確率Pは、一般化シミュレーテッドアニーリング方法において使用される確率に対応するが、概して、任意の好適な確率値が、使用され得る。ステップ786において、0以上1以下の乱数rが生成される。乱数rは、一様分布、または、任意の他の好適な分布から生成され得、rは、決定ブロック788において確率Pと比較される。
Pがr以上である場合、これは、第2の客観値が第1の客観値よりも小さくなかったとしても、第2の客観値を受理する確率が高いことを意味する。この場合、分類器114は、ステップ790、792へ進んで、第1のベクトルX(1)として第2のベクトルX(2)を記憶し、第1の客観値として第2の客観値を記憶する。
代替として、決定ブロック776において、分類器114が、第2の客観値が第1の客観値よりも小さいことを決定する場合、これは、ベクトルX(2)が、より良好な相関、または、より良好な性能をもたらしたことを意味する。したがって、分類器は、ステップ790へ直接進んで、ベクトルX(2)でベクトルX(1)を更新し、ステップ792へ進んで、第2の客観値で第1の客観値を更新する。ステップ794において、分類器114は、カウント変数を1に等しく設定する。
代替として、決定ブロック788において、分類器114が、rがPよりも大きいことを決定する場合、これは、第2の客観値を受理する確率が低いことを意味し、それによって、ステップ790、792が迂回され、ベクトルX(1)および第1の客観値が対応する第2の値によって上書きされない。この場合、分類器114は、ステップ794へ進み、カウント変数を1に等しく設定する。
カウント変数1を1に再設定した後、分類器114は、反復パラメータyが値Lと比較される決定ブロック796へ進む。値Lは、軽微な摂動を行うように図8で描写される方法へ進む前に行われるべき大幅な摂動の最大数に対応する。反復パラメータyがLに等しくない場合、分類器114は、決定ブロック772およびステップ774へ進んで反復パラメータyをインクリメントし、ステップ760〜764においてベクトルXの大幅な摂動を行う。上記で説明されるステップは、所望の数の大幅な摂動Lが行われるまで繰り返される。図7で描写されるように、行われるべき大幅な摂動の数は、固定数Lである。しかしながら、Lについての値は、任意の数の要因に依存し得る。例えば、分類器114は、客観値の収束に基づいて、大幅な摂動の総数に達したことを決定し得る。別の例において、決定ブロック776において、いかなる第2の客観値も固定数の最近の比較で第1の客観値よりも小さいことが見出されなかった場合に、大幅な摂動の総数に達し得る。概して、大幅な摂動が行われること、および、分類器114が図8へ進んで軽微な摂動を行い得ることを決定するように、任意の好適な方法が、使用され得る。
図8は、ベクトルXに軽微な摂動を行うことによって、二進一般化シミュレーテッドアニーリング方法において客観値をさらに減少させるための方法の流れ図である。特定すると、方法800は、ステップ802から始まり、ベクトルX(1)の長さに等しい変数Cを設定する。ステップ804において、分類器114は、反復パラメータcを1に初期化し、改善フラグ変数(improve flag variable)を偽に設定する。
ステップ806において、分類器114は、Xtempを生成するようにX(1)のc番目のビットを反転させることによって、ベクトルX(1)に軽微な摂動を行う。特定すると、X(1)は、長さCの二進ベクトルであり、Xtempは、c番目のビットを除いてX(1)とほぼ同一である。
ステップ808において、分類器114は、一時ベクトル(temporary vector)Xtempに対する結果ベクトル810および客観値812を生成する。特定すると、分類器114は、一時結果ベクトルおよび一時客観値を生成するために、図5で描写される方法を使用し得る。しかしながら、概して、複合性能測定基準を表す客観値を決定するための任意の好適な方法が、使用され得る。
決定ブロック814において、第1の客観値は、一時客観値と比較される。一時客観値が第1の客観値よりも小さい場合、これは、摂動バージョンXtempが元のベクトルX(1)よりも良好な性能をもたらしたことを意味する。この場合、分類器114は、ステップ816へ進んで、摂動バージョンXtempでベクトルX(1)を上書きし、ステップ818へ進んで、一時客観値で第1の客観値を上書きし、ステップ819へ進んで、改善フラグ変数を真に設定する。
決定ブロック820において、分類器114は、ベクトルX(1)の中の各ビットが少なくとも1回(すなわち、ステップ806において)反転させられているかどうか、または、同等に、反復パラメータcがX(1) Cのサイズに等しいかどうかを決定する。そうでない場合、分類器114は、ステップ822へ進んで反復パラメータcをインクリメントさせ、ステップ806へ進んでc番目のビットを反転させる。
そうでなければ、分類器114が、決定ブロック820において、反復パラメータcがベクトルX(1) Cの長さに等しいことを決定する場合、分類器114は、決定ブロック822へ進んで、さらなる改善が所望されるかどうかを決定する。特定すると、分類器114は、さらなるビットフリッピングが望ましいかどうかを決定するように、改善フラグ変数の値を識別し得る。例えば、改善フラグ変数が真である場合、分類器114は、ステップ804へ戻って反復パラメータcを1に再初期化し、改善フラグ変数を偽に再初期化する。
図8の描写された方法は、軽微な摂動(すなわち、ビットフリッピング)を行うプロセスが完了しているときを決定するように、改善フラグ変数を使用する。しかしながら、概して、任意の他の好適な方法もまた軽微な摂動が完了しているときを決定するように使用され得る。例えば、分類器114は、客観値がいくつかの閾値を下回ること、または、客観値と一時客観値との間の差がいくつかの閾値を下回ることを要求し得る。これらの要求が満たされない場合、分類器114は、ステップ806に戻って、別の一時客観値を生成するようにベクトルX(1)の別のビットを反転させてもよい。
分類器114が、最小客観値が識別されたことを決定した後、分類器114は、ステップ824、826へ進んで、それぞれにおいて、パラメータtをインクリメントし、パラメータDを減少させる。
ステップ828において、分類器114は、一般化シミュレーテッドアニーリングにおいて一般的に使用される冷却式によって、温度Tを計算する。しかしながら、任意の好適な式が使用され得る。
式中、qは、分布関数の曲率を定義するパラメータである。
決定ブロック830において、分類器114は、Tqv(t)がTよりも小さいかどうかを決定する。Tについての値は、閾値を表し、Tqv(t)についての値がTを下回る場合、方法800が終了し、現在のランダムベクトルX(1)が、最適な分類として使用される。
本主題の実装は、本明細書で説明されるような1つ以上の特徴と、1つ以上の機械(例えば、コンピュータ、ロボット)に本明細書で説明される動作を実現させるように動作可能な機械可読媒体を備える物品とを備えるシステム、方法、および、コンピュータプログラム製品を含むことができるが、それらに限定されない。本明細書で説明される方法は、単一のコンピューティングシステムまたは複数のコンピューティングシステムに存在する1つ以上のプロセッサまたはエンジンによって実装されることができる。そのような複数のコンピューティングシステムは、接続されることができ、複数のコンピューティングシステムのうちの1つ以上の間の直接接続を介したネットワーク(例えば、インターネット、無線広域ネットワーク、ローカルエリアネットワーク、広域ネットワーク、有線ネットワーク、または、同等物)を経由した接続を含むが、それに限定されない1つ以上の接続を介して、データおよび/またはコマンド、あるいは、他の命令または同等物を交換することができる。
図9は、図2〜8への参照によって説明されるプロセスを行うための回路を含む図1のシステム100の構成要素のうちのいずれか等の、コンピューティングデバイスのブロック図である。システム100の構成要素の各々は、1つ以上のコンピューティングデバイス900上に実装され得る。特定の局面において、複数の上記の構成要素およびデータベースは、1つのコンピューティングデバイス900内に含まれ得る。特定の実装において、構成要素およびデータベースは、いくつかのコンピューティングデバイス900にわたって実装され得る。
コンピューティングデバイス900は、少なくとも1つの通信インターフェースユニットと、入力/出力コントローラ910と、システムメモリと、1つ以上のデータ記憶デバイスとを含む。システムメモリは、少なくとも1つのランダムアクセスメモリ(RAM 902)と、少なくとも1つの読み取り専用メモリ(ROM 904)とを含む。これらの要素は全て、中央処理ユニット(CPU 906)と通信し、コンピューティングデバイス900の動作を促進する。コンピューティングデバイス900は、多くの異なる方法で構成され得る。例えば、コンピューティングデバイス900は、従来のスタンドアロンコンピュータであり得るか、または、代替として、コンピューティングデバイス900の機能は、複数のコンピュータシステムおよびアーキテクチャにわたって分散され得る。コンピューティングデバイス900は、データ分割、区別、分類、スコア化、ランク付け、および、記憶の動作のうちのいくつかまたは全てを行うように構成され得る。図9において、コンピューティングデバイス900は、ネットワークまたはローカルネットワークを介して、他のサーバまたはシステムにリンクされる。
コンピューティングデバイス900は、分散されたアーキテクチャにおいて構成され得、データベースおよびプロセッサは、別個のユニットまたは場所において格納される。いくつかのそのようなユニットは、一次処理機能を行い、最低限でも、一般コントローラまたはプロセッサおよびシステムメモリを含む。そのような局面において、これらのユニットの各々は、通信インターフェースユニット908を介して、他のサーバ、クライアント、または、ユーザコンピュータ、および、他の関連デバイスとの一次通信リンクとしての役割を果たす通信ハブまたはポート(図示せず)に取り付けられる。通信ハブまたはポートは、それ自体が最小処理能力を有し、主に、通信ルータとしての役割を果たし得る。種々の通信プロトコルは、限定されないが、Ethernet(登録商標)、SAP、SAS(登録商標)、ATP、Bluetooth(登録商標)、GSM(登録商標)、および、TCP/IPを含むシステムの一部であり得る。
CPU 906は、1つ以上の従来のマイクロプロセッサ等のプロセッサ、および、CPU 906から作業負荷をオフロードするための数値演算コプロセッサ等の1つ以上の補助コプロセッサを備える。CPU 906は、通信インターフェースユニット1008および入力/出力コントローラ910と通信し、それらを通して、CPU 906は、他のサーバ、ユーザ端末、または、デバイス等の他のデバイスと通信する。通信インターフェースユニット908および入力/出力コントローラ910は、例えば、他のプロセッサ、サーバ、または、クライアント端末と同時に通信するための複数の通信チャネルを含み得る。相互に通信しているデバイスは、継続的に相互に伝送している必要はない。反対に、そのようなデバイスは、必要に応じて相互に伝送する必要しかなく、実際には、ほとんどの時間、データを交換することを控え得、いくつかのステップが行われることを要求することにより、デバイス間の通信リンクを確立し得る。
CPU 906はまた、データ記憶デバイスと通信する。データ記憶デバイスは、磁気、光学、または、半導体のメモリの適切な組み合わせを備え得、例えば、RAM 902、ROM 904、フラッシュドライブ、コンパクトディスクまたはハードディスクあるいはドライブ等の光学ディスクを含み得る。CPU 906およびデータ記憶デバイスは、各々、例えば、単一のコンピュータまたは他のコンピューティングデバイス内に全体的に位置し得るか、または、USBポート、シリアルポートケーブル、同軸ケーブル、Ethernet(登録商標)型ケーブル、電話回線、無線周波数送受信機、または、他の類似の無線もしくは有線の媒体、あるいは、前述のものの組み合わせ等の通信媒体によって、相互に接続され得る。例えば、CPU 906は、通信インターフェースユニット908を介して、データ記憶デバイスに接続され得る。CPU 906は、1つ以上の特定の処理機能を行なうように構成され得る。
データ記憶デバイスは、例えば、(i)コンピューティングデバイス900のためのオペレーティングシステム1012、(ii)本明細書で説明されるシステムおよび方法に従って、特に、CPU 906に関して詳細に説明されるプロセスに従って、CPU 906に命令するように適合させられた1つ以上のアプリケーション914(例えば、コンピュータプログラムコードまたはコンピュータプログラム製品)、または、(iii)プログラムによって要求される情報を記憶するために利用され得る情報を記憶するように適合させられたデータベース(単数または複数)916を記憶し得る。いくつかの局面において、データベース(単数または複数)は、実験データ、および、既刊文献モデルを記憶するデータベースを含む。
オペレーティングシステム912およびアプリケーション914は、例えば、圧縮、アンコンパイル、および、暗号化されたフォーマットにおいて記憶され得、コンピュータプログラムコードを含み得る。プログラムの命令は、ROM 904またはRAM 902から等、データ記憶デバイス以外のコンピュータ可読媒体から、プロセッサのメインメモリに読み込まれ得る。プログラムにおける命令のシーケンスの実行は、CPU 906に、本明細書に説明されるプロセスステップを行なわせるが、有線回路が、本発明のプロセスの実装のためのソフトウェア命令の代わりに、または、それと組み合わせて使用され得る。したがって、説明されるシステムおよび方法は、ハードウェアおよびソフトウェアの任意の特定の組み合わせに限定されない。
好適なコンピュータプログラムコードは、本明細書で説明されるような分類方法を行うことに関連する1つ以上の機能を果たすために提供され得る。プログラムはまた、オペレーティングシステム912、データベース管理システム、および、プロセッサが入力/出力コントローラ910を介してコンピュータ周辺デバイス(例えば、ビデオディスプレイ、キーボード、コンピュータマウス等)と連動することを可能にする「デバイスドライバ」等のプログラム要素を含み得る。
コンピュータ可読命令を備えるコンピュータプログラム製品も、提供される。コンピュータ可読命令は、コンピュータシステム上にロードされて実行される場合、本方法、または、上記で説明される方法の1つ以上のステップに従って、コンピュータシステムを動作させる。本明細書で使用される場合、「コンピュータ可読媒体」という用語は、実行のために、コンピューティングデバイス900のプロセッサ(または、本明細書に説明されるデバイスの任意の他のプロセッサ)に命令を提供するかまたは提供に関与する任意の非一時的媒体を指す。そのような媒体は、不揮発性媒体および揮発性媒体を含むが、それらに限定されない多くの形態をとり得る。不揮発性媒体は、例えば、光学、磁気、または、光磁気のディスク、あるいは、フラッシュメモリ等の集積回路メモリを含む。揮発性媒体は、典型的にメインメモリを構成するダイナミックランダムアクセスメモリ(DRAM)を含む。コンピュータ可読媒体の共通の形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD−ROM、DVD、任意の他の光学媒体、パンチカード、ペーパーテープ、孔のパターンを有する任意の他の物理的媒体、RAM、PROM、EPROM、または、EEPROM(電気的に消去可能なプログラマブル読み取り専用メモリ)、FLASH−EEPROM、任意の他のメモリチップまたはカートリッジ、あるいは、コンピュータが読み取ることができる任意の他の非一時的媒体を含む。
コンピュータ可読媒体の種々の形態は、実行のために、1つ以上の命令の1つ以上のシーケンスをCPU 906(または本明細書で説明されるデバイスの任意の他のプロセッサ)に搬送することに関与し得る。例えば、命令は、最初に、遠隔コンピュータ(図示せず)の磁気ディスク上にあり得る。遠隔コンピュータは、命令をその動的メモリ内にロードし、Ethernet(登録商標)接続、ケーブルライン、または、モデムを使用する電話回線をも経由して、命令を送信することができる。コンピューティングデバイス900(例えば、サーバ)にローカルの通信デバイスは、それぞれの通信ライン上でデータを受信し、プロセッサのためのシステムバス上にデータを置くことができる。システムバスは、データをメインメモリに搬送し、そこから、プロセッサは、命令を読み出して実行する。メインメモリによって受信される命令は、任意選択で、プロセッサによる実行の前または後のいずれかにおいて、メモリに記憶され得る。加えて、命令は、通信ポートを介して、種々のタイプの情報を搬送する無線通信またはデータストリームの例示的形態である電気的、電磁的、または、光学的な信号として受信され得る。
下記の公開データセットを、Gene Expression Omnibus(GEO)(http://www.ncbi.nlm.nih.gov/geo/)リポジトリからダウンロードする。
トレーニングデータセットは、Affymetrixプラットフォーム(HGU−133+2)上にある。未加工データファイルを、R(R Development Core Team, 2007)の中のBioconductor(Gentleman, 2004)に属するaffyパッケージ(Gautier, 2004)のReadAffy機能によって読み取り、品質を、RNA分解プロット(affyパッケージのAffyRNAdeg機能を伴う)、NUSE、および、RLEプロット(機能affyPLM(Brettschneider, 2008)を伴う)を生成し、MA(RLE)値を計算し、品質管理チェック上の一組の閾値を下回るか、または、上記のデータセットの中で複製されるトレーニングデータセットからアレイを除外し、gcrmaアルゴリズム(Wu, 2004)を使用して品質管理チェックに合格するアレイを正規化することによって、管理する。トレーニングセットサンプル分類を、各データセットについてのGEOデータベースのシリーズマトリクスファイルから取得する。出力は、233個のサンプル(28個のCOPDサンプルおよび205個の対照サンプル)についての54675個のプローブセットを伴う遺伝子発現マトリクスから成る。均衡のとれたデータセットを作製するために、COPDサンプルは、同時係属中の米国仮特許出願第61/662812号で説明されるようなDual Ensemble方法を適用する前に、224個のCOPDサンプルを取得するための多重時間(multiple time)であった。205人の対照および224人のCOPD患者を含む複合データセットを用いて、409個の遺伝子を有する遺伝子シグネチャを構築した。850個の二進値を、ランダムベクトルにおいて使用した。本方法で使用される分類方法は、下記のRパッケージ、すなわち、lda、svm、randomForest、knn、pls.lda、および、pamrを含んでいた。最大反復を、5000であるように設定した。マシューズ相関係数(MCC)、トレーニングデータセットにおける相互検証プロセスの精度は、それぞれ、0.743、0.87である。トレーニングデータセット中の遺伝子シグネチャのヒートマップを、図10に示す。図10のヒートマップにおいて、遺伝子発現値を、行ごとに中心に置いた。ヒートマップの色は、グレースケールでは明確に示されない場合もあるが、図10のデータは、対照データが左に示され、COPDデータが右側に示されていることを示す。テストデータセットは、16個の対照サンプルおよび24個のCOPDサンプルを含む民間供給業者(Genelogic)から入手した未公開データセットである。本発明の変換不変方法を適用することなく、Dual Ensembleによって生成される遺伝子シグネチャは、合計40個のサンプルうちの29個のサンプルを正しく予測した。精度は0.725であり、MCCは0.527である。遺伝子シグネチャは、16個の対照サンプルのうちの15個を正しく予測し、24個のCOPDサンプルのうちの14個を正しく予測した。
本発明の実装は、特定の例を参照して特定して示され、説明されているが、本開示の精神および範囲から逸脱することなく、形態および詳細の種々の変更がそれに行われ得ることが、当業者によって理解されるべきである。
本明細書において、データセットの中の要素を2つ以上のクラスに分類するために使用されることができるデータマーカを識別するためのシステム、コンピュータプログラム製品、および、方法が、説明される。特定すると、出願人らは、方法と遺伝子セットデータとの組み合わせが、個別方法のみよりもテストデータの良好な予測を提供できることを認識している。本明細書で説明されるコンピュータシステムおよびコンピュータプログラム製品は、要素を2つ以上のクラスに分類するための1つ以上のそのような技法を含む方法を実装する。特定すると、統合デュアルアンサンブル(integrated dual ensemble)およびシミュレーテッドアニーリング技法を使用して、バイオマーカシグネチャが生成される。この技法は、データセットを再サンプリングし、デュアルアンサンブル方法を使用して表現型を予測することを伴う。特定すると、本明細書で説明されるシステム、コンピュータプログラム製品、および、方法は、一組の分類方法およびデータサンプルを示すランダムベクトルを形成するステップを含む。ランダムベクトルは、反復して摂動させられ、異なる摂動に対応する異なる客観値(objective value)が、計算される。
例えば、本発明は、下記の項目を提供する。
(項目1)
プロセッサによって実行される、2つ以上のクラスにデータセットを分類するコンピュータ実装方法であって、前記方法は、
(a)トレーニングデータセットを受信するステップと、
(b)第1の機械学習技法を前記トレーニングデータセットに適用することによって、前記トレーニングデータセットについての第1の分類器を生成するステップと、
(c)前記第1の分類器に従って、前記トレーニングデータセット中の要素を分類することによって、第1のトレーニングクラスセットを生成するステップと、
(d)前記トレーニングクラスセットに基づいて、第1の客観値を計算するステップと、
(e)複数の反復の各々について、
(i)第2の機械学習技法を前記トレーニングデータセットに適用することによって、前記トレーニングデータセットについての第2の分類器を生成するステップと、
(ii)前記第2の分類器に従って、前記トレーニングデータセット中の要素を分類することによって、第2のトレーニングクラスセットを生成するステップと、
(iii)前記トレーニングクラスセットに基づいて、第2の客観値を計算するステップと、
(iv)前記第1の客観値と前記第2の客観値とを比較するステップと、
(v)ステップ(iv)における比較に基づいて、前記第1のトレーニングクラスセットを前記第2のトレーニングクラスセットと置換し、前記第1の客観値を前記第2の客観値と置換し、ステップ(i)に戻るステップと、
(f)所望の数の反復が達せられた場合に、前記第1のトレーニングクラスセットを出力するステップと
を含む、方法。
(項目2)
前記方法は、複数のトレーニングデータセットについて前記ステップ(a)〜(f)を繰り返すステップをさらに含み、前記複数のトレーニングデータセットの中の各トレーニングデータセットは、集約トレーニングデータセットをブートストラップすることによって生成される、項目1に記載の方法。
(項目3)
前記ブートストラッピングは、均衡のとれたサンプルを伴って、または、均衡のとれたサンプルを伴わずに行われる、項目2に記載の方法。
(項目4)
テストデータセット中のサンプルを選択するステップと、前記出力された第1のトレーニングクラスセットに対応する前記分類器を使用することにより、前記選択されたサンプルと関連付けられる値を予測するステップとをさらに含む、項目1〜3のいずれかに記載の方法。
(項目5)
前記第2の分類器は、ランダムベクトルを適用することにより前記第2の分類器と関連付けられる分類スキームについてのパラメータを識別することによって生成され、前記ランダムベクトルは、少なくとも1つの二進値を含む、項目1〜4のいずれかに記載の方法。
(項目6)
前記パラメータは、均衡のとれたブートストラッピングを行うべきかどうかを示すフラグ変数、ブートストラップの数、分類方法のリスト、遺伝子のリスト、または、それらの組み合わせを含む、項目5に記載の方法。
(項目7)
前記第2の客観値を計算する前記ステップは、マシューズ相関係数に基づく、項目1〜6のいずれかに記載の方法。
(項目8)
前記第2の客観値を計算する前記ステップは、二進一般化シミュレーテッドアニーリング方法を実装するステップを含む、項目1〜7のいずれかに記載の方法。
(項目9)
前記二進一般化シミュレーテッドアニーリング方法は、前記分類スキームについてのパラメータを識別するように、前記ランダムベクトルの1つ以上の値を局所的に摂動させるステップを含む、項目8に記載の方法。
(項目10)
前記ランダムベクトルの前記1つ以上の値を局所的に摂動させるステップは、前記ランダムベクトルの各要素をランダムに更新することにより、更新されたランダムベクトルを取得するステップと、前記更新されたランダムベクトルを使用して、更新された第2の客観値を計算するステップと、確率値と乱数との間の比較に基づいて、前記更新された第2の客観値を受理するステップとを含む、項目9に記載の方法。
(項目11)
前記ランダムベクトルの前記1つ以上の値を局所的に摂動させるステップは、各反復について前記ランダムベクトルの1つの要素を変更するステップを含む、項目9に記載の方法。
(項目12)
前記第1のトレーニングクラスセットを前記第2のトレーニングクラスセットと置換し、前記第1の客観値を前記第2の客観値と置換する前記ステップは、冷却式に基づく、項目1〜11のいずれかに記載の方法。
(項目13)
前記第2の分類器は、線形判別分析、サポートベクトルマシンベースの方法、ランダムフォレスト方法、および、k最近傍方法を含む群から選択される、項目1〜12のいずれかに記載の方法。
(項目14)
コンピュータ可読命令を備えるコンピュータプログラム製品であって、前記コンピュータ可読命令は、少なくとも1つのプロセッサを備えるコンピュータ化システムにおいて実行される場合、項目1〜13のいずれかに記載の方法の1つ以上のステップを前記プロセッサに実行させる、コンピュータプログラム製品。
(項目15)
非一時的なコンピュータ可読命令を伴って構成された処理デバイスを備えるコンピュータ化システムであって、前記非一時的なコンピュータ可読命令は、実行される場合、前記処理デバイスに項目1〜13のいずれかに記載の方法を実行させる、コンピュータ化システム。

Claims (15)

  1. プロセッサによって実行される、2つ以上のクラスにデータセットを分類するコンピュータ実装方法であって、前記方法は、
    (a)トレーニングデータセットを受信するステップと、
    (b)第1の機械学習技法を前記トレーニングデータセットに適用することによって、前記トレーニングデータセットについての第1の分類器を生成するステップと、
    (c)前記第1の分類器に従って、前記トレーニングデータセット中の要素を分類することによって、第1のトレーニングクラスセットを生成するステップと、
    (d)前記トレーニングクラスセットに基づいて、第1の客観値を計算するステップと、
    (e)複数の反復の各々について、
    (i)第2の機械学習技法を前記トレーニングデータセットに適用することによって、前記トレーニングデータセットについての第2の分類器を生成するステップと、
    (ii)前記第2の分類器に従って、前記トレーニングデータセット中の要素を分類することによって、第2のトレーニングクラスセットを生成するステップと、
    (iii)前記トレーニングクラスセットに基づいて、第2の客観値を計算するステップと、
    (iv)前記第1の客観値と前記第2の客観値とを比較するステップと、
    (v)ステップ(iv)における比較に基づいて、前記第1のトレーニングクラスセットを前記第2のトレーニングクラスセットと置換し、前記第1の客観値を前記第2の客観値と置換し、ステップ(i)に戻るステップと、
    (f)所望の数の反復が達せられた場合に、前記第1のトレーニングクラスセットを出力するステップと
    を含む、方法。
  2. 前記方法は、複数のトレーニングデータセットについて前記ステップ(a)〜(f)を繰り返すステップをさらに含み、前記複数のトレーニングデータセットの中の各トレーニングデータセットは、集約トレーニングデータセットをブートストラップすることによって生成される、請求項1に記載の方法。
  3. 前記ブートストラッピングは、均衡のとれたサンプルを伴って、または、均衡のとれたサンプルを伴わずに行われる、請求項2に記載の方法。
  4. テストデータセット中のサンプルを選択するステップと、前記出力された第1のトレーニングクラスセットに対応する前記分類器を使用することにより、前記選択されたサンプルと関連付けられる値を予測するステップとをさらに含む、請求項1〜3のいずれかに記載の方法。
  5. 前記第2の分類器は、ランダムベクトルを適用することにより前記第2の分類器と関連付けられる分類スキームについてのパラメータを識別することによって生成され、前記ランダムベクトルは、少なくとも1つの二進値を含む、請求項1〜4のいずれかに記載の方法。
  6. 前記パラメータは、均衡のとれたブートストラッピングを行うべきかどうかを示すフラグ変数、ブートストラップの数、分類方法のリスト、遺伝子のリスト、または、それらの組み合わせを含む、請求項5に記載の方法。
  7. 前記第2の客観値を計算する前記ステップは、マシューズ相関係数に基づく、請求項1〜6のいずれかに記載の方法。
  8. 前記第2の客観値を計算する前記ステップは、二進一般化シミュレーテッドアニーリング方法を実装するステップを含む、請求項1〜7のいずれかに記載の方法。
  9. 前記二進一般化シミュレーテッドアニーリング方法は、前記分類スキームについてのパラメータを識別するように、前記ランダムベクトルの1つ以上の値を局所的に摂動させるステップを含む、請求項8に記載の方法。
  10. 前記ランダムベクトルの前記1つ以上の値を局所的に摂動させるステップは、前記ランダムベクトルの各要素をランダムに更新することにより、更新されたランダムベクトルを取得するステップと、前記更新されたランダムベクトルを使用して、更新された第2の客観値を計算するステップと、確率値と乱数との間の比較に基づいて、前記更新された第2の客観値を受理するステップとを含む、請求項9に記載の方法。
  11. 前記ランダムベクトルの前記1つ以上の値を局所的に摂動させるステップは、各反復について前記ランダムベクトルの1つの要素を変更するステップを含む、請求項9に記載の方法。
  12. 前記第1のトレーニングクラスセットを前記第2のトレーニングクラスセットと置換し、前記第1の客観値を前記第2の客観値と置換する前記ステップは、冷却式に基づく、請求項1〜11のいずれかに記載の方法。
  13. 前記第2の分類器は、線形判別分析、サポートベクトルマシンベースの方法、ランダムフォレスト方法、および、k最近傍方法を含む群から選択される、請求項1〜12のいずれかに記載の方法。
  14. コンピュータ可読命令を備えるコンピュータプログラム製品であって、前記コンピュータ可読命令は、少なくとも1つのプロセッサを備えるコンピュータ化システムにおいて実行される場合、請求項1〜13のいずれかに記載の方法の1つ以上のステップを前記プロセッサに実行させる、コンピュータプログラム製品。
  15. 非一時的なコンピュータ可読命令を伴って構成された処理デバイスを備えるコンピュータ化システムであって、前記非一時的なコンピュータ可読命令は、実行される場合、前記処理デバイスに請求項1〜13のいずれかに記載の方法を実行させる、コンピュータ化システム。
JP2015517784A 2012-06-21 2013-06-21 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法 Active JP6313757B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261662812P 2012-06-21 2012-06-21
US61/662,812 2012-06-21
PCT/EP2013/062982 WO2013190085A1 (en) 2012-06-21 2013-06-21 Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques

Publications (2)

Publication Number Publication Date
JP2015527635A true JP2015527635A (ja) 2015-09-17
JP6313757B2 JP6313757B2 (ja) 2018-04-18

Family

ID=48699764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015517784A Active JP6313757B2 (ja) 2012-06-21 2013-06-21 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法

Country Status (7)

Country Link
US (1) US10373708B2 (ja)
EP (1) EP2864919B1 (ja)
JP (1) JP6313757B2 (ja)
CN (1) CN104584022B (ja)
CA (1) CA2877430C (ja)
HK (1) HK1209863A1 (ja)
WO (1) WO2013190085A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021530777A (ja) * 2018-07-18 2021-11-11 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 人工知能に基づく医療ソリューションを開発するための患者のシミュレーション

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2877430C (en) 2012-06-21 2021-07-06 Philip Morris Products S.A. Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques
EP2864920B1 (en) 2012-06-21 2023-05-10 Philip Morris Products S.A. Systems and methods for generating biomarker signatures with integrated bias correction and class prediction
CA2979193C (en) * 2015-03-11 2021-09-14 Siemens Industry, Inc. Diagnostics in building automation
US9593631B2 (en) * 2015-03-24 2017-03-14 General Electric Company System and method for locating an engine event
US10121108B2 (en) 2015-07-31 2018-11-06 Bluvector, Inc. System and method for in-situ classifier retraining for malware identification and model heterogeneity
US11514289B1 (en) * 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
US10679143B2 (en) * 2016-07-01 2020-06-09 International Business Machines Corporation Multi-layer information fusing for prediction
EP3577600A1 (en) * 2017-02-03 2019-12-11 Koninklijke Philips N.V. Classifier training
US11062792B2 (en) * 2017-07-18 2021-07-13 Analytics For Life Inc. Discovering genomes to use in machine learning techniques
WO2019060314A1 (en) * 2017-09-21 2019-03-28 Sios Technology Corporation APPARATUS AND METHOD FOR INTRODUCING PROBABILITY AND UNCERTAINTY IN CLASSIFICATION OF DATA NOT SUPERVISED BY GROUPING, THROUGH CLASSIFICATION STATISTICS
WO2019122271A1 (en) * 2017-12-20 2019-06-27 Alpvision S.A. Authentication machine learning from multiple digital representations
EP3768150A1 (en) * 2018-03-19 2021-01-27 Onera Technologies B.V. A method and a system for detecting a respiratory event of a subject and a method for forming a model for detecting a respiratory event
US11568324B2 (en) 2018-12-20 2023-01-31 Samsung Display Co., Ltd. Adversarial training method for noisy labels
WO2021086595A1 (en) * 2019-10-31 2021-05-06 Google Llc Using machine learning-based trait predictions for genetic association discovery
US11475364B2 (en) * 2020-03-10 2022-10-18 Oracle International Corporation Systems and methods for analyzing a list of items using machine learning models
CN114861588B (zh) * 2021-02-03 2024-03-19 上海寒武纪信息科技有限公司 用于芯片设计工具的参数配置方法及装置
CN114053848A (zh) * 2021-11-23 2022-02-18 南方电网电力科技股份有限公司 一种垃圾焚烧炉中烟气多污染物协同处置方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005538437A (ja) * 2002-08-22 2005-12-15 エイジェンシー フォー サイエンス, テクノロジー アンド リサーチ エマージングパターンからの尤度集合による予測
JP2008090833A (ja) * 2006-09-06 2008-04-17 Dna Chip Research Inc 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム
JP2009282686A (ja) * 2008-05-21 2009-12-03 Toshiba Corp 分類モデル学習装置および分類モデル学習方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6983227B1 (en) 1995-01-17 2006-01-03 Intertech Ventures, Ltd. Virtual models of complex systems
US20030130798A1 (en) 2000-11-14 2003-07-10 The Institute For Systems Biology Multiparameter integration methods for the analysis of biological networks
US20060177827A1 (en) 2003-07-04 2006-08-10 Mathaus Dejori Method computer program with program code elements and computer program product for analysing s regulatory genetic network of a cell
US20050086035A1 (en) 2003-09-02 2005-04-21 Pioneer Hi-Bred International, Inc. Computer systems and methods for genotype to phenotype mapping using molecular network models
JP2007535305A (ja) 2003-11-24 2007-12-06 ジーン ロジック インコーポレイテッド 分子毒性モデリングのための方法
US7240042B2 (en) 2004-08-25 2007-07-03 Siemens Medical Solutions Usa, Inc. System and method for biological data analysis using a bayesian network combined with a support vector machine
US20060074826A1 (en) * 2004-09-14 2006-04-06 Heumann John M Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers
US20070198653A1 (en) 2005-12-30 2007-08-23 Kurt Jarnagin Systems and methods for remote computer-based analysis of user-provided chemogenomic data
DE102006031979A1 (de) 2006-07-11 2008-01-17 Bayer Technology Services Gmbh Verfahren zur Bestimmung des Verhaltens eines biologischen Systems nach einer reversiblen Störung
RU2473555C2 (ru) 2006-12-19 2013-01-27 ДжинГоу, Инк. Новые способы функционального анализа большого количества экспериментальных данных и групп генов, идентифицированных из указанных данных
US20120143805A1 (en) 2008-09-09 2012-06-07 Somalogic, Inc. Cancer Biomarkers and Uses Thereof
WO2011005893A2 (en) * 2009-07-07 2011-01-13 Abbott Laboratories Biomarkers and methods for detecting alzheimer's disease
WO2011119868A2 (en) 2010-03-24 2011-09-29 Nodality, Inc. Hyper-spatial methods for modeling biological events
US9165051B2 (en) 2010-08-24 2015-10-20 Board Of Trustees Of The University Of Illinois Systems and methods for detecting a novel data class
EP2754075A2 (en) 2011-09-09 2014-07-16 Philip Morris Products S.a.s. Systems and methods for network-based biological activity assessment
US8880525B2 (en) 2012-04-02 2014-11-04 Xerox Corporation Full and semi-batch clustering
EP2864915B8 (en) 2012-06-21 2022-06-15 Philip Morris Products S.A. Systems and methods relating to network-based biomarker signatures
CA2877430C (en) 2012-06-21 2021-07-06 Philip Morris Products S.A. Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques
EP2864920B1 (en) 2012-06-21 2023-05-10 Philip Morris Products S.A. Systems and methods for generating biomarker signatures with integrated bias correction and class prediction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005538437A (ja) * 2002-08-22 2005-12-15 エイジェンシー フォー サイエンス, テクノロジー アンド リサーチ エマージングパターンからの尤度集合による予測
JP2008090833A (ja) * 2006-09-06 2008-04-17 Dna Chip Research Inc 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム
JP2009282686A (ja) * 2008-05-21 2009-12-03 Toshiba Corp 分類モデル学習装置および分類モデル学習方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021530777A (ja) * 2018-07-18 2021-11-11 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 人工知能に基づく医療ソリューションを開発するための患者のシミュレーション
JP7446278B2 (ja) 2018-07-18 2024-03-08 メラティヴ ユーエス エル.ピー. 人工知能に基づく医療ソリューションを開発するための患者のシミュレーション

Also Published As

Publication number Publication date
HK1209863A1 (en) 2016-04-08
CA2877430C (en) 2021-07-06
CA2877430A1 (en) 2013-12-27
US20150154353A1 (en) 2015-06-04
CN104584022A (zh) 2015-04-29
CN104584022B (zh) 2018-11-16
EP2864919C0 (en) 2023-11-01
JP6313757B2 (ja) 2018-04-18
EP2864919B1 (en) 2023-11-01
EP2864919A1 (en) 2015-04-29
US10373708B2 (en) 2019-08-06
WO2013190085A1 (en) 2013-12-27

Similar Documents

Publication Publication Date Title
JP6313757B2 (ja) 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
JP6253644B2 (ja) 統合バイアス補正およびクラス予測を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
US10185803B2 (en) Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
US20180107927A1 (en) Architectures for training neural networks using biological sequences, conservation, and molecular phenotypes
CN111933212B (zh) 一种基于机器学习的临床组学数据处理方法及装置
JP6208227B2 (ja) バイオマーカシグネチャを生成するためのシステムおよび方法
Fernandez-Lozano et al. Classification of signaling proteins based on molecular star graph descriptors using Machine Learning models
WO2021062198A1 (en) Single cell rna-seq data processing
KR101067352B1 (ko) 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체
US20220403335A1 (en) Systems and methods for associating compounds with physiological conditions using fingerprint analysis
Sakellariou et al. Investigating the minimum required number of genes for the classification of neuromuscular disease microarray data
Abdullah et al. Molecular Classification of Breast Cancer Subtypes Based on Proteome Data
US20230116904A1 (en) Selecting a cell line for an assay
Chae et al. Single-Cell Cross-Modality Prediction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160620

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20161122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20161122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170810

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180323

R150 Certificate of patent or registration of utility model

Ref document number: 6313757

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250