CN112086199B - 基于多组学数据的肝癌数据处理系统 - Google Patents

基于多组学数据的肝癌数据处理系统 Download PDF

Info

Publication number
CN112086199B
CN112086199B CN202010963978.3A CN202010963978A CN112086199B CN 112086199 B CN112086199 B CN 112086199B CN 202010963978 A CN202010963978 A CN 202010963978A CN 112086199 B CN112086199 B CN 112086199B
Authority
CN
China
Prior art keywords
data
processing module
module
liver cancer
dimension reduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010963978.3A
Other languages
English (en)
Other versions
CN112086199A (zh
Inventor
任菲
王忠烈
谭光明
刘玉东
段勃
张春明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences
Original Assignee
Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences filed Critical Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences
Priority to CN202010963978.3A priority Critical patent/CN112086199B/zh
Publication of CN112086199A publication Critical patent/CN112086199A/zh
Application granted granted Critical
Publication of CN112086199B publication Critical patent/CN112086199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Bioethics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供的一种基于多组学数据的肝癌数据处理系统,包括预处理模块、数据降维处理模块、分类处理模块以及分类器模块;所述预处理模块,用于对肝癌多组学数据进行筛选,并将筛选出的目标数据输出至数据降维处理模块中;所述数据降维处理模块,用于接收预处理模块输出的目标数据,并对目标数据进行降维处理,并将降维处理后的目标数据输出至数据降维处理模块中;所述分类处理模块,用于接收数据降维处理模块输出的降维后的目标数据,并根据降维后的目标数据进行分类处理,并输出分类标签;所述分类器模块,用于接收分类标签,采用分类标签对分类器模块进行训练,然后分类器模块接收实时的多组学肝癌数据并对肝癌生存期进行预测;能够对肝癌多组学数据进行良好地融合,有效利用数据的互补性将肝癌多组学数据融合在一起,从而有效避免了在数据处理过程中特征信息丢失,有效确保数据处理的准确性,为后续肝癌生存期预测的准确性提供保障。

Description

基于多组学数据的肝癌数据处理系统
技术领域
本发明涉及一种数据处理系统,尤其涉及一种基于多组学数据的肝癌数据处理系统。
背景技术
早期的肝癌主要以手术切除为主,但临床资料显示,术后肝癌复发率约为70%,严重阻碍了患者的长期生存。如果我们建立HCC的分型标准,对高危复发患者进行更加精细的分层管理,首先从源头上筛选出可能获益的人群再进行手术,对于改善患者生存、实现HCC的精准治疗可能具有更加重要的意义。基于多组学数据建立肝癌的分类标准,对不同的患者进行更准确的预后治疗和管理,将提高患者的生存率。因此,对于融合多组学数据从分子层面来对患者进行分型并预测患者的预后有着重要意义,这对患者的治疗也有着临床意义。
近年来也有融合RNA测序数据、miRNA数据、甲基化数据和肝癌患者的临床生存数据来对肝癌进行分型并预测预后的方法。但是,现有技术中,很少有研究者在研究分子亚型时考虑患者的生存状态。生存率对分子亚型的研究具有重要的临床意义,而生存率的巨大差异往往对分子亚型有很大的影响。利用多组学数据的融合来进行分子分型并预测预后有以下两个特点:(1)多组学数据的融合时期一般分为早期融合,中期融合和后期融合,不同的融合时期对融合结果存在很大的影响。(2)融合方式也有很大的影响。现有技术的融合方法或者系统存在以下缺陷:一方面采用自动编码器对输入数据进行集成,但是容易造成特征数据丢失,另一方面,现有技术对于数据的仅仅简单地将数据直接叠加,使得不同的数据融合性差,数据不能互补,不能提取出准确的信息。
因此,为了解决上述技术问题,亟需提出一种新的技术手段。
发明内容
有鉴于此,本发明的目的是提供一种基于多组学数据的肝癌数据处理系统,能够对肝癌多组学数据进行良好地融合,有效利用数据的互补性将肝癌多组学数据融合在一起,从而有效避免了在数据处理过程中特征信息丢失,有效确保数据处理的准确性,为后续肝癌生存期预测的准确性提供保障。
本发明提供的一种基于多组学数据的肝癌数据处理系统,包括预处理模块、数据降维处理模块、分类处理模块以及分类器模块;
所述预处理模块,用于对肝癌多组学数据进行筛选,并将筛选出的目标数据输出至数据降维处理模块中;
所述数据降维处理模块,用于接收预处理模块输出的目标数据,并对目标数据进行降维处理,并将降维处理后的目标数据输出至数据降维处理模块中;
所述分类处理模块,用于接收数据降维处理模块输出的降维后的目标数据,并根据降维后的目标数据进行分类处理,并输出分类标签;
所述分类器模块,用于接收分类标签,采用分类标签对分类器模块进行训练,然后分类器模块接收实时的多组学肝癌数据并对肝癌生存期进行预测。
进一步,所述预处理模块对肝癌多组学数据筛选包括:
所述预处理模块基于单变量Cox-PH模型对肝癌多组学数据的每个特征进行评分,然后将分值Per1与设定阈值Py进行对比,筛选出Per1<Py的特征,并将筛选出的数据进行融合形成目标数据。
进一步,所述数据降维处理模块对目标数据进行降维处理具体包括:
SA1.在数据降维处理模块中构建K层自编码器,其中,K层自编码器的输出函数为:
x'=Relu(Wi·Relu(Wix+bi));其中,Wi为相邻自编码器之间的权重矩阵,bi为权重矩阵Wi的偏移量,x为m维目标数据X=(x1,x2,…,xm)中的特征值;
SA2.数据降维处理模块构建损失函数,其中,损失函数为:
Figure BDA0002681542370000031
其中,L(x,x')为损失函数,βw为正则化惩罚系数,/>
Figure BDA0002681542370000032
SA3.通过损失函数进行迭代运算,更新权重矩阵Wi和权重矩阵Wi的偏移量bi,直至达到迭代次数后,数据降维处理模块输出降维处理后的目标数据。
进一步,所述分类处理模块的生存期预测具体包括:
SB1.分类处理模块采用单变量Cox-PH模型对降维处理后的目标数据中的特征再次进行评分,然后将特征的评分值Per2与设定阈值Py进行比较,筛选出Per2<Py的特征,并将筛选出的数据进行融合处理;
SB2.分类处理模块构建归一化处理模型,并对步骤SB1处理后的数据进行归一化处理,其中,归一化处理模型为:
Figure BDA0002681542370000033
p为步骤SB1输出的特征数据,P为归一化处理后的特征数据,Var(p)为特征数据p的方差,E(p)为特征数据p的经验平均值;
SB3.分类处理模块构建相似性函数:
Figure BDA0002681542370000034
其中,W(i,j)为第i个样本zi与第j个样本zj的相似性,θij为归一化因子;其中:
Figure BDA0002681542370000041
λi为第i个样本zi的k个近邻,λj为第j个样本zj的k个近邻;zr表示λi里的第r个样本。
SB4.分类处理模块根据相似性函数确定出分类标签,并输出至分类器模块。
本发明的有益效果:通过本发明,能够对肝癌多组学数据进行良好地融合,有效利用数据的互补性将肝癌多组学数据融合在一起,从而有效避免了在数据处理过程中特征信息丢失,有效确保数据处理的准确性,为后续肝癌生存期预测的准确性提供保障。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的结构示意图。
图2为本发明的分类标签示意图。
图3为本发明的具体实例对比图。
具体实施方式
以下结合说明书附图对本发明做出进一步详细说明:
本发明提供的一种基于多组学数据的肝癌数据处理系统,包括预处理模块、数据降维处理模块、分类处理模块以及分类器模块;
所述预处理模块,用于对肝癌多组学数据进行筛选,并将筛选出的目标数据输出至数据降维处理模块中;
所述数据降维处理模块,用于接收预处理模块输出的目标数据,并对目标数据进行降维处理,并将降维处理后的目标数据输出至数据降维处理模块中;
所述分类处理模块,用于接收数据降维处理模块输出的降维后的目标数据,并根据降维后的目标数据进行分类处理,并输出分类标签;
所述分类器模块,用于接收分类标签,采用分类标签对分类器模块进行训练,然后分类器模块接收实时的多组学肝癌数据并对肝癌生存期进行预测;通过本发明,能够对肝癌多组学数据进行良好地融合,有效利用数据的互补性将肝癌多组学数据融合在一起,从而有效避免了在数据处理过程中特征信息丢失,有效确保数据处理的准确性,为后续肝癌生存期预测的准确性提供保障。
本实施例中,所述预处理模块对肝癌多组学数据筛选包括:
所述预处理模块基于单变量Cox-PH模型对肝癌多组学数据的每个特征进行评分,然后将分值Per1与设定阈值Py进行对比,筛选出Per1<Py的特征,并将筛选出的数据进行融合形成目标数据,其中,设定阈值Py一般设定为0.5,通过上述,能够有效防止处理过程中信息的丢失,从而确保最终结果的准确性。
本实施例中,所述数据降维处理模块对目标数据进行降维处理具体包括:
SA1.在数据降维处理模块中构建K层自编码器,其中,K层自编码器的输出函数为:
x'=Relu(Wi·Relu(Wix+bi));其中,Wi为相邻自编码器之间的权重矩阵,bi为权重矩阵Wi的偏移量,x为m维目标数据X=(x1,x2,…,xm)中的特征值;
SA2.数据降维处理模块构建损失函数,其中,损失函数为:
Figure BDA0002681542370000051
其中,L(x,x')为损失函数,βw为正则化惩罚系数,/>
Figure BDA0002681542370000052
SA3.通过损失函数进行迭代运算,更新权重矩阵Wi和权重矩阵Wi的偏移量bi,直至达到迭代次数后,数据降维处理模块输出降维处理后的目标数据。
本实施例中,所述分类处理模块的生存期预测具体包括:
SB1.分类处理模块采用单变量Cox-PH模型对降维处理后的目标数据中的特征再次进行评分,然后将特征的评分值Per2与设定阈值Py进行比较,筛选出Per2<Py的特征,并将筛选出的数据进行融合处理,其中,该数据融合过程中为将多个特征组合形成一个特征矩阵;
SB2.分类处理模块构建归一化处理模型,并对步骤SB1处理后的数据进行归一化处理,其中,归一化处理模型为:
Figure BDA0002681542370000061
p为步骤SB1输出的特征数据,P为归一化处理后的特征数据,Var(p)为特征数据p的方差,E(p)为特征数据p的经验平均值;
SB3.分类处理模块构建相似性函数:
Figure BDA0002681542370000062
其中,W(i,j)为第i个样本zi与第j个样本zj的相似性,θij为归一化因子;其中:
Figure BDA0002681542370000063
λi为第i个样本zi的k个近邻,λj为第j个样本zj的k个近邻;zr表示λi里的第r个样本。
SB4.分类处理模块根据相似性函数确定出分类标签,并输出至分类器模块。其中,分类器模块采用XGBoost分类器,多组学肝癌数据包括RNA测序数据、miRNA数据、DNA甲基化数据;以RNA测序数据为例:在预处理模块进行筛选时,从RNA测序数据中筛选出符合筛选标准的特征数据,然后各个RNA测序数据的筛选数据进行重新组合,形成一个新的RNA测序数据。
而在步骤SB1中,则将三种多组学数据筛选出的特征融合形成一个数据矩阵,该数据矩阵为n×n阶,将该矩阵的每一列作为一个样本,那么在进行聚类处理时具有n个样本{z1,z2,…,zn},分类器模块通过上述对各个样本进行聚类分析,得出最终的分类标签,一般来说,分类标签设定为2个。
从GEO数据库中挖掘的数据集GSE14520和GSE31384分别作为RNA-seq和miRNA训练分类器的确认队列。对于这两个确认队列,我们首先选择训练集样本中的共同特征,然后使用与多组分数据规范化相同的方法对数据进行规范化。在研究中,我们需要为训练集和两个队列选择基于聚类标签的M个特征。这样,两个队列将作为验证数据集对模型进行测试,最终得到分类结果。在这里,我们设置M的值(50-100),发现当M的值设置为50时,所得到的训练模型可以获得最佳的预测结果。
以TCGA为训练数据集,获得肝癌的RNA-seq、miRNA-seq和DNA甲基化数据,预测处理模块构建单变量Cox-PH模型得到Per1<0.05的特征,然后将处理后的多组学数据输入到降维处理模块处理后,输入到分类处理模块中再次构建单变量Cox-PH模型进行筛选得到Per1<0.05的特征,最后,分类器模块使用谱聚类获得两个生存差异显著的亚型,基于得到的聚类标签,分类器模块还使用XGBoost分类器通过聚类标签进行训练,然后输入实时的多组学肝癌数据进行生存期预测。为了验证该分类器在预测生存率方面的有效性,我们使用了来自GEO的两组数据,即GSE1452和GES31384来验证该模型如图2。对于两种生存亚型的生存曲线,我们的结果优于其他模型的结果,可见与其他已发表的模型相比,我们的模型的预测效果有了显著的提高。
最后,我们还将我们的结果与其他模型的结果进行了比较。无论是对数秩P值还是C指数,我们的实验结果都明显优于其他实验结果,如图3。
在差异基因表达分析中,我们可以鉴定1465个上调基因和930个下调基因,包括肿瘤标记基因BIRC5(P=2.07e-41)和干细胞标记基因CD24(P=2.83e-11)、KRT19(P=2.82e-26)和EPCAM(P=1.01e-6)。此外,我们还发现了28个基因(SLC2A2、AQP9、RGN、SULT2A1、CRYL1、SERPINC1、PAH、CDO1、PLG、APOC3、CYP27A1、PFKFB3、TM4SF1、ACSL5、RGS2、HN1、SERPINA10、CYB5A、EPHX2、SPHX2、RGS1、ADH1B、LECT2、TBX3、RNASE4、ALDOA、ADH6,SLC38A1)在我们确定的两个生存风险组之间是不同的,并且与肝癌的生存有很强的关系。
对于通过差异分析获得的差异表达基因,我们还对两个亚组进行了基因和基因组京都百科全书(KEGG)途径分析。PI3K-Akt信号通路、细胞周期信号通路、p53信号通路等在侵袭性亚型(C2)中富含肿瘤相关途径,其中P13K-Akt信号通路也与CD8+T细胞浸润有关。低危生存亚型(C1)存在药物代谢、细胞色素P450、代谢途径和脂肪酸降解等相关途径。这些途径对研究肝癌的预后具有重要意义。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种基于多组学数据的肝癌数据处理系统,其特征在于:包括预处理模块、数据降维处理模块、分类处理模块以及分类器模块;
所述预处理模块,用于对肝癌多组学数据进行筛选,并将筛选出的目标数据输出至数据降维处理模块中;
所述数据降维处理模块,用于接收预处理模块输出的目标数据,并对目标数据进行降维处理,并将降维处理后的目标数据输出至数据降维处理模块中;
所述分类处理模块,用于接收数据降维处理模块输出的降维后的目标数据,并根据降维后的目标数据进行分类处理,并输出分类标签;
所述分类器模块,用于接收分类标签,采用分类标签对分类器模块进行训练,然后分类器模块接收实时的多组学肝癌数据并对肝癌生存期进行预测;
所述预处理模块对肝癌多组学数据筛选包括:
所述预处理模块基于单变量Cox-PH模型对肝癌多组学数据的每个特征进行评分,然后将分值Per1与设定阈值Py进行对比,筛选出Per1<Py的特征,并将筛选出的数据进行融合形成目标数据;
所述数据降维处理模块对目标数据进行降维处理具体包括:
SA1.在数据降维处理模块中构建K层自编码器,其中,K层自编码器的输出函数为:
x'=Relu(Wi·Relu(Wix+bi));其中,Wi为相邻自编码器之间的权重矩阵,bi为权重矩阵Wi的偏移量,x为m维目标数据X=(x1,x2,…,xm)中的特征值;
SA2.数据降维处理模块构建损失函数,其中,损失函数为:
Figure FDA0004199050560000011
其中,L(x,x')为损失函数,βw为正则化惩罚系数,/>
Figure FDA0004199050560000021
SA3.通过损失函数进行迭代运算,更新权重矩阵Wi和权重矩阵Wi的偏移量bi,直至达到迭代次数后,数据降维处理模块输出降维处理后的目标数据;
所述分类处理模块的生存期预测具体包括:
SB1.分类处理模块采用单变量Cox-PH模型对降维处理后的目标数据中的特征再次进行评分,然后将特征的评分值Per2与设定阈值Py进行比较,筛选出Per2<Py的特征,并将筛选出的数据进行融合处理;
SB2.分类处理模块构建归一化处理模型,并对步骤SB1处理后的数据进行归一化处理,其中,归一化处理模型为:
Figure FDA0004199050560000022
p为步骤SB1输出的特征数据,P为归一化处理后的特征数据,Var(p)为特征数据p的方差,E(p)为特征数据p的经验平均值;
SB3.分类处理模块构建相似性函数:
Figure FDA0004199050560000023
其中,W(i,j)为第i个样本zi与第j个样本zj的相似性,θij为归一化因子;其中:
Figure FDA0004199050560000024
λi为第i个样本zi的k个近邻,λj为第j个样本zj的k个近邻;zr表示λi里的第r个样本;
SB4.分类处理模块根据相似性函数确定出分类标签,并输出至分类器模块。
CN202010963978.3A 2020-09-14 2020-09-14 基于多组学数据的肝癌数据处理系统 Active CN112086199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010963978.3A CN112086199B (zh) 2020-09-14 2020-09-14 基于多组学数据的肝癌数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010963978.3A CN112086199B (zh) 2020-09-14 2020-09-14 基于多组学数据的肝癌数据处理系统

Publications (2)

Publication Number Publication Date
CN112086199A CN112086199A (zh) 2020-12-15
CN112086199B true CN112086199B (zh) 2023-06-09

Family

ID=73738141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010963978.3A Active CN112086199B (zh) 2020-09-14 2020-09-14 基于多组学数据的肝癌数据处理系统

Country Status (1)

Country Link
CN (1) CN112086199B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820403B (zh) * 2021-02-25 2024-03-29 中山大学 一种基于多组学数据预测癌症患者预后风险的深度学习方法
CN115497561B (zh) * 2022-09-01 2023-08-29 北京吉因加医学检验实验室有限公司 一种甲基化标志物分层筛选的方法及装置
CN115982644B (zh) * 2023-01-19 2024-04-30 中国医学科学院肿瘤医院 一种食管鳞状细胞癌分类模型构建与数据处理方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512477A (zh) * 2015-12-03 2016-04-20 万达信息股份有限公司 基于降维组合分类算法非计划性再入院风险评估预测模型
JP6080184B1 (ja) * 2016-02-29 2017-02-15 常雄 小林 癌の一生を分類する際に用いるデータ採取方法
CN107066781A (zh) * 2016-11-03 2017-08-18 西南大学 基于遗传和环境相关的结直肠癌数据模型的分析方法
CN107132268A (zh) * 2017-06-21 2017-09-05 佛山科学技术学院 一种用于识别肺癌组织的数据处理装置及系统
CN107169535A (zh) * 2017-07-06 2017-09-15 谈宜勇 生物多光谱图像的深度学习分类方法及装置
CN110010250A (zh) * 2019-04-29 2019-07-12 青岛科技大学 基于数据挖掘技术的心血管疾病患者虚弱症分级方法
CN110580956A (zh) * 2019-09-19 2019-12-17 青岛市市立医院 一组肝癌预后标志物及其应用
CN110852291A (zh) * 2019-11-15 2020-02-28 太原科技大学 一种采用Gabor变换和分块降维的腭皱识别方法
CN111161882A (zh) * 2019-12-04 2020-05-15 深圳先进技术研究院 一种基于深度神经网络的乳腺癌生存期预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100292303A1 (en) * 2007-07-20 2010-11-18 Birrer Michael J Gene expression profile for predicting ovarian cancer patient survival
EP3779998A1 (en) * 2015-07-13 2021-02-17 Biodesix, Inc. Predictive test for melanoma patient benefit from pd-1 antibody drug and classifier development methods
CA3065193A1 (en) * 2017-06-13 2018-12-20 Bostongene Corporation Systems and methods for generating, visualizing and classifying molecular functional profiles
CA3125449A1 (en) * 2018-12-31 2020-07-09 Tempus Labs A method and process for predicting and analyzing patient cohort response, progression, and survival

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512477A (zh) * 2015-12-03 2016-04-20 万达信息股份有限公司 基于降维组合分类算法非计划性再入院风险评估预测模型
JP6080184B1 (ja) * 2016-02-29 2017-02-15 常雄 小林 癌の一生を分類する際に用いるデータ採取方法
CN107066781A (zh) * 2016-11-03 2017-08-18 西南大学 基于遗传和环境相关的结直肠癌数据模型的分析方法
CN107132268A (zh) * 2017-06-21 2017-09-05 佛山科学技术学院 一种用于识别肺癌组织的数据处理装置及系统
CN107169535A (zh) * 2017-07-06 2017-09-15 谈宜勇 生物多光谱图像的深度学习分类方法及装置
CN110010250A (zh) * 2019-04-29 2019-07-12 青岛科技大学 基于数据挖掘技术的心血管疾病患者虚弱症分级方法
CN110580956A (zh) * 2019-09-19 2019-12-17 青岛市市立医院 一组肝癌预后标志物及其应用
CN110852291A (zh) * 2019-11-15 2020-02-28 太原科技大学 一种采用Gabor变换和分块降维的腭皱识别方法
CN111161882A (zh) * 2019-12-04 2020-05-15 深圳先进技术研究院 一种基于深度神经网络的乳腺癌生存期预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《Improving prediction performance of colon cancer prognosis based on the integration of clinical and multi-omics data》;Tong,DY;《BMC MEDICAL INFORMATICS AND DECISION MAKING》;第20卷(第1期);全文 *
《乳癌病人临床数据的降维处理及生存预测分析 》;陈景安;《医药卫生科技辑》;E072-1918 *
《基于多组学数据融合构建乳腺癌生存预测模型 》;齐惠颖;《数据分析与知识发现 》(第8期);第88-93页 *
基于数据处理的肿瘤基因选择系统;田梓君;崔新于;;无线互联科技(08);全文 *
深度学习在肺癌患者生存预测中的应用研究;潘浩;王昭;姚佳文;;计算机工程与应用(14);全文 *

Also Published As

Publication number Publication date
CN112086199A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN112086199B (zh) 基于多组学数据的肝癌数据处理系统
US20220130488A1 (en) Methods for detecting copy-number variations in next-generation sequencing
EP3571615A1 (en) Methods for non-invasive assessment of genetic alterations
JP2021503922A (ja) ターゲットシーケンシングのためのモデル
CN106485096B (zh) 基于双向随机游走和多标签学习的miRNA-环境因子关系预测方法
CN108256293A (zh) 一种疾病关联基因组合的统计方法及系统
Zeng et al. couple CoC+: An information-theoretic co-clustering-based transfer learning framework for the integrative analysis of single-cell genomic data
Yu et al. Comparing five statistical methods of differential methylation identification using bisulfite sequencing data
Sun et al. Molecular subtyping of cancer based on distinguishing co-expression modules and machine learning
Kalyakulina et al. Disease classification for whole-blood DNA methylation: meta-analysis, missing values imputation, and XAI
CN114360642A (zh) 基于基因共表达网络分析的癌症转录组数据处理方法
CN110211634B (zh) 一种多组学数据联合分析的方法
KR20210110241A (ko) 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법
US20190108311A1 (en) Site-specific noise model for targeted sequencing
Zhou et al. Predicting pseudogene–miRNA associations based on feature fusion and graph auto-encoder
Madjar Survival models with selection of genomic covariates in heterogeneous cancer studies
Ceddia et al. Network modeling and analysis of normal and cancer gene expression data
Tanvir et al. Stage-Specific Co-expression Network Analysis for Cancer Biomarker Discovery
US20240312564A1 (en) White blood cell contamination detection
Cha et al. Imputation of single-cell transcriptome data enables the reconstruction of networks predictive of breast cancer metastasis
US20240055073A1 (en) Sample contamination detection of contaminated fragments with cpg-snp contamination markers
US20240185953A1 (en) Systems and methods for high-throughput predictions
Patruno Computational strategies for single-cell multi-omics data analysis and integration
Jiang et al. Identification of Cancer Development Related Pathways Based on Co-Expression Analyses
Wang Statistical Methods for Single-Cell Omics and Integrative Genomics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant