CN112086199B

CN112086199B - 基于多组学数据的肝癌数据处理系统

Info

Publication number: CN112086199B
Application number: CN202010963978.3A
Authority: CN
Inventors: 任菲; 王忠烈; 谭光明; 刘玉东; 段勃; 张春明
Original assignee: Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences
Current assignee: Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2023-06-09
Anticipated expiration: 2040-09-14
Also published as: CN112086199A

Abstract

本发明提供的一种基于多组学数据的肝癌数据处理系统，包括预处理模块、数据降维处理模块、分类处理模块以及分类器模块；所述预处理模块，用于对肝癌多组学数据进行筛选，并将筛选出的目标数据输出至数据降维处理模块中；所述数据降维处理模块，用于接收预处理模块输出的目标数据，并对目标数据进行降维处理，并将降维处理后的目标数据输出至数据降维处理模块中；所述分类处理模块，用于接收数据降维处理模块输出的降维后的目标数据，并根据降维后的目标数据进行分类处理，并输出分类标签；所述分类器模块，用于接收分类标签，采用分类标签对分类器模块进行训练，然后分类器模块接收实时的多组学肝癌数据并对肝癌生存期进行预测；能够对肝癌多组学数据进行良好地融合，有效利用数据的互补性将肝癌多组学数据融合在一起，从而有效避免了在数据处理过程中特征信息丢失，有效确保数据处理的准确性，为后续肝癌生存期预测的准确性提供保障。

Description

基于多组学数据的肝癌数据处理系统

技术领域

本发明涉及一种数据处理系统，尤其涉及一种基于多组学数据的肝癌数据处理系统。

背景技术

早期的肝癌主要以手术切除为主，但临床资料显示，术后肝癌复发率约为70％，严重阻碍了患者的长期生存。如果我们建立HCC的分型标准，对高危复发患者进行更加精细的分层管理，首先从源头上筛选出可能获益的人群再进行手术，对于改善患者生存、实现HCC的精准治疗可能具有更加重要的意义。基于多组学数据建立肝癌的分类标准，对不同的患者进行更准确的预后治疗和管理，将提高患者的生存率。因此，对于融合多组学数据从分子层面来对患者进行分型并预测患者的预后有着重要意义，这对患者的治疗也有着临床意义。

近年来也有融合RNA测序数据、miRNA数据、甲基化数据和肝癌患者的临床生存数据来对肝癌进行分型并预测预后的方法。但是，现有技术中，很少有研究者在研究分子亚型时考虑患者的生存状态。生存率对分子亚型的研究具有重要的临床意义，而生存率的巨大差异往往对分子亚型有很大的影响。利用多组学数据的融合来进行分子分型并预测预后有以下两个特点：(1)多组学数据的融合时期一般分为早期融合，中期融合和后期融合，不同的融合时期对融合结果存在很大的影响。(2)融合方式也有很大的影响。现有技术的融合方法或者系统存在以下缺陷：一方面采用自动编码器对输入数据进行集成，但是容易造成特征数据丢失，另一方面，现有技术对于数据的仅仅简单地将数据直接叠加，使得不同的数据融合性差，数据不能互补，不能提取出准确的信息。

因此，为了解决上述技术问题，亟需提出一种新的技术手段。

发明内容

有鉴于此，本发明的目的是提供一种基于多组学数据的肝癌数据处理系统，能够对肝癌多组学数据进行良好地融合，有效利用数据的互补性将肝癌多组学数据融合在一起，从而有效避免了在数据处理过程中特征信息丢失，有效确保数据处理的准确性，为后续肝癌生存期预测的准确性提供保障。

本发明提供的一种基于多组学数据的肝癌数据处理系统，包括预处理模块、数据降维处理模块、分类处理模块以及分类器模块；

所述预处理模块，用于对肝癌多组学数据进行筛选，并将筛选出的目标数据输出至数据降维处理模块中；

所述数据降维处理模块，用于接收预处理模块输出的目标数据，并对目标数据进行降维处理，并将降维处理后的目标数据输出至数据降维处理模块中；

所述分类处理模块，用于接收数据降维处理模块输出的降维后的目标数据，并根据降维后的目标数据进行分类处理，并输出分类标签；

所述分类器模块，用于接收分类标签，采用分类标签对分类器模块进行训练，然后分类器模块接收实时的多组学肝癌数据并对肝癌生存期进行预测。

进一步，所述预处理模块对肝癌多组学数据筛选包括：

所述预处理模块基于单变量Cox-PH模型对肝癌多组学数据的每个特征进行评分，然后将分值Per1与设定阈值P_y进行对比，筛选出Per1＜P_y的特征，并将筛选出的数据进行融合形成目标数据。

进一步，所述数据降维处理模块对目标数据进行降维处理具体包括：

SA1.在数据降维处理模块中构建K层自编码器，其中，K层自编码器的输出函数为：

x'＝Relu(W_i·Relu(W_ix+b_i))；其中，W_i为相邻自编码器之间的权重矩阵，b_i为权重矩阵W_i的偏移量，x为m维目标数据X＝(x₁,x₂,…,x_m)中的特征值；

SA2.数据降维处理模块构建损失函数，其中，损失函数为：

其中，L(x,x')为损失函数，β_w为正则化惩罚系数，/>

SA3.通过损失函数进行迭代运算，更新权重矩阵W_i和权重矩阵W_i的偏移量b_i，直至达到迭代次数后，数据降维处理模块输出降维处理后的目标数据。

进一步，所述分类处理模块的生存期预测具体包括：

SB1.分类处理模块采用单变量Cox-PH模型对降维处理后的目标数据中的特征再次进行评分，然后将特征的评分值Per2与设定阈值P_y进行比较，筛选出Per2＜P_y的特征，并将筛选出的数据进行融合处理；

SB2.分类处理模块构建归一化处理模型，并对步骤SB1处理后的数据进行归一化处理，其中，归一化处理模型为：

p为步骤SB1输出的特征数据，P为归一化处理后的特征数据，Var(p)为特征数据p的方差，E(p)为特征数据p的经验平均值；

SB3.分类处理模块构建相似性函数：

其中，W(i,j)为第i个样本z_i与第j个样本z_j的相似性，θ_ij为归一化因子；其中：

λ_i为第i个样本z_i的k个近邻，λ_j为第j个样本z_j的k个近邻；z_r表示λ_i里的第r个样本。

SB4.分类处理模块根据相似性函数确定出分类标签，并输出至分类器模块。

本发明的有益效果：通过本发明，能够对肝癌多组学数据进行良好地融合，有效利用数据的互补性将肝癌多组学数据融合在一起，从而有效避免了在数据处理过程中特征信息丢失，有效确保数据处理的准确性，为后续肝癌生存期预测的准确性提供保障。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为本发明的结构示意图。

图2为本发明的分类标签示意图。

图3为本发明的具体实例对比图。

具体实施方式

以下结合说明书附图对本发明做出进一步详细说明：

所述分类器模块，用于接收分类标签，采用分类标签对分类器模块进行训练，然后分类器模块接收实时的多组学肝癌数据并对肝癌生存期进行预测；通过本发明，能够对肝癌多组学数据进行良好地融合，有效利用数据的互补性将肝癌多组学数据融合在一起，从而有效避免了在数据处理过程中特征信息丢失，有效确保数据处理的准确性，为后续肝癌生存期预测的准确性提供保障。

本实施例中，所述预处理模块对肝癌多组学数据筛选包括：

所述预处理模块基于单变量Cox-PH模型对肝癌多组学数据的每个特征进行评分，然后将分值Per1与设定阈值P_y进行对比，筛选出Per1＜P_y的特征，并将筛选出的数据进行融合形成目标数据，其中，设定阈值P_y一般设定为0.5，通过上述，能够有效防止处理过程中信息的丢失，从而确保最终结果的准确性。

本实施例中，所述数据降维处理模块对目标数据进行降维处理具体包括：

SA2.数据降维处理模块构建损失函数，其中，损失函数为：

其中，L(x,x')为损失函数，β_w为正则化惩罚系数，/>

本实施例中，所述分类处理模块的生存期预测具体包括：

SB1.分类处理模块采用单变量Cox-PH模型对降维处理后的目标数据中的特征再次进行评分，然后将特征的评分值Per2与设定阈值P_y进行比较，筛选出Per2＜P_y的特征，并将筛选出的数据进行融合处理，其中，该数据融合过程中为将多个特征组合形成一个特征矩阵；

SB3.分类处理模块构建相似性函数：

SB4.分类处理模块根据相似性函数确定出分类标签，并输出至分类器模块。其中，分类器模块采用XGBoost分类器，多组学肝癌数据包括RNA测序数据、miRNA数据、DNA甲基化数据；以RNA测序数据为例：在预处理模块进行筛选时，从RNA测序数据中筛选出符合筛选标准的特征数据，然后各个RNA测序数据的筛选数据进行重新组合，形成一个新的RNA测序数据。

而在步骤SB1中，则将三种多组学数据筛选出的特征融合形成一个数据矩阵，该数据矩阵为n×n阶，将该矩阵的每一列作为一个样本，那么在进行聚类处理时具有n个样本{z₁,z₂,…,z_n}，分类器模块通过上述对各个样本进行聚类分析，得出最终的分类标签，一般来说，分类标签设定为2个。

从GEO数据库中挖掘的数据集GSE14520和GSE31384分别作为RNA-seq和miRNA训练分类器的确认队列。对于这两个确认队列，我们首先选择训练集样本中的共同特征，然后使用与多组分数据规范化相同的方法对数据进行规范化。在研究中，我们需要为训练集和两个队列选择基于聚类标签的M个特征。这样，两个队列将作为验证数据集对模型进行测试，最终得到分类结果。在这里，我们设置M的值(50-100)，发现当M的值设置为50时，所得到的训练模型可以获得最佳的预测结果。

以TCGA为训练数据集，获得肝癌的RNA-seq、miRNA-seq和DNA甲基化数据，预测处理模块构建单变量Cox-PH模型得到Per1<0.05的特征，然后将处理后的多组学数据输入到降维处理模块处理后，输入到分类处理模块中再次构建单变量Cox-PH模型进行筛选得到Per1<0.05的特征，最后，分类器模块使用谱聚类获得两个生存差异显著的亚型，基于得到的聚类标签，分类器模块还使用XGBoost分类器通过聚类标签进行训练，然后输入实时的多组学肝癌数据进行生存期预测。为了验证该分类器在预测生存率方面的有效性，我们使用了来自GEO的两组数据，即GSE1452和GES31384来验证该模型如图2。对于两种生存亚型的生存曲线，我们的结果优于其他模型的结果，可见与其他已发表的模型相比，我们的模型的预测效果有了显著的提高。

最后，我们还将我们的结果与其他模型的结果进行了比较。无论是对数秩P值还是C指数，我们的实验结果都明显优于其他实验结果，如图3。

在差异基因表达分析中，我们可以鉴定1465个上调基因和930个下调基因，包括肿瘤标记基因BIRC5(P＝2.07e-41)和干细胞标记基因CD24(P＝2.83e-11)、KRT19(P＝2.82e-26)和EPCAM(P＝1.01e-6)。此外，我们还发现了28个基因(SLC2A2、AQP9、RGN、SULT2A1、CRYL1、SERPINC1、PAH、CDO1、PLG、APOC3、CYP27A1、PFKFB3、TM4SF1、ACSL5、RGS2、HN1、SERPINA10、CYB5A、EPHX2、SPHX2、RGS1、ADH1B、LECT2、TBX3、RNASE4、ALDOA、ADH6，SLC38A1)在我们确定的两个生存风险组之间是不同的，并且与肝癌的生存有很强的关系。

对于通过差异分析获得的差异表达基因，我们还对两个亚组进行了基因和基因组京都百科全书(KEGG)途径分析。PI3K-Akt信号通路、细胞周期信号通路、p53信号通路等在侵袭性亚型(C2)中富含肿瘤相关途径，其中P13K-Akt信号通路也与CD8+T细胞浸润有关。低危生存亚型(C1)存在药物代谢、细胞色素P450、代谢途径和脂肪酸降解等相关途径。这些途径对研究肝癌的预后具有重要意义。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多组学数据的肝癌数据处理系统，其特征在于：包括预处理模块、数据降维处理模块、分类处理模块以及分类器模块；

所述分类器模块，用于接收分类标签，采用分类标签对分类器模块进行训练，然后分类器模块接收实时的多组学肝癌数据并对肝癌生存期进行预测；

所述预处理模块对肝癌多组学数据筛选包括：

所述预处理模块基于单变量Cox-PH模型对肝癌多组学数据的每个特征进行评分，然后将分值Per1与设定阈值P_y进行对比，筛选出Per1＜P_y的特征，并将筛选出的数据进行融合形成目标数据；

所述数据降维处理模块对目标数据进行降维处理具体包括：

SA2.数据降维处理模块构建损失函数，其中，损失函数为：

其中，L(x,x')为损失函数，β_w为正则化惩罚系数，/>

SA3.通过损失函数进行迭代运算，更新权重矩阵W_i和权重矩阵W_i的偏移量b_i，直至达到迭代次数后，数据降维处理模块输出降维处理后的目标数据；

所述分类处理模块的生存期预测具体包括：

SB3.分类处理模块构建相似性函数：

λ_i为第i个样本z_i的k个近邻，λ_j为第j个样本z_j的k个近邻；z_r表示λ_i里的第r个样本；