CN117349741A

CN117349741A - 拉曼光谱分类方法、物种血液精液及物种分类方法

Info

Publication number: CN117349741A
Application number: CN202311151223.3A
Authority: CN
Inventors: 周日贵; 任鹏举; 周瀚轩
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2024-01-05

Abstract

本发明公开了一种拉曼光谱分类方法、物种血液精液及物种分类方法，首先，获取若干拉曼光谱数据，作为训练集和测试集；其次，根据已有的光谱质量对拉曼光谱数据进行一系列的预处理后，获取波峰信息明显的拉曼光谱数据；然后，将波峰信息明显的拉曼光谱数据输入到一维卷积和多头自注意力机制相结合神经网络模型中，训练分类模型；最后，将拉曼光谱测试集数据输入至训练完成的分类模型得到最终的分类结果。光谱经过卷积计算可得到局部峰特征信息，经过多头自注意力计算可得到全局峰相关性信息且具有多尺度特征融合的作用，能够有效将拉曼光谱局部特征峰和全局峰相关性相结合，得到更准确的分类表现，从而提高分类准确率。

Description

拉曼光谱分类方法、物种血液精液及物种分类方法

技术领域

本发明属于光谱分析领域，具体涉及一种拉曼光谱分类方法、物种血液精液及物种分类方法。

背景技术

拉曼光谱是由光源对物质分子照射后散射生成，广泛应用于分析物质的结构信息，根据被照射物质内部的化学结构和官能团的不同，其生成的光谱数据也存在差异，因此也被称为物质的“化学指纹”。拉曼光谱不仅可以对物质进行定性分析还可以实现物质的定量分析，通过光谱峰强度可判断该物质含量。拉曼光谱具有高效、灵敏度高、取样简单无需接触样本，对于一些有感染性的样本可以有效保护试验人员，对样本无破坏性等优势。因此，如今拉曼光谱已应用在食品安全、医学检测和石油化工等领域。

拉曼光谱已应用在物种血液识别研究中，通过激光光子与血液样本中分子相互作用产生振动模式发生拉曼散射，这些散射信息提供血液中血红蛋白、蛋白质、脂类和糖分子等振动信息，从而可确定分子在血液中的浓度组成，用于分析和判断血液所属物种。随着机器学习的发展，拉曼光谱在机器学习算法中已经得到了较好的识别结果，其中偏最小二乘回归分析(PLS-DA)和主成分分析(PCA)方法广泛用于血液光谱分析。然而经典机器学习方法对于小数据样本识别效果较好，但在大数据样本中还具有一定的局限性。

随着深度学习的不断进步，卷积神经网络相较于经典机器学习方法在拉曼光谱分类任务中取得了更优异的效果。然而，卷积神经网络在拉曼光谱分类中仍有不足之处，卷积神经网络只能提取到光谱局部峰特征信息，无法捕获到局部与全局特征信息之间的关系，在分类效果上并没有达到最好。

发明内容

本发明所要解决的技术问题是：提供一种拉曼光谱分类方法，解决了现有技术中卷积神经无法捕获到光谱局部和全局特征信息之间关系的问题。

本发明为解决上述技术问题采用以下技术方案：

一种拉曼光谱分类方法，首先，获取若干拉曼光谱数据，作为训练集和测试集；

其次，根据已有的光谱质量对拉曼光谱数据进行一系列的预处理后，获取波峰信息明显的拉曼光谱数据；

然后，将波峰信息明显的拉曼光谱数据输入到一维卷积和多头自注意力机制相结合神经网络模型中，训练分类模型；

最后，将拉曼光谱测试集数据输入至训练完成的分类模型得到最终的分类结果。

对光谱数据进行预处理的具体步骤如下：

步骤1、判断拉曼光谱数据是否存在基线漂移现象，如果存在基线漂移现象，进行基线校正处理；

步骤2、判断拉曼光谱数据采集过程中是否存在仪器噪声，如果存在噪声，对拉曼光谱数据进行去噪处理；

步骤3、用0替换光谱强度为负值的光谱点；

步骤4、将步骤3得到的拉曼光谱进行归一化，获取波峰信息明显的拉曼光谱数据X。

训练分类模型的具体步骤如下：

步骤a、将波峰信息明显的拉曼光谱数据输入到一层卷积层和最大池化层进行光谱数据降维；

步骤b、将降维后的光谱输入到两层卷积层中，提取多尺度局部光谱特征数据X_c1；

步骤c、将提取的多尺度局部光谱特征数据输入到两层卷积层和一层多头自注意力层，进行局部光谱特征和全局光谱特征相关性的信息融合；

步骤d、将信息融合后的特征输入自适应均值池化层，进行特征降维；并将降维后的特征输入全连接层，得到最终的类别概率输出；

步骤e、根据损失函数，调整网络模型参数，得到最终网络全局最优解参数的分类模型。

步骤a中，首先将波峰信息明显的拉曼光谱数据输入卷积层，得到光谱维度减少一半的第一特征数据X_c；然后，将第一特征数据输入最大池化层，进行最大池化运算，得到光谱维度再减少一半的第二特征数据X_p。

步骤c的具体过程如下：

步骤c_1、将具有残差连接的两层卷积层和一层多头自注意力层组成特征融合模块；

步骤c_2、依次将上一特征融合模块的输出作为下一特征融合模块的输入，构建三个多尺度特征融合模块，其中，每个模块中两层卷积层采用的一维卷积核个数均增加一倍，每个模块中多头自注意力层对特征数据分割大小和注意力头数设置均不同；

步骤c_3、将所述多尺度局部光谱特征数据X_c1输入单个模块中卷积层得到光谱维度减半多尺度特征个数增加一倍的多尺度特征数据X_c2；

步骤c_4、多尺度特征数据X_c2输入单个模块中多头自注意力层得到多尺度特征融合数据X_F。

获取多尺度特征融合数据X_F的具体公式如下：

X_F＝MSA(z)＝[SA₁(z)；SA₂(z)；...；SA_h(z)]

[Q,K,V]＝zW_QKV

其中，E_pos∈R^n×d，d代表在卷积层中一维卷积核个数，/>代表将多尺度特征数据X_c2分成第n个大小为p的小特征块，E_pos代表每个小特征块的位置信息；z∈R^n×d,h代表多头自注意力机制头数，d_h代表每个多头自注意力机制头所包含的一维卷积核个数，z代表将多尺度特征数据X_c2全部分块后编码信息，W_QKV代表z初始化权重信息，两者进行向量点乘运算后得到每个小特征块的QKV；SA代表每个小特征块自注意力权重，MSA代表最终每个小特征块多头自注意力权重。

步骤d的具体过程如下：

将多尺度特征融合数据X_F输入自适应均值池化层，得到设定特征维数大小的特征数据X_a，特征数据X_a输入一层全连接层，得到最终类别概率输出，其中，全连接层设置输出神经元个数为目标分类任务的类别数。

为了进一步解决物种分类效率低效果差的问题，本发明还提供一种物种血液精液及物种分类方法，具体的技术方案如下：

基于拉曼光谱的物种血液和精液分类方法，包括如下步骤：

步骤1、获取若干物种的血液和精液拉曼光谱数据样本，作为训练集和测试集；

步骤2、应用所述拉曼光谱分类方法，基于步骤1获取的数据训练分类模型，并应用测试集对分类模型进行验证优化；

步骤3、将实时获取的各类物种血液和精液拉曼光谱数据输入至优化后的分类模型，获取最终的分类结果。

基于拉曼光谱的物种分类方法，包括如下步骤：

步骤1、获取若干物种的任意属性拉曼光谱数据样本，作为训练集和测试集；

步骤2、应用所述拉曼光谱分类方法，基于步骤1获取的数据训练物种分类模型，并应用测试集对物种分类模型进行验证优化；

步骤3、将实时获取的各类物种拉曼光谱数据输入至优化后的物种分类模型，获取最终的物种分类结果。

计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时用于执行所述方法的全部或部分步骤。

与现有技术相比，本发明具有以下有益效果：

1、基于卷积神经网络和多头自注意力机制相结合的拉曼光谱分类方法，光谱经过卷积计算可得到局部峰特征信息，经过多头自注意力计算可得到全局峰相关性信息且具有多尺度特征融合的作用，两种网络结构有效的结合可达到优势互补的效果，相较于现有的拉曼光谱分类方法，能够有效将拉曼光谱局部特征峰和全局峰相关性相结合，得到更准确的分类表现，从而提高分类准确率。

2、实现了准确和快速地预测血液和精液对应珍稀物种，从而减少非法走私珍稀动物犯罪现象，有效保护国家生物资源。与传统的机器学习方法相比，在大规模拉曼光谱数据集中得到更优异的分类表现，在40类物种血液和精液反射式拉曼光谱数据集中，分类准确率可达到99.2％，为物种血液和精液分类检测提供了一种新的方法。

3、该方法不仅可用于物种血液和精液分类，还可用于其他生物分类识别领域，具有较高的实用价值。

附图说明

图1为本发明方法网络计算流程及其对应实际网络结构图。

图2为本发明单张物种马的血液反射式拉曼光谱原始谱图。

图3为本发明单张物种马的血液反射式拉曼光谱预处理后谱图。

图4为本发明网络训练损失和准确率曲线图。

图5为本发明训练完成后网络用于测试集预测未知物种血液和精液混淆矩阵结果图。

具体实施方式

下面结合附图对本发明的结构及工作过程作进一步说明。

本发明提供了一种基于卷积神经网络和多头自注意力机制相结合的拉曼光谱分类方法，光谱经过卷积计算可得到局部峰特征信息，经过多头自注意力计算可得到全局峰相关性信息且具有多尺度特征融合的作用，两种网络结构有效的结合可达到优势互补的效果，从而提高分类准确率。该方法可以简单快速对各类物种血液和精液精准分类，从而减少非法走私珍稀动物犯罪现象，有效保护国家生物资源。另外该方法不仅可应用于物种血液和精液分类，还可以应用到其他生物分类识别领域。

基于拉曼光谱的物种血液和精液分类方法，包括如下步骤：

基于拉曼光谱的物种分类方法，包括如下步骤：

具体实施例，如图1至图5所示，

本实施例使用的数据集是来自国家重点研发计划特殊生物资源监测与溯源技术研究(2018YFC1200205)，单张物种马的血液反射式拉曼光谱可视化如图2所示，数据包含袋鼠、丹顶鹤、金丝猴和马等40类国家珍稀动物和日常生活常见动物，共计5229条反射式拉曼光谱数据，其中9.8％(515条)的数据作为测试集。

如图1所示，方法实施步骤具体如下：

步骤S1，根据已有的光谱质量对光谱数据进行预处理，具体实施步骤如下：

步骤S11，根据拉曼光谱数据是否存在基线漂移现象，判断是否对拉曼光谱进行基线校正。在本实施例中，拉曼光谱存在基线漂移现象，需要进行基线校正处理。

步骤S12，根据在拉曼光谱采集过程中是否存在仪器噪声从而光谱谱线波动剧烈且波峰不明显现象，判断是否对拉曼光谱进行去噪处理。在本实施例中，拉曼光谱存在噪声，需要进行去噪处理。

步骤S13，舍弃光谱强度为负值的光谱点，均用0替换。在本实施例中，有少量光谱点存在负值现象，用0进行替换。

步骤S14，将拉曼光谱进行归一化，从而加快网络训练收敛速度。在本实施例中，将拉曼光谱强度归一化至[0,1]，拉曼光谱维度为(1,1400)，预处理后物种马的单张血液光谱如图3所示。

步骤S2，将光谱数据输入到一层卷积层和最大池化层用以光谱数据降维，具体实施步骤如下：

步骤S21，将所述光谱进行预处理得到光谱数据X，输入卷积层(101)，其中卷积层(101)采用16种特征尺寸为7*1的一维卷积核，卷积步长为2，光谱填充为6对所述输入数据进行卷积运算，得到16个光谱维度减少一半的特征数据X_c。在本实施例中，将预处理后光谱数据X输入卷积层(101)，得到维度为(16,700)的特征数据X_c；

步骤S22，将特征数据X_c输入最大池化层(102)，其中最大池化层(102)采用特征尺寸为3*1的一维滤波器，池化步长为2，光谱填充为2对所述输入数据进行最大池化运算，得到16个光谱维度再减少一半的特征数据X_p。在本实施例中，将特征数据X_c输入最大池化层(102)，得到维度为(16,350)的特征数据X_p。

步骤S3，将降维后的光谱输入到两层卷积层中，用以提取多尺度局部光谱特征，具体实施步骤如下：

步骤S31，将降维后的光谱数据X_p输入具有残差连接的两层卷积层(201,202)，其中两层卷积层(201,202)均采用32种特征尺寸为3*1的一维卷积核，卷积步长为1，光谱填充为2对所述输入数据进行卷积运算，得到32个光谱维度不变的多尺度特征数据X_c1。在本实施例中，将降维后特征数据X_p输入两层卷积层(201,202)，得到维度为(32,350)多尺度特征数据X_c1。

步骤S4，将提取的特征输入到两层卷积层和一层多头自注意力层，用以局部光谱特征和全局光谱特征相关性的信息融合，具体实施步骤如下：

步骤S41，将具有残差连接的两层卷积层(301,302)和一层多头自注意力层(303)组成多尺度特征融合模块，将上一模块的输出作为下一模块的输入，重复3次。在本实施例中，构建三个多尺度特征融合模块，且将所述多尺度特征数据X_c1输入三个多尺度特征融合模块中。具体步骤如下：

步骤S411，构建三个所述多尺度特征融合模块，其中每个所述模块中两层卷积层(301,302)采用的一维卷积核个数均增加一倍，将所述多尺度特征数据X_c1输入单个模块得到光谱维度减半多尺度特征个数增加一倍的特征数据X_c2。在本实施例中，构建三个所述多尺度特征融合模块，其中两层卷积层(301,302)分别采用64，128，256种特征尺寸均为3*1的一维卷积核，在每两层卷积层(301,302)中卷积步长均为2，1，光谱填充均为2；

步骤S412，构建三个所述多尺度特征融合模块，其中每个所述模块中多头自注意力层(Multi-head Self-attention(MSA),303)对特征数据分割大小和注意力头数设置均不同，将所述多尺度特征数据X_c2输入单个模块中多头自注意力层得到多尺度特征融合数据X_F；

X_F＝MSA(z)＝[SA₁(z)；SA₂(z)；...；SA_h(z)]

[Q,K,V]＝zW_QKV

其中，E_pos∈R^n×d，d代表在卷积层中一维卷积核个数，/>代表将多尺度特征数据X_c2分成第n个大小为p的小特征块，E_pos代表每个小特征块的位置信息；z∈R^n×d,h代表多头自注意力机制头数，d_h代表每个多头自注意力机制头所包含的一维卷积核个数，z代表将多尺度特征数据X_c2全部分块后编码信息，W_QKV代表z初始化权重信息，两者进行向量点乘运算后得到每个小特征块的QKV；SA代表每个小特征块自注意力权重，MSA代表最终每个小特征块多头自注意力权重。在本实施例中，多头自注意力层(303)对特征数据分别分为35，44，22大小的小特征块，注意力头数分别设置为1，2，4。最终将多尺度特征数据X_c1输入三个所述模块，得到特征维度大小为别为(64,175)，(128,88)，(256,44)的多尺度特征融合数据X_F。

步骤S5，将信息融合后的特征输入自适应均值池化层，用以特征降维。将降维后的特征输入全连接层，用以得到最终的类别概率输出。具体实施步骤如下：

步骤S51，将所述多尺度特征融合数据X_F输入自适应均值池化层(401)，其中自适应均值池化输出大小设置为7对所述输入特征数据X_F进行自适应均值池化计算，得到特征维度大小为7的特征数据X_a。在本实施例中，将最终数据维度为(256,44)的多尺度特征融合数据X_F输入自适应均值池化层，得到数据维度为(256,7)的特征数据X_a；

步骤S52，将所述特征数据X_a输入一层全连接层(402)，其中全连接层设置输出神经元个数为目标分类任务的类别数，得到最终类别概率输出。在本实施例中，目标分类任务的类别数为40，将所述特征数据X_a输入全连接层，得到40类概率输出，其中概率最大值为模型预测分类。

步骤S6，在网络训练过程中，根据损失函数，通过AdamW优化算法调整网络模型参数，得到最终网络全局最优解参数。具体实施步骤如下：

步骤S61，将所述网络训练损失函数选择交叉熵损失函数，用于评价模型预测结果与真实结果之间的差距。在本实施例中，使用40类交叉熵损失函数。

步骤S62，根据损失函数计算得到类别距离的导数，使用AdamW优化算法不断迭代更新网络训练参数，得到拟合的全局最优参数结果。在本实施例中，网络训练80epochs达到最佳收敛效果，且模型损失值最小。具体的训练损失和准确率曲线如图4所示。

步骤S7，在网络模型训练完成后，可用于实际的光谱检测分类任务中。在本实施例中，将测试集数据输入已完成训练的网络模型，输出分类结果。测试集共515条样本数据，模型各类预测混淆矩阵结果如图5所示。

本发明基于拉曼光谱数据，通过数据预处理，光谱数据降维，多尺度局部特征提取，多尺度信息融合和全连接层映射等步骤完成拉曼光谱分类，简单快速对各类物种血液和精液精准分类，从而减少非法走私珍稀动物犯罪现象，有效保护国家生物资源。

本领域技术人员应该理解，本领域技术人员在结合现有技术以及上述实施例可以实现变化例，这样的变化例并不影响本方案的实质内容，在此不予赘述。

需要理解的是，本方案并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本方案技术方案范围情况下，都可利用上述揭示的方法和技术内容对本方案技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本方案的实质内容。因此，凡是未脱离本方案技术方案的内容，依据本方案的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本方案技术方案保护的范围。

Claims

1.一种拉曼光谱分类方法，其特征在于：

首先，获取若干拉曼光谱数据，作为训练集和测试集；

2.根据权利要求1所述的拉曼光谱分类方法，其特征在于：对光谱数据进行预处理的具体步骤如下：

步骤3、用0替换光谱强度为负值的光谱点；

3.根据权利要求2所述的拉曼光谱分类方法，其特征在于：训练分类模型的具体步骤如下：

4.根据权利要求3所述的拉曼光谱分类方法，其特征在于：步骤a中，首先将波峰信息明显的拉曼光谱数据输入卷积层，得到光谱维度减少一半的第一特征数据X_c；然后，将第一特征数据输入最大池化层，进行最大池化运算，得到光谱维度再减少一半的第二特征数据X_p。

5.根据权利要求4所述的拉曼光谱分类方法，其特征在于：步骤c的具体过程如下：

6.根据权利要求5所述的拉曼光谱分类方法，其特征在于：获取多尺度特征融合数据X_F的具体公式如下：

X_F＝MSA(z)＝[SA₁(z)；SA₂(z)；...；SA_h(z)]

[Q,K,V]＝zW_QKV

7.根据权利要求3所述的拉曼光谱分类方法，其特征在于：步骤d的具体过程如下：

8.基于拉曼光谱的物种血液和精液分类方法，其特征在于：包括如下步骤：

步骤2、应用权利要求1至7中任一项拉曼光谱分类方法，基于步骤1获取的数据训练分类模型，并应用测试集对分类模型进行验证优化；

9.基于拉曼光谱的物种分类方法，其特征在于：包括如下步骤：

步骤1、获取若干物种任意属性的拉曼光谱数据样本，作为训练集和测试集；

步骤2、应用权利要求1至7中任一项拉曼光谱分类方法，基于步骤1获取的数据训练物种分类模型，并应用测试集对物种分类模型进行验证优化；

10.计算机存储介质，其特征在于：所述计算机存储介质存储有计算机指令，所述计算机指令被调用时用于执行权利要求1至7中任一项所述方法的全部或部分步骤。