CN117349741A - 拉曼光谱分类方法、物种血液精液及物种分类方法 - Google Patents
拉曼光谱分类方法、物种血液精液及物种分类方法 Download PDFInfo
- Publication number
- CN117349741A CN117349741A CN202311151223.3A CN202311151223A CN117349741A CN 117349741 A CN117349741 A CN 117349741A CN 202311151223 A CN202311151223 A CN 202311151223A CN 117349741 A CN117349741 A CN 117349741A
- Authority
- CN
- China
- Prior art keywords
- raman spectrum
- data
- classification
- inputting
- species
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001237 Raman spectrum Methods 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000008280 blood Substances 0.000 title claims abstract description 32
- 210000004369 blood Anatomy 0.000 title claims abstract description 32
- 210000000582 semen Anatomy 0.000 title claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 49
- 230000004927 fusion Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000013145 classification model Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000003062 neural network model Methods 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 19
- 230000003595 spectral effect Effects 0.000 claims description 19
- 230000009467 reduction Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 210000004205 output neuron Anatomy 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 7
- 241000894007 species Species 0.000 description 37
- 238000001069 Raman spectroscopy Methods 0.000 description 10
- 239000000126 substance Substances 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 241001465754 Metazoa Species 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 241000718131 Cercopithecus kandti Species 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 241000289581 Macropus sp. Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001678 irradiating effect Effects 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000010238 partial least squares regression Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/65—Raman scattering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2201/00—Features of devices classified in G01N21/00
- G01N2201/12—Circuits of general importance; Signal processing
- G01N2201/129—Using chemometrical methods
- G01N2201/1296—Using chemometrical methods using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biochemistry (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Pathology (AREA)
- Immunology (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明公开了一种拉曼光谱分类方法、物种血液精液及物种分类方法,首先,获取若干拉曼光谱数据,作为训练集和测试集;其次,根据已有的光谱质量对拉曼光谱数据进行一系列的预处理后,获取波峰信息明显的拉曼光谱数据;然后,将波峰信息明显的拉曼光谱数据输入到一维卷积和多头自注意力机制相结合神经网络模型中,训练分类模型;最后,将拉曼光谱测试集数据输入至训练完成的分类模型得到最终的分类结果。光谱经过卷积计算可得到局部峰特征信息,经过多头自注意力计算可得到全局峰相关性信息且具有多尺度特征融合的作用,能够有效将拉曼光谱局部特征峰和全局峰相关性相结合,得到更准确的分类表现,从而提高分类准确率。
Description
技术领域
本发明属于光谱分析领域,具体涉及一种拉曼光谱分类方法、物种血液精液及物种分类方法。
背景技术
拉曼光谱是由光源对物质分子照射后散射生成,广泛应用于分析物质的结构信息,根据被照射物质内部的化学结构和官能团的不同,其生成的光谱数据也存在差异,因此也被称为物质的“化学指纹”。拉曼光谱不仅可以对物质进行定性分析还可以实现物质的定量分析,通过光谱峰强度可判断该物质含量。拉曼光谱具有高效、灵敏度高、取样简单无需接触样本,对于一些有感染性的样本可以有效保护试验人员,对样本无破坏性等优势。因此,如今拉曼光谱已应用在食品安全、医学检测和石油化工等领域。
拉曼光谱已应用在物种血液识别研究中,通过激光光子与血液样本中分子相互作用产生振动模式发生拉曼散射,这些散射信息提供血液中血红蛋白、蛋白质、脂类和糖分子等振动信息,从而可确定分子在血液中的浓度组成,用于分析和判断血液所属物种。随着机器学习的发展,拉曼光谱在机器学习算法中已经得到了较好的识别结果,其中偏最小二乘回归分析(PLS-DA)和主成分分析(PCA)方法广泛用于血液光谱分析。然而经典机器学习方法对于小数据样本识别效果较好,但在大数据样本中还具有一定的局限性。
随着深度学习的不断进步,卷积神经网络相较于经典机器学习方法在拉曼光谱分类任务中取得了更优异的效果。然而,卷积神经网络在拉曼光谱分类中仍有不足之处,卷积神经网络只能提取到光谱局部峰特征信息,无法捕获到局部与全局特征信息之间的关系,在分类效果上并没有达到最好。
发明内容
本发明所要解决的技术问题是:提供一种拉曼光谱分类方法,解决了现有技术中卷积神经无法捕获到光谱局部和全局特征信息之间关系的问题。
本发明为解决上述技术问题采用以下技术方案:
一种拉曼光谱分类方法,首先,获取若干拉曼光谱数据,作为训练集和测试集;
其次,根据已有的光谱质量对拉曼光谱数据进行一系列的预处理后,获取波峰信息明显的拉曼光谱数据;
然后,将波峰信息明显的拉曼光谱数据输入到一维卷积和多头自注意力机制相结合神经网络模型中,训练分类模型;
最后,将拉曼光谱测试集数据输入至训练完成的分类模型得到最终的分类结果。
对光谱数据进行预处理的具体步骤如下:
步骤1、判断拉曼光谱数据是否存在基线漂移现象,如果存在基线漂移现象,进行基线校正处理;
步骤2、判断拉曼光谱数据采集过程中是否存在仪器噪声,如果存在噪声,对拉曼光谱数据进行去噪处理;
步骤3、用0替换光谱强度为负值的光谱点;
步骤4、将步骤3得到的拉曼光谱进行归一化,获取波峰信息明显的拉曼光谱数据X。
训练分类模型的具体步骤如下:
步骤a、将波峰信息明显的拉曼光谱数据输入到一层卷积层和最大池化层进行光谱数据降维;
步骤b、将降维后的光谱输入到两层卷积层中,提取多尺度局部光谱特征数据Xc1;
步骤c、将提取的多尺度局部光谱特征数据输入到两层卷积层和一层多头自注意力层,进行局部光谱特征和全局光谱特征相关性的信息融合;
步骤d、将信息融合后的特征输入自适应均值池化层,进行特征降维;并将降维后的特征输入全连接层,得到最终的类别概率输出;
步骤e、根据损失函数,调整网络模型参数,得到最终网络全局最优解参数的分类模型。
步骤a中,首先将波峰信息明显的拉曼光谱数据输入卷积层,得到光谱维度减少一半的第一特征数据Xc;然后,将第一特征数据输入最大池化层,进行最大池化运算,得到光谱维度再减少一半的第二特征数据Xp。
步骤c的具体过程如下:
步骤c_1、将具有残差连接的两层卷积层和一层多头自注意力层组成特征融合模块;
步骤c_2、依次将上一特征融合模块的输出作为下一特征融合模块的输入,构建三个多尺度特征融合模块,其中,每个模块中两层卷积层采用的一维卷积核个数均增加一倍,每个模块中多头自注意力层对特征数据分割大小和注意力头数设置均不同;
步骤c_3、将所述多尺度局部光谱特征数据Xc1输入单个模块中卷积层得到光谱维度减半多尺度特征个数增加一倍的多尺度特征数据Xc2;
步骤c_4、多尺度特征数据Xc2输入单个模块中多头自注意力层得到多尺度特征融合数据XF。
获取多尺度特征融合数据XF的具体公式如下:
XF=MSA(z)=[SA1(z);SA2(z);...;SAh(z)]
[Q,K,V]=zWQKV
其中,Epos∈Rn×d,d代表在卷积层中一维卷积核个数,/>代表将多尺度特征数据Xc2分成第n个大小为p的小特征块,Epos代表每个小特征块的位置信息;z∈Rn×d,h代表多头自注意力机制头数,dh代表每个多头自注意力机制头所包含的一维卷积核个数,z代表将多尺度特征数据Xc2全部分块后编码信息,WQKV代表z初始化权重信息,两者进行向量点乘运算后得到每个小特征块的QKV;SA代表每个小特征块自注意力权重,MSA代表最终每个小特征块多头自注意力权重。
步骤d的具体过程如下:
将多尺度特征融合数据XF输入自适应均值池化层,得到设定特征维数大小的特征数据Xa,特征数据Xa输入一层全连接层,得到最终类别概率输出,其中,全连接层设置输出神经元个数为目标分类任务的类别数。
为了进一步解决物种分类效率低效果差的问题,本发明还提供一种物种血液精液及物种分类方法,具体的技术方案如下:
基于拉曼光谱的物种血液和精液分类方法,包括如下步骤:
步骤1、获取若干物种的血液和精液拉曼光谱数据样本,作为训练集和测试集;
步骤2、应用所述拉曼光谱分类方法,基于步骤1获取的数据训练分类模型,并应用测试集对分类模型进行验证优化;
步骤3、将实时获取的各类物种血液和精液拉曼光谱数据输入至优化后的分类模型,获取最终的分类结果。
基于拉曼光谱的物种分类方法,包括如下步骤:
步骤1、获取若干物种的任意属性拉曼光谱数据样本,作为训练集和测试集;
步骤2、应用所述拉曼光谱分类方法,基于步骤1获取的数据训练物种分类模型,并应用测试集对物种分类模型进行验证优化;
步骤3、将实时获取的各类物种拉曼光谱数据输入至优化后的物种分类模型,获取最终的物种分类结果。
计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时用于执行所述方法的全部或部分步骤。
与现有技术相比,本发明具有以下有益效果:
1、基于卷积神经网络和多头自注意力机制相结合的拉曼光谱分类方法,光谱经过卷积计算可得到局部峰特征信息,经过多头自注意力计算可得到全局峰相关性信息且具有多尺度特征融合的作用,两种网络结构有效的结合可达到优势互补的效果,相较于现有的拉曼光谱分类方法,能够有效将拉曼光谱局部特征峰和全局峰相关性相结合,得到更准确的分类表现,从而提高分类准确率。
2、实现了准确和快速地预测血液和精液对应珍稀物种,从而减少非法走私珍稀动物犯罪现象,有效保护国家生物资源。与传统的机器学习方法相比,在大规模拉曼光谱数据集中得到更优异的分类表现,在40类物种血液和精液反射式拉曼光谱数据集中,分类准确率可达到99.2%,为物种血液和精液分类检测提供了一种新的方法。
3、该方法不仅可用于物种血液和精液分类,还可用于其他生物分类识别领域,具有较高的实用价值。
附图说明
图1为本发明方法网络计算流程及其对应实际网络结构图。
图2为本发明单张物种马的血液反射式拉曼光谱原始谱图。
图3为本发明单张物种马的血液反射式拉曼光谱预处理后谱图。
图4为本发明网络训练损失和准确率曲线图。
图5为本发明训练完成后网络用于测试集预测未知物种血液和精液混淆矩阵结果图。
具体实施方式
下面结合附图对本发明的结构及工作过程作进一步说明。
本发明提供了一种基于卷积神经网络和多头自注意力机制相结合的拉曼光谱分类方法,光谱经过卷积计算可得到局部峰特征信息,经过多头自注意力计算可得到全局峰相关性信息且具有多尺度特征融合的作用,两种网络结构有效的结合可达到优势互补的效果,从而提高分类准确率。该方法可以简单快速对各类物种血液和精液精准分类,从而减少非法走私珍稀动物犯罪现象,有效保护国家生物资源。另外该方法不仅可应用于物种血液和精液分类,还可以应用到其他生物分类识别领域。
一种拉曼光谱分类方法,首先,获取若干拉曼光谱数据,作为训练集和测试集;
其次,根据已有的光谱质量对拉曼光谱数据进行一系列的预处理后,获取波峰信息明显的拉曼光谱数据;
然后,将波峰信息明显的拉曼光谱数据输入到一维卷积和多头自注意力机制相结合神经网络模型中,训练分类模型;
最后,将拉曼光谱测试集数据输入至训练完成的分类模型得到最终的分类结果。
基于拉曼光谱的物种血液和精液分类方法,包括如下步骤:
步骤1、获取若干物种的血液和精液拉曼光谱数据样本,作为训练集和测试集;
步骤2、应用所述拉曼光谱分类方法,基于步骤1获取的数据训练分类模型,并应用测试集对分类模型进行验证优化;
步骤3、将实时获取的各类物种血液和精液拉曼光谱数据输入至优化后的分类模型,获取最终的分类结果。
基于拉曼光谱的物种分类方法,包括如下步骤:
步骤1、获取若干物种的任意属性拉曼光谱数据样本,作为训练集和测试集;
步骤2、应用所述拉曼光谱分类方法,基于步骤1获取的数据训练物种分类模型,并应用测试集对物种分类模型进行验证优化;
步骤3、将实时获取的各类物种拉曼光谱数据输入至优化后的物种分类模型,获取最终的物种分类结果。
具体实施例,如图1至图5所示,
本实施例使用的数据集是来自国家重点研发计划特殊生物资源监测与溯源技术研究(2018YFC1200205),单张物种马的血液反射式拉曼光谱可视化如图2所示,数据包含袋鼠、丹顶鹤、金丝猴和马等40类国家珍稀动物和日常生活常见动物,共计5229条反射式拉曼光谱数据,其中9.8%(515条)的数据作为测试集。
如图1所示,方法实施步骤具体如下:
步骤S1,根据已有的光谱质量对光谱数据进行预处理,具体实施步骤如下:
步骤S11,根据拉曼光谱数据是否存在基线漂移现象,判断是否对拉曼光谱进行基线校正。在本实施例中,拉曼光谱存在基线漂移现象,需要进行基线校正处理。
步骤S12,根据在拉曼光谱采集过程中是否存在仪器噪声从而光谱谱线波动剧烈且波峰不明显现象,判断是否对拉曼光谱进行去噪处理。在本实施例中,拉曼光谱存在噪声,需要进行去噪处理。
步骤S13,舍弃光谱强度为负值的光谱点,均用0替换。在本实施例中,有少量光谱点存在负值现象,用0进行替换。
步骤S14,将拉曼光谱进行归一化,从而加快网络训练收敛速度。在本实施例中,将拉曼光谱强度归一化至[0,1],拉曼光谱维度为(1,1400),预处理后物种马的单张血液光谱如图3所示。
步骤S2,将光谱数据输入到一层卷积层和最大池化层用以光谱数据降维,具体实施步骤如下:
步骤S21,将所述光谱进行预处理得到光谱数据X,输入卷积层(101),其中卷积层(101)采用16种特征尺寸为7*1的一维卷积核,卷积步长为2,光谱填充为6对所述输入数据进行卷积运算,得到16个光谱维度减少一半的特征数据Xc。在本实施例中,将预处理后光谱数据X输入卷积层(101),得到维度为(16,700)的特征数据Xc;
步骤S22,将特征数据Xc输入最大池化层(102),其中最大池化层(102)采用特征尺寸为3*1的一维滤波器,池化步长为2,光谱填充为2对所述输入数据进行最大池化运算,得到16个光谱维度再减少一半的特征数据Xp。在本实施例中,将特征数据Xc输入最大池化层(102),得到维度为(16,350)的特征数据Xp。
步骤S3,将降维后的光谱输入到两层卷积层中,用以提取多尺度局部光谱特征,具体实施步骤如下:
步骤S31,将降维后的光谱数据Xp输入具有残差连接的两层卷积层(201,202),其中两层卷积层(201,202)均采用32种特征尺寸为3*1的一维卷积核,卷积步长为1,光谱填充为2对所述输入数据进行卷积运算,得到32个光谱维度不变的多尺度特征数据Xc1。在本实施例中,将降维后特征数据Xp输入两层卷积层(201,202),得到维度为(32,350)多尺度特征数据Xc1。
步骤S4,将提取的特征输入到两层卷积层和一层多头自注意力层,用以局部光谱特征和全局光谱特征相关性的信息融合,具体实施步骤如下:
步骤S41,将具有残差连接的两层卷积层(301,302)和一层多头自注意力层(303)组成多尺度特征融合模块,将上一模块的输出作为下一模块的输入,重复3次。在本实施例中,构建三个多尺度特征融合模块,且将所述多尺度特征数据Xc1输入三个多尺度特征融合模块中。具体步骤如下:
步骤S411,构建三个所述多尺度特征融合模块,其中每个所述模块中两层卷积层(301,302)采用的一维卷积核个数均增加一倍,将所述多尺度特征数据Xc1输入单个模块得到光谱维度减半多尺度特征个数增加一倍的特征数据Xc2。在本实施例中,构建三个所述多尺度特征融合模块,其中两层卷积层(301,302)分别采用64,128,256种特征尺寸均为3*1的一维卷积核,在每两层卷积层(301,302)中卷积步长均为2,1,光谱填充均为2;
步骤S412,构建三个所述多尺度特征融合模块,其中每个所述模块中多头自注意力层(Multi-head Self-attention(MSA),303)对特征数据分割大小和注意力头数设置均不同,将所述多尺度特征数据Xc2输入单个模块中多头自注意力层得到多尺度特征融合数据XF;
XF=MSA(z)=[SA1(z);SA2(z);...;SAh(z)]
[Q,K,V]=zWQKV
其中,Epos∈Rn×d,d代表在卷积层中一维卷积核个数,/>代表将多尺度特征数据Xc2分成第n个大小为p的小特征块,Epos代表每个小特征块的位置信息;z∈Rn×d,h代表多头自注意力机制头数,dh代表每个多头自注意力机制头所包含的一维卷积核个数,z代表将多尺度特征数据Xc2全部分块后编码信息,WQKV代表z初始化权重信息,两者进行向量点乘运算后得到每个小特征块的QKV;SA代表每个小特征块自注意力权重,MSA代表最终每个小特征块多头自注意力权重。在本实施例中,多头自注意力层(303)对特征数据分别分为35,44,22大小的小特征块,注意力头数分别设置为1,2,4。最终将多尺度特征数据Xc1输入三个所述模块,得到特征维度大小为别为(64,175),(128,88),(256,44)的多尺度特征融合数据XF。
步骤S5,将信息融合后的特征输入自适应均值池化层,用以特征降维。将降维后的特征输入全连接层,用以得到最终的类别概率输出。具体实施步骤如下:
步骤S51,将所述多尺度特征融合数据XF输入自适应均值池化层(401),其中自适应均值池化输出大小设置为7对所述输入特征数据XF进行自适应均值池化计算,得到特征维度大小为7的特征数据Xa。在本实施例中,将最终数据维度为(256,44)的多尺度特征融合数据XF输入自适应均值池化层,得到数据维度为(256,7)的特征数据Xa;
步骤S52,将所述特征数据Xa输入一层全连接层(402),其中全连接层设置输出神经元个数为目标分类任务的类别数,得到最终类别概率输出。在本实施例中,目标分类任务的类别数为40,将所述特征数据Xa输入全连接层,得到40类概率输出,其中概率最大值为模型预测分类。
步骤S6,在网络训练过程中,根据损失函数,通过AdamW优化算法调整网络模型参数,得到最终网络全局最优解参数。具体实施步骤如下:
步骤S61,将所述网络训练损失函数选择交叉熵损失函数,用于评价模型预测结果与真实结果之间的差距。在本实施例中,使用40类交叉熵损失函数。
步骤S62,根据损失函数计算得到类别距离的导数,使用AdamW优化算法不断迭代更新网络训练参数,得到拟合的全局最优参数结果。在本实施例中,网络训练80epochs达到最佳收敛效果,且模型损失值最小。具体的训练损失和准确率曲线如图4所示。
步骤S7,在网络模型训练完成后,可用于实际的光谱检测分类任务中。在本实施例中,将测试集数据输入已完成训练的网络模型,输出分类结果。测试集共515条样本数据,模型各类预测混淆矩阵结果如图5所示。
本发明基于拉曼光谱数据,通过数据预处理,光谱数据降维,多尺度局部特征提取,多尺度信息融合和全连接层映射等步骤完成拉曼光谱分类,简单快速对各类物种血液和精液精准分类,从而减少非法走私珍稀动物犯罪现象,有效保护国家生物资源。
本领域技术人员应该理解,本领域技术人员在结合现有技术以及上述实施例可以实现变化例,这样的变化例并不影响本方案的实质内容,在此不予赘述。
需要理解的是,本方案并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本方案技术方案范围情况下,都可利用上述揭示的方法和技术内容对本方案技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本方案的实质内容。因此,凡是未脱离本方案技术方案的内容,依据本方案的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本方案技术方案保护的范围。
Claims (10)
1.一种拉曼光谱分类方法,其特征在于:
首先,获取若干拉曼光谱数据,作为训练集和测试集;
其次,根据已有的光谱质量对拉曼光谱数据进行一系列的预处理后,获取波峰信息明显的拉曼光谱数据;
然后,将波峰信息明显的拉曼光谱数据输入到一维卷积和多头自注意力机制相结合神经网络模型中,训练分类模型;
最后,将拉曼光谱测试集数据输入至训练完成的分类模型得到最终的分类结果。
2.根据权利要求1所述的拉曼光谱分类方法,其特征在于:对光谱数据进行预处理的具体步骤如下:
步骤1、判断拉曼光谱数据是否存在基线漂移现象,如果存在基线漂移现象,进行基线校正处理;
步骤2、判断拉曼光谱数据采集过程中是否存在仪器噪声,如果存在噪声,对拉曼光谱数据进行去噪处理;
步骤3、用0替换光谱强度为负值的光谱点;
步骤4、将步骤3得到的拉曼光谱进行归一化,获取波峰信息明显的拉曼光谱数据X。
3.根据权利要求2所述的拉曼光谱分类方法,其特征在于:训练分类模型的具体步骤如下:
步骤a、将波峰信息明显的拉曼光谱数据输入到一层卷积层和最大池化层进行光谱数据降维;
步骤b、将降维后的光谱输入到两层卷积层中,提取多尺度局部光谱特征数据Xc1;
步骤c、将提取的多尺度局部光谱特征数据输入到两层卷积层和一层多头自注意力层,进行局部光谱特征和全局光谱特征相关性的信息融合;
步骤d、将信息融合后的特征输入自适应均值池化层,进行特征降维;并将降维后的特征输入全连接层,得到最终的类别概率输出;
步骤e、根据损失函数,调整网络模型参数,得到最终网络全局最优解参数的分类模型。
4.根据权利要求3所述的拉曼光谱分类方法,其特征在于:步骤a中,首先将波峰信息明显的拉曼光谱数据输入卷积层,得到光谱维度减少一半的第一特征数据Xc;然后,将第一特征数据输入最大池化层,进行最大池化运算,得到光谱维度再减少一半的第二特征数据Xp。
5.根据权利要求4所述的拉曼光谱分类方法,其特征在于:步骤c的具体过程如下:
步骤c_1、将具有残差连接的两层卷积层和一层多头自注意力层组成特征融合模块;
步骤c_2、依次将上一特征融合模块的输出作为下一特征融合模块的输入,构建三个多尺度特征融合模块,其中,每个模块中两层卷积层采用的一维卷积核个数均增加一倍,每个模块中多头自注意力层对特征数据分割大小和注意力头数设置均不同;
步骤c_3、将所述多尺度局部光谱特征数据Xc1输入单个模块中卷积层得到光谱维度减半多尺度特征个数增加一倍的多尺度特征数据Xc2;
步骤c_4、多尺度特征数据Xc2输入单个模块中多头自注意力层得到多尺度特征融合数据XF。
6.根据权利要求5所述的拉曼光谱分类方法,其特征在于:获取多尺度特征融合数据XF的具体公式如下:
XF=MSA(z)=[SA1(z);SA2(z);...;SAh(z)]
[Q,K,V]=zWQKV
其中,Epos∈Rn×d,d代表在卷积层中一维卷积核个数,/>代表将多尺度特征数据Xc2分成第n个大小为p的小特征块,Epos代表每个小特征块的位置信息;z∈Rn×d,h代表多头自注意力机制头数,dh代表每个多头自注意力机制头所包含的一维卷积核个数,z代表将多尺度特征数据Xc2全部分块后编码信息,WQKV代表z初始化权重信息,两者进行向量点乘运算后得到每个小特征块的QKV;SA代表每个小特征块自注意力权重,MSA代表最终每个小特征块多头自注意力权重。
7.根据权利要求3所述的拉曼光谱分类方法,其特征在于:步骤d的具体过程如下:
将多尺度特征融合数据XF输入自适应均值池化层,得到设定特征维数大小的特征数据Xa,特征数据Xa输入一层全连接层,得到最终类别概率输出,其中,全连接层设置输出神经元个数为目标分类任务的类别数。
8.基于拉曼光谱的物种血液和精液分类方法,其特征在于:包括如下步骤:
步骤1、获取若干物种的血液和精液拉曼光谱数据样本,作为训练集和测试集;
步骤2、应用权利要求1至7中任一项拉曼光谱分类方法,基于步骤1获取的数据训练分类模型,并应用测试集对分类模型进行验证优化;
步骤3、将实时获取的各类物种血液和精液拉曼光谱数据输入至优化后的分类模型,获取最终的分类结果。
9.基于拉曼光谱的物种分类方法,其特征在于:包括如下步骤:
步骤1、获取若干物种任意属性的拉曼光谱数据样本,作为训练集和测试集;
步骤2、应用权利要求1至7中任一项拉曼光谱分类方法,基于步骤1获取的数据训练物种分类模型,并应用测试集对物种分类模型进行验证优化;
步骤3、将实时获取的各类物种拉曼光谱数据输入至优化后的物种分类模型,获取最终的物种分类结果。
10.计算机存储介质,其特征在于:所述计算机存储介质存储有计算机指令,所述计算机指令被调用时用于执行权利要求1至7中任一项所述方法的全部或部分步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311151223.3A CN117349741A (zh) | 2023-09-07 | 2023-09-07 | 拉曼光谱分类方法、物种血液精液及物种分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311151223.3A CN117349741A (zh) | 2023-09-07 | 2023-09-07 | 拉曼光谱分类方法、物种血液精液及物种分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117349741A true CN117349741A (zh) | 2024-01-05 |
Family
ID=89370031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311151223.3A Pending CN117349741A (zh) | 2023-09-07 | 2023-09-07 | 拉曼光谱分类方法、物种血液精液及物种分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117349741A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118468141A (zh) * | 2024-07-10 | 2024-08-09 | 清华大学 | 基于注意力的可解释性拉曼光谱识别方法、装置和设备 |
CN118468163A (zh) * | 2024-07-10 | 2024-08-09 | 清华大学 | 基于对抗域生成网络的跨域拉曼光谱识别方法和装置 |
-
2023
- 2023-09-07 CN CN202311151223.3A patent/CN117349741A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118468141A (zh) * | 2024-07-10 | 2024-08-09 | 清华大学 | 基于注意力的可解释性拉曼光谱识别方法、装置和设备 |
CN118468163A (zh) * | 2024-07-10 | 2024-08-09 | 清华大学 | 基于对抗域生成网络的跨域拉曼光谱识别方法和装置 |
CN118468141B (zh) * | 2024-07-10 | 2024-09-10 | 清华大学 | 基于注意力的可解释性拉曼光谱识别方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493287B (zh) | 一种基于深度学习的定量光谱数据分析处理方法 | |
Chatzidakis et al. | Towards calibration-invariant spectroscopy using deep learning | |
CN117349741A (zh) | 拉曼光谱分类方法、物种血液精液及物种分类方法 | |
Zhang et al. | Wood defect detection method with PCA feature fusion and compressed sensing | |
CN115326783B (zh) | 拉曼光谱预处理模型生成方法、系统、终端及存储介质 | |
WO2018121122A1 (zh) | 用于物品查验的拉曼光谱检测方法和电子设备 | |
Cai et al. | Rapid identification of ore minerals using multi-scale dilated convolutional attention network associated with portable Raman spectroscopy | |
Cetiner et al. | Classification of knot defect types using wavelets and KNN | |
Patel et al. | Recognition of Pistachio Species with Transfer Learning Models | |
CN115436343A (zh) | 异源激光诱导击穿光谱之间的迁移和标准化方法及系统 | |
CN114781484A (zh) | 基于卷积神经网络的癌症血清sers光谱分类方法 | |
CN113138181B (zh) | 一种对清香型原酒品质分级的方法 | |
Hu et al. | PCANet: A common solution for laser-induced fluorescence spectral classification | |
Wang et al. | Detection of Insect-Damaged Maize Seed Using Hyperspectral Imaging and Hybrid 1D-CNN-BiLSTM Model | |
CN117807497A (zh) | 一种锂元素野外定量分析方法及系统 | |
Chen et al. | Spectraformer: deep learning model for grain spectral qualitative analysis based on transformer structure | |
CN116858822A (zh) | 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法 | |
Hong et al. | Classification of Oil Palm fruit Ripeness Using Artificial Neural Network | |
CN115277205B (zh) | 模型训练方法及装置、端口的风险识别方法 | |
Islam et al. | Enhanced Deep Learning Architecture for Rapid and Accurate Tomato Plant Disease Diagnosis | |
Zhou et al. | An end‐to‐end deep learning approach for Raman spectroscopy classification | |
Gulyanon et al. | A comparative study of noise augmentation and deep learning methods on Raman spectral classification of contamination in hard disk drive | |
Mall et al. | AMaizeD: An End to End Pipeline for Automatic Maize Disease Detection | |
Sambrani et al. | Chili disease detection and classification using various machine learning techniques | |
CN112155523A (zh) | 一种基于模态能量主成分比量化的脉搏信号特征提取与分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |