CN113283529A - 一种面向多模态图像能见度检测的神经网络构建方法 - Google Patents

一种面向多模态图像能见度检测的神经网络构建方法 Download PDF

Info

Publication number
CN113283529A
CN113283529A CN202110635322.3A CN202110635322A CN113283529A CN 113283529 A CN113283529 A CN 113283529A CN 202110635322 A CN202110635322 A CN 202110635322A CN 113283529 A CN113283529 A CN 113283529A
Authority
CN
China
Prior art keywords
layer
convolution
feature
splicing
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110635322.3A
Other languages
English (en)
Other versions
CN113283529B (zh
Inventor
王晗
沈克成
刘佳丽
施佺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202110635322.3A priority Critical patent/CN113283529B/zh
Publication of CN113283529A publication Critical patent/CN113283529A/zh
Application granted granted Critical
Publication of CN113283529B publication Critical patent/CN113283529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

本发明公开了一种面向多模态图像能见度检测的神经网络构建方法,包括如下步骤:构建基于注意力模型的多尺度可变形卷积可见光图像特征提取子网络;构建基于注意力模型的多尺度可变形卷积远红外图像特征提取子网络;构建可见光‑远红外双模态图像特征融合网络模块;将上述两个子网络输出作为融合网络的输入,串联组合成双模态能见度等级分类网络。采用本发明方法,通过注意力模型调节的多尺度可变形卷积神经网络可有效提取不同感受野下、不同浓度雾气的大气特征;而双模态图像特征的融合可以实现模态互补,提供更加丰富而有效的大气特征信息,显著提高小样本条件下能见度检测的准确性与鲁棒性。

Description

一种面向多模态图像能见度检测的神经网络构建方法
技术领域
本发明涉及图像能见度等级分类、检测技术,尤其涉及一种利用双模态图像(可见光-红外图像对儿)作为输入信号,通过多尺度特征提取-多模态特征融合网络实现模态特征互补,进而对能见度等级进行分类和检测的方法。
背景技术
雾、霾等恶劣天气可导致大气浑浊、透明度变小及能见度陡降,是诱发交通事故的重要原因,据统计发生在恶劣天气下的交通事故占总交通事故的24%。能见度检测可有效地监测大气环境,对潜在的交通事故提供可靠的预警依据。基于图像的能见度检测方法具有设备低廉、安装方便等优势。因此,研究基于图像处理的能见度检测算法已成为研究热点。
目前,常见的基于图像的能见度检测方法大概可以分为以下两种。“统计学模型”:利用物理模型或者概率模型来估计能见度值。该方法需要设置人工辅助目标物,建立基于亮度值对比度的非线性描述函数或者利用大气散射模型,操作复杂且方法精度较低。“深度学习法”:利用卷积神经网络对输入可见光彩色图像的能见度等级进行分类,该方法性能受到训练样本的质量和数量的影响。
综上所述,现有的基于图像的能见度检测深度学习方法存在如下不足:一、现有方法均采用可见光图像作为输入,观测对象数据单一;二、卷积神经网络采用单一、固定的“静态”卷积核形式,无法灵活、有效地描述不同尺度、不同程度能见度下的大气图像特征;导致检测模型在小样本条件下的准确率与鲁棒性均较低。
发明内容
为了解决上述问题,本发明的主要目的在于提供一种面向可见光-远红外图像双模态能见度等级分类的多尺度特征融合网络构建方法,其先进性表现为:一、通过设计多尺度、可变形的“动态”卷积核对不同模态、不同尺度、不同程度能见度下的大气图像特征进行提取与表达。二、利用通道-空间联合注意力模型将不同模态、不同尺度、不同形态卷积核下的特征进行融合,显著提高小样本下神经网络能见度的检测准确率和鲁棒性。
为达到上述目的,本发明的技术方案是:一种面向多模态图像能见度检测的神经网络构建方法,该方法包括:
步骤1)构建基于注意力模型调节的多尺度可变形卷积可见光图像特征提取网络模块;
步骤2)构建基于注意力模型调节的多尺度可变形卷积远红外图像特征提取网络模块;
步骤3)构建可见光-远红外双模态图像特征融合网络模块;
步骤4)将步骤1)可见光图像特征提取网络模块与步骤2)远红外图像特征提取网络模块输出的特征拼接,作为步骤3)可见光-远红外双模态图像特征融合网络的输入,串联组合成双模态能见度等级分类网络。
进一步的,所述的步骤1)的具体内容为:
“可见光图像特征提取网络模块”的网络结构共有五层,分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2。其中,输入层为尺寸224×224,通道数为3的可见光输入图像;卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成,卷积核个数均为64,每个卷积层后接一个Relu激活层和BatchNormalization层。
多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将卷积层中3×3卷积得到的特征F3×3(112×112×64)与5×5卷积得到的特征F5×5(112×112×64)进行拼接,得到拼接特征F(112×112×128)。然后,分别进行一个空间的全局平均池化和最大池化得到两个1×1×128的通道描述。接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为128/r,r为系数,激活函数为Relu,第二层神经元个数为128。该两层的神经网络共享。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后,将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征,并将这两个特征做元素相加;
可变形卷积层的输入为上一层的多尺度注意力修正融合特征,卷积核个数为128,每个卷积层后接一个Relu激活层和BatchNormalization层。具体操作过程如下:首先,利用卷积的输出得到可变形卷积所需要的位移量。然后,将其作用在卷积核上,达到可变形卷积的效果。
多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将可变形卷积层中3×3卷积得到的特征F3×3(56×56×128)与5×5卷积得到的特征F5×5(56×56×128)进行拼接,得到拼接特征F(56×56×256)。然后,分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述。接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为256/r,r为系数,激活函数为Relu,第二层神经元个数为256。这个两层的神经网络是共享的。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后,将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征,并将这两个特征做元素相加。“可见光图像特征提取网络”的输出为56×56×128的可见光图像特征。
进一步的,所述的步骤2)的具体内容为:
“远红外图像特征提取网络模块”的网络结构共有五层,分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2。其中,输入层为尺寸224×224,通道数为3的远红外输入图像;卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成,卷积核个数均为64,每个卷积层后接一个Relu激活层和BatchNormalization层。
多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将卷积层中3×3卷积得到的特征F3×3(112×112×64)与5×5卷积得到的特征F5×5(112×112×64)进行拼接,得到拼接特征F(112×112×128)。然后,分别进行一个空间的全局平均池化和最大池化得到两个1×1×128的通道描述。接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为128/r,r为系数,激活函数为Relu,第二层神经元个数为128。注意,这个两层的神经网络是共享的。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征,并将这两个特征做元素相加。
可变形卷积层的输入为上一层的多尺度注意力修正融合特征,卷积过程与卷积层类似,卷积核个数为128,每个卷积层后接一个Relu激活层和BatchNormalization层。具体操作过程如下:首先,利用卷积的输出得到可变形卷积所需要的位移量,然后,将其作用在卷积核上,达到可变形卷积的效果。
多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将可变形卷积层中3×3卷积得到的特征F3×3(56×56×128)与5×5卷积得到的特征F5×5(56×56×128)进行拼接,得到拼接特征F(56×56×256)。然后分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述。接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为256/r,r为系数,激活函数为Relu,第二层神经元个数为256。这个两层的神经网络是共享的。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后,将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征,并将这两个特征做元素相加。“远红外图像特征提取网络”的输出56×56×128的远红外图像特征。
进一步的,所述的步骤3)的具体内容为:
“多模态图像特征融合网络”的输入有两路信号组成:分别为“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征。“多模态图像特征融合网络”共有三层:特征拼接层、特征融合层和分类层。
通道拼接层将“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征进行通道拼接,得到多模态拼接特征F1
特征融合层对F1同时进行通道域和空间域的注意力修正。通道注意力操作如下:输入是一个56×56×256的特征F1,先分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述。接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为256/r,r为系数,激活函数为Relu,第二层神经元个数为256。这个两层的神经网络是共享的。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F1相乘得到多模态拼接特征。将修正后的多模态拼接特征重新拆分成两个56×56×128的单模态特征,并将这两个特征做元素相加得到多模态通道注意力修正融合特征F2。空间注意力操作如下:将F2分别进行一个空间维度的平均池化和最大池化得到两个56×56×1的空间描述,并将这两个描述按照通道拼接在一起。然后,经过一个卷积层,激活函数为Sigmoid,得到权重系数Ms。最后,将权重系数和特征F2相乘即可得到多模态通道与空间注意力修正融合特征F2
分类层是将融合特征F2经过一个全局平均池化层后,再利用softmax层进行能见度等级的分类。
进一步的,所述的步骤4)的具体内容为:
首先,“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征作为“多模态图像特征融合网络”的输入;然后,利用“多模态图像特征融合网络”的输出进入分类层,实现能见度等级的分类与检测。
有益效果:采用本发明方法,能够利用多尺度的可变形的“动态”卷积核针对不同模态、不同尺度、不同能见度下的大气图像特征进行有效地表征。同时,利用通道-空间联合注意力模型对双模态图像(可见光-红外)各自丰富的特征信息进行有效地提取融合,同时实现模态互补,显著提高小样本条件下的神经网络能见度检测的准确率和鲁棒性。
附图说明
图1为本发明能见度检测方法的流程图;
图2为本发明提出的“可见光图像特征提取网络”结构的示意图;
图3为本发明提出的“远红外图像特征提取网络”结构的示意图;
图4为本发明提出的“多模态图像特征提取网络”结构的示意图;
图5为本发明提出的“可见光-远红外图像双模态能见度等级分类的多尺度特征融合网络”结构的示意图;
图6为本发明的能见度检测方法与其他传统深度学习方法在小样本条件下平均准确率比较结果实例;
图7为本发明的能见度检测方法与其他传统深度学习方法在小样本条件下检测鲁棒性比较结果实例。
具体实施方式:
下面结合本发明所提供的附图对本发明的技术作进一步说明:
如图1所示,一种面向多模态图像能见度检测的神经网络构建方法,包括如下步骤:
步骤101:构建基于注意力模型调节的多尺度可变形卷积可见光图像特征提取网络模块;的具体内容为:
“可见光图像特征提取网络模块”的网络结构共有五层,如图2所示,分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2。其中,输入层为尺寸224×224,通道数为3的可见光输入图像;卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成,卷积核个数均为64,每个卷积层后接一个Relu激活层和BatchNormalization层。
多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将卷积层中3×3卷积得到的特征F3×3(112×112×64)与5×5卷积得到的特征F5×5(112×112×64)进行拼接,得到拼接特征F(112×112×128)。然后,分别进行一个空间的全局平均池化和最大池化得到两个1×1×128的通道描述。接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为128/r,r为系数,激活函数为Relu,第二层神经元个数为128。该两层的神经网络共享。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后,将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征,并将这两个特征做元素相加;
可变形卷积层的输入为上一层的多尺度注意力修正融合特征,卷积核个数为128,每个卷积层后接一个Relu激活层和BatchNormalization层。具体操作过程如下:首先,利用卷积的输出得到可变形卷积所需要的位移量。然后,将其作用在卷积核上,达到可变形卷积的效果。
多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将可变形卷积层中3×3卷积得到的特征F3×3(56×56×128)与5×5卷积得到的特征F5×5(56×56×128)进行拼接,得到拼接特征F(56×56×256)。然后,分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述。接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为256/r,r为系数,激活函数为Relu,第二层神经元个数为256。这个两层的神经网络是共享的。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后,将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征,并将这两个特征做元素相加。“可见光图像特征提取网络”的输出为56×56×128的可见光图像特征。
步骤102:)构建基于注意力模型调节的多尺度可变形卷积远红外图像特征提取网络模块;的具体内容为:
“远红外图像特征提取网络模块”的网络结构共有五层,如图3所示,分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2。其中,输入层为尺寸224×224,通道数为3的远红外输入图像;卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成,卷积核个数均为64,每个卷积层后接一个Relu激活层和BatchNormalization层。
多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将卷积层中3×3卷积得到的特征F3×3(112×112×64)与5×5卷积得到的特征F5×5(112×112×64)进行拼接,得到拼接特征F(112×112×128)。然后,分别进行一个空间的全局平均池化和最大池化得到两个1×1×128的通道描述。接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为128/r,r为系数,激活函数为Relu,第二层神经元个数为128。注意,这个两层的神经网络是共享的。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征,并将这两个特征做元素相加。
可变形卷积层的输入为上一层的多尺度注意力修正融合特征,卷积过程与卷积层类似,卷积核个数为128,每个卷积层后接一个Relu激活层和BatchNormalization层。具体操作过程如下:首先,利用卷积的输出得到可变形卷积所需要的位移量,然后,将其作用在卷积核上,达到可变形卷积的效果。
多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将可变形卷积层中3×3卷积得到的特征F3×3(56×56×128)与5×5卷积得到的特征F5×5(56×56×128)进行拼接,得到拼接特征F(56×56×256)。然后分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述。接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为256/r,r为系数,激活函数为Relu,第二层神经元个数为256。这个两层的神经网络是共享的。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后,将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征,并将这两个特征做元素相加。“远红外图像特征提取网络”的输出56×56×128的远红外图像特征。
步骤103:)构建可见光-远红外双模态图像特征融合网络模块;的具体内容为:
“多模态图像特征融合网络”的输入有两路信号组成:如图4所示,分别为“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征。“多模态图像特征融合网络”共有三层:特征拼接层、特征融合层和分类层。
通道拼接层将“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征进行通道拼接,得到多模态拼接特征F1
特征融合层对F1同时进行通道域和空间域的注意力修正。通道注意力操作如下:输入是一个56×56×256的特征F1,先分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述。接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为256/r,r为系数,激活函数为Relu,第二层神经元个数为256。这个两层的神经网络是共享的。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F1相乘得到多模态拼接特征。将修正后的多模态拼接特征重新拆分成两个56×56×128的单模态特征,并将这两个特征做元素相加得到多模态通道注意力修正融合特征F2。空间注意力操作如下:将F2分别进行一个空间维度的平均池化和最大池化得到两个56×56×1的空间描述,并将这两个描述按照通道拼接在一起。然后,经过一个卷积层,激活函数为Sigmoid,得到权重系数Ms。最后,将权重系数和特征F2相乘即可得到多模态通道与空间注意力修正融合特征F2
分类层是将融合特征F2经过一个全局平均池化层后,再利用softmax层进行能见度等级的分类。
步骤104:)将步骤1)可见光图像特征提取网络模块与步骤2)远红外图像特征提取网络模块输出的特征拼接,作为步骤3)可见光-远红外双模态图像特征融合网络的输入,串联组合成双模态能见度等级分类网络。的具体内容为:
如图5所示,首先,“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征作为“多模态图像特征融合网络”的输入;然后,利用“多模态图像特征融合网络”的输出进入分类层,实现能见度等级的分类与检测。
下面结合具体示例对本发明的技术方案作进一步详细说明。
实例1
如图6,实验小样本数据如下:7类能见度等级,每个等级200幅图像。其中,50%训练,50%测试。5种比较方法:可见光(RGB)图像+CNN、远红外(IR)图像+CNN、可见光-远红外图像+CNN、可见光-远红外图像+可变形卷积和本发明提出方法:可见光-远红外+多尺度融合网络。实验过程如下:训练时随机设置网络初始权值,比较5次训练测试结果的平均能见度检测准确率。
从结果可明显看出:本发明的方法平均准确率最高,为98.54%。其余两个单模态图像(可见光或远红外)加卷积神经网络的方法准确性均小于70%,这说明传统基于单模态图像的深度学习方法稳定性不佳。另外,可见光-远红外加普通卷积神经网络的方法平均准确性为76.4%,可见光-远红外加可变形卷积神经网络的方法平均准确性为85.54%,这说明普通的基于“静态”固定卷积核的卷积神经网络不能够有效地提取不同模态、不同尺度、不同程度能见度下的大气图像特征。而本发明提出的方法可以通过多尺度“动态”可变卷积核对于同模态、不同尺度、不同程度能见度下的大气图像特征进行准确描述;同时,通过通道-空间联合注意力模型对可见光-远红外大气图像特征信息进行有效融合,相比较其他方法显著提高检测的准确率10%以上。
实例2
如图7,上述小样本条件下不同方法的检测鲁棒性比较结果实例。图中,横轴是实验次数,纵轴是每次训练测试的检测准确率。经过对比可以清楚的看出:在随机设置网络初始权值的条件下,本发明的方法获取的检测水平变化最小,检测结果受到随机初始权重的影响较小。相反,其他方法的检测结果受到随机初始权重的影响较大,具体表现在检测准确率随着不同实验的情况下发生明显地大幅度震荡现象。因此,本文的方法在小样本条件下能见度的检测鲁棒性显著优于其他的方法。
本发明的技术内容及技术特征已揭示如上,然而熟悉本领域的技术人员仍可能基于本发明的揭示而作种种不背离本发明精神的替换及修饰,因此,本发明保护范围应不限于实施例所揭示的内容,而应包括各种不背离本发明的替换及修饰,并为本专利申请权利要求所涵盖。

Claims (5)

1.一种面向多模态图像能见度检测的神经网络构建方法,包括如下步骤:
步骤1)构建基于注意力模型调节的多尺度可变形卷积可见光图像特征提取网络模块;
步骤2)构建基于注意力模型调节的多尺度可变形卷积远红外图像特征提取网络模块;
步骤3)构建可见光-远红外双模态图像特征融合网络模块;
步骤4)将步骤1)可见光图像特征提取网络模块与步骤2)远红外图像特征提取网络模块输出的特征拼接,作为步骤3)可见光-远红外双模态图像特征融合网络的输入,串联组合成双模态能见度等级分类网络。
2.根据权利要求1所述的面向多模态图像能见度检测的神经网络构建方法,其特征在于:所述的步骤1)的具体内容为:
“可见光图像特征提取网络模块”的网络结构共有五层,分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2,其中,输入层为尺寸224×224,通道数为3的可见光输入图像;卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成,卷积核个数均为64,每个卷积层后接一个Relu激活层和BatchNormalization层;
多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将卷积层中3×3卷积得到的特征F3×3(112×112×64)与5×5卷积得到的特征F5×5(112×112×64)进行拼接,得到拼接特征F(112×112×128);然后,分别进行一个空间的全局平均池化和最大池化得到两个1×1×128的通道描述;接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为128/r,r为系数,激活函数为Relu,第二层神经元个数为128,该两层的神经网络共享;再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc,Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征;最后,将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征,并将这两个特征做元素相加;
可变形卷积层的输入为上一层的多尺度注意力修正融合特征,卷积核个数为128,每个卷积层后接一个Relu激活层和BatchNormalization层,具体操作过程如下:首先,利用卷积的输出得到可变形卷积所需要的位移量,然后,将其作用在卷积核上,达到可变形卷积的效果;
多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将可变形卷积层中3×3卷积得到的特征F3×3(56×56×128)与5×5卷积得到的特征F5×5(56×56×128)进行拼接,得到拼接特征F(56×56×256);然后,分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述;接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为256/r,r为系数,激活函数为Relu,第二层神经元个数为256,这个两层的神经网络是共享的;再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc,Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征;最后,将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征,并将这两个特征做元素相加,“可见光图像特征提取网络”的输出为56×56×128的可见光图像特征。
3.根据权利要求1所述的面向多模态图像能见度检测的神经网络构建方法,其特征在于:所述的步骤2)的具体内容为:
“远红外图像特征提取网络模块”的网络结构共有五层,分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2,其中,输入层为尺寸224×224,通道数为3的远红外输入图像;卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成,卷积核个数均为64,每个卷积层后接一个Relu激活层和BatchNormalization层;
多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将卷积层中3×3卷积得到的特征F3×3(112×112×64)与5×5卷积得到的特征F5×5(112×112×64)进行拼接,得到拼接特征F(112×112×128);然后,分别进行一个空间的全局平均池化和最大池化得到两个1×1×128的通道描述;接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为128/r,r为系数,激活函数为Relu,第二层神经元个数为128,注意,这个两层的神经网络是共享的;再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc,Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征;最后将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征,并将这两个特征做元素相加;
可变形卷积层的输入为上一层的多尺度注意力修正融合特征,卷积过程与卷积层类似,卷积核个数为128,每个卷积层后接一个Relu激活层和BatchNormalization层;具体操作过程如下:首先,利用卷积的输出得到可变形卷积所需要的位移量,然后,将其作用在卷积核上,达到可变形卷积的效果;
多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将可变形卷积层中3×3卷积得到的特征F3×3(56×56×128)与5×5卷积得到的特征F5×5(56×56×128)进行拼接,得到拼接特征F(56×56×256);然后分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述;接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为256/r,r为系数,激活函数为Relu,第二层神经元个数为256,这个两层的神经网络是共享的;再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc,Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征;最后,将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征,并将这两个特征做元素相加,“远红外图像特征提取网络”的输出56×56×128的远红外图像特征。
4.根据权利要求1所述的面向多模态图像能见度检测的神经网络构建方法,其特征在于:所述的步骤3)的具体内容为:
“多模态图像特征融合网络”的输入有两路信号组成:分别为“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征,“多模态图像特征融合网络”共有三层:特征拼接层、特征融合层和分类层;
通道拼接层将“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征进行通道拼接,得到多模态拼接特征F1
特征融合层对F1同时进行通道域和空间域的注意力修正,通道注意力操作如下:输入是一个56×56×256的特征F1,先分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述;接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为256/r,r为系数,激活函数为Relu,第二层神经元个数为256,这个两层的神经网络是共享的;再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc,Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F1相乘得到多模态拼接特征;将修正后的多模态拼接特征重新拆分成两个56×56×128的单模态特征,并将这两个特征做元素相加得到多模态通道注意力修正融合特征F2,空间注意力操作如下:将F2分别进行一个空间维度的平均池化和最大池化得到两个56×56×1的空间描述,并将这两个描述按照通道拼接在一起;然后,经过一个卷积层,激活函数为Sigmoid,得到权重系数Ms;最后,将权重系数和特征F2相乘即可得到多模态通道与空间注意力修正融合特征F2
分类层是将融合特征F2经过一个全局平均池化层后,再利用softmax层进行能见度等级的分类。
5.根据权利要求1所述的面向多模态图像能见度检测的神经网络构建方法,其特征在于:所述的步骤4)的具体内容为:
首先,“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征作为“多模态图像特征融合网络”的输入;然后,利用“多模态图像特征融合网络”的输出进入分类层,实现能见度等级的分类与检测。
CN202110635322.3A 2021-06-08 2021-06-08 一种面向多模态图像能见度检测的神经网络构建方法 Active CN113283529B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110635322.3A CN113283529B (zh) 2021-06-08 2021-06-08 一种面向多模态图像能见度检测的神经网络构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110635322.3A CN113283529B (zh) 2021-06-08 2021-06-08 一种面向多模态图像能见度检测的神经网络构建方法

Publications (2)

Publication Number Publication Date
CN113283529A true CN113283529A (zh) 2021-08-20
CN113283529B CN113283529B (zh) 2022-09-06

Family

ID=77283663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110635322.3A Active CN113283529B (zh) 2021-06-08 2021-06-08 一种面向多模态图像能见度检测的神经网络构建方法

Country Status (1)

Country Link
CN (1) CN113283529B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187210A (zh) * 2022-02-16 2022-03-15 南通大学 一种基于可见光-远红外图像的多模态去浓雾方法
CN114373110A (zh) * 2021-12-09 2022-04-19 深圳云天励飞技术股份有限公司 对输入图像进行目标检测的检测方法、设备及其相关产品
CN114418003A (zh) * 2022-01-20 2022-04-29 北京科技大学 基于注意力机制及多尺寸信息提取的双图像识别分类方法
CN114581560A (zh) * 2022-03-01 2022-06-03 西安交通大学 基于注意力机制的多尺度神经网络红外图像彩色化方法
CN114694211A (zh) * 2022-02-24 2022-07-01 合肥工业大学 非接触式多生理参数的同步检测方法和系统
CN115311338A (zh) * 2022-08-11 2022-11-08 浙江盛发纺织印染有限公司 军用帐篷内衬面料智能化生产系统及其方法
CN115527159A (zh) * 2022-09-02 2022-12-27 燕山大学 一种基于跨模态间尺度注意聚合特征的计数系统及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993220A (zh) * 2019-03-23 2019-07-09 西安电子科技大学 基于双路注意力融合神经网络的多源遥感图像分类方法
CN110889398A (zh) * 2019-12-19 2020-03-17 南通大学 一种基于相似度网络的多模态图像能见度检测方法
CN110909862A (zh) * 2019-10-11 2020-03-24 平安科技(深圳)有限公司 基于卷积神经网络的注意力权重计算方法和装置
CN110910378A (zh) * 2019-11-29 2020-03-24 南通大学 一种基于深度融合网络的双模态图像能见度检测方法
CN111738314A (zh) * 2020-06-09 2020-10-02 南通大学 基于浅层融合的多模态图像能见度检测模型的深度学习方法
CN111931602A (zh) * 2020-07-22 2020-11-13 北方工业大学 基于注意力机制的多流分段网络人体动作识别方法及系统
CN111932550A (zh) * 2020-07-01 2020-11-13 浙江大学 一种基于深度学习的3d心室核磁共振视频分割系统
CN112084868A (zh) * 2020-08-10 2020-12-15 北京航空航天大学 一种基于注意力机制的遥感图像中目标计数方法
KR102238629B1 (ko) * 2020-10-13 2021-04-09 한국해양과학기술원 딥러닝 기반 저시정 상황 극복 시스템 및 방법
CN112734644A (zh) * 2021-01-19 2021-04-30 安徽工业大学 一种多个注意力结合光流的视频超分辨模型及方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993220A (zh) * 2019-03-23 2019-07-09 西安电子科技大学 基于双路注意力融合神经网络的多源遥感图像分类方法
CN110909862A (zh) * 2019-10-11 2020-03-24 平安科技(深圳)有限公司 基于卷积神经网络的注意力权重计算方法和装置
CN110910378A (zh) * 2019-11-29 2020-03-24 南通大学 一种基于深度融合网络的双模态图像能见度检测方法
CN110889398A (zh) * 2019-12-19 2020-03-17 南通大学 一种基于相似度网络的多模态图像能见度检测方法
CN111738314A (zh) * 2020-06-09 2020-10-02 南通大学 基于浅层融合的多模态图像能见度检测模型的深度学习方法
CN111932550A (zh) * 2020-07-01 2020-11-13 浙江大学 一种基于深度学习的3d心室核磁共振视频分割系统
CN111931602A (zh) * 2020-07-22 2020-11-13 北方工业大学 基于注意力机制的多流分段网络人体动作识别方法及系统
CN112084868A (zh) * 2020-08-10 2020-12-15 北京航空航天大学 一种基于注意力机制的遥感图像中目标计数方法
KR102238629B1 (ko) * 2020-10-13 2021-04-09 한국해양과학기술원 딥러닝 기반 저시정 상황 극복 시스템 및 방법
CN112734644A (zh) * 2021-01-19 2021-04-30 安徽工业大学 一种多个注意力结合光流的视频超分辨模型及方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JIAYI MA ET AL.: "《FusionGAN:A generative adversarial network for infrared and visible image fusion》", 《INFORMATION FUSION》 *
XIN WANG ET AL.: "《Multi-Scale Context Aggregation Network with Attention-Guided for Crowd Counting》", 《2020 15TH IEEE INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING (ICSP)》 *
刘帅: "《基于改进卷积神经网络的光流预测算法研究》", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
周幸 等: "《基于双注意力机制的遥感图像目标检测》", 《计算机与现代化》 *
汪梓艺: "《一种改进DeeplabV3 网络的烟雾分割算法》", 《西安电子科技大学学报》 *
王光海: "《基于多层特征融合与注意力机制的图像语义分割》", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373110A (zh) * 2021-12-09 2022-04-19 深圳云天励飞技术股份有限公司 对输入图像进行目标检测的检测方法、设备及其相关产品
CN114418003A (zh) * 2022-01-20 2022-04-29 北京科技大学 基于注意力机制及多尺寸信息提取的双图像识别分类方法
CN114418003B (zh) * 2022-01-20 2022-09-16 北京科技大学 基于注意力机制及多尺寸信息提取的双图像识别分类方法
CN114187210A (zh) * 2022-02-16 2022-03-15 南通大学 一种基于可见光-远红外图像的多模态去浓雾方法
CN114187210B (zh) * 2022-02-16 2022-09-06 南通大学 一种基于可见光-远红外图像的多模态去浓雾方法
CN114694211A (zh) * 2022-02-24 2022-07-01 合肥工业大学 非接触式多生理参数的同步检测方法和系统
CN114694211B (zh) * 2022-02-24 2024-04-19 合肥工业大学 非接触式多生理参数的同步检测方法和系统
CN114581560A (zh) * 2022-03-01 2022-06-03 西安交通大学 基于注意力机制的多尺度神经网络红外图像彩色化方法
CN114581560B (zh) * 2022-03-01 2024-04-16 西安交通大学 基于注意力机制的多尺度神经网络红外图像彩色化方法
CN115311338A (zh) * 2022-08-11 2022-11-08 浙江盛发纺织印染有限公司 军用帐篷内衬面料智能化生产系统及其方法
CN115527159A (zh) * 2022-09-02 2022-12-27 燕山大学 一种基于跨模态间尺度注意聚合特征的计数系统及方法
CN115527159B (zh) * 2022-09-02 2024-01-12 燕山大学 一种基于跨模态间尺度注意聚合特征的计数系统及方法

Also Published As

Publication number Publication date
CN113283529B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN113283529B (zh) 一种面向多模态图像能见度检测的神经网络构建方法
CN110910378B (zh) 一种基于深度融合网络的双模态图像能见度检测方法
US10929694B1 (en) Lane detection method and system based on vision and lidar multi-level fusion
CN109977812B (zh) 一种基于深度学习的车载视频目标检测方法
CN109086668B (zh) 基于多尺度生成对抗网络的无人机遥感影像道路信息提取方法
CN107886073B (zh) 一种基于卷积神经网络的细粒度车辆多属性识别方法
CN110414387B (zh) 一种基于道路分割的车道线多任务学习检测方法
CN110889398B (zh) 一种基于相似度网络的多模态图像能见度检测方法
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN111738037B (zh) 一种自动驾驶方法及其系统、车辆
CN111582092B (zh) 一种基于人体骨架的行人异常行为检测方法
CN114187311A (zh) 一种图像语义分割方法、装置、设备及存储介质
CN113780132A (zh) 一种基于卷积神经网络的车道线检测方法
CN111582397A (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
CN113326735A (zh) 一种基于YOLOv5的多模态小目标检测方法
CN113361466B (zh) 一种基于多模态交叉指导学习的多光谱目标检测方法
CN117372898A (zh) 一种基于改进yolov8的无人机航拍图像目标检测方法
CN116152658A (zh) 一种基于域对抗特征融合网络的林火烟雾检测方法
CN114612937A (zh) 基于单模态增强的红外与可见光融合行人检测方法
CN109214331A (zh) 一种基于图像频谱的交通雾霾能见度检测方法
CN112818871B (zh) 一种基于半分组卷积的全融合神经网络的目标检测方法
CN118015496A (zh) 基于YOLOv7神经网络的无人机航拍小目标检测方法
CN107909021A (zh) 一种基于单个深层卷积神经网络的路牌检测方法
CN113920066A (zh) 一种基于解耦注意力机制的多光谱红外巡检金具检测方法
Zhao et al. Recognition and Classification of Concrete Cracks under Strong Interference Based on Convolutional Neural Network.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant