CN111104965A - 车辆目标识别的方法及装置 - Google Patents
车辆目标识别的方法及装置 Download PDFInfo
- Publication number
- CN111104965A CN111104965A CN201911167501.8A CN201911167501A CN111104965A CN 111104965 A CN111104965 A CN 111104965A CN 201911167501 A CN201911167501 A CN 201911167501A CN 111104965 A CN111104965 A CN 111104965A
- Authority
- CN
- China
- Prior art keywords
- target
- data set
- training
- frame
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 102
- 238000012360 testing method Methods 0.000 claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 13
- 238000007405 data analysis Methods 0.000 claims description 2
- 239000003550 marker Substances 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 7
- 238000004590 computer program Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 206010037180 Psychiatric symptoms Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 229930091051 Arenine Natural products 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明适用于地球视觉目标识别技术领域,提供了一种车辆目标识别的方法及装置,该方法包括:获取数据集,并对所述数据集进行划分,确定训练数据集以及测试数据集;对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得聚类中心;将所述聚类中心作为网络训练的初始候选窗口,基于所述训练数据集对初始网络模型进行训练,获得目标网络模型;将所述测试数据集输入所述目标网络模型,获得识别后的车辆,从而可以提高车辆目标的识别效果。
Description
技术领域
本发明属于地球视觉目标识别技术领域,尤其涉及一种车辆目标识别的方法及装置。
背景技术
目标识别一直以来都是计算机视觉里的研究热点与难点。在信息与网络日益普及的今天,尤其是随着移动互联网时代的到来,无人机已经是人们生活中的比较重要的组成部分,无人机与各种各样不同的侦查系统一起构成了完整的新时代的战争预警与侦查系统,因此无人机图像中的车辆目标识别在民用与军用领域都具有极其重要的价值。然而,由于无人机图像中的车辆目标一般比较小,目标经过网络运算以后细节信息丢失严重,导致现有的识别算法对无人机图像中的车辆目标的识别效果较差。
发明内容
有鉴于此,本发明实施例提供了一种车辆目标识别的方法及装置,以解决现有技术中对无人机图像中的车辆目标的识别效果较差的问题。
本发明实施例的第一方面提供了一种车辆目标识别的方法,包括:
获取数据集,并对所述数据集进行划分,确定训练数据集以及测试数据集;
对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得聚类中心;
将所述聚类中心作为网络训练的初始候选窗口,基于所述训练数据集对初始网络模型进行训练,获得目标网络模型;
将所述测试数据集输入所述目标网络模型,获得识别后的车辆。
在一实施例中,所述获取数据集,包括:
分别获取不同角度拍摄的不同像素的图片,并将所有图片作为数据集。
在一实施例中,所述对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得聚类中心,包括:
采用改进的K-means算法对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得预设数量的聚类中心。
在一实施例中,所述改进的K-means算法聚类采用的距离公式为
d(box,centroid)=1-IOU(box,centroid);
其中,d(box,centroid)表示当前预测框与实际标记的预测框的距离,IOU(box,centroid)表示当前预测框与实际标记的预测框之间的重叠度的值。
在一实施例中,所述将所述聚类中心作为网络训练的初始候选窗口,基于所述训练数据集对初始网络模型进行训练,获得目标网络模型,包括:
设置所述聚类中心作为网络训练的初始候选窗口,并将所述训练数据集输入初始网络模型;
对所述训练数据集中的所有图像进行特征提取,分别获得各个图像对应的预设像素的特征图;
将所述各个图像根据所述预设像素划分为对应数量的大小均匀的网格;
根据每个网格内的特征点以及对应的初始候选窗口,确定每个目标待匹配的初始候选窗口;
对所述每个网格内的目标对应的所述待匹配的初始候选窗口进行目标边界框预测,获得目标标记框,输出各个目标标记框;
根据输出所述各个目标标记框采用的模型参数更新所述初始网络模型,获得更新后的网络模型,并确定多次更新后的网络模型中测试平均精度值最高的网络模型为目标网络模型。
在一实施例中,所述根据每个网格内的特征点以及对应的初始候选窗口,确定每个目标待匹配的初始候选窗口,包括:
根据每个网格内的特征点以及对应的初始候选窗口,计算各个特征点所在的预测框与对应的实际标记的预测框之间的重叠度值;
确定最大的重叠度值对应的预测框为当前目标对应的待匹配的初始候选窗口。
在一实施例中,所述对所述每个网格内的目标对应的所述待匹配的初始候选窗口进行目标边界框预测,获得目标标记框,包括:
根据所述每个网格内的目标对应的所述待匹配的初始候选窗口,采用损失函数和衰减函数对每个网格内的目标的真实标记框进行目标边界框预测,获得每个目标对应的目标边界框;
对每个目标对应的目标边界框进行去重处理,获得优化后的每个目标对应的目标标记框。
在一实施例中,所述损失函数为
其中,Loss表示损失值,λobj表示一个特征点存在于一个初始候选窗口内时的取值,truthw表示真实标记框的宽,truthh表示真实标记框的高,(truthr-predictr)2表示实际与预测之间真实标记框的差异,truthclass表示真实类别,表示预测的类别,(truthconf-predictconf)2表示置信度损失;
所述衰减函数为
其中,lr表示衰减值,lrbase表示预设学习率,γ表示预设系数,iter表示,衰减步长,stepsize表示减少学习率的学习轮数。
在一实施例中,所述对每个目标对应的目标边界框进行去重处理,获得优化后的每个目标对应的目标标记框,包括:
分别计算当前目标对应的所有目标边界框的置信度,并确定置信度最大的目标边界框;
分别计算其他置信度对应的目标边界框与置信度最大的目标边界框的置信度差值;
当所述置信度差值大于预设阈值时,去除对应的置信度对应的目标边界框,获得当前目标对应的目标标记框;
根据获得当前目标对应的目标标记框的方法获得每个目标对应的目标标记框。
本发明实施例的第二方面提供了一种车辆目标识别的装置,包括:
获取模块,用于获取数据集,并对所述数据集进行划分,确定训练数据集以及测试数据集;
计算模块,用于对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得聚类中心;
训练模块,用于将所述聚类中心作为网络训练的初始候选窗口,基于所述训练数据集对初始网络模型进行训练,获得目标网络模型;
识别模块,用于将所述测试数据集输入所述目标网络模型,获得识别后的车辆。
本发明实施例与现有技术相比存在的有益效果是:通过获取数据集,并对所述数据集进行划分,确定训练数据集以及测试数据集;对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得聚类中心;将所述聚类中心作为网络训练的初始候选窗口,基于所述训练数据集对初始网络模型进行训练,获得目标网络模型;将所述测试数据集输入所述目标网络模型,获得识别后的车辆,从而可以提高车辆目标的识别效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的车辆目标识别的方法的实现流程示意图;
图2是本发明实施例提供的获得目标网络模型的示意图;
图3是本发明实施例提供的车辆目标识别的装置的示例图;
图4是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1为本发明实施例提供的车辆目标识别的方法的实现流程示意图,详述如下。
步骤101,获取数据集,并对所述数据集进行划分,确定训练数据集以及测试数据集。
可选的,本步骤可以包括分别获取不同角度拍摄的不同像素的图片,并将所有图片作为数据集。可选的,可以获取高层建筑物上拍摄的图像,因此在一定程度上类似于无人机的图像视图,例如,获取PKLot的子数据集PUCPR,其中PUCPR中的图像的大小可以为1280×720像素,还可以获取无人机拍摄的停车场数据集,例如PKCAR数据集,其中PKCAR数据集的图像的大小可以为1280×720像素。还可以为自己拍摄的图像的大小为4608×3456像素的图片。将上述获取的所有图像合在一起,构成本实施例中的数据集。
可选的,对数据集按照一定比例进行划分,为了训练出合格的网络模型,可以将训练数据集中包括的图像数量大于测试数据集中包括的图像数据,例如按照7:3的比例划分数据集,70%的图像构成训练数据集,30%的图像构成测试数据集。当然还可以采用其它的比例划分数据集,例如6:4、8:2、9:1等等都可以。
步骤102,对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得聚类中心。
可选的,现有技术中对车辆目标识别通常采用YOLO V3网络识别方法,但是原有的YOLO V3在多尺度上预测目标位置与分类时,采用的初始候选窗口anchor都是在VOC数据集上聚类而来,而且聚类算法比较依赖初始值的选取。因此在本实施例中采用改进的K-means++算法获取聚类中心。
可选的,本步骤包括采用改进的K-means算法对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得预设数量的聚类中心。可选的,由于YOLO V3网络的预测框有九个,则可以采用改进的K-means算法对所述训练数据集中的每一个目标的车辆标记框进行K=9的聚类计算,这样可以将计算的九个聚类中心作为网络训练的初始候选窗口。
可选的,聚类过程中使用的距离度量是一个值得考量的问题,假如使用欧式距离来计算的话,就会造成大的anchor会比小的anchor产生更多的错误,因此不采用欧式距离度量公式。聚类的目的是anchor boxes和临近的真实标记框ground truth有更大的重叠度值,这和anchor box的尺寸没有直接关系。聚类使用的距离公式为
d(box,centroid)=1-IOU(box,centroid);
其中,d(box,centroid)表示当前预测框与实际标记的预测框的距离,IOU(box,centroid)表示当前预测框与实际标记的预测框之间的重叠度的值。
当前特征点到聚类中心的距离越小越好,但IOU值是越大越好,所以使用(1-IOU)就可以保证距离越小,IOU值越大。聚类后计算出来的九个聚类中心作为网络训练的初始的anchor值,这样改进以后既可以提高模型的收敛速度,减小发散的风险,也可以提高模型的准确率。
步骤103,将所述聚类中心作为网络训练的初始候选窗口,基于所述训练数据集对初始网络模型进行训练,获得目标网络模型。
可选的,如图2所示,本步骤可以包括以下步骤。
步骤201,设置所述聚类中心作为网络训练的初始候选窗口,并将所述训练数据集输入初始网络模型。
可选的,通过使用改进的K-means++算法对训练数据集的真实标记框进行聚类,得到的预测框的尺度可以为(12,18)、(14,36)、(20,36)、(50,62)、(70,92)、(80,96)、(56,97)、(72,132)、(110,226)。
步骤202,对所述训练数据集中的所有图像进行特征提取,分别获得各个图像对应的预设像素的特征图。
可选的,采用特征提取网络结构Darknet53对所述训练数据集中的所有图像进行特征提取,输入的图像经过Darknet53网络进行提取特征之后,得到一个一定大小的特征图feature map。可选的,预设像素可以为13×13。
步骤203,将所述各个图像根据所述预设像素划分为对应数量的大小均匀的网格。
可选的,将各个图像划分为13×13个大小均匀的网格。
步骤204,根据每个网格内的特征点以及对应的初始候选窗口,确定每个目标待匹配的初始候选窗口。
可选的,如果图像中某个目标的真实标记框的中心坐标坐落到网格中,那么该网格负责预测该物体。图像中的每个小网格都会生成固定数量的预测框,即初始候选窗口。在本实施例中每个网格对应的初始候选窗口为九个,每个初始候选窗口的尺度不同,在实际预测的时候,应该选择哪一个预测框来对该目标进行预测,通过该预测框与网中实际标记的预测框之间的重叠度的值IOU来决定,重叠度的值最大的预测框就作为该目标的预测框。
可选的,本步骤可以包括根据每个网格内的特征点以及对应的初始候选窗口,计算各个特征点所在的预测框与对应的实际标记的预测框之间的重叠度值;确定最大的重叠度值对应的预测框为当前目标对应的待匹配的初始候选窗口。
步骤205,对所述每个网格内的目标对应的所述待匹配的初始候选窗口进行目标边界框预测,获得目标标记框,输出各个目标标记框。
可选的,本步骤可以包括:根据所述每个网格内的目标对应的所述待匹配的初始候选窗口,采用损失函数和衰减函数对每个网格内的目标的真实标记框进行目标边界框预测,获得每个目标对应的目标边界框;对每个目标对应的目标边界框进行去重处理,获得优化后的每个目标对应的目标标记框。
可选的,所述损失函数为
其中,Loss表示损失值,即坐标位置的损失、置信度的损失和分类损失之和,λobj表示一个特征点存在于一个初始候选窗口内时的取值,truthw表示真实标记框的宽,truthh表示真实标记框的高,(truthr-predictr)2表示实际与预测之间真实标记框的差异,truthclass表示真实类别,表示预测的类别,(truthconf-predictconf)2表示置信度损失;
损失函数主要包括三个大的方面:坐标位置的损失、置信度的损失和分类损失。λobj的值可以为1或0,当一个特征点存在一个检测物体的时候,它的值就取1,否则就取值为0。Loss表示的是所有的损失函数之和。使用这种方式主要是出于网络的预测的特殊机制的考虑,训练数据集中的数据正负样本不均衡,特别是在计算置信度损失函数的那一部分,假如图像中只有一个目标,那么置信度的正负样本比就达到1:10646。假如依然使用平均损失函数的话,这样损失函数的值就接近于0,这样网络就没有办法继续计算下去,造成梯度消失。
其中,lr表示衰减值,lrbase表示预设学习率,γ表示预设系数,iter表示衰减步长,stepsize表示减少学习率的学习轮数。
可选的,在对网络进行训练的时候,使用Darknet-53框架在训练数据集上采用随机梯度下降法SGD训练1万次,在训练过程中,网络每次输入的是64张图片组成的一个矩阵,开始的时候以0.0003的初始学习率开始训练网络,选择均匀分步速率衰减策略,步长设置为在4000次与6000次时,学习率衰减为前一步的0.1倍。
可选的,在获得每个目标对应的目标边界框之后,可以一个目标对应多个目标边界框,这样需要将重叠的目标边界框去掉,以便获得准确的目标边界框。现有技术中通常采用非极大值抑制的算法进行去重处理,然而由于停车场里的车辆因为每个目标在原图中相互之间的距离很近,尤其对于那些斜着拍摄的车辆,当对其进行标记的时候,两个车辆目标之间的框重叠度会很高,所以直接用非极大值抑制的算法很可能会造成某一些重叠度高的目标的漏检。本实施例中采用改进的非极大值抑制的算法进行去重处理。
可选的,对每个目标对应的目标边界框进行去重处理,获得优化后的每个目标对应的目标标记框,可以包括:分别计算当前目标对应的所有目标边界框的置信度,并确定置信度最大的目标边界框;分别计算其他置信度对应的目标边界框与置信度最大的目标边界框的置信度差值;当所述置信度差值大于预设阈值时,去除对应的置信度对应的目标边界框,获得当前目标对应的目标标记框;根据获得当前目标对应的目标标记框的方法获得每个目标对应的目标标记框。这样的做法可以在某种程度上减小密集目标漏检的问题,从而可以提高模型的准确率。
步骤206,根据输出所述各个目标标记框采用的模型参数更新所述初始网络模型,获得更新后的网络模型,并确定多次更新后的网络模型中测试平均精度值最高的网络模型为目标网络模型。
可选的,采用YOLO V3网络在不同的训练次数获得对应的测试测试平均精度(Average Precision,AP)值,如表一所示。
表一
从上表可以看出YOLO V3网络在网络训练到4000次的时候,达到最优解,其在测试数据集上的AP为92.01%,使用网络在4000次迭代的时候的参数对应的目标网络模型在测试数据集上进行测试,得到的测试样例图如表二所示。
表二
AP | 召回率 | 准确率 | 误检率 | 漏检率 |
92.01% | 94.23% | 99.74% | 0.26% | 5.77% |
采用本实施例中通过使用改进的K-means算法对训练数据集的Ground Truth进行聚类,运用新得到的anchor值对网络进行训练,训练的策略与初始网络的训练策略相同,得到的测试样例图如表三所示。
表三
AP | 召回率 | 准确率 | 误检率 | 漏检率 |
96.32% | 97.70% | 99.76% | 2.30% | 0.24% |
在网络使用改进的K-means聚类的基础上,使用改进的NMS算法进行优化,改进后的网络在不同的训练次数对应的测试AP值如表四所示。
表四
从上表可以看出采用改进的网络在网络训练到6000次的时候,达到最优解,其在测试数据集上的AP为97.49%,使用网络在6000次迭代的时候的参数对应的目标网络模型在测试数据集上进行测试,得到的测试样例图如表五所示。
表五
从上表可以看出,使用改进的K-means聚类算法后,网络的准确率与召回率有较明显的上升,对不完整目标的检测效果更好。使用改进后的NMS算法以后,网络的综合性能稍有提升,主要是因为训练数据集中的目标会被NMS错误的抑制掉的只是很少一部分。改进后的网络对不完整的车辆目标与NMS错误抑制的车辆目标的检测效果都有改善。
步骤104,将所述测试数据集输入所述目标网络模型,获得识别后的车辆。
上述车辆目标识别的方法,通过获取数据集,并对所述数据集进行划分,确定训练数据集以及测试数据集;对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得聚类中心;将所述聚类中心作为网络训练的初始候选窗口,基于所述训练数据集对初始网络模型进行训练,获得目标网络模型;将所述测试数据集输入所述目标网络模型,获得识别后的车辆,从而可以提高车辆目标的识别效果,并且可以达到实时检测的目的。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的车辆目标识别的方法,图3示出了本发明实施例提供的车辆目标识别的装置的示例图。如图3所示,该装置可以包括:获取模块301、计算模块302、训练模块303以及识别模块304。
获取模块301,用于获取数据集,并对所述数据集进行划分,确定训练数据集以及测试数据集;
计算模块302,用于对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得聚类中心;
训练模块303,用于将所述聚类中心作为网络训练的初始候选窗口,基于所述训练数据集对初始网络模型进行训练,获得目标网络模型;
识别模块304,用于将所述测试数据集输入所述目标网络模型,获得识别后的车辆。
可选的,所述获取模块301获取数据集时,可以用于:
分别获取不同角度拍摄的不同像素的图片,并将所有图片作为数据集。
可选的,所述计算模块302对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得聚类中心时,可以用于:
采用改进的K-means算法对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得预设数量的聚类中心。
可选的,所述改进的K-means算法聚类采用的距离公式为
d(box,centroid)=1-IOU(box,centroid);
其中,d(box,centroid)表示当前预测框与实际标记的预测框的距离,IOU(box,centroid)表示当前预测框与实际标记的预测框之间的重叠度的值。
可选的,所述训练模块303将所述聚类中心作为网络训练的初始候选窗口,基于所述训练数据集对初始网络模型进行训练,获得目标网络模型时,可以用于:
设置所述聚类中心作为网络训练的初始候选窗口,并将所述训练数据集输入初始网络模型;
对所述训练数据集中的所有图像进行特征提取,分别获得各个图像对应的预设像素的特征图;
将所述各个图像根据所述预设像素划分为对应数量的大小均匀的网格;
根据每个网格内的特征点以及对应的初始候选窗口,确定每个目标待匹配的初始候选窗口;
对所述每个网格内的目标对应的所述待匹配的初始候选窗口进行目标边界框预测,获得目标标记框,输出各个目标标记框;
根据输出所述各个目标标记框采用的模型参数更新所述初始网络模型,获得更新后的网络模型,并确定多次更新后的网络模型中测试平均精度值最高的网络模型为目标网络模型。
可选的,所述训练模块303根据每个网格内的特征点以及对应的初始候选窗口,确定每个目标待匹配的初始候选窗口时,可以用于:
根据每个网格内的特征点以及对应的初始候选窗口,计算各个特征点所在的预测框与对应的实际标记的预测框之间的重叠度值;
确定最大的重叠度值对应的预测框为当前目标对应的待匹配的初始候选窗口。
可选的,所述训练模块303对所述每个网格内的目标对应的所述待匹配的初始候选窗口进行目标边界框预测,获得目标标记框时,可以用于:
根据所述每个网格内的目标对应的所述待匹配的初始候选窗口,采用损失函数和衰减函数对每个网格内的目标的真实标记框进行目标边界框预测,获得每个目标对应的目标边界框;
对每个目标对应的目标边界框进行去重处理,获得优化后的每个目标对应的目标标记框。
可选的,所述损失函数为
其中,Loss表示损失值,λobj表示一个特征点存在于一个初始候选窗口内时的取值,truthw表示真实标记框的宽,truthh表示真实标记框的高,(truthr-predictr)2表示实际与预测之间真实标记框的差异,truthclass表示真实类别,表示预测的类别,(truthconf-predictconf)2表示置信度损失;
所述衰减函数为
其中,lr表示衰减值,lrbase表示预设学习率,γ表示预设系数,iter表示,衰减步长,stepsize表示减少学习率的学习轮数。
可选的,所述训练模块303对每个目标对应的目标边界框进行去重处理,获得优化后的每个目标对应的目标标记框时,可以用于:分别计算当前目标对应的所有目标边界框的置信度,并确定置信度最大的目标边界框;分别计算其他置信度对应的目标边界框与置信度最大的目标边界框的置信度差值;当所述置信度差值大于预设阈值时,去除对应的置信度对应的目标边界框,获得当前目标对应的目标标记框;根据获得当前目标对应的目标标记框的方法获得每个目标对应的目标标记框。
上述车辆目标识别的装置,通过获取模块获取数据集,并对所述数据集进行划分,确定训练数据集以及测试数据集;计算模块对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得聚类中心;将所述聚类中心作为网络训练的初始候选窗口,训练模块基于所述训练数据集对初始网络模型进行训练,获得目标网络模型;识别模块将所述测试数据集输入所述目标网络模型,获得识别后的车辆,从而可以提高车辆目标的识别效果,并且可以达到实时检测的目的。
图4是本发明一实施例提供的终端设备的示意图。如图4所示,该实施例的终端设备400包括:处理器401、存储器402以及存储在所述存储器402中并可在所述处理器401上运行的计算机程序403,例如车辆目标识别的程序。所述处理器401执行所述计算机程序403时实现上述车辆目标识别的方法实施例中的步骤,例如图1所示的步骤101至104,或者图2所示的步骤201至步骤206,所述处理器401执行所述计算机程序403时实现上述各装置实施例中各模块的功能,例如图3所示模块301至304的功能。
示例性的,所述计算机程序403可以被分割成一个或多个程序模块,所述一个或者多个程序模块被存储在所述存储器402中,并由所述处理器401执行,以完成本发明。所述一个或多个程序模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序403在所述车辆目标识别的装置或者终端设备400中的执行过程。例如,所述计算机程序403可以被分割成获取模块301、计算模块302、训练模块303以及识别模块304,各模块具体功能如图3所示,在此不再一一赘述。
所述终端设备400可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器401、存储器402。本领域技术人员可以理解,图4仅仅是终端设备400的示例,并不构成对终端设备400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器401可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器402可以是所述终端设备400的内部存储单元,例如终端设备400的硬盘或内存。所述存储器402也可以是所述终端设备400的外部存储设备,例如所述终端设备400上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器402还可以既包括所述终端设备400的内部存储单元也包括外部存储设备。所述存储器402用于存储所述计算机程序以及所述终端设备400所需的其他程序和数据。所述存储器402还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种车辆目标识别的方法,其特征在于,包括:
获取数据集,并对所述数据集进行划分,确定训练数据集以及测试数据集;
对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得聚类中心;
将所述聚类中心作为网络训练的初始候选窗口,基于所述训练数据集对初始网络模型进行训练,获得目标网络模型;
将所述测试数据集输入所述目标网络模型,获得识别后的车辆。
2.如权利要求1所述的车辆目标识别的方法,其特征在于,所述获取数据集,包括:
分别获取不同角度拍摄的不同像素的图片,并将所有图片作为数据集。
3.如权利要求1所述的车辆目标识别的方法,其特征在于,所述对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得聚类中心,包括:
采用改进的K-means算法对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得预设数量的聚类中心。
4.如权利要求3所述的车辆目标识别的方法,其特征在于,所述改进的K-means算法聚类采用的距离公式为
d(box,centroid)=1-IOU(box,centroid);
其中,d(box,centroid)表示当前预测框与实际标记的预测框的距离,IOU(box,centroid)表示当前预测框与实际标记的预测框之间的重叠度的值。
5.如权利要求4所述的车辆目标识别的方法,其特征在于,所述将所述聚类中心作为网络训练的初始候选窗口,基于所述训练数据集对初始网络模型进行训练,获得目标网络模型,包括:
设置所述聚类中心作为网络训练的初始候选窗口,并将所述训练数据集输入初始网络模型;
对所述训练数据集中的所有图像进行特征提取,分别获得各个图像对应的预设像素的特征图;
将所述各个图像根据所述预设像素划分为对应数量的大小均匀的网格;
根据每个网格内的特征点以及对应的初始候选窗口,确定每个目标待匹配的初始候选窗口;
对所述每个网格内的目标对应的所述待匹配的初始候选窗口进行目标边界框预测,获得目标标记框,输出各个目标标记框;
根据输出所述各个目标标记框采用的模型参数更新所述初始网络模型,获得更新后的网络模型,并确定多次更新后的网络模型中测试平均精度值最高的网络模型为目标网络模型。
6.如权利要求5所述的车辆目标识别的方法,其特征在于,所述根据每个网格内的特征点以及对应的初始候选窗口,确定每个目标待匹配的初始候选窗口,包括:
根据每个网格内的特征点以及对应的初始候选窗口,计算各个特征点所在的预测框与对应的实际标记的预测框之间的重叠度值;
确定最大的重叠度值对应的预测框为当前目标对应的待匹配的初始候选窗口。
7.如权利要求6所述的车辆目标识别的方法,其特征在于,所述对所述每个网格内的目标对应的所述待匹配的初始候选窗口进行目标边界框预测,获得目标标记框,包括:
根据所述每个网格内的目标对应的所述待匹配的初始候选窗口,采用损失函数和衰减函数对每个网格内的目标的真实标记框进行目标边界框预测,获得每个目标对应的目标边界框;
对每个目标对应的目标边界框进行去重处理,获得优化后的每个目标对应的目标标记框。
9.如权利要求7所述的车辆目标识别的方法,其特征在于,所述对每个目标对应的目标边界框进行去重处理,获得优化后的每个目标对应的目标标记框,包括:
分别计算当前目标对应的所有目标边界框的置信度,并确定置信度最大的目标边界框;
分别计算其他置信度对应的目标边界框与置信度最大的目标边界框的置信度差值;
当所述置信度差值大于预设阈值时,去除对应的置信度对应的目标边界框,获得当前目标对应的目标标记框;
根据获得当前目标对应的目标标记框的方法获得每个目标对应的目标标记框。
10.一种车辆目标识别的装置,其特征在于,包括:
获取模块,用于获取数据集,并对所述数据集进行划分,确定训练数据集以及测试数据集;
计算模块,用于对所述训练数据集中的每一个目标的车辆标记框进行聚类计算,获得聚类中心;
训练模块,用于将所述聚类中心作为网络训练的初始候选窗口,基于所述训练数据集对初始网络模型进行训练,获得目标网络模型;
识别模块,用于将所述测试数据集输入所述目标网络模型,获得识别后的车辆。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911167501.8A CN111104965A (zh) | 2019-11-25 | 2019-11-25 | 车辆目标识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911167501.8A CN111104965A (zh) | 2019-11-25 | 2019-11-25 | 车辆目标识别的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111104965A true CN111104965A (zh) | 2020-05-05 |
Family
ID=70420712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911167501.8A Pending CN111104965A (zh) | 2019-11-25 | 2019-11-25 | 车辆目标识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104965A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668497A (zh) * | 2020-12-30 | 2021-04-16 | 南京佑驾科技有限公司 | 一种车辆精准定位与识别方法及系统 |
CN113792733A (zh) * | 2021-09-17 | 2021-12-14 | 平安科技(深圳)有限公司 | 车辆部件检测方法、系统、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304873A (zh) * | 2018-01-30 | 2018-07-20 | 深圳市国脉畅行科技股份有限公司 | 基于高分辨率光学卫星遥感影像的目标检测方法及其系统 |
CN109117794A (zh) * | 2018-08-16 | 2019-01-01 | 广东工业大学 | 一种运动目标行为跟踪方法、装置、设备及可读存储介质 |
CN109325418A (zh) * | 2018-08-23 | 2019-02-12 | 华南理工大学 | 基于改进YOLOv3的道路交通环境下行人识别方法 |
CN109447034A (zh) * | 2018-11-14 | 2019-03-08 | 北京信息科技大学 | 基于YOLOv3网络的自动驾驶中交通标识检测方法 |
CN109446925A (zh) * | 2018-10-08 | 2019-03-08 | 中山大学 | 一种基于卷积神经网络的电力设备检测算法 |
CN109902677A (zh) * | 2019-01-30 | 2019-06-18 | 深圳北斗通信科技有限公司 | 一种基于深度学习的车辆检测方法 |
CN109978035A (zh) * | 2019-03-18 | 2019-07-05 | 西安电子科技大学 | 基于改进的k-means和损失函数的行人检测方法 |
-
2019
- 2019-11-25 CN CN201911167501.8A patent/CN111104965A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304873A (zh) * | 2018-01-30 | 2018-07-20 | 深圳市国脉畅行科技股份有限公司 | 基于高分辨率光学卫星遥感影像的目标检测方法及其系统 |
CN109117794A (zh) * | 2018-08-16 | 2019-01-01 | 广东工业大学 | 一种运动目标行为跟踪方法、装置、设备及可读存储介质 |
CN109325418A (zh) * | 2018-08-23 | 2019-02-12 | 华南理工大学 | 基于改进YOLOv3的道路交通环境下行人识别方法 |
CN109446925A (zh) * | 2018-10-08 | 2019-03-08 | 中山大学 | 一种基于卷积神经网络的电力设备检测算法 |
CN109447034A (zh) * | 2018-11-14 | 2019-03-08 | 北京信息科技大学 | 基于YOLOv3网络的自动驾驶中交通标识检测方法 |
CN109902677A (zh) * | 2019-01-30 | 2019-06-18 | 深圳北斗通信科技有限公司 | 一种基于深度学习的车辆检测方法 |
CN109978035A (zh) * | 2019-03-18 | 2019-07-05 | 西安电子科技大学 | 基于改进的k-means和损失函数的行人检测方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668497A (zh) * | 2020-12-30 | 2021-04-16 | 南京佑驾科技有限公司 | 一种车辆精准定位与识别方法及系统 |
CN113792733A (zh) * | 2021-09-17 | 2021-12-14 | 平安科技(深圳)有限公司 | 车辆部件检测方法、系统、电子设备及存储介质 |
CN113792733B (zh) * | 2021-09-17 | 2023-07-21 | 平安科技(深圳)有限公司 | 车辆部件检测方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109886997B (zh) | 基于目标检测的识别框确定方法、装置及终端设备 | |
CN109522874B (zh) | 人体动作识别方法、装置、终端设备及存储介质 | |
CN108230323B (zh) | 一种基于卷积神经网络的肺结节假阳性筛选方法 | |
CN110321910B (zh) | 面向点云的特征提取方法、装置及设备 | |
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
CN112328715B (zh) | 视觉定位方法及相关模型的训练方法及相关装置、设备 | |
CN110689043A (zh) | 一种基于多重注意力机制的车辆细粒度识别方法及装置 | |
CN111612841A (zh) | 目标定位方法及装置、移动机器人及可读存储介质 | |
CN111126481A (zh) | 一种神经网络模型的训练方法及装置 | |
CN110189341B (zh) | 一种图像分割模型训练的方法、图像分割的方法及装置 | |
CN112364843A (zh) | 插拔式航拍图像目标定位检测方法、系统、设备 | |
US20230401691A1 (en) | Image defect detection method, electronic device and readable storage medium | |
CN109064475A (zh) | 针对宫颈脱落细胞图像的图像分割方法和装置 | |
CN112198878B (zh) | 一种即时地图构建方法、装置、机器人及存储介质 | |
CN111104965A (zh) | 车辆目标识别的方法及装置 | |
CN111353325A (zh) | 关键点检测模型训练方法及装置 | |
CN109359542B (zh) | 基于神经网络的车辆损伤级别的确定方法及终端设备 | |
CN115457364A (zh) | 一种目标检测知识蒸馏方法、装置、终端设备和存储介质 | |
CN113205510B (zh) | 铁路侵限异物检测方法、装置及终端 | |
CN111368860A (zh) | 重定位方法及终端设备 | |
CN110633630B (zh) | 一种行为识别方法、装置及终端设备 | |
CN113139617A (zh) | 一种输电线路自主定位方法、装置及终端设备 | |
US20230401670A1 (en) | Multi-scale autoencoder generation method, electronic device and readable storage medium | |
CN109816709B (zh) | 基于单目摄像头的深度估计方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200505 |
|
RJ01 | Rejection of invention patent application after publication |