CN113869163B

CN113869163B - 目标跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN113869163B
Application number: CN202111100690.4A
Authority: CN
Inventors: 崔书刚; 林凡雨
Original assignee: Beijing Yuandu Internet Technology Co ltd
Current assignee: Beijing Yuandu Internet Technology Co ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2022-08-23
Anticipated expiration: 2041-09-18
Also published as: CN113869163A

Abstract

本申请提供了一种目标跟踪方法、装置、电子设备及存储介质，所述方法包括：获取第一图像帧中的目标所在框的第一坐标以及第一尺寸；基于所述第一坐标以及所述第一尺寸，确定第二图像帧中的目标所在框对应的搜索区域，其中，所述第二图像帧为所述目标的监控视频中处于所述第一图像帧之后的图像帧；在所述第二图像帧的所述搜索区域内生成至少两个候选框；基于所述候选框，确定所述第二图像帧中的目标所在框。本申请实施例能够提高重找回目标的效率。

Description

目标跟踪方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理领域，具体涉及一种目标跟踪方法、装置、电子设备及存储介质。

背景技术

随着图像处理技术的高速发展，在众多领域的应用中，均需要对图像中的目标进行跟踪。例如：在工业领域中，为精准控制机械手的动作，需要对监控视频中的机械手以及被机械手所操作的对象进行实时跟踪。

实际应用中，常常会中途出现丢失目标的情况。例如：目标中途被遮挡物遮挡，导致监控视频中拍摄不到目标。在这种情况下，需要对目标进行重找回。现有技术中，通常采用遍历图像帧中的所有检测框的方式确定目标所在框以实现重找回。这种方式需要耗费大量的时间，效率较低。

发明内容

本申请的一个目的在于提出一种目标跟踪方法、装置、电子设备及存储介质，能够提高重找回目标的效率。

根据本申请实施例的一方面，公开了一种目标跟踪方法，所述方法包括：

获取第一图像帧中的目标所在框的第一坐标以及第一尺寸；

基于所述第一坐标以及所述第一尺寸，确定第二图像帧中的目标所在框对应的搜索区域，其中，所述第二图像帧为所述目标的监控视频中处于所述第一图像帧之后的图像帧；

在所述第二图像帧的所述搜索区域内生成至少两个候选框；

基于所述候选框，确定所述第二图像帧中的目标所在框。

根据本申请实施例的一方面，公开了一种目标跟踪装置，所述装置包括：

获取模块，配置为获取第一图像帧中的目标所在框的第一坐标以及第一尺寸；

第一确定模块，配置为基于所述第一坐标以及所述第一尺寸，确定第二图像帧中的目标所在框对应的搜索区域，其中，所述第二图像帧为所述目标的监控视频中处于所述第一图像帧之后的图像帧；

生成模块，配置为在所述第二图像帧的所述搜索区域内生成至少两个候选框；

第二确定模块，配置为基于所述候选框，确定所述第二图像帧中的目标所在框。

在本申请的一示例性实施例中，所述第一确定模块配置为：

基于所述第一坐标，获取所述搜索区域的搜索中心；

基于所述第一尺寸，获取所述搜索区域的搜索范围；

基于所述搜索中心以及搜索范围，确定所述搜索区域。

在本申请的一示例性实施例中，所述第一确定模块配置为：将所述第一坐标作为所述搜索中心。

在本申请的一示例性实施例中，所述第一确定模块配置为：

获取所述监控视频的图像采集设备的移动速度以及所述目标的对地移动速度；

基于所述第一坐标、所述图像采集设备的移动速度以及所述目标的对地移动速度，获取所述第二图像帧中的目标所在框的预测位置，并将所述预测位置作为所述搜索中心。

在本申请的一示例性实施例中，所述第一确定模块配置为：

基于所述目标的对地移动速度以及所述图像采集设备的移动速度，获取所述目标以图像帧为参考系的移动速度；

基于所述第一坐标、所述目标以图像帧为参考系的移动速度、所述图像采集设备与所述目标之间的拍摄距离、所述图像采集设备在拍摄第一图像帧时的焦距以及所述第二图像帧与所述第一图像帧之间的时间间隔，计算所述第二图像帧中的目标所在框的预测位置。

在本申请的一示例性实施例中，所述第一确定模块配置为：

基于所述图像采集设备的移动速度、第三图像帧中的目标所在框的坐标、第四图像帧中的目标所在框的坐标、所述图像采集设备与所述目标之间的拍摄距离、所述图像采集设备在拍摄第三图像帧时的焦距以及所述第四图像帧与所述第三图像帧之间的时间间隔，计算所述目标的对地移动速度，其中，所述第三图像帧以及所述第四图像帧均为所述监控视频中的历史图像帧，且所述第四图像帧为所述监控视频中处于所述第三图像帧之后的图像帧。

在本申请的一示例性实施例中，所述第一确定模块配置为：

获取第五图像帧中的目标所在框与第六图像帧中的目标所在框之间的距离，其中，所述第五图像帧以及所述第六图像帧均为所述监控视频中的历史图像帧，且所述第六图像帧为所述监控视频中处于所述第五图像帧之后的图像帧；

获取所述第五图像帧中的目标所在框的尺寸与所述距离之间的映射关系；

基于所述第一尺寸以及所述映射关系，计算得到所述搜索范围。

在本申请的一示例性实施例中，所述生成模块配置为：

基于针对所述搜索区域预设的默认框分布模板，确定所述搜索区域内默认框的分布位置；

按照所述默认框的分布位置，在所述第二图像帧的所述搜索区域内生成所述默认框，并将所述默认框作为所述候选框。

在本申请的一示例性实施例中，所述生成模块配置为：

按照所述默认框的分布位置，在所述第二图像帧的所述搜索区域内生成所述默认框；

基于检测算法在所述第二图像帧的所述搜索区域内进行检测，得到检测框；

基于所述默认框与所述检测框之间的交并比，对所述默认框或者所述检测框进行筛选，并将筛选后得到的框作为所述候选框。

在本申请的一示例性实施例中，所述第二确定模块配置为：

计算所述候选框的区域与所述第一图像帧中的目标所在框的区域之间的最大相似度；

计算至少两个历史图像帧中的目标所在框的区域与其各自对应的前一图像帧中的目标所在框的区域之间的平均相似度，其中，所述历史图像帧为所述监控视频中处于所述第二图像帧之前的图像帧；

若所述最大相似度大于或等于所述平均相似度的k倍，则将所述最大相似度对应的候选框作为所述第二图像帧中的目标所在框，其中，所述k大于0且小于等于1。

根据本申请实施例的一方面，公开了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现以上权利要求中的任一项所述的方法。

根据本申请实施例的一方面，公开了一种计算机程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行以上权利要求中的任一项所述的方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

本申请实施例中，基于在前图像帧中的目标所在框的坐标以及尺寸，确定在后图像帧中的目标所在框的搜索区域。该搜索区域的确定，以较少的候选框保证从中确定在后图像帧中的目标框的可靠性，从而提高了在重找回目标的效率。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

通过参考附图详细描述其示例实施例，本申请的上述和其它目标、特征及优点将变得更加显而易见。

图1示出了根据本申请一个实施例的目标跟踪方法的流程图。

图2示出了根据本申请一个实施例的第一图像帧中的目标所在框与第二图像帧中的目标所在框在图像帧上的距离的示意图。

图3示出了根据本申请一个实施例的训练跟踪器的流程示意图。

图4示出了根据本申请一个实施例的目标跟踪的流程图。

图5示出了根据本申请一个实施例的目标跟踪装置的框图。

图6示出了根据本申请一个实施例的电子设备的硬件图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些示例实施方式使得本申请的描述将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本申请的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中，提供许多具体细节从而给出对本申请的示例实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、步骤等。在其它情况下，不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本申请的各方面变得模糊。

附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本申请提出了一种目标跟踪方法，主要通过确定监控视频的图像帧中的目标所在框，从而实现对目标的跟踪。其中，目标所在框指的是在图像帧中圈选出目标所在区域的封闭框。一般的，目标所在框为矩形框，这种情况下，目标所在框的尺寸指的是其宽度以及高度。

在一实施例中，通过带有摄像头的无人机对运动中的目标进行跟踪。该无人机在飞行过程中，通过摄像头拍摄该目标的监控视频，并根据本申请所提出的目标跟踪方法进行目标跟踪，确定图像帧中的目标所在框。

图1示出了本申请一实施例的目标跟踪方法的流程图。该方法包括：

步骤S110、获取第一图像帧中的目标所在框的第一坐标以及第一尺寸；

步骤S120、基于第一坐标以及第一尺寸，确定第二图像帧中的目标所在框对应的搜索区域，其中，第二图像帧为目标的监控视频中处于第一图像帧之后的图像帧；

步骤S130、在第二图像帧的搜索区域内生成至少两个候选框；

步骤S140、基于候选框，确定第二图像帧中的目标所在框。

本申请实施例中，第一图像帧与第二图像帧处于同一监控视频中，第二图像帧处于第一图像帧之后。第一图像帧中的目标所在框已确定，目的在于确定第二图像帧中的目标所在框。

由于第一图像帧中的目标所在框已确定，因此第一图像帧中的目标所在框的坐标同样已确定，即，第一坐标已确定；第一图像帧中的目标所在框的尺寸同样已确定，即，第一尺寸已确定。

为确定第二图像帧中的目标所在框，获取第一坐标以及第一尺寸。进而在此基础上，确定第二图像帧中的目标所在框对应的搜索区域。进而在第二图像帧的该搜索区域内生成多个候选框，进而基于生成的候选框，确定第二图像帧中的目标所在框。

需要指出的是，本申请实施例所提供的目标跟踪方法，优选为对利用跟踪算法进行跟踪时，目标丢失的情况，但本发明并不限于此，若不考虑系统计算压力，可以利用本申请中所提供的目标跟踪方法进行跟踪。

确定跟踪丢失的方法可以参考后面的通过候选框之间相似度的对比，确定第二图像帧中的目标所在框时的方法，若利用跟踪算法确定第二图像帧中的目标所在框时，跟踪算法得到候选目标框，计算各个候选目标框的区域与第一图像帧中的目标所在框的区域之间的相似度，将值最大的相似度确定为最大相似度。若该最大相似度小于预设相似度阈值，则确定第二图像帧中跟踪算法跟踪丢失。其中，该预设相似度阈值还可以通过下面的在候选框之中确定第二图像帧中的目标所在框时所用到的平均相似度的k倍，k为预设的比例因子，大于0且小于等于1。

由此可见，通过本申请实施例所提供的目标跟踪方法，可以在丢失目标的情况下，快速准确地重找回目标。具体的，本申请实施例中，基于在前图像帧中的目标所在框的坐标以及尺寸，确定在后图像帧中的目标所在框的搜索区域。该搜索区域的确定，以较少的候选框保证从中确定在后图像帧中的目标框的可靠性，从而提高了在重找回目标的效率。

在一实施例中，第一图像帧为目标的监控视频中处于第二图像帧之前、且最后一个检测到目标的图像帧。

该实施例中，丢失目标并对目标进行重找回时，可能会出现连续多帧均未能成功重找回目标的情况。在这种情况下，以当前正在进行目标跟踪的图像帧为第二图像帧，以之前最后一个检测到目标的图像帧作为第一图像帧，确定该第二图像帧中的目标所在框，以在该第二图像帧中重找回目标。

例如，记监控视频中N个连续图像帧的编号依次为F₁、F₂、F₃......F_N。

在检测每一图像帧的目标所在框以对目标进行跟踪的过程中，在F_m-1检测到了目标，在F_m丢失了目标。若F_m-1之后连续多帧均未能成功重找回目标，则F_m-1始终为最后一个检测到目标的图像帧，即F_m-1始终为第一图像帧。

在F_m重找回目标的过程中，以F_m-1为第一图像帧，以F_m为第二图像帧，根据本申请提供的方法确定在F_m中的目标所在框。

若在F_m中未能确定目标所在框，即若在F_m中未能成功重找回目标，则在下一帧F_m+1继续重找回目标。

在F_m+1重找回目标的过程中，以F_m-1为第一图像帧，以F_m+1为第二图像帧，根据本申请提供的方法确定在F_m+1中的目标所在框。

同理，在后续图像帧中重找回目标的过程在此不再赘述。

在一实施例中，基于第一坐标，获取搜索区域的搜索中心。基于第一尺寸，获取搜索区域的搜索范围。基于搜索中心以及搜索范围，确定搜索区域。

需要说明的是，搜索区域可以为圆形区域，也可以为多边形区域(例如：矩形区域、五边形区域等)，也可以为其他几何形状区域(例如：椭圆形区域)。

当搜索区域为圆形区域时，其搜索中心为其圆心。搜索范围为搜索半径，其根据第一尺寸确定，进而结合其圆心，确定的圆形区域即为搜索区域。

当搜索区域为多边形区域时，其搜索中心为其几何中心。可以基于第一尺寸确定其几何中心到其各条边的垂线为搜索范围，进而结合其几何中心，确定该多边形区域的搜索区域(例如：确定正方形区域的几何中心到其四条边的垂线为该正方形区域的搜索范围)。也可以基于第一尺寸确定过其几何中心的对角线为搜索范围，进而结合其几何中心，确定该多边形区域的搜索区域(例如：确定正方形区域的过其几何中心的对角线为该正方形的搜索范围，结合其几何中心，确定该正方形区域的搜索区域)。

同理，不再赘述其他情况下搜索范围的物理含义。

在一实施例中，将第一图像帧中的目标所在框的第一坐标直接作为第二图像帧中的目标所在框对应的搜索区域的搜索中心。

在一实施例中，获取监控视频的图像采集设备的移动速度以及目标的对地移动速度。基于第一坐标、图像采集设备的移动速度以及目标的对地移动速度，获取第二图像帧中的目标所在框的预测位置，并将预测位置作为搜索中心。

具体的，目标跟踪的过程中，图像采集设备需要跟随拍摄目标的监控视频，具有一定的移动速度。以地面为参考系，目标移动的同时，图像采集设备也在移动。考虑到目标运动具有连续性，因此，在已知第一图像帧中的目标所在框的第一坐标情况下，结合图像采集设备的移动速度以及目标的对地移动速度，可以预测得到第二图像帧中的目标所在框对应预测位置，从而将该预测位置作为搜索中心。

例如，在利用无人机的吊舱拍摄地面上的行驶的汽车时，汽车相对地面具有移动速度，无人机的吊舱相对于地面也具有移动速度。在已知汽车在第一图像帧中的对地移动速度后，可以预测出该汽车在第二图像帧中的预测位置，将该预测位置作为第二图像帧中的搜索该汽车的搜索区域的搜索中心。

该实施例的优点在于，通过运动学方式预测得到的搜索中心更为准确，从而能够提高重找回的效率。

在一实施例中，可以得到第二图像帧中的目标所在框对应的预测位置，以获取到第二图像帧中的搜索中心。

该实施例中，基于目标的对地移动速度以及图像采集设备的移动速度，获取目标以图像帧为参考系的移动速度。基于第一坐标、目标以图像帧为参考系的移动速度、图像采集设备与目标之间的拍摄距离、图像采集设备在拍摄第一图像帧时的焦距以及第二图像帧与第一图像帧之间的时间间隔，计算第二图像帧中的目标所在框的预测位置。

具体的，图像采集设备的移动速度是指图像采集设备的对地移动速度，可以直接获取到。例如，该图像采集设备为无人机上的吊舱，则该图像采集设备的移动速度即为无人机的移动速度，可以通过无人机的飞控系统直接获取。目标以图像帧为参考系的移动速度，也可以看作目标以监控视频的图像采集设备为参考系的移动速度，例如，目标为地面上行驶的汽车，图像采集设备为无人机的吊舱，则目标以图像帧为参考系的移动速度为汽车相对无人机吊舱的移动速度。

考虑到目标运动具有连续性，因此，在已知第一图像帧中的目标所在框的第一坐标情况下，结合目标以图像帧为参考系的移动速度，可以预测得到第二图像帧中的目标所在框对应的搜索中心。

记图像采集设备与目标之间的拍摄距离为d0(单位：米)，图像采集设备在拍摄第一图像帧时的焦距为f(单位：米)，第二图像帧与第一图像帧之间的时间间隔为t，第一图像帧中的目标所在框与第二图像帧中的目标所在框在图像帧上的距离为d1(单位：像素)，目标的移动距离为d2(单位：米)，目标以图像帧为参考系的移动速度为V_图像，目标的对地移动速度为V_地面，目标采集设备的移动速度为V_设备。

则可以得到以下公式。

V_图像＝_地面+V_设备

由此可见，根据上述公式求得第一图像帧中的目标所在框与第二图像帧中的目标所在框在图像帧上的距离为d1后，结合第一坐标，即可计算得到第二图像帧中的目标所在框的预测位置。

需要说明的是，第一图像帧中的目标所在框与第二图像帧中的目标所在框在图像帧上的距离，指的是在图像帧所处运动空间中，目标所在框从第一图像帧所在位置移动到第二图像帧所在位置的距离，单位为像素。

图2示出了本申请一实施例中第一图像帧中的目标所在框与第二图像帧中的目标所在框在图像帧上的距离的示意图。

参考图2所示，目标为地面上行驶的车辆，为了便于图示，将图中车辆与其目标所在框等同视之。

道路上的虚线轮廓车辆为过去t1时刻的车辆，道路上的实线轮廓车辆为当前t2时刻的车辆。t1～t2期间，车辆的移动距离为d2(单位：米)。

图像采集设备在过去t1时刻采集到了第一图像帧，紧接着在当前t2时刻采集到了第二图像帧。参考第一图像帧以及第二图像帧中共同包含的道路上的圆形标识物，可见，从第一图像帧到第二图像帧，图像采集设备在跟随车辆运动。

将第一图像帧与第二图像帧拼接至图像帧所处运动空间中，可见，在图像帧所处运动空间中，第一图像帧中的车辆与第二图像帧中的车辆的距离d1(单位：像素)包含有一段由虚线道路所示的距离。该虚线道路所示的距离为图像采集设备的运动在图像帧所处运动空间所引起的偏移距离。

在一实施例中，可以通过计算得到目标的对地移动速度。

该实施例中，基于图像采集设备的移动速度、第三图像帧中的目标所在框的坐标、第四图像帧中的目标所在框的坐标、图像采集设备与目标之间的拍摄距离、图像采集设备在拍摄第三图像帧时的焦距以及第四图像帧与第三图像帧之间的时间间隔，计算目标的对地移动速度，其中，第三图像帧以及第四图像帧均为监控视频中的历史图像帧，且第四图像帧为监控视频中处于第三图像帧之后的图像帧。

具体的，历史图像帧中的目标所在框是已确定的，因此历史图像帧中的目标所在框之间的坐标之差以及历史图像帧之间的时间间隔也是能够确定的。结合图像采集设备的移动速度、图像采集设备与目标之间的拍摄距离以及图像采集设备在拍摄在前历史图像帧时的焦距，基于小孔成像模型，可以计算得到目标的对地移动速度。

记图像采集设备与目标之间的拍摄距离为d0′(单位：米)，图像采集设备在拍摄第三图像帧时的焦距为f′(单位：米)，第四图像帧与第三图像帧之间的时间间隔为t′，第三图像帧中的目标所在框与第四图像帧中的目标所在框在图像帧上的距离为d1′(单位：像素)，目标的移动距离为d2′(单位：米)，目标以图像帧为参考系的移动速度为V′_图像，目标的对地移动速度为V′_地面，目标采集设备的移动速度为V′_设备。

则可以得到以下公式。

V′_地面＝V′_图像-V′_设备

由此可见，基于第三图像帧中的目标所在框的坐标与第四图像帧中的目标所在框的坐标求得d1′后，即可求得V′_图像，结合V′_设备，即可计算得到目标的对地移动速度。

在一实施例中，第四图像帧为第一图像帧的前一图像帧，第三图像帧为第四图像帧的前一图像帧。

在一实施例中，获取第五图像帧中的目标所在框与第六图像帧中的目标所在框之间的距离，其中，第五图像帧以及第六图像帧均为监控视频中的历史图像帧，且第六图像帧为监控视频中处于第五图像帧之后的图像帧。获取第五图像帧中的目标所在框的尺寸与距离之间的映射关系。基于第一尺寸以及映射关系，计算得到搜索范围。

具体的，历史图像帧中的目标所在框是已确定的，因此在前历史图像帧中的目标所在框的尺寸以及在后历史图像帧中的目标所在框之间的距离也是能够确定的。在此基础上，获取尺寸与距离之间的映射关系。进而在得到第一图像帧中的目标所在框的第一尺寸后，结合该映射关系，可以计算得到第二图像帧中的目标所在框与第一图像帧中的目标所在框之间的距离，即可在此基础上计算得到搜索范围。

需要说明的是，该实施例中的第五图像帧优选为根据跟踪算法能够确定出目标所在框的图像帧，第六图像帧优选为根据该跟踪算法跟踪丢失重找回目标后的历史图像帧。并且，该实施例中的第五图像帧以及第六图像帧，与上述实施例中的第三图像帧以及第四图像帧并无必然的前后顺序。

进一步需要说明的是，第五图像帧中的目标所在框与第六图像帧中的目标所在框所圈选目标与第一图像帧中的目标所在框与第二图像帧中的目标所在框所圈选目标为同一目标，且优选为在同一次跟踪过程中图像采集设备所拍摄的处于第一图像帧之前拍摄的图像帧。

在一实施例中，通过机器学习模型的方式获取尺寸与距离之间的映射关系。

该实施例中，以第五图像帧中的目标所在框的尺寸为输入，以第五图像帧中的目标所在框与第六图像帧中的目标所在框之间的距离为目标输出，对机器学习模型进行训练，得到训练后机器学习模型。训练后机器学习模型可用于描述尺寸与距离之间的映射关系。进而将第一尺寸输入训练后机器学习模型，得到训练后机器学习模型输出的搜索范围。

在此基础上训练得到的机器学习模型能够根据在前图像帧中的目标所在框的尺寸，准确地预测得到在后图像帧中的目标所在框对应的搜索范围。从而该机器学习模型能够以第一尺寸预测得到第二图像帧中的目标所在框对应的搜索范围。

在一实施例中，通过数学模型的方式获取尺寸与距离之间的映射关系。

该实施例中，可以预先建立用于描述尺寸与距离之间的映射关系的数学模型。

进而根据第五图像帧中的目标所在框的尺寸以及第五图像帧中的目标所在框与第六图像帧中的目标所在框之间的距离，对该数学模型的模型参数进行调整，使得该数学模型能够在所允许的输出误差内，根据输入的尺寸输出对应的距离。

进而可以将第一图像帧中的目标所在框的第一尺寸输入该数学模型，由该数学模型输出第二图像帧对应的搜索范围。

在一实施例中，预先建立的数学模型如下。

Pos_distance＝a*log(w*h)-b

其中，w为在前图像帧中的目标所在框的宽度尺寸，h为在前图像帧中的目标所在框的高度尺寸，Pos_distance为在后图像帧中的目标所在框相比于在前图像帧中的目标所在框的距离。a与b均为待确定的模型参数。

通过多组[w、h、Pos_distance]数据的训练，不断调整a与b，直到该数学模型能够在所允许的输出误差内，根据输入的[w、h]，输出对应的Pos_distance。训练完成后的该数学模型，其a与b一般为常数。

通过尺寸确定搜索范围，提高了所得到的搜索范围的准确度，从而进一步提高了目标重找回的准确度。

需要指出的是，在利用样本对上述数学模型进行训练的过程中，前后两帧样本之间的采集频率与第一图像帧以及第二图像帧的采集频率相同。例如，第一图像帧与第二图像帧之间的间隔帧数为2帧，那么在对上述数学模型进行训练时，前后两帧样本帧之间的间隔帧数也为2帧。

可以理解的，采集监控视频的图像采集设备在丢失目标时，随着时间的推移，第一图像帧与第二图像帧之间间隔的帧数不同，搜索范围也会不同，因此本申请中采用与第一图像帧与第二图像帧之间间隔帧数相同的样本来确定尺寸与搜索范围之间的映射关系。

因此，通过在帧数以及尺寸的基础上确定搜索范围，提高了所得到的搜索范围的准确度，从而进一步提高了目标重找回的准确度。

在一实施例中，通过机器学习模型的方式获取帧数、尺寸与距离之间的映射关系。

该实施例中，获取第五图像帧与第六图像帧之间间隔的帧数。进而以第五图像帧与第六图像帧之间间隔的帧数以及第五图像帧中的目标所在框的尺寸为输入，以第五图像帧中的目标所在框与第六图像帧中的目标所在框之间的距离为目标输出，对机器学习模型进行训练，得到训练后机器学习模型。训练后机器学习模型可用于描述帧数、尺寸与距离之间的映射关系。进而将第一图像帧与第二图像帧之间间隔的帧数以及第一尺寸输入训练后机器学习模型，得到训练后机器学习模型输出的搜索范围。

在一实施例中，通过数学模型的方式获取帧数、尺寸与距离之间的映射关系。

可以理解的，该实施例的实施过程与“通过数学模型的方式获取尺寸与距离之间的映射关系”的实施过程同理，故在此不再赘述。

在一实施例中，通过预设默认框分布模板的方式，在第二图像帧的搜索区域内生成候选框。

该实施例中，基于针对搜索区域预设的默认框分布模板，确定搜索区域内默认框的分布位置。按照默认框的分布位置，在第二图像帧的搜索区域内生成默认框，并将默认框作为候选框。

具体的，默认框分布模板用于描述搜索区域内默认框的分布位置。例如：搜索区域为矩形区域，默认框分布模板将该矩形区域的4个角描述为4个待生成默认框各自的坐标。

其中，默认框的尺寸参数可以是预设的，也可以是基于第一图像帧中的目标所在框的第一尺寸参数调整得到的。进而结合默认框的分布位置，在该搜索区域内生成默认框，并将默认框作为候选框。

在一实施例中，第一图像帧中的目标所在框A的坐标为(x1,y1)。基于目标所在框A的第一尺寸，预测第二图像帧中的目标所在框与目标所在框A之间的距离Pos_distance。

根据默认框分布模板的描述，通过如下所示公式确定得到4个默认框B1、B2、B3以及B4的坐标。

B1＝(x1,y1-Pos_distance)

B2＝(x1,y1+Pos_distance)

B3＝(x1-Pos_distance,y1)

B4＝(x1+Pos_distance,y1)

进而在第二图像帧中生成该4个默认框，并将该4个默认框作为候选框，以确定第二图像帧中的目标所在框B。

在一实施例中，通过检测算法的方式，在第二图像帧的搜索区域内生成候选框。

该实施例中，基于检测算法在第二图像帧的搜索区域内进行检测，得到检测框，并将检测框作为候选框。

具体的，预设的检测算法指的是用于检测目标所在区域，进而生成检测框的算法。检测框指的是采用该检测算法生成的封闭框。

该检测算法可以为yolov(You Only Look Once)系列算法。其中，yolov系列算法包括：yolov1、yolov2以及yolov3等。

需要指出的是，利用检测算法在第二图像帧的搜索区域内生成的候选框的数目可以多于两个或少于两个，当检测算法在第二图像帧的搜索区域内生成的候选框的数目多于两个时，可以仅通过检测算法在第二图像帧的搜索区域内进行检测，得到检测框，并将检测框作为候选框。

在一实施例中，通过预设默认框分布模板结合检测算法的方式，在第二图像帧的搜索区域内生成候选框。

该实施例中，基于针对搜索区域预设的默认框分布模板，确定搜索区域内默认框的分布位置。按照默认框的分布位置，在第二图像帧的搜索区域内生成默认框。基于检测算法在第二图像帧的搜索区域内进行检测，得到检测框。基于默认框与检测框之间的交并比，对默认框或者检测框进行筛选，并将筛选后得到的框作为候选框。

具体的，生成默认框的同时，可以并列地生成检测框。进而基于默认框与检测框之间的交并比，对默认框或者检测框进行筛选，并将筛选后得到的框作为候选框。

其中，在筛选时，可以仅对默认框进行筛选，进而将筛选后得到的剩余默认框作为候选框；也可以仅对检测框进行筛选，进而将筛选后得到的剩余检测框作为候选框；也可以同时对默认框以及检测框进行筛选，进而将筛选后得到的剩余默认框以及剩余检测框作为候选框。

该实施例的优点在于，通过将默认框与检测框相结合进行筛选，进而基于筛选所得到的候选框确定第二图像帧中的目标所在框，提高了目标重找回的鲁棒性。

在一实施例中，仅对默认框进行筛选，进而将筛选后得到的剩余默认框作为候选框。

具体的，计算各个默认框与检测框的交并比(Intersection Over Union)IOU。

若一个默认框对应的IOU大于或等于预设交并比阈值，则将该默认框剔除掉；若一个默认框对应的IOU小于该交并比阈值，则将该默认框作为一个候选框。

需要说明的是，该实施例中，除了将筛选后得到的剩余默认框作为候选框外，还可以将所有检测框均作为候选框。

同理，不再赘述仅对检测框进行筛选，进而将筛选后得到的剩余检测框作为候选框的实施过程。

在一实施例中，同时对默认框以及检测框进行筛选，进而将筛选后得到的剩余默认框以及剩余检测框作为候选框。

该实施例中，若一个默认框对应的IOU大于或等于预设交并比阈值，则将该默认框剔除掉；若一个默认框对应的IOU小于该交并比阈值，则将该默认框作为一个候选框。

并且，若一个检测框对应的IOU大于或等于该交并比阈值，则将该检测框剔除掉；若一个检测框对应的IOU小于该交并比阈值，则将该检测框作为一个候选框。

在一实施例中，通过候选框之间相似度的对比，确定第二图像帧中的目标所在框。

该实施例中，生成多个候选框后，计算各个候选框的区域与第一图像帧中的目标所在框的区域之间的相似度，将值最大的相似度确定为最大相似度。若该最大相似度大于预设相似度阈值，则将该最大相似度对应的候选框确定为第二图像帧中的目标所在框。

在一实施例中，基于候选框与历史图像帧中的目标所在框之间相似度的对比，确定第二图像帧中的目标所在框。

该实施例中，计算候选框的区域与第一图像帧中的目标所在框的区域之间的最大相似度。计算至少两个历史图像帧中的目标所在框的区域与其各自对应的前一图像帧中的目标所在框的区域之间的平均相似度，其中，历史图像帧为监控视频中处于第二图像帧之前的图像帧。若最大相似度大于或等于平均相似度的k倍，则将最大相似度对应的候选框作为第二图像帧中的目标所在框，其中，k大于0且小于等于1。

具体的，从第二图像帧之前的多个历史图像帧中，获取各个历史图像帧中的目标所在框，计算各个历史图像帧中的目标所在框的区域与其各自对应的前一图像帧中的目标所在框的区域之间的相似度，并进行平均，得到平均相似度。

若该最大相似度大于或等于该平均相似度的k倍，则将该最大相似度对应的候选框确定为第二图像帧中的目标所在框。k为预设的比例因子，大于0且小于等于1。

例如：记候选框的区域与第一图像帧中的目标所在框的区域之间的最大相似度为pv。记历史图像帧中的目标所在框对应的平均相似度为apv。记预设的比例因子为k。

当flag_refind为1时，将最大相似度对应的候选框确定为第二图像帧中的目标所在框，在第二图像帧中成功重找回目标。

当flag_refind为0时，任一候选框均非第二图像帧中的目标所在框，在第二图像帧中未能成功重找回目标。

在一实施例中，基于候选框的类型，确定第二图像帧中的目标所在框。

该实施例中，获取目标的类型，以及各个候选框的类型。基于与目标的类型相同的候选框，确定第二图像帧中的目标所在框。

具体的，目标的类型，指的是对目标的所属类别。候选框的类型，指的是候选框的区域所包含客体的所属类别。类型不同，说明候选框的区域所包含客体不是目标，故将其舍弃。仅基于类型相同的候选框，确定第二图像帧中的目标所在框。

该实施例的优点在于，通过类型对候选框进行筛选，提高了类型相同的候选框的有效程度，从而进一步提高了目标跟踪的速度与准确度，也便进一步提高了目标重找回的效率。

需要指出的是，若该第二图像帧中未确定出目标所在框，可以继续提取其他图像帧，利用本申请中提出的目标跟踪方法在其他图像帧中确定目标所在框，从而实现目标在跟踪算法跟踪丢失后重新找回目标。

在一实施例中，采用训练完成的跟踪器进行目标检测以实现目标跟踪。该跟踪器一般通过机器学习模型的方式训练得到。

该实施例中，跟踪器主要以各个检测框的图像的特征为输入，从而确定目标所在框。当跟踪器未在任一检测框中检测到目标时，说明跟踪器丢失了目标，则通过本申请所提供的目标跟踪方法对目标进行重找回。

图3示出了本申请一实施例中训练跟踪器的流程示意图。

该实施例中，图像帧中目标所在框的坐标以及尺寸事先已确定。根据目标所在框的坐标以及尺寸，从图像帧中提取出目标所在框的区域的特征。并通过初始化投影矩阵对目标所在框的区域的特征进行降维处理，从而提高跟踪器的训练效率。

进而对目标所在框的图像的特征进行余弦窗处理、傅里叶变换等预处理操作，并将预处理操作后的特征作为新样本添加至跟踪器的训练集中。

进而采用添加了新样本的训练集对跟踪器进行训练，得到训练完成的跟踪器。

在一实施例中，目标所在框的图像的特征为HOG(Histogram of OrientedGradient，梯度直方图)特征以及CN(Color Name，颜色)特征。

在一实施例中，训练完成的跟踪器按照ECO跟踪(Efficient ConvolutionOperators for Tracking，高效卷积跟踪)算法自动跟踪监控视频中的目标。

图4示出了本申请一实施例的目标跟踪的流程图。

该实施例中，获取到当前图像帧后，跟踪器在前一图像帧所确定的目标的位置附近提取特征，并进行降维处理、余弦窗处理、傅里叶变换等处理。进而跟踪器基于得到的处理后特征，在当前图像帧中进行目标跟踪。

若跟踪器未丢失目标，即，跟踪器在当前图像帧中检测到了目标，则返回当前图像中的目标所在框的坐标以及尺寸，以在后续图像帧中继续对目标进行检测。

若跟踪器丢失了目标，即，跟踪器在当前图像帧中未检测到目标，则对目标进行重找回。

重找回的过程：确认是否开启了检测算法(例如：yolov系列算法)。若未开启检测算法，则根据本申请实施例提供的方法在当前图像帧对应的搜索区域生成多个默认框，并将默认框作为候选框，进而基于候选框确定当前图像帧中的目标所在框。若开启了检测算法，则得到由检测算法在当前图像帧的搜索区域生成的检测框，进而基于默认框以及检测框确定候选框，进而基于候选框确定当前图像帧中的目标所在框。

若重找回未成功，则不更新当前图像帧中的目标所在框的坐标以及尺寸，将前一图像帧中的目标所在框的坐标以及尺寸作为当前图像帧中的目标所在框的坐标以及尺寸并返回。

若重找回成功，则更新当前图像帧中的目标所在框的坐标以及尺寸，并返回当前图像帧中的目标所在框的坐标以及尺寸。

图5示出了根据本申请一实施例的目标跟踪装置，所述装置包括：

获取模块210，配置为获取第一图像帧中的目标所在框的第一坐标以及第一尺寸；

第一确定模块220，配置为基于所述第一坐标以及所述第一尺寸，确定第二图像帧中的目标所在框对应的搜索区域，其中，所述第二图像帧为所述目标的监控视频中处于所述第一图像帧之后的图像帧；

生成模块230，配置为在所述第二图像帧的所述搜索区域内生成至少两个候选框；

第二确定模块240，配置为基于所述候选框，确定所述第二图像帧中的目标所在框。

在本申请的一示例性实施例中，所述第一确定模块配置为：

基于所述第一坐标，获取所述搜索区域的搜索中心；

基于所述第一尺寸，获取所述搜索区域的搜索范围；

基于所述搜索中心以及搜索范围，确定所述搜索区域。

在本申请的一示例性实施例中，所述第一确定模块配置为：

在本申请的一示例性实施例中，所述生成模块配置为：

在本申请的一示例性实施例中，所述第二确定模块配置为：

下面参考图6来描述根据本申请实施例的电子设备30。图6显示的电子设备30仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，电子设备30以通用计算设备的形式表现。电子设备30的组件可以包括但不限于：上述至少一个处理单元310、上述至少一个存储单元320、连接不同系统组件(包括存储单元320和处理单元310)的总线330。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元310执行，使得所述处理单元310执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元310可以执行如图1中所示的各个步骤。

存储单元320可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)3201和/或高速缓存存储单元3202，还可以进一步包括只读存储单元(ROM)3203。

存储单元320还可以包括具有一组(至少一个)程序模块3205的程序/实用工具3204，这样的程序模块3205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线330可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备30也可以与一个或多个外部设备400(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备30交互的设备通信，和/或与使得该电子设备30能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口350进行。输入/输出(I/O)接口350与显示单元340相连。并且，电子设备30还可以通过网络适配器360与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器360通过总线330与电子设备30的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。

在本申请的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行上述方法实施例部分描述的方法。

根据本申请的一个实施例，还提供了一种用于实现上述方法实施例中的方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如JAVA、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由所附的权利要求指出。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

获取第一图像帧中的目标所在框的第一坐标以及第一尺寸；

基于所述第一坐标，确定第二图像帧中的目标所在框对应的搜索区域的搜索中心，其中，所述第二图像帧为所述目标的监控视频中处于所述第一图像帧之后的图像帧；

基于所述第一尺寸以及所述映射关系，计算得到所述搜索区域的搜索范围；

基于所述搜索中心以及所述搜索范围，确定所述搜索区域；

在所述第二图像帧的所述搜索区域内生成至少两个候选框；

基于所述候选框，确定所述第二图像帧中的目标所在框。

2.根据权利要求1所述的方法，其特征在于，基于所述第一坐标，确定第二图像帧中的目标所在框对应的搜索区域的搜索中心，包括：将所述第一坐标作为所述搜索中心。

3.根据权利要求1所述的方法，其特征在于，基于所述第一坐标，确定第二图像帧中的目标所在框对应的搜索区域的搜索中心，包括：

4.根据权利要求3所述的方法，其特征在于，基于所述第一坐标、所述图像采集设备的移动速度以及所述目标的对地移动速度，获取所述第二图像帧中的目标所在框的预测位置，包括：

5.根据权利要求3所述的方法，其特征在于，获取所述目标的对地移动速度，包括：

6.根据权利要求1所述的方法，其特征在于，在所述第二图像帧的所述搜索区域内生成至少两个候选框，包括：

7.根据权利要求1所述的方法，其特征在于，在所述第二图像帧的所述搜索区域内生成至少两个候选框，包括：

8.根据权利要求1所述的方法，其特征在于，基于所述候选框，确定所述第二图像帧中的目标所在框，包括：

9.一种目标跟踪装置，其特征在于，所述装置包括：

第一确定模块，配置为基于所述第一坐标，确定第二图像帧中的目标所在框对应的搜索区域的搜索中心，其中，所述第二图像帧为所述目标的监控视频中处于所述第一图像帧之后的图像帧；

距离获取模块，配置为获取第五图像帧中的目标所在框与第六图像帧中的目标所在框之间的距离，其中，所述第五图像帧以及所述第六图像帧均为所述监控视频中的历史图像帧，且所述第六图像帧为所述监控视频中处于所述第五图像帧之后的图像帧；

映射获取模块，配置为获取所述第五图像帧中的目标所在框的尺寸与所述距离之间的映射关系；

范围计算模块，配置为基于所述第一尺寸以及所述映射关系，计算得到所述搜索区域的搜索范围；

区域确定模块，配置为基于所述搜索中心以及所述搜索范围，确定所述搜索区域；

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1至8中的任一个所述的方法。