CN110942037A - 一种用于视频分析中的动作识别方法 - Google Patents

一种用于视频分析中的动作识别方法 Download PDF

Info

Publication number
CN110942037A
CN110942037A CN201911200563.4A CN201911200563A CN110942037A CN 110942037 A CN110942037 A CN 110942037A CN 201911200563 A CN201911200563 A CN 201911200563A CN 110942037 A CN110942037 A CN 110942037A
Authority
CN
China
Prior art keywords
pooling
optical flow
fusion
video
equal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911200563.4A
Other languages
English (en)
Inventor
王敏
吴敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201911200563.4A priority Critical patent/CN110942037A/zh
Publication of CN110942037A publication Critical patent/CN110942037A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于视频分析中的动作识别方法,包括如下步骤:(1)获取动作视频,将其处理成静止视频帧,计算叠加光流图;(2)采用步骤(1)中获得的静止图像帧数据以及光流图作为输入分别进行训练,学习特征;(3)对于步骤(2)中卷积层的时空特征进行卷积计算进行融合,并且进行3D池化,同时光流网络不截断,进行3D池化后继续提取特征;(4)将步骤(3)中得到的融合特征与光流特征进行平均计算融合;(5)根据损失函数对网络迭代训练,直至模型结果收敛。本发明能够在有限的时间规模内,尽量多的获取视频中的信息,从而增加网络的鲁棒性以及提高识别的准确率。

Description

一种用于视频分析中的动作识别方法
技术领域
本发明涉及视频分析技术领域,尤其是一种用于视频分析中的动作识别方法。
背景技术
随着多媒体时代的到来,共享视频变得更加普遍,网络上视频的传播与获取变得越来越便捷,使得视频数据的数量急剧上升。针对数量巨大的视频数据,如何分析和利用这些数据的内容成为计算机视觉领域内的一个具有重要意义和研究价值的难题。视频分析人体动作的目标是获取视频中的图像序列,训练学习并且分析理解其中人的行为动作的含义。因此动作识别在信息获取、视频监控、人机交互等各个领域有着广泛的应用价值。
由于卷积神经网络在计算机视觉领域内的图像应用上得到了很好的成果,由此,研究学者们将其应用于视频分析来进行动作识别中的特征提取。单是获取视频图像中的空间、纹理、背景等静态信息对于复杂的识别任务是不够的,所以需要捕捉更多的动态信息,光流能够对视频中的时间信息有效地提取,被广泛地应用于视频分析任务中。
视频分析动作识别的重要研究内容之一是如何充分利用视频中的图像信息以及运动信息,同时这也是研究过程中亟需解决的难题。动作识别的主要目标是通过学习视频图像中人物的运动模式,将其与动作类别之间建立对应关系,从而实现理解人物的动作。因此首先需要解决如何充分提取融合视频中的图像和运动特征信息这一难点,才能够以此为基础进行后续的学习训练和分类识别。由此本发明增加了卷积融合层将提取到的时空特征融合并进行3D池化,同时不截断时间流,将训练后得到的融合时空流以及时间流再次融合,从像素水平对空间信息和时间信息建立起对应关系,从而实现更有效的特征融合。
发明内容
本发明所要解决的技术问题在于,提供一种用于视频分析中的动作识别方法,能够在有限的时间规模内,尽量多的获取视频中的信息,从而增加网络的鲁棒性以及提高识别的准确率。
为解决上述技术问题,本发明提供一种用于视频分析中的动作识别方法,包括如下步骤:
(1)获取动作视频,将其处理成静止视频帧,计算叠加光流图;
(2)采用步骤(1)中获得的静止图像帧数据以及光流图作为输入分别进行训练,学习特征;
(3)对于步骤(2)中卷积层的时空特征进行卷积计算进行融合,并且进行3D池化。同时光流网络不截断,进行3D池化后继续提取特征;
(4)将步骤(3)中得到的融合特征与光流特征进行平均计算融合;
(5)根据损失函数对网络迭代训练,直至模型结果收敛。
优选的,步骤(1)中,计算叠加光流图具体包括如下步骤:
(11)首先计算光流图的光流矢量;对于连续帧t和t+1,它们之间的一组位移矢量场表示为dt,在第t帧的像素点(u,v)处的位移矢量使用dt(u,v)表示,它表示该像素点从第t帧移动到第t+1帧的对应像素点的位移矢量;
(12)将长度为L的连续帧矢量场的水平分量
Figure BDA0002295785040000021
和垂直分量
Figure BDA0002295785040000022
叠加起来,形成总长为2L的输入光流矢量
Figure BDA0002295785040000023
用来表示连续帧间的运动信息:
Figure BDA0002295785040000024
Figure BDA0002295785040000025
其中,u=[1,W],v=[1,H],k=[1,L],W和H为视频的宽度和高度,对于任意像素点(u,v),叠加光流矢量表示为Iτ(u,v,c),c=[1,2L]是对长度为L的帧序列中该像素点运动信息的编码。
优选的,步骤(3)中,对于步骤(2)中卷积层的时空特征进行卷积计算进行融合,并且进行3D池化,同时光流网络不截断,进行3D池化后继续提取特征具体包括如下步骤:
在时间t融合两个网络中的特征图
Figure BDA0002295785040000026
Figure BDA0002295785040000027
其融合函数表示为f∶
Figure BDA0002295785040000028
从而产生一张输出特征图为
Figure BDA0002295785040000029
其中W,H,D分别表示的是特征图的宽,高以及相对应的特征图的通道数;
(31)首先在通道d上的相同空间位置i,j堆叠两个特征图:
Figure BDA00022957850400000210
其中
Figure BDA00022957850400000211
(32)对于步骤(31)中得到的堆叠后的特征图ycat=fcat(xa,xb),将其与过滤器
Figure BDA0002295785040000031
以及偏移参数
Figure BDA0002295785040000032
在相同的空间位置i,j和特征通道d,进行卷积计算yconv=fconv(xa,xb),卷积融合表示为:
yconv=ycat*f+b,
其输出结果的通道数为D,过滤器的维度是1×1×2D,其中1≤i≤H,1≤j≤W,1≤d≤D,同时,xa,xb,
Figure BDA0002295785040000033
这里的过滤器f用于将维度减少2倍,并且能够在相同的空间位置上对两个特征图xa,xb进行加权组合;
(33)对于步骤(31)中得到的融合后的时空特征图进行3D池化,将时间t=1...T上的时空特征图叠加起来,得到输入
Figure BDA0002295785040000034
采用大小为W′×H′×T′的池化窗口对其进行最大池化操作;
(34)对于卷积融合前的光流特征进行3D池化,同步骤(33),将2D池化扩展到时间域。
本发明的有益效果为:本发明将视频中的图像特征与运动特征结合起来用于识别,采用光流图提取的运动信息对于视频图像的RGB通道的缩放、更改有着不变性,能够更好地提取视频中运动物体的边缘以及中间区域的运动信息,避免网络仅被图像信息主导;卷积融合加3D池化的方式能够根据空间和时间特征的对应关系,从像素级别融合时空信息,在有限的时间规模内,尽量多地获取视频中的信息,从而增加网络的鲁棒性以及提高识别的准确率。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的网络结构示意图。
具体实施方式
如图1所示,一种用于视频分析中的动作识别方法,包括如下步骤:
步骤1:获取动作视频,将其处理成静止视频帧,计算叠加光流图。计算叠加光流图具体包括以下步骤:
步骤101:首先计算光流图的光流矢量。对于连续帧t和t+1,它们之间的一组位移矢量场表示为dt。在第t帧的像素点(u,v)处的位移矢量使用dt(v,v)表示,它表示该像素点从第t帧移动到第t+1帧的对应像素点的位移矢量。
步骤102:将长度为L的连续帧矢量场的水平分量
Figure BDA0002295785040000035
和垂直分量
Figure BDA0002295785040000036
叠加起来,形成总长为2L的输入光流矢量
Figure BDA0002295785040000041
用来表示连续帧间的运动信息:
Figure BDA0002295785040000042
Figure BDA0002295785040000043
其中,u=[1,W],v=[1,H],k=[1,L],W和H为视频的宽度和高度。对于任意像素点(u,v),叠加光流矢量Iτ(u,v,c),c=[1,2L]是对长度为L的帧序列中该像素点运动信息的编码。
步骤2:采用步骤1中获得的静止图像帧数据以及光流图作为输入分别提取特征。特征提取包括三层卷积和池化交替,紧接着三层卷积层以及ReLu激活函数。
步骤3:对于步骤2中卷积层的时空特征进行卷积计算进行融合。同时光流网络不截断,进行3D池化后继续提取特征。具体包括以下步骤:
在时间t融合两个网络中的特征图
Figure BDA0002295785040000044
Figure BDA0002295785040000045
其融合函数表示为f∶
Figure BDA0002295785040000046
从而产生一张输出特征图为
Figure BDA0002295785040000047
其中W,H,D分别表示的是特征图的宽,高以及相对应的特征图的通道数。
步骤301:首先在通道d上的相同空间位置i,j堆叠两个特征图:
Figure BDA0002295785040000048
其中
Figure BDA0002295785040000049
步骤302:对于步骤201中得到的堆叠后的特征图ycat=fcat(xa,xb),将其与过滤器
Figure BDA00022957850400000410
以及偏移参数
Figure BDA00022957850400000411
在相同的空间位置i,j和特征通道d,进行卷积计算yconv=fconv(xa,xb),卷积融合表示为yconv=ycat*f+6,输出结果的通道数为D,过滤器的维度是1×1×2D,其中1≤i≤H,1≤j≤W,1≤d≤D,同时,xa,xb,
Figure BDA00022957850400000412
这里的过滤器f用于将维度减少2倍,并且能够在相同的空间位置上对两个特征图xa,xb进行加权组合。
步骤303:对于步骤301中得到的融合后的时空特征图进行3D池化。将时间t=1...T上的时空特征图叠加起来,得到输入
Figure BDA00022957850400000413
采用大小为W′×H′×T′的池化窗口对其进行最大池化操作。
步骤304:对于卷积融合前的光流特征进行3D池化,同步骤303,将2D池化扩展到时间域。
步骤4:将步骤3中得到的融合特征与光流特征进行平均计算融合。
步骤5:根据损失函数对网络迭代训练,直至模型结果收敛。
损失函数采用交叉熵损失函数:E(a,y)=-∑j aj log yj,其中aj表示目标标签值,yj表示输出值。
网络融合能够更加充分地利用时空信息,简单的平均、相加或是最大融合对时序信息并不敏感,这说明融合过程中没有获得很多的时序信息。而卷积融合加3D池化的方式能够根据空间和时间特征的对应关系,从像素级别融合时空信息,在有限的时间规模内,尽量多地获取视频中的信息,避免网络仅被图像信息主导,从而增加网络的鲁棒性以及提高识别的准确率。同时不因为时空特征的融合而截断光流网络的特征,3D池化并用于最后的分类融合,能够将2D扩展到3D池,在长时间间隔内捕捉到同一物体的特征,进一步提高识别的准确率。

Claims (3)

1.一种用于视频分析中的动作识别方法,其特征在于,包括如下步骤:
(1)获取动作视频,将其处理成静止视频帧,计算叠加光流图;
(2)采用步骤(1)中获得的静止图像帧数据以及光流图作为输入分别进行训练,学习特征;
(3)对于步骤(2)中卷积层的时空特征进行卷积计算进行融合,并且进行3D池化,同时光流网络不截断,进行3D池化后继续提取特征;
(4)将步骤(3)中得到的融合特征与光流特征进行平均计算融合;
(5)根据损失函数对网络迭代训练,直至模型结果收敛。
2.如权利要求1所述的用于视频分析中的动作识别方法,其特征在于,步骤(1)中,计算叠加光流图具体包括如下步骤:
(11)首先计算光流图的光流矢量;对于连续帧t和t+1,它们之间的一组位移矢量场表示为dt,在第t帧的像素点(u,v)处的位移矢量使用dt(u,v)表示,它表示该像素点从第t帧移动到第t+1帧的对应像素点的位移矢量;
(12)将长度为L的连续帧矢量场的水平分量
Figure FDA0002295785030000011
和垂直分量
Figure FDA0002295785030000012
叠加起来,形成总长为2L的输入光流矢量
Figure FDA0002295785030000013
用来表示连续帧间的运动信息:
Figure FDA0002295785030000014
Figure FDA0002295785030000015
其中,u=[1,W],v=[1,H],k=[1,L],W和H为视频的宽度和高度,对于任意像素点(u,v),叠加光流矢量表示为Iτ(u,v,c),c=[1,2L]是对长度为L的帧序列中该像素点运动信息的编码。
3.如权利要求1所述的用于视频分析中的动作识别方法,其特征在于,步骤(3)中,对于步骤(2)中卷积层的时空特征进行卷积计算进行融合,并且进行3D池化,同时光流网络不截断,进行3D池化后继续提取特征具体包括如下步骤:
在时间t融合两个网络中的特征图
Figure FDA0002295785030000016
Figure FDA0002295785030000017
其融合函数表示为f∶
Figure FDA0002295785030000018
从而产生一张输出特征图为
Figure FDA0002295785030000019
其中W,H,D分别表示的是特征图的宽,高以及相对应的特征图的通道数;
(31)首先在通道d上的相同空间位置i,j堆叠两个特征图:
Figure FDA0002295785030000021
其中
Figure FDA0002295785030000022
(32)对于步骤(31)中得到的堆叠后的特征图ycat=fcat(xa,xb),将其与过滤器
Figure FDA0002295785030000023
以及偏移参数
Figure FDA0002295785030000024
在相同的空间位置i,j和特征通道d,进行卷积计算yconv=fconv(xa,xb),卷积融合表示为:
yconv=ycat*f+b,
其输出结果的通道数为D,过滤器的维度是1×1×2D,其中1≤i≤H,1≤j≤W,1≤d≤D,同时,
Figure FDA0002295785030000025
这里的过滤器f用于将维度减少2倍,并且能够在相同的空间位置上对两个特征图xa,xb进行加权组合;
(33)对于步骤(31)中得到的融合后的时空特征图进行3D池化,将时间t=1...T上的时空特征图叠加起来,得到输入
Figure FDA0002295785030000026
采用大小为W′×H′×T′的池化窗口对其进行最大池化操作;
(34)对于卷积融合前的光流特征进行3D池化,同步骤(33),将2D池化扩展到时间域。
CN201911200563.4A 2019-11-29 2019-11-29 一种用于视频分析中的动作识别方法 Pending CN110942037A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911200563.4A CN110942037A (zh) 2019-11-29 2019-11-29 一种用于视频分析中的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911200563.4A CN110942037A (zh) 2019-11-29 2019-11-29 一种用于视频分析中的动作识别方法

Publications (1)

Publication Number Publication Date
CN110942037A true CN110942037A (zh) 2020-03-31

Family

ID=69909153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911200563.4A Pending CN110942037A (zh) 2019-11-29 2019-11-29 一种用于视频分析中的动作识别方法

Country Status (1)

Country Link
CN (1) CN110942037A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052795A (zh) * 2020-09-07 2020-12-08 北京理工大学 一种基于多尺度时空特征聚合的视频行为识别方法
CN113408355A (zh) * 2021-05-20 2021-09-17 南昌大学 一种基于三支决策和光流过滤机制的微表情压缩方法
CN114818989A (zh) * 2022-06-21 2022-07-29 中山大学深圳研究院 基于步态的行为识别方法、装置、终端设备及存储介质
WO2022227292A1 (zh) * 2021-04-29 2022-11-03 苏州大学 一种动作识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263666A (zh) * 2019-05-29 2019-09-20 西安交通大学 一种基于非对称多流的动作检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263666A (zh) * 2019-05-29 2019-09-20 西安交通大学 一种基于非对称多流的动作检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DU TRAN: "Learning Spatiotemporal Features with 3D Convolutional Networks", 《ICCV 2015》 *
KAREN SIMONYAN: "Two-Stream Convolutional Networks for Action Recognition in Videos", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 27 (NIPS 2014)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052795A (zh) * 2020-09-07 2020-12-08 北京理工大学 一种基于多尺度时空特征聚合的视频行为识别方法
WO2022227292A1 (zh) * 2021-04-29 2022-11-03 苏州大学 一种动作识别方法
CN113408355A (zh) * 2021-05-20 2021-09-17 南昌大学 一种基于三支决策和光流过滤机制的微表情压缩方法
CN113408355B (zh) * 2021-05-20 2022-04-12 南昌大学 一种基于三支决策和光流过滤机制的微表情压缩方法
CN114818989A (zh) * 2022-06-21 2022-07-29 中山大学深圳研究院 基于步态的行为识别方法、装置、终端设备及存储介质
CN114818989B (zh) * 2022-06-21 2022-11-08 中山大学深圳研究院 基于步态的行为识别方法、装置、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN111339903B (zh) 一种多人人体姿态估计方法
CN111985343B (zh) 一种行为识别深度网络模型的构建方法及行为识别方法
CN107808131B (zh) 基于双通路深度卷积神经网络的动态手势识别方法
CN110942037A (zh) 一种用于视频分析中的动作识别方法
Deng et al. MVF-Net: A multi-view fusion network for event-based object classification
EP3992846A1 (en) Action recognition method and apparatus, computer storage medium, and computer device
CN109460707A (zh) 一种基于深度神经网络的多模态动作识别方法
CN112836646B (zh) 一种基于通道注意力机制的视频行人重识别方法及应用
CN107862275A (zh) 人体行为识别模型及其构建方法和人体行为识别方法
CN110136144B (zh) 一种图像分割方法、装置及终端设备
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
WO2023137915A1 (zh) 基于特征融合的行为识别方法、装置、设备及存储介质
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN113343950B (zh) 一种基于多特征融合的视频行为识别方法
CN113378641B (zh) 基于深度神经网络和注意力机制的手势识别方法
CN102457724B (zh) 一种图像运动检测系统及方法
CN111080670A (zh) 图像提取方法、装置、设备及存储介质
CN103955682A (zh) 基于surf兴趣点的行为识别方法及装置
CN112597824A (zh) 行为识别方法、装置、电子设备和存储介质
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN114170570A (zh) 一种适用于拥挤场景下的行人检测方法及系统
CN112749671A (zh) 一种基于视频的人体行为识别方法
CN117409476A (zh) 一种基于事件相机的步态识别的方法
CN103632372A (zh) 一种视频显著图提取方法
Mei et al. GTMFuse: Group-attention transformer-driven multiscale dense feature-enhanced network for infrared and visible image fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200331