CN110942037A - 一种用于视频分析中的动作识别方法 - Google Patents
一种用于视频分析中的动作识别方法 Download PDFInfo
- Publication number
- CN110942037A CN110942037A CN201911200563.4A CN201911200563A CN110942037A CN 110942037 A CN110942037 A CN 110942037A CN 201911200563 A CN201911200563 A CN 201911200563A CN 110942037 A CN110942037 A CN 110942037A
- Authority
- CN
- China
- Prior art keywords
- pooling
- optical flow
- fusion
- video
- equal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000004458 analytical method Methods 0.000 title claims abstract description 13
- 230000009471 action Effects 0.000 title claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 230000003287 optical effect Effects 0.000 claims abstract description 32
- 238000011176 pooling Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 238000010586 diagram Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000003068 static effect Effects 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 21
- 238000006073 displacement reaction Methods 0.000 claims description 9
- 241000282326 Felis catus Species 0.000 claims description 2
- 238000011160 research Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于视频分析中的动作识别方法,包括如下步骤:(1)获取动作视频,将其处理成静止视频帧,计算叠加光流图;(2)采用步骤(1)中获得的静止图像帧数据以及光流图作为输入分别进行训练,学习特征;(3)对于步骤(2)中卷积层的时空特征进行卷积计算进行融合,并且进行3D池化,同时光流网络不截断,进行3D池化后继续提取特征;(4)将步骤(3)中得到的融合特征与光流特征进行平均计算融合;(5)根据损失函数对网络迭代训练,直至模型结果收敛。本发明能够在有限的时间规模内,尽量多的获取视频中的信息,从而增加网络的鲁棒性以及提高识别的准确率。
Description
技术领域
本发明涉及视频分析技术领域,尤其是一种用于视频分析中的动作识别方法。
背景技术
随着多媒体时代的到来,共享视频变得更加普遍,网络上视频的传播与获取变得越来越便捷,使得视频数据的数量急剧上升。针对数量巨大的视频数据,如何分析和利用这些数据的内容成为计算机视觉领域内的一个具有重要意义和研究价值的难题。视频分析人体动作的目标是获取视频中的图像序列,训练学习并且分析理解其中人的行为动作的含义。因此动作识别在信息获取、视频监控、人机交互等各个领域有着广泛的应用价值。
由于卷积神经网络在计算机视觉领域内的图像应用上得到了很好的成果,由此,研究学者们将其应用于视频分析来进行动作识别中的特征提取。单是获取视频图像中的空间、纹理、背景等静态信息对于复杂的识别任务是不够的,所以需要捕捉更多的动态信息,光流能够对视频中的时间信息有效地提取,被广泛地应用于视频分析任务中。
视频分析动作识别的重要研究内容之一是如何充分利用视频中的图像信息以及运动信息,同时这也是研究过程中亟需解决的难题。动作识别的主要目标是通过学习视频图像中人物的运动模式,将其与动作类别之间建立对应关系,从而实现理解人物的动作。因此首先需要解决如何充分提取融合视频中的图像和运动特征信息这一难点,才能够以此为基础进行后续的学习训练和分类识别。由此本发明增加了卷积融合层将提取到的时空特征融合并进行3D池化,同时不截断时间流,将训练后得到的融合时空流以及时间流再次融合,从像素水平对空间信息和时间信息建立起对应关系,从而实现更有效的特征融合。
发明内容
本发明所要解决的技术问题在于,提供一种用于视频分析中的动作识别方法,能够在有限的时间规模内,尽量多的获取视频中的信息,从而增加网络的鲁棒性以及提高识别的准确率。
为解决上述技术问题,本发明提供一种用于视频分析中的动作识别方法,包括如下步骤:
(1)获取动作视频,将其处理成静止视频帧,计算叠加光流图;
(2)采用步骤(1)中获得的静止图像帧数据以及光流图作为输入分别进行训练,学习特征;
(3)对于步骤(2)中卷积层的时空特征进行卷积计算进行融合,并且进行3D池化。同时光流网络不截断,进行3D池化后继续提取特征;
(4)将步骤(3)中得到的融合特征与光流特征进行平均计算融合;
(5)根据损失函数对网络迭代训练,直至模型结果收敛。
优选的,步骤(1)中,计算叠加光流图具体包括如下步骤:
(11)首先计算光流图的光流矢量;对于连续帧t和t+1,它们之间的一组位移矢量场表示为dt,在第t帧的像素点(u,v)处的位移矢量使用dt(u,v)表示,它表示该像素点从第t帧移动到第t+1帧的对应像素点的位移矢量;
其中,u=[1,W],v=[1,H],k=[1,L],W和H为视频的宽度和高度,对于任意像素点(u,v),叠加光流矢量表示为Iτ(u,v,c),c=[1,2L]是对长度为L的帧序列中该像素点运动信息的编码。
优选的,步骤(3)中,对于步骤(2)中卷积层的时空特征进行卷积计算进行融合,并且进行3D池化,同时光流网络不截断,进行3D池化后继续提取特征具体包括如下步骤:
(31)首先在通道d上的相同空间位置i,j堆叠两个特征图:
(32)对于步骤(31)中得到的堆叠后的特征图ycat=fcat(xa,xb),将其与过滤器以及偏移参数在相同的空间位置i,j和特征通道d,进行卷积计算yconv=fconv(xa,xb),卷积融合表示为:
yconv=ycat*f+b,
其输出结果的通道数为D,过滤器的维度是1×1×2D,其中1≤i≤H,1≤j≤W,1≤d≤D,同时,xa,xb,这里的过滤器f用于将维度减少2倍,并且能够在相同的空间位置上对两个特征图xa,xb进行加权组合;
(34)对于卷积融合前的光流特征进行3D池化,同步骤(33),将2D池化扩展到时间域。
本发明的有益效果为:本发明将视频中的图像特征与运动特征结合起来用于识别,采用光流图提取的运动信息对于视频图像的RGB通道的缩放、更改有着不变性,能够更好地提取视频中运动物体的边缘以及中间区域的运动信息,避免网络仅被图像信息主导;卷积融合加3D池化的方式能够根据空间和时间特征的对应关系,从像素级别融合时空信息,在有限的时间规模内,尽量多地获取视频中的信息,从而增加网络的鲁棒性以及提高识别的准确率。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的网络结构示意图。
具体实施方式
如图1所示,一种用于视频分析中的动作识别方法,包括如下步骤:
步骤1:获取动作视频,将其处理成静止视频帧,计算叠加光流图。计算叠加光流图具体包括以下步骤:
步骤101:首先计算光流图的光流矢量。对于连续帧t和t+1,它们之间的一组位移矢量场表示为dt。在第t帧的像素点(u,v)处的位移矢量使用dt(v,v)表示,它表示该像素点从第t帧移动到第t+1帧的对应像素点的位移矢量。
其中,u=[1,W],v=[1,H],k=[1,L],W和H为视频的宽度和高度。对于任意像素点(u,v),叠加光流矢量Iτ(u,v,c),c=[1,2L]是对长度为L的帧序列中该像素点运动信息的编码。
步骤2:采用步骤1中获得的静止图像帧数据以及光流图作为输入分别提取特征。特征提取包括三层卷积和池化交替,紧接着三层卷积层以及ReLu激活函数。
步骤3:对于步骤2中卷积层的时空特征进行卷积计算进行融合。同时光流网络不截断,进行3D池化后继续提取特征。具体包括以下步骤:
步骤301:首先在通道d上的相同空间位置i,j堆叠两个特征图:
步骤302:对于步骤201中得到的堆叠后的特征图ycat=fcat(xa,xb),将其与过滤器以及偏移参数在相同的空间位置i,j和特征通道d,进行卷积计算yconv=fconv(xa,xb),卷积融合表示为yconv=ycat*f+6,输出结果的通道数为D,过滤器的维度是1×1×2D,其中1≤i≤H,1≤j≤W,1≤d≤D,同时,xa,xb,这里的过滤器f用于将维度减少2倍,并且能够在相同的空间位置上对两个特征图xa,xb进行加权组合。
步骤304:对于卷积融合前的光流特征进行3D池化,同步骤303,将2D池化扩展到时间域。
步骤4:将步骤3中得到的融合特征与光流特征进行平均计算融合。
步骤5:根据损失函数对网络迭代训练,直至模型结果收敛。
损失函数采用交叉熵损失函数:E(a,y)=-∑j aj log yj,其中aj表示目标标签值,yj表示输出值。
网络融合能够更加充分地利用时空信息,简单的平均、相加或是最大融合对时序信息并不敏感,这说明融合过程中没有获得很多的时序信息。而卷积融合加3D池化的方式能够根据空间和时间特征的对应关系,从像素级别融合时空信息,在有限的时间规模内,尽量多地获取视频中的信息,避免网络仅被图像信息主导,从而增加网络的鲁棒性以及提高识别的准确率。同时不因为时空特征的融合而截断光流网络的特征,3D池化并用于最后的分类融合,能够将2D扩展到3D池,在长时间间隔内捕捉到同一物体的特征,进一步提高识别的准确率。
Claims (3)
1.一种用于视频分析中的动作识别方法,其特征在于,包括如下步骤:
(1)获取动作视频,将其处理成静止视频帧,计算叠加光流图;
(2)采用步骤(1)中获得的静止图像帧数据以及光流图作为输入分别进行训练,学习特征;
(3)对于步骤(2)中卷积层的时空特征进行卷积计算进行融合,并且进行3D池化,同时光流网络不截断,进行3D池化后继续提取特征;
(4)将步骤(3)中得到的融合特征与光流特征进行平均计算融合;
(5)根据损失函数对网络迭代训练,直至模型结果收敛。
2.如权利要求1所述的用于视频分析中的动作识别方法,其特征在于,步骤(1)中,计算叠加光流图具体包括如下步骤:
(11)首先计算光流图的光流矢量;对于连续帧t和t+1,它们之间的一组位移矢量场表示为dt,在第t帧的像素点(u,v)处的位移矢量使用dt(u,v)表示,它表示该像素点从第t帧移动到第t+1帧的对应像素点的位移矢量;
其中,u=[1,W],v=[1,H],k=[1,L],W和H为视频的宽度和高度,对于任意像素点(u,v),叠加光流矢量表示为Iτ(u,v,c),c=[1,2L]是对长度为L的帧序列中该像素点运动信息的编码。
3.如权利要求1所述的用于视频分析中的动作识别方法,其特征在于,步骤(3)中,对于步骤(2)中卷积层的时空特征进行卷积计算进行融合,并且进行3D池化,同时光流网络不截断,进行3D池化后继续提取特征具体包括如下步骤:
(31)首先在通道d上的相同空间位置i,j堆叠两个特征图:
(32)对于步骤(31)中得到的堆叠后的特征图ycat=fcat(xa,xb),将其与过滤器以及偏移参数在相同的空间位置i,j和特征通道d,进行卷积计算yconv=fconv(xa,xb),卷积融合表示为:
yconv=ycat*f+b,
(34)对于卷积融合前的光流特征进行3D池化,同步骤(33),将2D池化扩展到时间域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911200563.4A CN110942037A (zh) | 2019-11-29 | 2019-11-29 | 一种用于视频分析中的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911200563.4A CN110942037A (zh) | 2019-11-29 | 2019-11-29 | 一种用于视频分析中的动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110942037A true CN110942037A (zh) | 2020-03-31 |
Family
ID=69909153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911200563.4A Pending CN110942037A (zh) | 2019-11-29 | 2019-11-29 | 一种用于视频分析中的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110942037A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052795A (zh) * | 2020-09-07 | 2020-12-08 | 北京理工大学 | 一种基于多尺度时空特征聚合的视频行为识别方法 |
CN113408355A (zh) * | 2021-05-20 | 2021-09-17 | 南昌大学 | 一种基于三支决策和光流过滤机制的微表情压缩方法 |
CN114818989A (zh) * | 2022-06-21 | 2022-07-29 | 中山大学深圳研究院 | 基于步态的行为识别方法、装置、终端设备及存储介质 |
WO2022227292A1 (zh) * | 2021-04-29 | 2022-11-03 | 苏州大学 | 一种动作识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263666A (zh) * | 2019-05-29 | 2019-09-20 | 西安交通大学 | 一种基于非对称多流的动作检测方法 |
-
2019
- 2019-11-29 CN CN201911200563.4A patent/CN110942037A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263666A (zh) * | 2019-05-29 | 2019-09-20 | 西安交通大学 | 一种基于非对称多流的动作检测方法 |
Non-Patent Citations (2)
Title |
---|
DU TRAN: "Learning Spatiotemporal Features with 3D Convolutional Networks", 《ICCV 2015》 * |
KAREN SIMONYAN: "Two-Stream Convolutional Networks for Action Recognition in Videos", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 27 (NIPS 2014)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052795A (zh) * | 2020-09-07 | 2020-12-08 | 北京理工大学 | 一种基于多尺度时空特征聚合的视频行为识别方法 |
WO2022227292A1 (zh) * | 2021-04-29 | 2022-11-03 | 苏州大学 | 一种动作识别方法 |
CN113408355A (zh) * | 2021-05-20 | 2021-09-17 | 南昌大学 | 一种基于三支决策和光流过滤机制的微表情压缩方法 |
CN113408355B (zh) * | 2021-05-20 | 2022-04-12 | 南昌大学 | 一种基于三支决策和光流过滤机制的微表情压缩方法 |
CN114818989A (zh) * | 2022-06-21 | 2022-07-29 | 中山大学深圳研究院 | 基于步态的行为识别方法、装置、终端设备及存储介质 |
CN114818989B (zh) * | 2022-06-21 | 2022-11-08 | 中山大学深圳研究院 | 基于步态的行为识别方法、装置、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339903B (zh) | 一种多人人体姿态估计方法 | |
CN111985343B (zh) | 一种行为识别深度网络模型的构建方法及行为识别方法 | |
CN107808131B (zh) | 基于双通路深度卷积神经网络的动态手势识别方法 | |
CN110942037A (zh) | 一种用于视频分析中的动作识别方法 | |
Deng et al. | MVF-Net: A multi-view fusion network for event-based object classification | |
EP3992846A1 (en) | Action recognition method and apparatus, computer storage medium, and computer device | |
CN109460707A (zh) | 一种基于深度神经网络的多模态动作识别方法 | |
CN112836646B (zh) | 一种基于通道注意力机制的视频行人重识别方法及应用 | |
CN107862275A (zh) | 人体行为识别模型及其构建方法和人体行为识别方法 | |
CN110136144B (zh) | 一种图像分割方法、装置及终端设备 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
WO2023137915A1 (zh) | 基于特征融合的行为识别方法、装置、设备及存储介质 | |
Cho et al. | Semantic segmentation with low light images by modified CycleGAN-based image enhancement | |
CN113343950B (zh) | 一种基于多特征融合的视频行为识别方法 | |
CN113378641B (zh) | 基于深度神经网络和注意力机制的手势识别方法 | |
CN102457724B (zh) | 一种图像运动检测系统及方法 | |
CN111080670A (zh) | 图像提取方法、装置、设备及存储介质 | |
CN103955682A (zh) | 基于surf兴趣点的行为识别方法及装置 | |
CN112597824A (zh) | 行为识别方法、装置、电子设备和存储介质 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN114170570A (zh) | 一种适用于拥挤场景下的行人检测方法及系统 | |
CN112749671A (zh) | 一种基于视频的人体行为识别方法 | |
CN117409476A (zh) | 一种基于事件相机的步态识别的方法 | |
CN103632372A (zh) | 一种视频显著图提取方法 | |
Mei et al. | GTMFuse: Group-attention transformer-driven multiscale dense feature-enhanced network for infrared and visible image fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200331 |