CN113158970B - 一种基于快慢双流图卷积神经网络的动作识别方法与系统 - Google Patents

一种基于快慢双流图卷积神经网络的动作识别方法与系统 Download PDF

Info

Publication number
CN113158970B
CN113158970B CN202110510781.9A CN202110510781A CN113158970B CN 113158970 B CN113158970 B CN 113158970B CN 202110510781 A CN202110510781 A CN 202110510781A CN 113158970 B CN113158970 B CN 113158970B
Authority
CN
China
Prior art keywords
branch
fast
features
slow
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110510781.9A
Other languages
English (en)
Other versions
CN113158970A (zh
Inventor
高跃
陈自强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110510781.9A priority Critical patent/CN113158970B/zh
Publication of CN113158970A publication Critical patent/CN113158970A/zh
Application granted granted Critical
Publication of CN113158970B publication Critical patent/CN113158970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于快慢双流图卷积神经网络的动作识别方法与系统,其中,方法包括:获取人体骨架关节特征;对所述人体骨架关节特征进行正则化处理,对一个批的所述人体骨架关节特征的形状进行变形;对处理后的所述人体骨架关节特征进行复制,生成两份相同的所述人体骨架关节特征,将两份相同的所述人体骨架关节特征分别输入至快慢双流图卷积网络的快分支和慢分支进行特征学习;通过全局池化层对每个动作类别的特征进行维度消除,并通过全连接层将消除维度后的特征映射到对应的各个动作类别上,并通过Softmax函数获得每个动作类别的分数。本申请解决了现有技术中对于时序信息建模较为薄弱的问题,是一个更好地捕捉时序信息和快慢动作信息的方法。

Description

一种基于快慢双流图卷积神经网络的动作识别方法与系统
技术领域
本发明涉及基于骨架信息的动作识别的技术领域,尤其涉及一种基于骨架信息的动作识别的技术领域。
背景技术
在基于骨架信息的动作识别这一任务中,基于图卷积神经网络的方法是当前的主流方法。图卷积神经网络是针对单个静态图结构进行特征提取而设计的网络,对于时序信息的提取较为薄弱。而人体骨架信息是一种时序连续的图结构数据,也可以视为一种动态图数据。对于动作识别这一任务而言,仅仅捕捉静态图空间结构信息(单帧骨架信息)而忽略时序信息并不能取得令人满意的性能。一般认为,对于仅需要单帧静态信息即可区分的动作,则基于图卷积神经网络的方法能取得较好的性能;而有些动作由于静态帧与其他动作很相似,需要辅以时序动作信息才能区分,此时需要模型具有较好的时序信息的建模能力。
当前许多基于图卷积神经网络的方法的设计重心在捕捉空间结构信息上,通过定义自适应性邻接矩阵、新的图结构建模方法、新的节点连接等方式,提高了模型的性能。这些方法相较首次将GCN应用在人体骨架动作识别这一任务上的方法ST-GCN,都取得了一定的性能提升。但是在时序信息的建模上,这些方法都仅仅是简单地沿用了ST-GCN所使用的二维卷积来建模时序信息,并没有做较大的改进。
在基于RGB视频的方法中,建模时序信息与建模时空信息的交互一直是重要的课题,研究者们使用光流模态来建模运动信息或者使用3D卷积网络来同时建模时间和空间信息。近年来,在基于RGB视频的动作识别方法中,基于卷积神经网络的方法Slowfast取得了极大的成功。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于快慢双流图卷积神经网络的动作识别方法,是基于图卷积神经网络的方法上设计的一种使用快慢双流图卷积神经网络来更好地捕捉时序信息和快慢动作信息的方法,以提高动作识别的准确性。
本发明的第二个目的在于提出一种基于快慢双流图卷积神经网络的动作识别系统。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种基于快慢双流图卷积神经网络的动作识别方法,包括以下步骤:
步骤S10,获取人体骨架关节特征;
步骤S20,对所述人体骨架关节特征进行正则化处理,其中,对一个批的所述人体骨架关节特征的形状进行变形,使用一维正则化模块对时序维进行正则化,再将一个批的所述人体骨架关节特征的形状重新变形为原来的形状;
步骤S30,对步骤S20处理后的所述人体骨架关节特征进行复制,生成两份相同的所述人体骨架关节特征,将两份相同的所述人体骨架关节特征分别输入至快慢双流图卷积网络的快分支和慢分支进行特征学习,并对所述快分支和慢分支的学习结果进行融合,以获得每个动作类别的特征,其中,快慢双流图卷积网络的快分支和慢分支具有相同的网络结构,具有不同的网络参数配置和输入特征;
步骤S40,通过全局池化层对每个动作类别的特征进行维度消除,并通过全连接层将消除维度后的特征映射到对应的各个动作类别上,并通过Softmax函数获得每个动作类别的分数。
可选地,在本申请的一个实施例中,所述步骤S10包括以下步骤:
从数据集中获取人体骨架关节特征,每个样本的特征形状为:
(C,T,M,V)
其中,C是特征通道数,值为3,表示关节点的三维坐标(x,y,z);T表示动作的帧数;M表示表演动作的人数;V表示人体关节点的数量。
可选地,在本申请的一个实施例中,所述步骤S20包括以下步骤:
对数据进行正则化处理,在训练过程中使用批训练,所述一个批的张量的特征形状为:
(B,C,T,M,V)
首先对所述一个一维批张量进行变形,变形为:
(B,M*V*C,T)
然后使用一个所述一维批正则化模块对时序T维进行正则化,并将特征重新变形为原来的形状(B,C,T,M,V)。
可选地,在本申请的一个实施例中,步骤S30中具体步骤包括:
在每个分支中,都包含连续叠加的多个图卷积区块,每个图卷积区块包括空间图卷积层和时序卷积层;时序卷积层是一个二维卷积模块,卷积核大小为(t,1),t即为卷积核的时序感受野;两个卷积层后都附有批正则化层和ReLU激活函数,保证各个通道的特征保持相同的分布;图卷积区块的计算使用如下公式描述:
Figure BDA0003060294420000031
Bk和Ck是在2s-AGCN中提出的自适应性的邻接矩阵,在网络训练的过程中会有改变,其中,Bk初始化时被设置为Ak,用于学习任意两个节点潜在的关联;Ck是根据样本特征计算得到的矩阵,用于描述样本特定的节点关联。
可选地,在本申请的一个实施例中,下面两个公式分别描述了同一个阶段的图卷积区块的输入特征的特征形状:
ffast i n=(B,βC,αT,V,M)
fslow i n=(B,C,T,V,M)
快分支的时序维度始终为αT1,α是一个正整数,表示在初始输入特征中,快分支的输入帧率与慢分支的帧率的比值,在快分支中,通道数量βiCi显著小于同阶段慢分支图卷积区块通道数Ci,其中i是区块编号,βi是一个小于1的值,如1/3,两个分支的V是一致的,都是图节点的数量。
可选地,在本申请的一个实施例中,使用横向连接模块来共享快慢两个分支学习到的信息,从快分支融合到慢分支,由于
Figure BDA0003060294420000032
Figure BDA0003060294420000033
的特征形状分别为(B,βC,αT,V,M)和(B,C,T,M,V),首先采用一个二维卷积层来进行特征形状转换,并在进行特征形状转换之后增加了批正则化层和ReLU函数,然后用拼接或相加的方式将两个特征融合。
可选地,在本申请的一个实施例中,步骤S40中,将步骤S30得到的最终特征通过一个全局池化层消去时序T、图节点V、人数M三个维度,并通过一个全连接层将特征映射到各个动作类别上,最终,通过Softmax函数得到每个动作类别的分数。
为达上述目的,本申请第二方面实施例提出本发明一种基于快慢双流图卷积神经网络的动作识别系统,包括以下模块:
获取模块,用于获取人体骨架关节特征;
处理模块,用于对所述人体骨架关节特征进行正则化处理,其中,对一个批的所述人体骨架关节特征的形状进行变形,使用一维正则化模块对时序维进行正则化,再将一个批的所述人体骨架关节特征的形状重新变形为原来的形状;
生成模块,用于对所述处理模块处理后的所述人体骨架关节特征进行复制,生成两份相同的所述人体骨架关节特征,将两份相同的所述人体骨架关节特征分别输入至快慢双流图卷积网络的快分支和慢分支进行特征学习,并对所述快分支和慢分支的学习结果进行融合,以获得每个动作类别的特征,其中,快慢双流图卷积网络的快分支和慢分支具有相同的网络结构,具有不同的网络参数配置和输入特征;
确定模块,用于通过全局池化层对每个动作类别的特征进行维度消除,并通过全连接层将消除维度后的特征映射到对应的各个动作类别上,并通过Softmax函数获得每个动作类别的分数。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面实施例所述的基于关节组间关联建模的动作识别方法。
为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请第一方面实施例所述的基于关节组间关联建模的动作识别方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的一种基于快慢双流图卷积神经网络的动作识别方法的流程图。
图2是本申请实施例的快慢双流图卷积神经网络结构示意图;
图3是本申请实施例的快慢两个分支的输入特征的特征形状随着图卷积区块编号增加而改变情况的示意图;
图4是本申请实施例的横向连接模块示意图。
图5为本申请实施例的一种基于快慢双流图卷积神经网络的动作识别系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的一所提供的一种基于快慢双流图卷积神经网络的动作识别方法。
如图1所示,为达上述目的,本发明第一方面实施例提出了一种基于快慢双流图卷积神经网络的动作识别方法,包括以下步骤:
步骤S10,获取人体骨架关节特征;
步骤S20,对所述人体骨架关节特征进行正则化处理,其中,对一个批的所述人体骨架关节特征的形状进行变形,使用一维正则化模块对时序维进行正则化,再将一个批的所述人体骨架关节特征的形状重新变形为原来的形状;
步骤S30,对步骤S20处理后的所述人体骨架关节特征进行复制,生成两份相同的所述人体骨架关节特征,将两份相同的所述人体骨架关节特征分别输入至快慢双流图卷积网络的快分支和慢分支进行特征学习,并对所述快分支和慢分支的学习结果进行融合,以获得每个动作类别的特征,其中,快慢双流图卷积网络的快分支和慢分支具有相同的网络结构,具有不同的网络参数配置和输入特征;
步骤S40,通过全局池化层对每个动作类别的特征进行维度消除,并通过全连接层将消除维度后的特征映射到对应的各个动作类别上,并通过Softmax函数获得每个动作类别的分数。
在本申请的一个实施例中,进一步而言,所述步骤S10包括以下步骤:
从从诸如NTU RGB+D等公开数据集中获取人体骨架关节特征,每个样本的特征形状为:
(C,T,M,V)
其中,C是特征通道数,值为3,表示关节点的三维坐标(x,y,z);T表示动作的帧数;M表示表演动作的人数;V表示人体关节点的数量。
在本申请的一个实施例中,进一步而言,所述步骤S20包括以下步骤:
对数据进行正则化处理,在训练过程中使用批训练,所述一个批的张量的特征形状为:
(B,C,T,M,V)
首先对所述一个一维批张量进行变形,变形为:
(B,M*V*C,T)
然后使用一个所述一维批正则化模块对时序T维进行正则化,并将特征重新变形为原来的形状(B,C,T,M,V)。
如图2所示,我们的网络结构包含两个分支,我们分别称为快分支和慢分支。
在本申请的一个实施例中,进一步而言,步骤S30中具体步骤包括:
在每个分支中,都包含连续叠加的多个图卷积区块,每个图卷积区块包括空间图卷积层和时序卷积层;时序卷积层是一个二维卷积模块,卷积核大小为(t,1),t即为卷积核的时序感受;两个卷积层后都附有批正则化层和ReLU激活函数,保证各个通道的特征保持相同的分布;图卷积区块的计算使用如下公式描述:
Figure BDA0003060294420000061
Bk和Ck是在2s-AGCN中提出的自适应性的邻接矩阵,在网络训练的过程中会有改变,其中,Bk初始化时被设置为Ak,用于学习任意两个节点潜在的关联;Ck是根据样本特征计算得到的矩阵,用于描述样本特定的节点关联。
可选地,在本申请的一个实施例中,下面两个公式分别描述了同一个阶段的图卷积区块的输入特征的特征形状:
ffast i n=(B,βC,αT,V,M)
fslow i n=(B,C,T,V,M)
快分支的时序维度始终为αT1,α是一个正整数,表示在初始输入特征中,快分支的输入帧率与慢分支的帧率的比值,在快分支中,通道数量βiCi显著小于同阶段慢分支图卷积区块通道数Ci,其中i是区块编号,βi是一个小于1的值,如1/3,两个分支的V是一致的,都是图节点的数量。
如图3所示,在本申请的一个实施例中,进一步而言,假设网络结构中有N个卷积区块,在慢分支中,在图卷积区块中的时序卷积层中,我们将通过时序卷积层的步长降低帧率,因此有T1≥T2≥…≥TN;另一方面,在每个图卷积区块中,输出通道数会随着图卷积区块的增加逐渐增加,以提高慢分支对于图空间结构信息的捕捉能力,因此有C1≤C2≤…≤CN。在快分支中,在所有图卷积区块的时序卷积层中,卷积核的步长都设置为1,以保证帧率不会下降,因此,快分支的时序维度始终为aT1,α是一个正整数,表示在初始输入特征中,快分支的输入帧率与慢分支的帧率的比值。在快分支中,通道数量βiCi显著小于同阶段慢分支图卷积区块通道数Ci,其中i是区块编号,βi是一个小于1的值,如1/3。两个分支的V是一致的,都是图节点的数量。
在本申请的一个实施例中,进一步而言,如图4所示,使用横向连接模块来共享快慢两个分支学习到的信息,从快分支融合到慢分支,由于
Figure BDA0003060294420000062
Figure BDA0003060294420000063
的特征形状分别为(B,βC,αT,V,M)和(B,C,T,M,V),首先采用一个二维卷积层来进行特征形状转换,并在进行特征形状转换之后增加了批正则化层和ReLU函数,然后用拼接或相加的方式将两个特征融合。
我们首先采用了一个二维卷积层来进行特征形状转换,并在这之后增加了批正则化层和ReLU函数,然后用拼接或者相加的方式将两个特征融合。以上过程可以用如下公式描述。
Figure BDA0003060294420000071
Figure BDA0003060294420000072
Figure BDA0003060294420000073
其中Conv2D是二维卷积层,BN是批正则化层,ReLU是激活函数,Fuse是融合函数,融合的方式可以采用加和(Sum)、拼接(Concatenation)等方式,这两种方式性能接近。
进一步地,在两个分支之间本实施例采用插入了横向连接模块用以共享两个模块之间的信息。在本实施例的实验中,你们采用了10个卷积区块,每个卷积区块中快分支和慢分支的输入通道数分别为3、128、128、128、128、256、256、256、512、512和3、32、32、64、64、64、64、64、128、128。
在本申请的一个实施例中,进一步而言,步骤S40中,将步骤S30得到的最终特征通过一个全局池化层消去时序T、图节点V、人数M三个维度,并通过一个全连接层将特征映射到各个动作类别上,最终,通过Softmax函数得到每个动作类别的分数。
如图5所示,为达上述目的,本申请第二方面实施例提出本发明一种基于快慢双流图卷积神经网络的动作识别系统,包括以下模块:
获取模块,用于获取人体骨架关节特征;
处理模块,用于对所述人体骨架关节特征进行正则化处理,其中,对一个批的所述人体骨架关节特征的形状进行变形,使用一维正则化模块对时序维进行正则化,再将一个批的所述人体骨架关节特征的形状重新变形为原来的形状;
生成模块,用于对所述处理模块处理后的所述人体骨架关节特征进行复制,生成两份相同的所述人体骨架关节特征,将两份相同的所述人体骨架关节特征分别输入至快慢双流图卷积网络的快分支和慢分支进行特征学习,并对所述快分支和慢分支的学习结果进行融合,以获得每个动作类别的特征,其中,快慢双流图卷积网络的快分支和慢分支具有相同的网络结构,具有不同的网络参数配置和输入特征;
确定模块,用于通过全局池化层对每个动作类别的特征进行维度消除,并通过全连接层将消除维度后的特征映射到对应的各个动作类别上,并通过Softmax函数获得每个动作类别的分数。
为了实现上述实施例,本发明还提出一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现本申请实施例的基于快慢双流图卷积神经网络的动作识别方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,该计算机存储有计算机程序,所述计算机程序被处理器执行时,实现本申请实施例的基于快慢双流图卷积神经网络的动作识别方法。
尽管参考附图详地公开了本申请,但应理解的是,这些描述仅仅是示例性的,并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定,并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于快慢双流图卷积神经网络的动作识别方法,其特征在于,包括以下步骤:
步骤S10,获取人体骨架关节特征;
步骤S20,对所述人体骨架关节特征进行正则化处理,其中,对一个批的所述人体骨架关节特征的形状进行变形,使用一维正则化模块对时序维进行正则化,再将一个批的所述人体骨架关节特征的形状重新变形为原来的形状;
步骤S30,对步骤S20处理后的所述人体骨架关节特征进行复制,生成两份相同的所述人体骨架关节特征,将两份相同的所述人体骨架关节特征分别输入至快慢双流图卷积网络的快分支和慢分支进行特征学习,并对所述快分支和慢分支的学习结果进行融合,以获得每个动作类别的特征,其中,快慢双流图卷积网络的快分支和慢分支具有相同的网络结构,具有不同的网络参数配置和输入特征;
步骤S40,通过全局池化层对每个动作类别的特征进行维度消除,并通过全连接层将消除维度后的特征映射到对应的各个动作类别上,并通过Softmax函数获得每个动作类别的分数;
步骤S30中具体步骤包括:
在每个分支中,都包含连续叠加的多个图卷积区块,每个图卷积区块包括空间图卷积层和时序卷积层;时序卷积层是一个二维卷积模块,卷积核大小为(t,1),t即为卷积核的时序感受野;两个卷积层后都附有批正则化层和ReLU激活函数,保证各个通道的特征保持相同的分布;图卷积区块的计算使用如下公式描述:
Figure FDA0003921444460000011
Bk和Ck是在2s-AGCN中提出的自适应性的邻接矩阵,在网络训练的过程中会有改变,其中,Bk初始化时被设置为Ak,用于学习任意两个节点潜在的关联;Ck是根据样本特征计算得到的矩阵,用于描述样本特定的节点关联;
使用横向连接模块来共享快慢两个分支学习到的信息,从快分支融合到慢分支,由于
Figure FDA0003921444460000012
Figure FDA0003921444460000013
的特征形状分别为(B,βC,αT,V,M)和(B,C,T,M,V),首先采用一个二维卷积层来进行特征形状转换,并在进行特征形状转换之后增加了批正则化层和ReLU函数,然后用拼接或相加的方式将两个特征融合。
2.如权利要求1所述的方法,其特征在于,所述步骤S10包括以下步骤:
从数据集中获取人体骨架关节特征,每个样本的特征形状为:
(C,T,M,V)
其中,C是特征通道数,值为3,表示关节点的三维坐标(x,y,z);T表示动作的帧数;M表示表演动作的人数;V表示人体关节点的数量。
3.如权利要求1所述的方法,其特征在于,所述步骤S20包括以下步骤:
对数据进行正则化处理,在训练过程中使用批训练,所述一个批的张量的特征形状为:
(B,C,T,M,V)
首先对一个一维批的张量进行变形,变形为:
(B,M*V*C,T)
然后使用一个所述一维正则化模块对时序T维进行正则化,并将特征重新变形为原来的形状(B,C,T,M,V)。
4.如权利要求1所述的方法,其特征在于,下面两个公式分别描述了同一个阶段的图卷积区块的输入特征的特征形状:
ffastin=(B,βC,αT,V,M)
fslowin=(B,C,T,V,M)
快分支的时序维度始终为αT,α是一个正整数,表示在初始输入特征中,快分支的输入帧率与慢分支的帧率的比值,在快分支中,通道数量βiCi显著小于同阶段慢分支图卷积区块通道数Ci,其中i是区块编号,βi是一个小于1的值,两个分支的V是一致的,都是图节点的数量。
5.如权利要求1所述的方法,其特征在于,步骤S40中,将步骤S30得到的最终特征通过一个全局池化层消去时序T、图节点V、人数M三个维度,并通过一个全连接层将特征映射到各个动作类别上,最终,通过Softmax函数得到每个动作类别的分数。
6.一种基于快慢双流图卷积神经网络的动作识别系统,其特征在于,包括:
获取模块,用于获取人体骨架关节特征;
处理模块,用于对所述人体骨架关节特征进行正则化处理,其中,对一个批的所述人体骨架关节特征的形状进行变形,使用一维正则化模块对时序维进行正则化,再将一个批的所述人体骨架关节特征的形状重新变形为原来的形状;
生成模块,用于对所述处理模块处理后的所述人体骨架关节特征进行复制,生成两份相同的所述人体骨架关节特征,将两份相同的所述人体骨架关节特征分别输入至快慢双流图卷积网络的快分支和慢分支进行特征学习,并对所述快分支和慢分支的学习结果进行融合,以获得每个动作类别的特征,其中,快慢双流图卷积网络的快分支和慢分支具有相同的网络结构,具有不同的网络参数配置和输入特征;
确定模块,用于通过全局池化层对每个动作类别的特征进行维度消除,并通过全连接层将消除维度后的特征映射到对应的各个动作类别上,并通过Softmax函数获得每个动作类别的分数;
所示生成模块,还用于:
在每个分支中,都包含连续叠加的多个图卷积区块,每个图卷积区块包括空间图卷积层和时序卷积层;时序卷积层是一个二维卷积模块,卷积核大小为(t,1),t即为卷积核的时序感受野;两个卷积层后都附有批正则化层和ReLU激活函数,保证各个通道的特征保持相同的分布;图卷积区块的计算使用如下公式描述:
Figure FDA0003921444460000031
Bk和Ck是在2s-AGCN中提出的自适应性的邻接矩阵,在网络训练的过程中会有改变,其中,Bk初始化时被设置为Ak,用于学习任意两个节点潜在的关联;Ck是根据样本特征计算得到的矩阵,用于描述样本特定的节点关联;
使用横向连接模块来共享快慢两个分支学习到的信息,从快分支融合到慢分支,由于
Figure FDA0003921444460000041
Figure FDA0003921444460000042
的特征形状分别为(B,βC,αT,V,M)和(B,C,T,M,V),首先采用一个二维卷积层来进行特征形状转换,并在进行特征形状转换之后增加了批正则化层和ReLU函数,然后用拼接或相加的方式将两个特征融合。
7.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一所述的方法。
8.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN202110510781.9A 2021-05-11 2021-05-11 一种基于快慢双流图卷积神经网络的动作识别方法与系统 Active CN113158970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110510781.9A CN113158970B (zh) 2021-05-11 2021-05-11 一种基于快慢双流图卷积神经网络的动作识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110510781.9A CN113158970B (zh) 2021-05-11 2021-05-11 一种基于快慢双流图卷积神经网络的动作识别方法与系统

Publications (2)

Publication Number Publication Date
CN113158970A CN113158970A (zh) 2021-07-23
CN113158970B true CN113158970B (zh) 2023-02-07

Family

ID=76874442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110510781.9A Active CN113158970B (zh) 2021-05-11 2021-05-11 一种基于快慢双流图卷积神经网络的动作识别方法与系统

Country Status (1)

Country Link
CN (1) CN113158970B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550027A (zh) * 2022-01-18 2022-05-27 清华大学 基于视觉的运动视频精细分析方法和装置
CN114201475B (zh) * 2022-02-16 2022-05-03 北京市农林科学院信息技术研究中心 危险行为监管方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN110059598A (zh) * 2019-04-08 2019-07-26 南京邮电大学 基于姿态关节点的长时程快慢网络融合的行为识别方法
CN111860128A (zh) * 2020-06-05 2020-10-30 南京邮电大学 一种基于多流快慢图卷积网络的人体骨骼行为识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11544535B2 (en) * 2019-03-08 2023-01-03 Adobe Inc. Graph convolutional networks with motif-based attention
CN112131908B (zh) * 2019-06-24 2024-06-11 北京眼神智能科技有限公司 基于双流网络的动作识别方法、装置、存储介质及设备
CN111325099B (zh) * 2020-01-21 2022-08-26 南京邮电大学 一种基于双流时空图卷积神经网络的手语识别方法及系统
CN112183313B (zh) * 2020-09-27 2022-03-11 武汉大学 一种基于SlowFast的电力作业现场动作识别方法
CN112381004B (zh) * 2020-11-17 2023-08-08 华南理工大学 一种基于骨架的双流自适应图卷积网络行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN110059598A (zh) * 2019-04-08 2019-07-26 南京邮电大学 基于姿态关节点的长时程快慢网络融合的行为识别方法
CN111860128A (zh) * 2020-06-05 2020-10-30 南京邮电大学 一种基于多流快慢图卷积网络的人体骨骼行为识别方法

Also Published As

Publication number Publication date
CN113158970A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN112308200B (zh) 神经网络的搜索方法及装置
CN109558862B (zh) 基于空间感知的注意力细化框架的人群计数方法及系统
Zhang et al. Progressive hard-mining network for monocular depth estimation
CN113449857A (zh) 一种数据处理方法和数据处理设备
JP7536893B2 (ja) 自己注意ベースのニューラルネットワークを使用した画像処理
JP2018073393A (ja) 深度マップからの現実の物体の3d再構築
EP4404148A1 (en) Image processing method and apparatus, and computer-readable storage medium
CN111667459B (zh) 一种基于3d可变卷积和时序特征融合的医学征象检测方法、系统、终端及存储介质
CN111480169A (zh) 用于模式识别的方法、系统和装置
EP3905194A1 (en) Pose estimation method and apparatus
CN113158970B (zh) 一种基于快慢双流图卷积神经网络的动作识别方法与系统
CN112132739A (zh) 3d重建以及人脸姿态归一化方法、装置、存储介质及设备
CN110738650B (zh) 一种传染病感染识别方法、终端设备及存储介质
JP2017068608A (ja) 演算装置、方法及びプログラム
CN116310219A (zh) 一种基于条件扩散模型的三维脚型生成方法
CN114359289A (zh) 一种图像处理方法及相关装置
CN116071300A (zh) 一种基于上下文特征融合的细胞核分割方法及相关设备
CN116434303A (zh) 基于多尺度特征融合的人脸表情捕捉方法、装置及介质
JP2023145404A (ja) イメージ間の対応関係を識別するためにピラミッド及び固有性マッチングフライアを使用するシステム及び方法
CN113065529B (zh) 基于关节组间关联建模的动作识别方法与系统
CN113554656B (zh) 基于图神经网络的光学遥感图像实例分割方法及装置
CN113065637B (zh) 一种感知网络及数据处理方法
CN112884702A (zh) 一种基于内窥镜图像的息肉识别系统和方法
CN113516670B (zh) 一种反馈注意力增强的非模式图像分割方法及装置
CN110533749B (zh) 一种动态纹理视频生成方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant