2024年4月12日发(作者:)
计算机科学与探索
JournalofFrontiersofComputerScienceandTechnology
1673-9418/2021/15(04)-0733-10
doi:10.3778/.1673-9418.2008051
多模态轻量级图卷积人体骨架行为识别方法
苏江毅
1
,宋晓宁
1+
,吴小俊
1
,於东军
2
1.江南大学人工智能与计算机学院,江苏无锡214122
2.南京理工大学计算机科学与工程学院,南京210094
+通信作者E-mail:*******************.cn
摘要:与传统的基于RGB视频的行为识别任务相比,基于人体骨架的行为识别方法由于其具有受光照、视角
和背景复杂度等诸多因素影响非常小的特点,使其成为近几年来计算机视觉领域的主要研究方向之一。但是
目前主流的基于人体骨架的行为识别方法都或多或少地存在参数量过大,运算时间过长,计算复杂度过高等
问题,从而导致这些方法难以同时满足时效性和准确度这两个要求。针对上述问题,提出了一种融合多模态
数据的轻量级图卷积神经网络。首先通过多模态数据融合的方法将多种信息流数据进行融合;其次通过空间
流模块和时间流模块分别获得融合后数据的空间信息和时间信息;最后通过全连接层获得最终的分类结果。
在行为识别数据集NTU60RGB+D和NTU120RGB+D上的测试结果表明该网络不仅在识别精度上优于近两
年内的一些主流方法,同时在参数量的比较上也远小于其他主流方法,从而验证了该网络在兼顾时效性和计
算成本的同时,准确度上的表现也十分优异。
关键词:行为识别;人体骨架;轻量级;图卷积
文献标志码:A中图分类号:TP391
SkeletonBasedActionRecognitionAlgorithmonMulti-modalLightweightGraph
ConvolutionalNetwork
SUJiangyi
1
,SONGXiaoning
1+
,WUXiaojun
1
,YUDongjun
2
ofArtificialIntelligenceandComputerScience,JiangnanUniversity,Wuxi,Jiangsu214122,China
ofComputerScienceandEngineering,NanjingUniversityofScienceandTechnology,Nanjing210094,China
Abstract:ComparedwiththetraditionalRGB-basedmethods,theskeleton-basedactionrecognitionmethodshave
becomethemainresearchdirectioninthefieldofcomputervisioninrecentyearsbecausetheyarelessaffectedby
manyfactorssuchasillumination,r,thecurrentskeleton-based
methodsstillhavesomeproblemssuchaslargeparameters,longtime-consumingandhighcomputationalcomplexity,
whichmakesitcomplicatedanddiff-
dresstheseissues,alightwey,the
multly,thespatialandtemporal
基金项目:国家重点研发计划子课题(2017YFC1601800);国家自然科学基金(61876072);中国博士后科学基金特助(2018T110441);
江苏省六大人才高峰项目(XYDXX-012)。
ThisworkwassupportedbytheNationalKeyResearchandDevelopmentProgramofChina(2017YFC1601800),theNationalNatural
ScienceFoundationofChina(61876072),thePostdoctoralScienceFoundationofChina(2018T110441)andSixTalentPeaksProject
inJiangsuProvince(XYDXX-012).
收稿日期:2020-07-10修回日期:2020-09-09
734
JournalofFrontiersofComputerScienceandTechnology计算机科学与探索2021,15(4)
informationofhuy,theclassification
mentalresultsconductedonthetwocommonlyuseddata-
setsincludingNTU60RGB+DandNTU120RGB+Ddemonstratethattheproposednetworkoutperformssome
mainstreammethodsinthelasttwoyearsinbothrecognitionaccuracyandefficiency,thusverifyingthatthenet-
workhasexcellentperformanceintermsofaccuracy,whileconsideringtimeefficiencyandcomputationalcost.
Keywords:actionrecognition;humanskeleton;lightweight;graphconvolutionalnetwork
行为识别是人工智能领域的重要研究方向之
一,在视频监督、智能监控和人机交互等方向有着重
要的应用。行为识别同时也是一项具有挑战性的任
务,不仅因为处理视频片段所需的计算要求更高,而
且易受外界环境因素的影响。这导致了基于RGB视
频的行为识别方法往往难以同时满足时效性和准确
度的要求。最近几年,得益于深度相机的发展与普
及,例如,MicrosoftKinetic
[1]
,基于深度信息的行为识
别
[2]
逐渐成为了该领域的重要研究方向之一。与传统
的RGB数据相比,骨架序列因为不包含颜色信息,所
以具有简洁、易校准、不易受外观因素影响的特点。
早期的基于人体骨架的行为识别方法主要通过
手工设计特征的方式来对行为进行表征
[3]
。例如Yang
等人
[4-5]
的EigenJoints方法,从骨架数据直接获得成对
关节的静态姿势和偏移量,通过主成分分析法(prin-
cipalcomponentsanalysis,PCA)来减少冗余和干扰,
最后通过非参数朴素贝叶斯最近邻(NaiveBayesnea-
restneighbor,NBNN)完成行为分类。在深度学习方
法未被大规模使用之前,该类方法一直是行为识别
领域的主要研究方向。但是,由于手工提取的特征
往往表征能力有限并且需要耗费大量精力用于调参
优化,因此当深度学习普及以后,一些端对端的基于
深度神经网络的方法越来越受到人们的欢迎。
目前主流的方法可以分为以下三类:(1)基于循
环神经网络(recurrentneuralnetworks,RNN)
[6]
的方
法;(2)基于卷积神经网络(convolutionalneuralnet-
works,CNN)
[7]
的方法;(3)基于图卷积网络(graph
convolutionalnetworks,GCN)
[8]
的方法。Du等人
[9]
将
人体骨架按照躯干与四肢进行划分,共分成了五部
分,网络级联地输入和组合人体骨骼各个部分的运
动,从而通过双向循环神经网络(bidirectionalrecu-
rrentneuralnetworks,BRNN)将每个时刻的低层次的
关节点拼成一个向量,不同时刻的向量组成一个序
列,并对生成的序列进行处理和学习。Liu等人
[10]
主
要通过双流3D卷积神经网络(3Dconvolutional
neuralnetworks,3DCNN)来同时对关节点的时间特
性和空间关系进行建模,最后通过加权平均的方式
融合时空间特征获得最终的分类结果。Yan等人
[11]
第一次提出了通过建立骨架序列时空图的方式,将
图卷积网络扩展到时空模型上,从而避免了手工设
计遍历规则的弊端,使得网络具有更好的表达能力
和更高的性能。Shi等人
[12]
在Yan等人研究的基础上
融合了基于骨架长度的信息,从而提出了一种双流
自适应图卷积网络用于基于骨架的行为识别。
上述三类方法,都是目前主流的基于骨架行为识
别的方法,但是都存在一定的问题。其中基于RNN
的方法,虽然在表征时间信息方面优势明显,但是存
在优化难度高,而且易丢失原始的关节点信息的问
题;而基于CNN的方法,虽然可以从不同时间区间提
取多尺度的特定局部模式,但是存在参数量过于庞
大,对计算要求过高的问题。而基于图卷积的方法
得益于对非欧氏数据(non-Euclideandata)建模的巨
大优势,相对于前两种方法而言更具优势。
此外,基于图卷积的方法同时还利用了多模态
学习中的相关方法来提高精度。首先,多模态数据
是指对同一对象,因为描述方法不同,把描述这些数
据的每一个视角叫作一个模态。而多模态表示学习
(multimodalrepresentation)是指通过利用多模态之
间的互补性,剔除模态间的冗余性,从而学习到更好
的特征表示。现阶段的多模态数据融合分析方法主
要分为基于阶段的数据融合、基于特征的数据融合
和基于语义的数据融合。其中基于阶段的数据融合
方法是指在不同阶段使用不同的模态数据完成相应
的数据融合;基于特征的数据融合方法是指从原始
特征中学习新的融合特征,然后通过学习到的新的
融合特征完成分类、预测等任务;最后基于语义的数
据融合方法需要对每个模态数据的含义以及不同模
态之间的特征关系进行理解,通过抽象的语义信息
苏江毅等:多模态轻量级图卷积人体骨架行为识别方法
735
完成跨模态数据的融合。目前,基于图卷积的方法
多采用基于特征的数据融合方法,该方法虽然能较
大地提升实验结果,但是需要针对不同的特征生成
的不同训练集进行多次训练,通过融合不同训练集
上的训练结果的方式得到最终的结果。基于图卷积
的方法虽然在最终的结果上有不错的表现,但是因
为需要在多模态数据集上进行多次训练,所以同样
存在参数量过大和对计算要求过高的问题。
针对上述这些问题,本文提出了一种融合多模态
数据的轻量级图卷积神经网络用于基于人体骨架的
行为识别。不同于之前的一些使用GCN的方法,本
文方法虽然同样使用了基于特征的数据融合方法来
提高实验结果,但并不需要针对不同的特征预先生成
不同的训练集,而是直接采用多模态数据融合与自适
应图卷积相结合的方式,仅通过一次训练就能达到其
他方法在预先生成的多个数据集上的训练效果。总
体而言,本文方法能够在兼顾参数量的同时取得很好
的效果。最后根据在行为识别数据集NTU60RGB+D
和NTU120RGB+D上的测试结果表明,该方法能够
以极低的参数量完成基于人体骨架的行为识别。
度为
N×N
的邻接矩阵
A
。因此,GCN中隐藏层可
以表示如式(1)所示:
H
(l+1)
=f(H
l
,A)
(0)
其中,
l
代表层数,
H
代表上一层的输出,
f
代表一
种传播规则,而
H
=X
为第一层的输入。在每一层
中,GCN会通过
f
将这一层的信息聚合起来,从而形
成下一层的特征,不同图卷积模型的差异点在于
f
的实现不同。
(
l
)
(1)
1.2具有自适应性的图卷积
[13]
本文以SGN(semantics-guidedneuralnetworks)
中的网络结构为基础,提出了一种能够融合多模态
数据的自适应图卷积网络结构如图1所示。与之前
的一些同样使用图卷积网络的方法相比,最大的区
别在于邻接矩阵
A
的构成不同。之前的方法,诸如
[11]
ST-GCN(spatialtemporalgraphconvolutionalnetworks)
与2s-AGCN(two-streamadaptivegraphconvolutional
[12]
networks),虽然同样使用了图卷积来表征骨架数
据,但是这两个方法所使用的邻接矩阵
A
均是通过
手工设计的方式完成的。手工设计的邻接矩阵
A
在
聚合帧内关节点数据时,往往缺乏自适应性,未能进
行有效的聚合。
为了解决这个问题,本文提出了一种将多模态
数据融合到图卷积之中的方法。如图2所示,通过将
不同模态的数据,诸如关节点信息流、骨长信息流、
运动信息流、速度差信息流和基于速度差的骨长信
息流进行融合,一方面可以确保构建出一个具有全
局适应性的邻接矩阵,另一方面能够减少运算次数,
从而降低运算成本,提高运算效率,最终实现网络轻
量化的目标。
1融合多模态数据的轻量级图卷积网络
1.1图卷积简介
由于图结构的不规则性和复杂性,其节点的排
列方式并不存在明显的上下左右关系,因此无法通
过固定大小的卷积核来提取相应的特征,故传统的
卷积神经网络在这一领域很难发挥作用。为了解决
这一问题,研究人员提供了两条思路:一条是将非欧
氏空间的图转换到欧氏空间,即构建伪图;另一条就
是构建一种可处理变长邻居节点的卷积核,这也就
是GCN的最初设计原理。
对于一张给定图,需要两种输入数据来提取特
征:一个是维度为
N×F
的特征矩阵
X
,其中
N
为图
F
为每个节点的输入特征;中的节点数,另一个是维
1.3多模态数据融合
首先,对于一个给定的骨架序列,其关节点的定
义如式(2)所示:
s={V
i,t
|i=1,2,⋯,N;t=1,2,⋯,T}
(2)
Fig.1
图1
Networkframework
网络框架结构
736
JournalofFrontiersofComputerScienceandTechnology计算机科学与探索2021,15(4)
Fig.2Multi-modaldatafusion
图2多模态数据融合
T
为序列中的总帧数,
N
为总关节点数,
V
i,t
表其中,
示为在
t
时刻的关节点
i
。因为涉及到多模态数据的
融合,训练开始前需要对集合
S
进行多样化的预处
理。因为关节点信息流可以直接获取,所以在这里
只需要给出骨长信息流、运动信息流和基于速度差
的骨长信息流的定义公式。
骨长信息流(boneinformationflow):通常定义
靠近人体重心的点为源关节点,其坐标可以定义为
V
i,t
=(x
i,t
,y
i,t
,z
i,t
)
,而远离重心的点为目标关节点,其坐
下所示:
~
D
i,0:T-1,1:T
=Embed(x
i,0:T-1
-x
i,1:T
,
基于速度差的骨长信息流(boneinformationflow
basedonvelocitydifference):基于速度差的骨长信息
流是在速度差信息流的基础上通过计算相邻两个帧
中相同骨骼之间的差值得到的。根据式(2)的骨长
信息流与式(5)的速度差信息流定义,可以定义前
T-1
帧上的源关节点
i
到目标关节点
j
骨长的信息
~~
流为
D
i,j,0:T-1
,后
T-1
帧上的骨长信息流为
D
i,j,1:T
,因
y
i,0:T-1
-y
i,1:T
,z
i,0:T-1
-z
i,1:T
)
(5)
标为
V
j,t
=(x
j,t
,y
j,t
,z
j,t
)
,通过源关节点与目标关节点的
差值可以计算骨长信息流。因此骨长信息流的定义
如下所示:
L
i,j,t
=V
j,t
-V
i,t
=(x
j,t
-x
i,t
,y
j,t
-y,z
j,t
-z
i,t
)
(3)
此基于速度差的骨长信息流如式(6)所示:
~~~
D
i,j,0:T-1,1:T
=(
D
i,j,0:T-1
-
D
i,j,1:T
)
(6)
如图2所示,根据式(2)到式(6)中对于关节点信
息流、骨长信息流、运动信息流、速度差信息流和基
于速度差的骨长信息流的定义,多模态数据融合的
定义如下所示:
~~
Fusion={V
i,t
+L
i,j,t
+M
i,t,t+1
+
D
i,0:T-1,1:T
+
D
i,j,0:T-1,1:T
|
i=1,2,⋯,N;t=1,2,⋯,T}
运动信息流(motioninformationflow):运动信息
流是通过计算相邻两个帧中相同关节点之间的差值
得到的。本文定义在
t
帧上的关节点
i
,其坐标为
V
i,t
=(x
i,t
,y
i,t
,z
i,t
)
,则在
t+1
帧上的关节点
i
定义为
V
i,t+1
之间的运动信息流可以定义如式(4)所示:
M
i,t,t+1
=V
i,t
-V
i,t+1
=
(x
i,t+1
-x
i,t
,y
i,t+1
-y
i,t
,z
i,t+1
-z
i,t
)
V
i,t+1
=(x
i,t+1
,y
i,t+1
,z
i,t+1
)
。因此在关节点
V
i,t
与关节点
(7)
1.4基于密集连接卷积网络的空间流模块
为了更好地表征骨架序列在时间维度空间维度
(4)
上的信息,本文在SGN
[13]
的基础上,重新设计了时间
流模块和空间流模块。
设计空间流模块的目的主要是为了获得某一帧
内不同关节点之间的相关性。在空间流模块中,通
过使用图卷积来探索结构型骨架数据中关节点的相
关性,如图3所示,空间流模块的主体部分主要由三层
图卷积组成。相比于之前一些方法,例如ST-GCN
[11]
,
该方法虽然同样使用图卷积来建模骨架数据,但是
速度差信息流(velocitydifferenceinformationflow):
速度差信息流首先需要计算前
T-1
帧与后
T-1
帧的
差值,接着通过填补0元素的方式扩充矩阵,弥补维
度上的变化。假设关节点
i
在前
T-1
帧上的定义为
V
i,0:T-1
=(x
i,0:T-1
,y
i,0:T-1
,z
i,0:T-1
)
,在后
T-1
帧上的定义为
V
i,t+1
=(x
i,1:T
,y
i,1:T
,z
i,1:T
)
,因此速度差信息流的定义如
苏江毅等:多模态轻量级图卷积人体骨架行为识别方法
737
这些方法都缺乏自适应性,即ST-GCN
[11]
中的图的拓
扑结构是根据人体的物理结构预先定义好的,但是
通过这样的方法定义的图结构并不一定适用于行为
识别的任务。此外,由于需要对不同的动作进行识
别,如果都使用相同的拓扑结构的图显然也是不合
理的。针对这些问题,一个合适的解决方法是设计
一种具有自适应的图卷积网络来建模结构型骨架数
据。如图3所示,通过计算
t
帧的关节点
i
与关节点
j
之间的相关性来得到这两个节点之间的边缘权重
(edgeweight),具体公式如下:
S
t
(i,j)=θ(V
i,t
)
T
ϕ(V
j,t
)
一层GCN之前的输出与之后每层GCN的输出直接
相连。具体的实现过程并不是残差网络(residualnet-
[15]
work,ResNet)中所采用的直接相加的方式,而是采
用了连结结构(concatenate)的方式,这样能够以增加
少量参数量为代价,实现浅层特征的复用,加强特征
在三层GCN网络中的传播,同时也能够避免某些层
被选择性丢弃,造成信息堵塞等。通过建立不同层
之间的密集连接,不仅能够提高运算效率,减少不同
层之间的依赖性;同时还能加强深层特征与浅层的
联系,最终达到复用浅层特征的目的。
(8)
1.5基于残差网络的时间流模块
与空间流模块不同的是,时间流模块的设计目
θ
与
ϕ
主要用来进行维度变换,其中,具体实现如下
所示:
θ(x)=W
1
x+b
1
的是获得帧与帧之间的相关性。如图4时间流模块
(9)
(10)
所示,时间流模块主要由空间最大池化层、时间最大
池化层以及两层CNN所组成。其中空间最大池化层
(spatialmaxpoolinglayer,SMP)用来聚合同一帧中的
关节点信息;时间最大池化层(temporalmaxpooling
layer,TMP)用来聚合不同帧之间的信息。第一层
CNN为时间卷积层,用于对帧的相关性进行建模;第
二层CNN用于增强其所学习到特征的泛化能力。与
SGN
[13]
中的结构相比,本文通过在双重卷积层之间引
ϕ(x)=W
2
x+b
2
通过计算同一帧中所有关节点之间的相关性,
在SGN
[13]
的基础上,本文还采用了密集连接卷积
得到了具有所有帧中所有关节点的自适应邻接矩阵。
网络(denselyconnectedconvolutionalnetworks,Dense-
[14]
Net)中密集连接(denseconnection)的方式来提高
模型的泛化效果。本文借用DenseNet的思想,将第
Fig.3Spatialflowmodule
空间流模块图3
Fig.4Temporalflowmodule
图4时间流模块
738
JournalofFrontiersofComputerScienceandTechnology计算机科学与探索2021,15(4)
入ResNet
[15]
中的快捷连接(skipconnection)的方式,
确保帧内信息的多次使用,从而在加强帧与帧之间
相关性的同时,加强特征的表现能力。
1.6融合多模态数据的轻量级图卷积网络的
参数量对比
近几年,虽然基于人体骨架的行为识别方法成
为了主要研究方向之一,但是这些方法往往都存在
一些问题。一方面是这些方法往往通过构建复杂的
网络结构的方式来提高实验精度,针对人体骨架这
种简单有效的数据而言,过于复杂的网络结构会造
成整体计算效率的低下。另一方面,这些方法在初
始数据集的基础上生成多个派生数据集用于训练,
通过将多个派生数据集上的训练结果进行融合的方
式获得更高的精度,这造成了时间成本的大量浪费。
为了解决这一问题,本文提出了一种基于人体
骨架的轻量级行为识别方法。除了网络结构更加高
效之外,训练过程也较为简单。不同于之前一些基
于图卷积的方法所采用的方法,该方法并不需要在
多个派生数据集上进行多次训练。本文通过多模态
数据融合的方式直接将多种信息流进行融合,这样
做的好处就是可以避免生成多个对应的派生数据
集,将训练次数减少为一次,从而降低网络的整体参
数量。与之前的方法相比,该方法最大的特点就是
能够在参数量与精度之间达到很好的平衡,即通过
较少的参数量达到甚至超过之前的一些方法的精度。
为了验证该方法的具体表现,与近两年的方法
在NTU60RGB+D
[15]
数据集的X-sub标准上进行了比
较。如图5所示,ST-GCN
[11]
、2s-AGCN
[12]
、AS-GCN
actional-structuralgraphconvolutionalnetworks)
[16]
这
三个方法均是基于GCN的方法,相比于其他方法可
以看出,使用了图卷积的方法在参数量和精度方面
都有较好的表现。相较于基于CNN的方法VA-CNN
viewadaptiveconvolutionalneuralnetworks)
[17]
与基
于RNN的方法AGC-LSTM(joint)(attentionenhanced
graphconvolutionalLSTMnetwork)
[18]
,虽然同样取得
了不错的结果,但是参数量却远超其他方法。通过
对比可以发现,相比于VA-CNN
[17]
与AGC-LSTM
(joint)
[18]
这两类非图卷积方法,本文方法不仅在精度
上有很大的提升,同时参数量也仅为VA-CNN
[17]
与
AGC-LSTM(joint)
[18]
的1/100;相比于ST-GCN
[11]
、2s-
AGCN
[12]
、AS-GCN
[16]
这三个均是基于GCN的方法,
本文方法同样在精度和参数量上有明显优势。此
外,通过与SGN
[13]
进行对比可以发现,SGN
[13]
的参数
量为6.9×10
5
,而本文方法参数量为7.7×10
5
;如果仅从
参数量上看,由于本文方法从结构上对SGN
[13]
网络中
的空间流模块和时间流模块进行了优化,导致了参
数量比它略多了8×10
4
;但是从精度对比上看,在
NTU60RGB+D
[15]
数据集上本文提升了约1个百分
点,在NTU120RGB+D数据集
[19]
上,提升了约3个百
分点,通过增加少量的参数量,得到在精度上的较大
提升。通过综合比较可以看出,在综合考虑参数量
与精度的情况下,本文方法均取得了很好的效果。
Fig.5Comparisonofparametersofdifferentmethods
图5不同方法参数量对比
1.7算法介绍
根据1.3节公式的推导过程与1.4节、1.5节对空
间流模块和时间流模块的描述,本文算法的具体流
程描述如算法1所示。
算法1本文算法的具体流程
输入:维度为
(T×J×C
1
输出:最终分类结果。
)
的原始骨架序列。
t=1
to
T
do
2.根据公式
t+1
生成新的骨架序列
4.根据式(7)将生成的新的骨架序列融合成维度为
(1×T×
5.
J×
返回新的骨架序列
5C
1
)
的融合多模态数据的骨架序列
6.根据图3所示的网络结构,构建空间流模块
n=1
to
N
do
8.根据式(8)构建图卷积
10.获得同一帧中所有关节点之间的相关性
(
(
苏江毅等:多模态轻量级图卷积人体骨架行为识别方法
11.根据图4所示的网络结构,构建时间流模块
12.获得帧与帧之间的相关性
13.构建全连接层
14.返回最终分类结果
2实验结果与分析
2.1数据集
本文使用了两个目前主流的基于人体骨架的数
据集NTU60RGB+D数据集
[20]
和NTU120RGB+D数
据集
[19]
,作为实验对象,其样例如图6所示。
Fig.6Visualizationofthreeactions(reading,writing
andshakinghands)inNTURGB+Ddataset
图6NTURGB+D数据集中三种行为
(阅读、书写、握手)的可视化
NTU60RGB+D
[15]
数据集出自新加坡南洋理工大
学,该数据集由3个MicrosoftKinectv2相机同时捕
获完成,具体采样点的分布如图7所示。该数据集采
集的关节点数为25,相机摆放位置组合有17个,由
56880个动作片段组成,包含有40名演员执行的60
个动作分类。
本文采用了该数据的两种评判标准:(1)跨表演
人(X-Sub),X-Sub表示训练集和验证集中的行为来
自不同的演员,其中身份标识为1、2、4、5、8、9、13、
14、15、16、17、18、19、25、27、28、31、34、35、38的演员
所演示的行为用于训练,而其余的用作测试,其中训
练集样本数为40320,测试集样本数为16560。(2)跨
视角(X-View),X-View表示标号为2和3的摄像机所
拍摄的行为用作训练集数据,另一个用作测试,其中
训练集样本数为37920,测试集样本为18960。
NTU120RGB+D数据集
[19]
是对原数据集的扩充,
739
Fig.7NTURGB+Ddatasetjointpointlabels
图7NTURGB+D数据集关节点标签
相机摆放位置组合由17个扩充到32个,动作分类由
原来的60类行为扩充到120类,演员人数扩充为106
人,动作片段扩充到114480,关节点数保持不变。
本文采用该数据集的两种评判标准:(1)跨表演
人(X-Sub),X-Sub表示训练集和验证集中的行为来
自不同的演员,其中身份标识为1、2、4、5、8、9、13、
14、15、16、17、18、19、25、27、28、31、34、35、38、45、
46、47、49、50、52、53、54、55、56、57、58、59、70、74、
78、80、81、82、83、84、85、86、89、91、92、93、94、95、
97、98、100、103的演员所演示的行为用于训练,而其
余的用作测试。(2)跨相机摆放位置(X-Set),X-Set表
示将身份标识为偶数的相机摆放位置组合用于训
练,其余的用作测试。
2.2实验细节
在实验过程中,将batch设置为64,模型迭代次
数(epoch)设置为120,批大小(batchsize)为64,初始
学习率为0.1,当迭代次数分别为60、90、110时,学习
率乘以0.1。为了节省计算资源,提高计算效率,选用
Adam算法对模型进行优化,其中权重系数(weight
decay)为0.0001。为了防止过拟合,在训练时加入了
Dropout,并设置为0.2。所有的模型由一块GeForce
RTX2080TiGPU训练完成,深度学习框架为
PyTorch1.3,Python版本为3.6。
2.3实验结果
为了验证算法的效果,本文在NTU60RGB+D
[15]
与NTU120RGB+D
[19]
两个数据库上进行实验对比,
740
JournalofFrontiersofComputerScienceandTechnology计算机科学与探索2021,15(4)
同时为了验证该网络在较低参数量的情况下的具体
表现,仅选择近两年内提出的主流方法作为参考比
较的对象。其中在NTU60RGB+D数据集上的实验
结果如表1所示。
Table1Comparisonofaccuracyon
NTU60RGB+Ddataset
表1NTU60RGB+D数据集上的实验精度对比
方法年份X-Sub/%X-View/%
ST-GCN
[11]
201881.588.3
AS-GCN
[10]
201986.594.2
AGC-LSTM(joint)
[18]
201987.593.5
VA-CNN
[17]
201988.794.3
SGN
[13]
202089.094.5
Proposed202089.994.7
本文方法在NTU60RGB+D数据集上的X-Sub与
X-View两个评价标准上的精度分别为89.9%、94.7%。
相比于SGN
[13]
,分别提升了0.9个百分点与0.2个百分
点。与基于循环神经网络的方法AGC-LSTM(joint)
[18]
、
基于卷积神经网络的方法VA-CNN
[17]
相比,无论是在
参数量上还是在精度上,本文方法都有较大的提升。
当与基于图卷积的方法ST-GCN
[11]
、AS-GCN
[10]
相比
时,本文方法在精度上和参数量上也较为优越。具
体的参数展示如表2所示,相比于近两年内的其他方
法,本文方法综合表现最为出色。
Table2Comparisonofparameters
表2参数量对比
方法参数量/10
6
年份X-Sub/%X-View/%
ST-GCN
[11]
3.10201881.588.3
2s-AGCN
[12]
6.98201988.595.1
AS-GCN
[10]
7.39201986.894.2
VA-CNN
[17]
24.03201988.794.3
AGC-LSTM(joint)
[18]
22.90201987.593.5
SGN
[13]
0.69202089.094.5
Proposed0.77202089.994.7
为了更好地证明本文方法的优越性,同样在
NTU120RGB+D数据集
[19]
上进行了比较,具体的实
验结果如表3所示。
在NTU120RGB+D数据集
[19]
上的X-Sub与X-Set
两个评价标准上的精度分别为82.1%、83.8%。相比
于SGN
[13]
方法,分别提升了2.9个百分点与2.3个百分
Table3Comparisonofaccuracyon
NTU120RGB+Ddataset
表3NTU120RGB+D数据集上的实验精度对比
方法年份X-Sub/%X-Set/%
BodyPoseEvolutionMap
[22]
201864.666.9
TSRJI(LateFusion)
[24]
201967.962.8
Logsin-RNN
[21]
201968.367.2
GVFE+AS-GCNwithDH-TCN
[23]
201978.379.8
SGN
[13]
202079.281.5
Proposed202082.183.8
点。与基于循环神经网络的方法Logsin-RNN
[21]
和基
于卷积神经网络的方法BodyPoseEvolutionMap
[22]
相比,本文方法有较明显的优势。与基于循环神经
网络的方法GVFE+AS-GCNwithDH-TCN
[23]
相比,本
文方法也有一定的优势。在该数据集上的实验结果
表明本文方法可以在兼顾参数量的同时显著提高实
验精度。
最后,为了更客观地证明本文中所提出的多模
态数据融合与时空间流模块的性能和有效性,本文
在NTU60RGB+D数据集
[15]
与NTU120RGB+D数据
集
[19]
上分别构建了五个网络,用来测试删除该模块后
对整个实验结果的具体影响,具体实验结果如表4所
示。其中wo-bone(withoutboneinformationflow)表
示为数据融合中缺少骨长信息流;wo-motion(without
motioninformationflow)表示为数据融合中缺少运动
信息流;wo-diff(withoutvelocitydifferenceinformation
flow)表示为数据融合中缺少速度差信息流;wo-diff-
bone(withoutboneinformationflowbasedonvelocity
difference)表示为数据融合中缺少基于速度差的骨
长信息流。最后一组表示缺少时空间流模块中的密
集连接与快捷连接。通过综合比较NTU60RGB+D
数据集
[15]
与NTU120RGB+D数据集
[19]
上各模块的测
Table4Comparisonofdifferentmodules
表4各模块对比%
方法
NTU60RGB+DNTU120RGB+D
X-SubX-ViewX-SubX-Set
wo-bone89.294.579.782.1
wo-motion89.194.581.883.0
wo-diff89.194.680.182.3
wo-diff-bone89.394.581.482.6
wo-trans89.594.681.983.1
苏江毅等:多模态轻量级图卷积人体骨架行为识别方法
试结果,发现在这四类数据之中,缺少骨长信息流和
速度差信息流会对实验结果造成较大影响。综合上
述分析,证明了本文提出的多模态数据融合与时空
间流模块的有效性。
3结束语
针对传统的行为识别方法计算复杂度过高的问
题,本文提出了一种基于轻量级图卷积的人体骨架
数据的行为识别方法。该算法通过多模态数据融合
与自适应图卷积相结合的方式,在兼顾参数量的同
时取得了很好的效果,同时通过密集连接以及快捷
连接的方式提高特征的利用率。最后,在行为识别
数据集NTU60RGB+D和NTU120RGB+D上的实验
结果表明,该方法在较低参数量的情况下,能达到较
高的实验精度。美中不足的是,通过密集连接以及
快捷连接的方式虽然能够大幅提高精度,但是仍然
会对参数量造成一定的影响。在未来的工作中,将
继续研究基于人体骨架数据的行为识别方法,实现
以更少的参数量达到更高的精度这一目标。
参考文献:
[1]HANJG,SHAOL,XUD,edcomputervision
withmicrosoftkinectsensor:areview[J].IEEETransactions
onCybernetics,2013,43(5):1318-1334.
[2]YEM,ZHANGQ,WANGL,yonhumanmo-
tionanalysisfromdepthdata[M]//Time-of-FlightandDepth
s,Algorithms,,Hei-
delberg:Springer,2013:149-187.
[3]CAIQ,DENGYB,LIHS,onhumanaction
recognitionbasedondeeplearning[J].ComputerScience,
2020,47(4):85-93.
蔡强,邓毅彪,李海生,等.基于深度学习的人体行为识别
方法综述[J].计算机科学,2020,47(4):85-93.
[4]YANGXD,oints-basedactionrecognition
usingNaive-Bayes-nearest-neighbor[C]//Proceedingsofthe
2012IEEEComputerSocietyConferenceonComputerVision
andPatternRecognitionWorkshops,Providence,Jun16-21,
gton:IEEEComputerSociety,2012:14-19.
[5]YANGXD,ive3Dactionrecognitionusing
eigenjoints[J].JournalofVisualCommunicationandImage
Representation,2014,25(1):2-11.
[6]RUMELHARTDE,HINTONGE,-
ingrepresentationsbyback-propagatingerrors[J].Nature,
741
1986,323(6088):533-536.
[7]LECUNY,BOTTOUL,BENGIOY,nt-based
learningappliedtodocumentrecognition[J].Proceedings
oftheIEEE,1998,86(11):2278-2324.
[8]KIPFT,FETAYAE,WANGKC,relational
inferenceforinteractingsystems[J].arXiv:1802.04687,2018.
[9]DUY,WANGW,chicalrecurrentneural
networkforskeletonbasedactionrecognition[C]//Proceed-
ingsofthe2015IEEEConferenceonComputerVisionand
PatternRecognition,Boston,Jun7-12,gton:
IEEEComputerSociety,2015:1110-1118.
[10]LIUH,TUJH,-stream3Dconvolutional
neuralnetworkforskeleton-basedactionrecognition[J].
arXiv:1705.08106,2017.
[11]YANSJ,XIONGYJ,ltemporalgraph
convolutionalnetworksforskeleton-basedactionrecogni-
tion[C]//Proceedingsofthe32ndAAAIConferenceonArti-
ficialIntelligence,NewOrleans,Feb2-7,ark:
AAAI,2018.
[12]SHIL,ZHANGYF,CHENGJ,-streamadaptive
graphconvolutionalnetworksforskeleton-basedactionrec-
ognition[C]//Proceedingsofthe2019IEEEConferenceon
ComputerVisionandPatternRecognition,LongBeach,Jun
16-20,gton:IEEEComputerSociety,2019:
12026-12035.
[13]ZHANGPF,LANCL,ZENGWJ,ics-guided
neuralnetworksforefficientskeleton-basedhumanaction
recognition[C]//Proceedingsofthe2020IEEE/CVFConfer-
enceonComputerVisionandPatternRecognition,Seattle,
Jun13-19,away:IEEE,2020:1112-1121.
[14]HUANGG,LIUZ,VANDERMAATENL,y
connectedconvolutionalnetworks[C]//Proceedingsofthe2017
IEEEConferenceonComputerVisionandPatternRecogni-
tion,Honolulu,Jul21-26,gton:IEEECom-
puterSociety,2017:4700-4708.
[15]HEKM,ZHANGXY,RENSQ,sidual
learningforimagerecognition[C]//Proceedingsofthe2016
IEEEConferenceonComputerVisionandPatternRecogni-
tion,LasVegas,Jun27-30,gton:IEEECom-
puterSociety,2016:770-778.
[16]LIMS,CHENSH,CHENX,al-structuralgraph
convolutionalnetworksforskeleton-basedactionrecognition
[C]//Proceedingsofthe2019IEEEConferenceonComputer
VisionandPatternRecognition,LongBeach,Jun16-20,2019.
Washington:IEEEComputerSociety,2019:3595-3603.
742
JournalofFrontiersofComputerScienceandTechnology计算机科学与探索2021,15(4)
[17]ZHANGPF,LANCL,XINGJL,aptive
neuralnetworksforhighperformanceskeleton-basedhuman
actionrecognition[J].IEEETransactionsonPatternAnalysis
andMachineIntelligence,2019,41(8):1963-1978.
[18]SICY,CHENWT,WANGW,ntionenhanced
graphconvolutionalLSTMnetworkforskeleton-basedaction
recognition[C]//Proceedingsofthe2019IEEEConference
onComputerVisionandPatternRecognition,LongBeach,
Jun16-20,gton:IEEEComputerSociety,2019:
1227-1236.
[19]LIUJ,SHAHROUDYA,PEREZML,+D
120:alarge-scalebenchmarkfor3Dhumanactivityunder-
standing[J].arXiv:1905.04757v1,2019.
[20]SHAHROUDYA,LIUJ,NGTT,+D:a
largescaledatasetfor3Dhumanactivityanalysis[C]//Pro-
ceedingsofthe2016IEEEConferenceonComputerVision
andPatternRecognition,LasVegas,Jun27-30,-
ington:IEEEComputerSociety,2016:1010-1019.
[21]LIAOSJ,LYONST,YANGWX,ngstochastic
differentialequationsusingRNNwithlogsignaturefeatures
[J].arXiv:1908.08286,2019.
[22]LIUMY,izinghumanactionsasthe
evolutionofposeestimationmaps[C]//Proceedingsofthe
2018IEEEConferenceonComputerVisionandPattern
Recognition,SaltLakeCity,Jun18-22,gton:
IEEEComputerSociety,2018:1159-1168.
[23]PAPADOPOULOSK,GHORBELE,AOUADAD,etal.
Vertexfeatureencodingandhierarchicaltemporalmodeling
inaspatial-temporalgraphconvolutionalnetworkforaction
recognition[J].arXiv:1912.09745,2019.
[24]CAETANOC,BRÉMONDF,on
imagerepresentationfor3Dactionrecognitionbasedon
treestructureandreferencejoints[C]//Proceedingsofthe
201932ndSIBGRAPIConferenceonGraphics,Patterns
andImages,RiodeJaneiro,Oct28-30,away:
IEEE,2019:16-23.
苏江毅(1994—),男,江苏南通人,硕士研究
生,主要研究方向为人工智能与模式识别。
SUJiangyi,bornin1994,
researchinterestsincludeartificialintelligence
andpatternrecognition.
宋晓宁(1975—),男,江苏南京人,博士,教授,
博士生导师,主要研究方向为人工智能与模式
识别,图像处理和分析等。
SONGXiaoning,bornin1975,Ph.D.,profes-
sor,earchinterestsin-
cludeartificialintelligenceandpatternrecogni-
tion,imageprocessingandanalysis,etc.
吴小俊(1967—),男,江苏丹阳人,博士,教授,
博士生导师,主要研究方向为模式识别、计算
机视觉、模糊系统、神经网络、智能系统等。
WUXiaojun,bornin1967,Ph.D.,professor,
earchinterestsinclude
patternrecognition,computervision,fuzzysys-
tems,neuralnetworks,intelligentsystems,etc.
於东军(1975—),男,江苏镇江人,博士,教授,
博士生导师,主要研究方向为模式识别、神经
网络、生物信息学等。
YUDongjun,bornin1975,Ph.D.,professor,Ph.D.
earchinterestsincludepattern
recognition,neuralnetwork,bioinformatics,etc.
发布者:admin,转转请注明出处:http://www.yc00.com/web/1712934086a2150880.html
评论列表(0条)