当前位置: 首页 > 专利查询>苏州大学专利>正文

一种基于深度视频联动特征的行为识别方法技术

技术编号:30703501 阅读:33 留言:0更新日期:2021-11-06 09:44
本发明专利技术涉及一种基于深度视频联动特征的行为识别方法,包括以下步骤:将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;将每个行为样本的动态图像输入各自的特征提取模块并提取特征;将提取的特征输入多投影联动特征提取模块并提取各投影组合的联动特征;按通道连接提取到的所有联动特征,并将连接后的特征输入平均池化层和全连接层;构造基于深度视频联动特征的行为识别网络;将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;将每个待测试行为样本的深度视频输入训练好的行为识别网络,实现行为识别。实现行为识别。实现行为识别。

【技术实现步骤摘要】
一种基于深度视频联动特征的行为识别方法


[0001]本专利技术涉及计算机视觉
,具体涉及一种基于深度视频联动特征的行为识别方法。

技术介绍

[0002]目前,行为识别是计算机视觉领域的一个研究热点。它在视频监控、行为分析等领域有着广泛的应用。
[0003]随着深度相机的发展,人们可以便捷的获取深度视频,其中包含了大量的运动信息。一部分学者获取深度视频中的人体骨骼关节点位置,利用关节点数据进行识别。另有一部分学者直接将深度视频输入网络进行行为识别。然而,基于骨骼关节点的行为识别,容易受到获取骨骼关节点的精度的影响,而且容易受到行为的类内差异、骨骼关节点的遮挡的影响。直接将深度视频输入网络,未能很好的利用深度视频包含的三维信息,以及行为在不同维度之间的特征的关系。
[0004]因此,针对上述行为识别算法问题,提出一种基于深度视频联动特征的行为识别方法。

技术实现思路

[0005]本专利技术是为解决现有技术中的问题而提出的,其目的在于,提供一种基于深度视频联动特征的行为识别方法,解决了现有识别方法提取的深层特征未能充分利用深度行为视频中的三维信息的问题。
[0006]一种基于深度视频联动特征的行为识别方法,包括以下步骤:
[0007]1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;
[0008]2)通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;
[0009]3)将每个行为样本的动态图像输入各自的特征提取模块并提取特征;
[0010]4)将提取的特征输入多投影联动特征提取模块并提取各个投影组合的联动特征;
[0011]5)按通道连接提取到的所有投影组合的联动特征,并将连接后的特征输入平均池化层和全连接层;
[0012]6)构造基于深度视频联动特征的行为识别网络;
[0013]7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;
[0014]8)将每个待测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,实现行为识别。
[0015]优选的是,所述步骤1)中投影序列的获得方式为:
[0016]每个行为样本由该样本的深度视频中的所有帧组成,获取任一行为样本的深度视频,
[0017]V={I
t
|t∈[1,N]},
[0018]其中,t表示时间索引,N为行为样本的深度视频V的总帧数;I
t

R
×
C
为行为样本的深度视频V的第t帧深度图像的矩阵表示,R、C分别对应第t帧深度图像的矩阵表示的行数、列数,表示矩阵为实数矩阵;I
t
(x
i
,y
i
)=d
i
,表示第t帧深度图像上坐标为(x
i
,y
i
)的点p
i
的深度值,即点p
i
与深度相机的距离,d
i
∈[0,D],D表示深度相机可以探测到的最远的距离;
[0019]行为样本的深度视频V可以表示成投影序列的集合,用公式表达如下:
[0020]V={V
front
,V
right
,V
left
,V
top
},
[0021]其中,V
front
表示行为样本的深度视频V进行正面投影得到的投影序列,V
right
表示行为样本的深度视频V进行右侧面投影得到的投影序列,V
left
表示行为样本的深度视频V进行左侧面投影得到的投影序列,V
top
表示行为样本的深度视频V进行顶面投影得到的投影序列;
[0022]V
front
投影序列获取方式:
[0023]V
front
={F
t
|t∈[1,N]},其中,F
t

R
×
C
表示将行为样本的深度视频V的第t帧深度图像正面投影得到的投影图,深度图像中的点p
i
的横坐标值x
i
、纵坐标值y
i
、深度值d
i
分别决定该点投影到投影图F
t
中的点的横坐标值纵坐标值像素值可用公式表示为:
[0024][0025][0026]其中f1为将深度值d
i
映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮;
[0027]V
right
投影序列获取方式:
[0028]V
right
={R
t
|t∈[1,N]},其中,R
t

R
×
D
表示将第t帧深度图像进行右侧面投影得到的投影图;在对深度图像进行右侧面投影时,存在至少一个点被投影到投影图上的同一位置;而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点;保留距离投影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值;从深度图像上横坐标x最小的一列开始向x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点p
i
的横坐标值x
i
、纵坐标值y
i
、深度值d
i
,分别决定投影图R
t
中的点的像素值纵坐标值横坐标值用公式表示为:
[0029][0030][0031]其中f2为将横坐标值x
i
映射到[0,255]区间的线性函数;当x不断增大,若新的点与之前被投影的点被投影到投影图的同一位置,则保留最新的点,即用横坐标值最大的点的横坐标值计算投影图该位置的像素值,即其中x
m
=maxx
i
,x
i
∈X
R
,X
R
为深度图像中所有纵坐标值为深度值为的点的横坐标的集合,maxx
i
,x
i
∈X
R
表示集合X
R
中的横坐标的最大值;
[0032]V
left
投影序列获取方式:
[0033]V
left
={L
t
|t∈[1,N]},其中,L
t

R
×
D
表示第t帧深度图像进行左侧面投影得到的投影图;当有多个点投影到左侧面投影图的同一位置时,保留距离投影平面最远的点;从深度
图像上横坐标x最大的一列开始向x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度视频联动特征的行为识别方法,其特征在于,包括以下步骤:1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;2)通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;3)将每个行为样本的动态图像输入各自的特征提取模块并提取特征;4)将提取的特征输入多投影联动特征提取模块并提取各投影组合的联动特征;5)按通道连接提取到的所有投影组合的联动特征,并将连接后的特征输入平均池化层和全连接层;6)构造基于深度视频联动特征的行为识别网络;7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;8)将每个待测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,实现行为识别。2.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤1)中投影序列的获得方式为:每个行为样本由该样本的深度视频中的所有帧组成,获取任一行为样本的深度视频,V={I
t
|t∈[1,N]},其中,t表示时间索引,N为行为样本的深度视频V的总帧数;I
t
∈R
×
C为行为样本的深度视频V的第t帧深度图像的矩阵表示,R、C分别对应第t帧深度图像的矩阵表示的行数、列数,表示矩阵为实数矩阵;I
t
(x
i
,y
i
)=d
i
,表示第t帧深度图像上坐标为(x
i
,y
i
)的点p
i
的深度值,即点p
i
与深度相机的距离,d
i
∈[0,D],D表示深度相机可以探测到的最远的距离;行为样本的深度视频V可以表示成投影序列的集合,用公式表达如下:V={V
front
,V
right
,V
left
,V
top
},其中,V
front
表示行为样本的深度视频V进行正面投影得到的投影序列,V
right
表示行为样本的深度视频V进行右侧面投影得到的投影序列,V
left
表示行为样本的深度视频V进行左侧面投影得到的投影序列,V
top
表示行为样本的深度视频V进行顶面投影得到的投影序列;V
front
投影序列获取方式:V
front
={F
t
|t∈[1,N]},其中,F
t
∈R
×
C表示将行为样本的深度视频V的第t帧深度图像正面投影得到的投影图,深度图像中的点p
i
的横坐标值x
i
、纵坐标值y
i
、深度值d
i
分别决定该点投影到投影图F
t
中的点的横坐标值纵坐标值像素值可用公式表示为:可用公式表示为:其中f1为将深度值d
i
映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮;V
right
投影序列获取方式:V
right
={R
t
|t∈[1,N]},其中,R
t
∈R
×
D表示将第t帧深度图像进行右侧面投影得到的投影图;在对深度图像进行右侧面投影时,存在至少一个点被投影到投影图上的同一位置;而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点;保留距离投
影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值;从深度图像上横坐标x最小的一列开始向x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点p
i
的横坐标值x
i
、纵坐标值y
i
、深度值d
i
,分别决定投影图R
t
中的点的像素值纵坐标值横坐标值用公式表示为:用公式表示为:其中f2为将横坐标值x
i
映射到[0,255]区间的线性函数;当x不断增大,若新的点与之前被投影的点被投影到投影图的同一位置,则保留最新的点,即用横坐标值最大的点的横坐标值计算投影图该位置的像素值,即其中x
m
=max x
i
,x
i
∈X
R
,X
R
为深度图像中所有纵坐标值为深度值为的点的横坐标的集合,max x
i
,x
i
∈X
R
表示集合X
R
中的横坐标的最大值;V
left
投影序列获取方式:V
left
={L
t
|t∈[1,N]},其中,L
t
∈R
×
D表示第t帧深度图像进行左侧面投影得到的投影图;当有多个点投影到左侧面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上横坐标x最大的一列开始向x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影图上,深度图像中的点p
i
的横坐标值x
i
、纵坐标值y
i
、深度值d
i
分别决定投影图L
t
中的点的像素值纵坐标值横坐标值对于投影到左侧面投影图上同一坐标处的点,选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值,用公式表示为:为:其中,f3为将横坐标值x
n
映射到[0,255]区间的线性函数,x
n
=min x
i
,x
i
∈X
L
,X
L
为深度图像中所有纵坐标值为深度值为的点的横坐标的集合,min x
i
,x
i
∈X
L
表示集合X
L
中横坐标最小值;V
top
投影序列获取方式:V
top
={T
t
|t∈[1,N]},其中,O
t

D
×
C
表示第t帧深度图像从顶面投影得到的投影图;多个点投影到顶面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点,将其投影到顶面投影图上,深度图像中的点p
i
的横坐标值x
i
、纵坐标值y
i
、深度值d
i
分别决定该点投影到投影图O
t
中的点的横坐标值像素值纵坐标值对于投影到投影图上同一坐标处的点,选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:其中,f4为将纵坐标值y
q
映射到[0,255]区间的线性函数,y
q
=max y
i
,y
i
∈Y
O
,其中Y
O
为深度图像中所有横坐标值为深度值为的点的纵坐标的集合,max y
i
,y
i
∈Y
O
表示集合Y
O
中纵坐标的最大值。3.根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所
述步骤2)中的动态图像的计算方式为:以行为样本的深度视频V的正面投影序列V
front
={F
t
|t∈[1,N]}为例,首先对F
t
进行向量化,即将F
t
的行向量连接成新的行向量i
t
;对行向量i
t
中的每个元素求算术平方根,得到新的向量w
t
,即:其中,表示对行向量i
t
中的每个元素求算术平方根,记w
t
为行为样本的深度视频V的正面投影序列V
front
的第t帧的帧向量;计算行为样本的深度视频V的正面投影序列V
front
的第t帧图像的特征向量v
t
,计算方式如下:其中,表示对行为样本的深度视频V的正面投影序列V
front
的第1帧图像到第t帧图像的帧向量求和;计算行为样本的深度视频V的正面投影序列V
front
第t帧图像F
t
的得分B
t
,计算公式如下:B
t
=u
T
·
v
t
,其中,u为维度为A的向量,A=R
×
C;u
T
表示对向量u转置;u
T
·
v
t
表示计算对向量u转置后得到的向量与特征向量v
t

【专利技术属性】
技术研发人员:杨剑宇黄瑶
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1