System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于人脸运动信息的双模态动作识别方法技术_技高网

一种基于人脸运动信息的双模态动作识别方法技术

技术编号:40015252 阅读:12 留言:0更新日期:2024-01-16 15:54
本发明专利技术提供的一种基于人脸运动信息的双模态动作识别方法,通过构建特征动作库,采集所述特征动作库中的视频数据;对特征动作库的视频数据进行提取人脸关键点二维坐标、关键点类型和时间帧序列,根据上述数据划分为训练集和测试集。所述训练集输入基于人脸运动信息的双模态网络中进行监督学习,获得具备识别能力的模型,并将所述测试集输入所述具备识别能力的模型中,以输出动作类别。实现了在仅通过获取人体脸部信息的情况下进行有效的动作识别,在大多数特定场景下都有一定的应用价值。

【技术实现步骤摘要】

本专利技术涉及人工智能、计算机视觉领域领域,尤其涉及一种基于人脸运动信息的双模态动作识别方法


技术介绍

1、近些年来,作为计算机视觉任务之一的动作识别受到越来越多的关注。随着深度学习方法在图像分类、分割等领域的成功,动作识别方法也已经从传统人工提取特征的方法向着深度学习方法发展,特别是三维卷积神经网络和图卷积神经网络方面,并且取得了不错的效果。除了rgb视频以外,基于骨骼的动作识别也引起了越来越多的关注。骨骼是一种良好的数据,使用骨骼数据进行动作识别有几个优点,首先,骨骼是对人体姿态和运动进行抽象的高级表示,即使没有外观信息,人类也能够仅通过观察关节的运动来识别动作类别。

2、目前的基于监控的动作识别方法大多是基于信息完整或接近完整的前提下,但在大多数特定场景下,摄像头只能获取到人体的部分信息,甚至只能获取到脸部的信息而无法获取到躯干、腿部等信息。不过人类也能够仅通过观察面部就可以判断对方的一些动作,如喝水、站起来、坐下等,但目前通过面部信息来进行动作识别的方法仍然缺少。


技术实现思路

1、本专利技术为目前缺少通过面部信息来进行动作识别的方法的问题,提供一种基于人脸运动信息的双模态动作识别方法。

2、为解决上述技术问题,本专利技术的技术方案如下:

3、一种基于人脸运动信息的双模态动作识别方法,其特征在于,包括以下步骤:

4、s1,构建特征动作库,采集所述特征动作库中的视频数据;

5、s2,对特征动作库的视频数据进行提取人脸关键点二维坐标、关键点类型和时间帧序列,根据上述数据划分为训练集和测试集;

6、s3,将所述训练集输入基于人脸运动信息的双模态网络中进行监督学习,获得具备识别能力的模型,并将所述测试集输入所述具备识别能力的模型中,以输出动作类别。

7、s4,将待识别的视频进行预处理,得到预处理后的帧数据;

8、s5,将所述的预处理后的帧数据输入所述训练后的基于人脸运动信息的双模态网络模型,得到所述待识别的视频所属的动作类型。

9、上述步骤中,所述的二维图像数据用于所述步骤s2的人脸关键点二维坐标提取,所述人脸关键点二维坐标为人脸五官关键点的坐标;

10、s2中通过pip-net算法提取所述人脸关键点二维坐标;

11、s3中,采用所述的训练集和测试集对所述的基于人脸运动信息的双模态网络模型分别进行训练及测试,具体包括如下步骤:

12、s301:将所述的人脸图像缩放成统一大小,再将所述的人脸关键点的二维坐标分别减去所述的人脸关键点的第一帧中中心点的坐标得到人脸关键点的相对坐标;

13、s302:将所述的人脸关键点的相对坐标st,n,2输入到图卷积时空建模模块中,其中t为帧数,n为关键点的数量,2为关键点坐标的维数。所述的图卷积时空建模模块包括空间建模模块和时间建模模块,所述的空间建模模块中包含了三个通道拓扑细化图卷积,其中所述的时间建模包括归一化时间注意力模块和多尺度时间建模模块;

14、s303:将所述的人脸关键点的相对坐标st,n,2输入到所述的三个通道拓扑细化图卷积中,在所述的通道拓扑细化图卷积中,将st,n,2分成两份,分别输入到两个不同的1×1的卷积中把特征维度压缩,再将所述的压缩后的特征进行时间维度的池化得到特征和其中r为压缩的比例系数,再将所述的特征和进行对位相减和输入tanh激活函数,得到相关性特征mn,c,再经过1×1的卷积,得到通道级的相关性拓扑qn,c,再将所述的通道级的相关性拓扑qn,c和共享拓扑an,n进行广播相加,得到通道级拓扑rn,n,c=a+αq,其中α是可学习的因子。再将st,n,2进行1×1的卷积得到s′t,n,c,再将s′t,n,c和rn,n,c进行矩阵相乘,得到空间建模特征再将三个通道拓扑细化图卷积的空间建模特征和进行相加,再经过batchnorm和relu激活函数,再和st,n,2经过1×1的卷积的输出相加得到空间特征

15、s304:将所述的空间特征输入到所述的时间建模模块,首先是将空间特征输入到所述的归一化时间注意力模块,将空间特征进行平均池化,得到平均时间特征st,再将平均时间特征st进行归一化,通过公式

16、

17、得到归一化时间特征再将归一化时间特征进行数值转变,通过公式

18、

19、得到时间注意力特征s′t,其中b是可学习的偏置,然后通过

20、

21、得到时间加强特征其中为广播对位相乘。接着把所述的时间加强特征输入到所述的多尺度时间建模模块中,其中多尺度时间建模一共有四个分支,分别是1×1的卷积+5×1的卷积、1×1的卷积+7×1的卷积、1×1的卷积+3×3的最大池化和1×1的卷积,再将四个分支的结果进行按照特征维度进行拼接再和st,n,2经过1×1的卷积后的输出相加,接着经过relu激活函数得到时空特征

22、s305:将步骤s304中的时空特征替换成步骤s303中的人脸关键点的相对坐标st,n,2,接着再重复步骤s303和步骤s304九次,将最后的时空特征输入到全连接层进行分类得到基于人脸关键点的预测向量;

23、s306:将所述的人脸图像st,3,64,64输入到卷积神经网络中,其中t为帧数,所述的卷积神经网络是基于resnet-50的变体,其中串联了7×7的卷积、四层变体res模块和全连接层分类器,所述的变体res 模块包括了变体action模块,再串联了1×1的卷积、3×3的卷积和1×1的卷积,所述的变体action模块包括了特征时间移位操作、时空激励模块、通道激励模块和运动激励模块;

24、s307:将所述的7×7的卷积的输出特征sc,t,h,w输入到所述的变体res模块。在变体res模块中,特征sc,t,h,w首先被输入到所述的变体action模块。在变体action模块中,首先将特征sc,t,h,w进行所述的特征时间移位操作,再分别输入到所述的时空激励模块、通道激励模块和运动激励模块。在所述的时空激励模块中,先对特征sc,t,h,w进行通道池化,得到特征s1,t,h,w,再将特征s1,t,h,w输入到多时间精细空间模块得到特征s4,t,h,w,通过公式

25、

26、

27、

28、

29、

30、再将s4,t,h,w输入到3×3×3的卷积,在经过sigmoid激活函数之后与特征sc,t,h,w进行广播对位相乘,再与特征sc,t,h,w相加得到时空激励在所述的通道激励模块中,对特征sc,t,h,w进行空间池化,得到特征sc,t,1,1,再经过1×1×1的卷积得到特征sc/16,t,1,1,再减少维度得到特征sc/16,t,再经过卷积核为3 的一维卷积,再恢复维度,进行1×1的卷积,再经过sigmoid激活函数之后与特征sc,t,h,w进行广播对位相乘,再与特征sc,t,h,w相加得到通道激励在本文档来自技高网...

【技术保护点】

1.一种基于人脸运动信息的双模态动作识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于人脸运动信息的双模态动作识别方法,其特征在于:所述的二维图像数据用于所述步骤S2的人脸关键点二维坐标提取以及作为步骤S3的基于人脸运动信息的双模态网络的输入,所述人脸关键点二维坐标为人脸五官关键点的坐标。

3.根据权利要求1所述的基于人脸运动信息的双模态动作识别方法,其特征在于:所述步骤S2中通过PIP-Net算法提取所述人脸关键点二维坐标。

4.根据权利要求1所述的基于人脸运动信息的双模态动作识别方法,其特征在于:所述步骤S3中,采用所述的训练集和测试集对所述的基于人脸运动信息的双模态网络模型分别进行训练及测试,具体包括如下步骤:

5.根据权利要求1所述的基于人脸运动信息的双模态动作识别方法,其特征在于:所述步骤S309中所述的对步骤S305中的基于人脸关键点的预测向量和步骤S308中的基于人脸图像的预测向量进行融合中的融合方法包括但不限于相加,对位相乘,编码后相加等操作。

6.根据权利要求1所述的基于人脸运动信息的双模态动作识别方法,其特征在于:所述步骤S4中所述的预处理方法为通过PIP-Net算法提取视频中人脸关键点二维坐标和关键点类型,最后提取视频的帧序列。

7.根据权利要求1所述的基于人脸运动信息的双模态动作识别方法,其特征在于:步骤S311中,将当前训练集数据组的预测偏差值在当前模型中进行反向传播,以对所述基于人脸运动信息的双模态网络模型中的内部参数进行更新时,采用SGD优化算法来优化内部参数,以对内部参数进行更新。

...

【技术特征摘要】

1.一种基于人脸运动信息的双模态动作识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于人脸运动信息的双模态动作识别方法,其特征在于:所述的二维图像数据用于所述步骤s2的人脸关键点二维坐标提取以及作为步骤s3的基于人脸运动信息的双模态网络的输入,所述人脸关键点二维坐标为人脸五官关键点的坐标。

3.根据权利要求1所述的基于人脸运动信息的双模态动作识别方法,其特征在于:所述步骤s2中通过pip-net算法提取所述人脸关键点二维坐标。

4.根据权利要求1所述的基于人脸运动信息的双模态动作识别方法,其特征在于:所述步骤s3中,采用所述的训练集和测试集对所述的基于人脸运动信息的双模态网络模型分别进行训练及测试,具体包括如下步骤:

5.根据权利要求1所述...

【专利技术属性】
技术研发人员:徐国威李东宋维罗森滋章云
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1