一种人体动作识别方法及装置制造方法及图纸

技术编号:27912396 阅读:14 留言:0更新日期:2021-04-02 13:47
本申请实施例提供的一种人体动作识别方法及装置,该方法包括获取视频片段,对视频片段中的图像帧序列进行特征提取以及降维处理,然后对降维后的特征向量进行编码,将降维特征向量进行扩充,得到预设个数的扩充特征向量;将扩充特征向量和所述编码特征向量输入至三层单层解码器进行解码;将最后一层解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值;再将预测值输入至逻辑回归模型,得到对应的预测概率,选取最大概率值对应的类别作为最后一层解码特征向量对应矩形框的人体行为动作类别。经过序列到序列的编码和解码过程,能够更加准确的识别出每个人的行为动作标签,提高了人体动作识别的准确性。

【技术实现步骤摘要】
一种人体动作识别方法及装置
本专利技术实施例涉及计算机识别
,具体涉及一种人体动作识别方法及装置。
技术介绍
近几年,计算机视觉和机器学习的飞速发展,视频分析任务已经从推断当前的状态转变为预测未来状态。基于视频的人体动作识别和预测就是这样的任务,其中动作识别是基于完整的动作执行来推断人类动作的当前状态,动作预测基于不完整的动作执行来预测人类动作的未来状态。由于这两项任务在现实世界中爆炸性地出现,例如智能安防视频监视、人机交互、虚拟现实和医疗监护等领域,因此成为热门的研究方向。但是,基于深度特征提取的人体动作识别存在如下问题:1)在实际场景下,异常动作发生频率很低,数据收集和标注困难,即无论是常规动作还是异常动作都存在多样且复杂的特点,进而导致类别内的多样性较高和在真实场景下,特别在安防领域,基于深度学习的人体动作识别遇到了较大的挑战。2)在深度特征的提取上,传统的人体动作特征提取模型无法精确并且完整的提取特征信息。在复杂场景下,受到遮挡和摄像头角度等情况的影响,传统的特征提取模型能力弱,算法鲁棒性还需要提升。
技术实现思路
本专利技术针对视频中人的行为动作识别,设计了一种新型的序列到序列的编码器-解码器的人体行为动作识别方法及装置。其具体技术方案如下:根据本专利技术实施例提供的一种人体动作识别方法,包括步骤:获取预设帧数的视频片段,对所述视频片段中的中间帧采用基于区域的目标检测算法进行人体目标检测,得到所述中间帧的多个人体检测框;对所述视频片段进行隔帧采样,得到多个图像帧序列;对所述图像帧序列采用前馈神经网络特征提取算法进行多层特征提取,得到所述图像帧序列对应的特征图;获取所述特征图中的末层特征图,针对检测出的所述人体检测框,对所述末层特征图中的所述人体检测框对应的人体特征向量进行降维处理,得到降维特征向量;其中,所述末层特征图包括特征通道数、时间维度、图像高度、图像宽度;降维后的特征向量的维度包括特征通道数、图像高度、图像宽度;将所述降维特征向量分解为预设大小和预设维度的分解特征向量,所述特征向量的预设大小=图像高度乘以图像宽度;预设维度与通道数相同;将所述分解特征向量输入到编码器的节点进行编码,得到编码特征向量;所述节点的维度与所述分解特征向量的维度相对应,所述节点的个数与所述分解特征向量的个数相对应;将所述降维特征向量进行扩充,得到预设个数的扩充特征向量;其中,所述预设个数为某个应用场景下出现的总人数;将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器;将所述第三解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值;再将所述预测值输入至逻辑回归模型,得到对应的预测概率,选取最大概率值对应的类别作为第三解码特征向量对应矩形框的人体行为动作类别。进一步的,所述将所述分解特征向量输入到编码器的节点进行编码,得到编码特征向量,包括步骤:将所述分解特征向量中的每个特征向量通过3个变换矩阵变换为3个第一变换特征向量;将所述第一变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第一反馈特征向量;将所述第一反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到编码特征向量。进一步的,所述将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述扩充特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述扩充特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器,包括步骤:S1将所述扩充特征向量和所述编码特征向量中输入至所述第一单层解码器;S2每个特征向量通过3个变换矩阵变换为3个第二变换特征向量;S3将所述第二变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第二反馈特征向量;S4将所述第二反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到第一解码特征向量;将所述第一解码特征向量和所述扩充特征向量输入至第二单层解码器,并重复步骤S2-S4,得到第二解码特征向量;将所述第二解码特征向量和所述扩充特征向量输入至第三单层解码器,并重复步骤S2-S4,得到第三解码特征向量。进一步的,所述基于区域的目标检测算法采用FasterRCNN算法;所述前馈神经网络特征提取算法采用3DCNNResNet。本专利技术的另一方面提供一种人体动作识别装置,包括:人体目标检测,用于获取预设帧数的视频片段,对所述视频片段中的中间帧采用基于区域的目标检测算法进行人体目标检测,得到所述中间帧的多个人体检测框;采样模块,用于对所述视频片段进行隔帧采样,得到多个图像帧序列;多层特征提取模块,用于对所述图像帧序列采用前馈神经网络特征提取算法进行多层特征提取,得到所述图像帧序列对应的特征图;降维处理模块,用于获取所述特征图中的末层特征图,针对检测出的所述人体检测框,对所述末层特征图中的所述人体检测框对应的人体特征向量进行降维处理,得到降维特征向量;其中,所述末层特征图包括特征通道数、时间维度、图像高度、图像宽度;降维后的特征向量的维度包括特征通道数、图像高度、图像宽度;分解特征向量模块,用于将所述降维特征向量分解为预设大小和预设维度的分解特征向量,所述特征向量的预设大小=图像高度乘以图像宽度;预设维度与通道数相同;编码特征向量模块,用于将所述分解特征向量输入到编码器的节点进行编码,得到编码特征向量;扩充模块,用于将所述降维特征向量进行扩充,得到预设个数的扩充特征向量;其中,所述预设个数为某个应用场景下出现的总人数;循环解码特征向量模块,用于将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述编特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器;分类模块,用于将所述第三解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值;再将所述预测值输入至逻辑回归模型,本文档来自技高网...

【技术保护点】
1.一种人体动作识别方法,其特征在于,包括步骤:/n获取预设帧数的视频片段,对所述视频片段中的中间帧采用基于区域的目标检测算法进行人体目标检测,得到所述中间帧的多个人体检测框;/n对所述视频片段进行隔帧采样,得到多个图像帧序列;/n对所述图像帧序列采用前馈神经网络特征提取算法进行多层特征提取,得到所述图像帧序列对应的特征图;/n获取所述特征图中的末层特征图,针对检测出的所述人体检测框,对所述末层特征图中的所述人体检测框对应的人体特征向量进行降维处理,得到降维特征向量;其中,所述末层特征图包括特征通道数、时间维度、图像高度、图像宽度;降维后的特征向量的维度包括特征通道数、图像高度、图像宽度;/n将所述降维特征向量分解为预设大小和预设维度的分解特征向量,所述特征向量的预设大小=图像高度乘以图像宽度;预设维度与通道数相同;/n将所述分解特征向量输入到编码器的节点进行编码,得到编码特征向量;所述节点的维度与所述分解特征向量的维度相对应,所述节点的个数与所述分解特征向量的个数相对应;/n将所述降维特征向量进行扩充,得到预设个数的扩充特征向量;其中,所述预设个数为某个应用场景下出现的总人数;/n将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器;/n将所述第三解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值;再将所述预测值输入至逻辑回归模型,得到对应的预测概率,选取最大概率值对应的类别作为第三解码特征向量对应矩形框的人体行为动作类别。/n...

【技术特征摘要】
1.一种人体动作识别方法,其特征在于,包括步骤:
获取预设帧数的视频片段,对所述视频片段中的中间帧采用基于区域的目标检测算法进行人体目标检测,得到所述中间帧的多个人体检测框;
对所述视频片段进行隔帧采样,得到多个图像帧序列;
对所述图像帧序列采用前馈神经网络特征提取算法进行多层特征提取,得到所述图像帧序列对应的特征图;
获取所述特征图中的末层特征图,针对检测出的所述人体检测框,对所述末层特征图中的所述人体检测框对应的人体特征向量进行降维处理,得到降维特征向量;其中,所述末层特征图包括特征通道数、时间维度、图像高度、图像宽度;降维后的特征向量的维度包括特征通道数、图像高度、图像宽度;
将所述降维特征向量分解为预设大小和预设维度的分解特征向量,所述特征向量的预设大小=图像高度乘以图像宽度;预设维度与通道数相同;
将所述分解特征向量输入到编码器的节点进行编码,得到编码特征向量;所述节点的维度与所述分解特征向量的维度相对应,所述节点的个数与所述分解特征向量的个数相对应;
将所述降维特征向量进行扩充,得到预设个数的扩充特征向量;其中,所述预设个数为某个应用场景下出现的总人数;
将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器;
将所述第三解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值;再将所述预测值输入至逻辑回归模型,得到对应的预测概率,选取最大概率值对应的类别作为第三解码特征向量对应矩形框的人体行为动作类别。


2.根据权利要求1所述的一种人体动作识别方法,其特征在于,所述将所述分解特征向量输入到编码器的节点进行编码,得到编码特征向量,包括步骤:
将所述分解特征向量中的每个特征向量通过3个变换矩阵变换为3个第一变换特征向量;
将所述第一变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第一反馈特征向量;
将所述第一反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到编码特征向量。


3.根据权利要求1所述的一种人体动作识别方法,其特征在于,所述将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述扩充特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述扩充特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器,包括步骤:
S1将所述扩充特征向量和所述编码特征向量中输入至所述第一单层解码器;
S2每个特征向量通过3个变换矩阵变换为3个第二变换特征向量;
S3将所述第二变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第二反馈特征向量;
S4将所述第二反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到第一解码特征向量;
将所述第一解码特征向量和所述扩充特征向量输入至第二单层解码器,并重复步骤S2-S4,得到第二解码特征向量;将所述第二解码特征向量和所述扩充特征向量输入至第三单层解码器,并重复步骤S2-S4,得到第三解...

【专利技术属性】
技术研发人员:宋波
申请(专利权)人:上海影谱科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1