一种动作识别方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:29255788 阅读:17 留言:0更新日期:2021-07-13 17:27
本公开实施例公开了一种动作识别方法、装置、设备及计算机可读存储介质。该方法包括:对待识别的视频序列中的每帧图像的特征图进行空间编码,得到每帧图像的动作主体特征向量;对每帧图像的动作主体特征向量进行时序关联,得到每帧图像的动作主体时序特征向量;依据动作主体时序特征向量,对每帧图像的特征图进行特征增强,得到每帧图像的动作增强特征图;对视频序列包含的图像中的每帧图像的动作增强特征图进行动作识别,得到视频序列的动作识别结果。通过本公开,能够提高动作识别的准确度。

【技术实现步骤摘要】
一种动作识别方法、装置、设备及计算机可读存储介质
本公开涉及人工智能领域中的计算机视觉技术,尤其涉及一种动作识别方法、装置、设备及计算机可读存储介质。
技术介绍
动作识别是指利用计算机视觉技术对视频画面中的人物的动作进行识别与理解的过程,其可以广泛应用于虚拟现实交互、视频语义理解等应用中。动作识别可以借助于深度学习技术来实现,例如,通过卷积神经网络结合时序关联感知的方式,来实现动作识别。然而相关技术中,在动作识别,特别是时序关联感知时会引入大量的背景信息,使得时序关联感知的准确度较低,最终使得动作识别的准确度较低。
技术实现思路
本公开实施例提供一种动作识别方法、装置、设备及计算机可读存储介质,能够提高动作识别的准确度。本公开实施例的技术方案是这样实现的:本公开实施例提供一种动作识别方法,包括:对待识别的视频序列中的每帧图像的特征图进行空间编码,得到所述每帧图像的动作主体特征向量;对所述每帧图像的所述动作主体特征向量进行时序关联,得到所述每帧图像的动作主体时序特征向量;依据所述动作主体时序特征向量,对所述每帧图像的所述特征图进行特征增强,得到所述每帧图像的动作增强特征图;对所述视频序列包含的图像中的每帧图像的动作增强特征图进行动作识别,得到所述视频序列的动作识别结果。本公开实施例提供一种动作识别装置,包括:动作编码模块,用于对待识别的视频序列中的每帧图像的特征图进行空间编码,得到所述每帧图像的动作主体特征向量;时序关联模块,用于对所述每帧图像的所述动作主体特征向量进行时序关联,得到所述每帧图像的所述动作主体时序特征向量;特征增强模块,用于依据所述动作主体时序特征向量,对所述每帧图像的所述特征图进行特征增强,得到所述每帧图像的动作增强特征图;动作识别模块,用于对所述视频序列包含的图像中的每帧图像的动作增强特征图进行动作识别,得到所述视频序列的动作识别结果。本公开实施例提供一种动作识别设备,包括:存储器,用于存储可执行动作识别指令;处理器,用于执行所述存储器中存储的可执行动作识别指令时,实现上述的动作识别方法。本公开实施例提供一种计算机可读存储介质,存储有可执行动作识别指令,用于引起处理器执行时,实现上述的动作识别方法。本公开实施例提供的动作识别方法、装置、设备及计算机可读存储介质,采用本技术方案,会先对待识别的视频序列中的每帧图像的特征图先进行空间编码,得到能够定位出特征图中发生了动作的区域的动作主体特征向量,然后再将每帧图像的动作主体特征向量在时序上进行关联,得到能够对动作相关区域的在时序上的变化进行描述的动作主体时序特征向量,减少了在时序关联感知时对于背景信息的关注程度,接着利用动作主体时序特征向量,对特征图进行特征增强,以将动作识别的注意力聚焦在发生了动作的区域,提高动作识别的准确度。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。图1是本公开实施例提供的动作识别方法的一个可选的流程示意图一;图2是本公开实施例提供的时序关联的示意图;图3是本公开实施例提供的动作区域位置图谱的示意图;图4是本公开实施例提供的生成动作主体特征向量的过程示意图一;图5是本公开实施例提供的动作识别方法的一个可选的流程示意图二;图6是本公开实施例提供的在特征图上定位动作区域的示意图;图7是本公开实施例提供的生成动作主体特征向量的过程示意图二;图8是本公开实施例提供的动作识别方法的一个可选的流程示意图三;图9是本公开实施例提供的对动作主体特征向量进行时序关联的过程示意图;图10是本公开实施例提供的对特征图进行特征增强的示意图一;图11是本公开实施例提供的对特征图进行特征增强的示意图二;图12是本公开实施例提供的动作识别系统100的一个可选的架构示意图;图13是本公开实施例提供的三个数据集的动作区域位置图谱的示意图;图14为本公开实施例提供的动作识别装置的结构示意图;图15为本公开实施例提供的动作识别设备的结构示意图。具体实施方式为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,所描述的实施例不应视为对本公开的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。对本公开实施例进行进一步详细说明之前,对本公开实施例中涉及的名词和术语进行说明,本公开实施例中涉及的名词和术语适用于如下的解释。1)人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取只是并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生成出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,设计领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。2)计算机视觉技术(ComputerVision,CV)计算机实际是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。3)机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统本文档来自技高网...

【技术保护点】
1.一种动作识别方法,其特征在于,包括:/n对待识别的视频序列中的每帧图像的特征图进行空间编码,得到所述每帧图像的动作主体特征向量;/n对所述每帧图像的所述动作主体特征向量进行时序关联,得到所述每帧图像的动作主体时序特征向量;/n依据所述动作主体时序特征向量,对所述每帧图像的所述特征图进行特征增强,得到所述每帧图像的动作增强特征图;/n对所述视频序列包含的图像中的每帧图像的动作增强特征图进行动作识别,得到所述视频序列的动作识别结果。/n

【技术特征摘要】
1.一种动作识别方法,其特征在于,包括:
对待识别的视频序列中的每帧图像的特征图进行空间编码,得到所述每帧图像的动作主体特征向量;
对所述每帧图像的所述动作主体特征向量进行时序关联,得到所述每帧图像的动作主体时序特征向量;
依据所述动作主体时序特征向量,对所述每帧图像的所述特征图进行特征增强,得到所述每帧图像的动作增强特征图;
对所述视频序列包含的图像中的每帧图像的动作增强特征图进行动作识别,得到所述视频序列的动作识别结果。


2.根据权利要求1所述的方法,其特征在于,所述对待识别的视频序列中的每帧图像的特征图进行空间编码,得到所述每帧图像的动作主体特征向量,包括:
在所述待识别的视频序列中的所述每帧图像的特征图上定位动作区域,得到所述每帧图像的动作区域位置图谱;
依据所述动作区域位置图谱,对所述每帧图像的所述特征图进行动作区域的融合,得到所述每帧图像的动作主体特征向量。


3.根据权利要求2所述的方法,其特征在于,所述在所述待识别的视频序列中的所述每帧图像的特征图上定位动作区域,得到所述每帧图像的动作区域位置图谱,包括:
对所述待识别的视频序列中的每帧图像的特征图进行通道编码,得到所述每帧图像的通道压缩后的压缩特征图;
对所述每帧图像的压缩特征图与相邻帧图像的压缩特征图差值,进行特征编码,得到所述每帧图像的所述动作区域位置图谱。


4.根据权利要求3所述的方法,其特征在于,所述对所述每帧图像的压缩特征图与相邻帧图像的压缩特征图差值,进行特征编码,得到所述每帧图像的所述动作区域位置图谱,包括:
对所述每帧图像的相邻帧图像对应的压缩特征图,与所述每帧图像对应的压缩特征图的差值,进行卷积处理,得到运动信息特征图;
对所述每帧图像对应的压缩特征图进行卷积处理,得到外观信息特征图;
将所述运动信息特征图和所述外观信息特征图进行融合,得到所述动作区域位置图谱。


5.根据权利要求4所述的方法,其特征在于,在所述对所述每帧图像对应的压缩特征图进行卷积处理,得到外观信息特征图之后,所述方法还包括:
将所述运动信息特征图和所述外观信息特征图进行融合,得到空间特征图;
对所述空间特征图进行通道编码,得到所述动作区域位置图谱。


6.根据权利要求2所述的方法,其特征在于,所述依据所述动作区域位置图谱,对所述每帧图像的所述特征图进行动作区域的融合,得到所述每帧图像的动作主体特征向量,包括:
对所述动作区域位置图谱进行归一化处理;
将归一化处理后的动作区域位置图谱与所述特征图融合,得到所述每帧图像的所述动作主体特征向量。


7.根据权利要求1至6任一项所述的方法,其特征在于,所述对所述每帧图像的所述动作主体特征向量进行时序关联,得到所述每帧图像的动作主体时序特征向量,包括:
获取所述每帧图像的动作主体特征向量与相邻帧图像的动作主体特征向量之间的相关度,其中,所述相邻帧图像包括:所述视频序列中的所有帧图像或所述视频序列中与所述每帧图像相邻的预设数量帧的图像;
基于所述相关度对所述相邻帧图像的动作主体特征向量进行加权;
对加权后的所述相邻帧图像的主动作主体特征向量进行通道变换,得到所述每帧图像的所述动作主体时序特征向量。
...

【专利技术属性】
技术研发人员:王岱崟杨昆霖侯军伊帅
申请(专利权)人:浙江商汤科技开发有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1