用于识别动作的方法、装置、设备以及存储介质制造方法及图纸

技术编号:28421865 阅读:18 留言:0更新日期:2021-05-11 18:29
本申请公开了用于识别动作的方法、装置、设备以及存储介质,涉及计算机视觉、深度学习、增强现实技术领域。具体实现方案为:获取目标视频;对目标视频中的多个视频帧进行人体检测,确定多张人体图像;确定多张人体图像中人体对象对应的关键点;确定多个视频帧的空间特征信息;根据关键点以及空间特征信息,确定人体对象的动作。本实现方式可以提高动作识别的效率。

【技术实现步骤摘要】
用于识别动作的方法、装置、设备以及存储介质
本申请涉及计算机
,具体涉及计算机视觉、深度学习、增强现实
,尤其涉及用于识别动作的方法、装置、设备以及存储介质。
技术介绍
动作识别是指基于视觉技术方案对视频中多帧画面中的人物,以及该段视频的时间和空间序列信息进行分析,从而判断人物正在进行的动作。理解视频中人的动作和行为,是计算机视觉和智能视频分析领域的一个挑战性问题,也是视频内容理解的关键,极具广泛的应用前景。
技术实现思路
提供了一种用于识别动作的方法、装置、设备以及存储介质。根据第一方面,提供了一种用于识别动作的方法,包括:获取目标视频;对目标视频中的多个视频帧进行人体检测,确定多张人体图像;确定多张人体图像中人体对象对应的关键点;确定多个视频帧的空间特征信息;根据关键点以及空间特征信息,确定人体对象的动作。根据第二方面,提供了一种用于识别动作的装置,包括:视频获取单元,被配置成获取目标视频;人体检测单元,被配置成对目标视频中的多个视频帧进行人体检测,确定多张人体图像;关键点确定单元,被配置成确定多张人体图像中人体对象的关键点;空间特征提取单元,被配置成确定多个视频帧的空间特征信息;动作识别单元,被配置成根据关键点以及空间特征信息,确定人体对象的动作。根据第三方面,提供了一种用于识别动作的电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,上述指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面所描述的方法。根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,上述计算机指令用于使计算机执行如第一方面所描述的方法。根据第五方面,一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如第一方面所描述的方法。根据本申请的技术提供了一种识别动作方法,能够提高识别动作效率。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是本申请的一个实施例可以应用于其中的示例性系统架构图;图2是根据本申请的用于识别动作的方法的一个实施例的流程图;图3是根据本申请的用于识别动作的方法的一个应用场景的示意图;图4是根据本申请的用于识别动作的方法的另一个实施例的流程图;图5是根据本申请的用于识别动作的装置的一个实施例的结构示意图;图6是用来实现本申请实施例的用于识别动作的方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的用于识别动作的方法或用于识别动作的装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如视频播放类应用、视频处理类应用等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上提供的视频进行处理的后台服务器。后台服务器可以识别视频中人体的动作,并将识别出来的动作通过各种方式反馈给终端设备101、102、103,例如通过可视化的方式反馈给终端设备101、102、103。需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。需要说明的是,本申请实施例所提供的用于识别动作的方法一般由服务器105执行。相应地,用于识别动作的装置一般设置于服务器105中。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。继续参考图2,示出了根据本申请的用于识别动作的方法的一个实施例的流程200。本实施例的用于识别动作的方法,包括以下步骤:步骤201,获取目标视频。本实施例中,用于识别动作的方法的执行主体可以通过各种方式获取目标视频。例如,执行主体可以接收终端设备发送的视频,作为目标视频。或者,执行主体可以主动从网上爬取视频,作为目标视频。目标视频中可以包括人体图像,并且人体图像是运动的,不是静止的。步骤202,对目标视频中的多个视频帧进行人体检测,确定多张人体图像。在获取到目标视频后,执行主体可以提取多个视频帧,并对所提取的多个视频帧进行人体检测,确定多张人体图像。具体的,执行主体可以将目标视频的所有视频帧都提取出来。或者,从目标视频帧均匀抽取,得到多个视频帧。或者,将目标视频中包括人体的视频帧作为多个视频帧。执行者实体可以采用多种算法对多个视频帧进行人体检测,并利用包络框标注检测出来的人体。并将包络框内的人体作为人体图像,从而得到多张人体图像。步骤203,确定多张人体图像中人体对象的关键点。执行主体在得到多张人体图像后,可以确定多张人体图像中人体对象的关键点。具体的,执行主体可以对多张人体图像进行特征提取,以确定人体对象的关键点。或者,将每张人体图像输入预先训练的关键点提取模型,来确定每张人体图像中人体对象的关键点。上述关键点提取模型可以是卷积神经网络。这里的关键点可以指能够表征动作特征的各种点,例如关节位置等等。关键点可以通过多种形式来表示,例如二维坐标、三维坐标、二维热力图、立体热力图等等。步骤204,确定多个视频帧的空间特征信息。本文档来自技高网...

【技术保护点】
1.一种用于识别动作的方法,包括:/n获取目标视频;/n对所述目标视频中的多个视频帧进行人体检测,确定多张人体图像;/n确定所述多张人体图像中人体对象对应的关键点;/n确定所述多个视频帧的空间特征信息;/n根据所述关键点以及所述空间特征信息,确定所述人体对象的动作。/n

【技术特征摘要】
1.一种用于识别动作的方法,包括:
获取目标视频;
对所述目标视频中的多个视频帧进行人体检测,确定多张人体图像;
确定所述多张人体图像中人体对象对应的关键点;
确定所述多个视频帧的空间特征信息;
根据所述关键点以及所述空间特征信息,确定所述人体对象的动作。


2.根据权利要求1所述的方法,其中,所述确定所述多张人体图像中人体对象对应的关键点,包括:
根据所述多张人体图像以及预先训练的特征提取模型,确定人体对象对应的关键点。


3.根据权利要求2所述的方法,其中,所述根据所述多张人体图像以及预先训练的特征提取模型,确定人体对象对应的关键点,包括:
根据所述多张人体图像以及预先训练的特征提取模型,确定第一特征图和第二特征图;
根据所述第一特征图,确定人体对象的关键点的立体热力图;
根据所述第二特征图以及所述立体热力图,确定关键点的偏移向量;
根据所述立体热力图以及所述偏移向量,确定关键点的坐标信息。


4.根据权利要求3所述的方法,其中,所述根据所述第一特征图,确定人体对象的关键点的立体热力图,包括:
增大所述第一特征图的分辨率,得到第三特征图;
提取所述第三特征图的特征,得到所述立体热力图。


5.根据权利要求3所述的方法,其中,所述根据所述第二特征图以及所述立体热力图,确定关键点的偏移向量,包括:
将所述第二特征图以及所述立体热力图进行融合,得到第一融合特征图;
提取所述第一融合特征图的特征,得到所述关键点的偏移向量。


6.根据权利要求1所述的方法,其中,所述确定所述多个视频帧的空间特征信息,包括:
根据所述多个视频帧以及预先训练的空间信息提取模型,确定所述空间特征信息。


7.根据权利要求6所述的方法,其中,所述根据所述多个视频帧以及预先训练的空间信息提取模型,确定所述空间特征信息,包括:
提取多个视频帧的上下文特征信息,得到上下文特征图;
放大所述上下文特征图的感受野,提取放大感受野后的上下文特征图的特征,得到所述空间特征信息。


8.根据权利要求1所述的方法,其中,所述根据所述关键点以及所述空间特征信息,确定所述人体对象的动作,包括:
对于每张人体图像,确定该人体图像中所述关键点对应的目标特征图;
对每个视频帧的空间特征信息进行调整,得到预设尺寸的空间特征图;
融合各目标特征图以及各空间特征图,得到第二融合特征图;
根据所述第二融合特征图,确定人体对象的动作。


9.根据权利要求8所述的方法,其中,所述融合各目标特征图以及各空间特征图,得到第二融合特征图,包括:
在各目标特征图中确定出候选目标特征图;
利用对应的空间特征图替换所述候选目标特征图,得到特征图序列;
提取所述特征图序列的特征,得到所述第二融合特征图。


10.一种用于识别动作的装置,包括:
视频获取单元,被配置成获取目标视频;
人体检测单元,被配置成对所述目标视频中的多个视频帧进行人体检测,确定多张人体图像;
关键点确定单元,被配置成确定所述多张人体图像中人体...

【专利技术属性】
技术研发人员:孟庆月
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1