一种行为识别方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:37641641 阅读:32 留言:0更新日期:2023-05-25 10:08
本申请公开一种行为识别方法、装置、设备及计算机可读存储介质,包括:获取待识别的视频数据,抽取视频数据中的多个视频帧;对多个视频帧按照不同尺度进行划分处理,得到各个尺度对应的划分结果,划分结果包括第一图像空间特征和第一骨骼数据;提取各划分结果中第一图像空间特征对应的第一图像时空特征;基于各个第一图像时空特征确定视频数据的第二图像时空特征,基于各个第一骨骼数据确定视频数据的骨骼时空特征;基于训练好的自适应注意力融合网络对第二图像时空特征和骨骼时空特征进行融合处理,得到视频数据的融合时空特征;基于融合时空特征对视频数据进行行为分类处理,得到行为识别结果,通过多尺度划分和特征融合实现精准的行为识别。现精准的行为识别。现精准的行为识别。

【技术实现步骤摘要】
一种行为识别方法、装置、设备及计算机可读存储介质


[0001]本申请涉及机器视觉
,涉及但不限于一种行为识别方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着计算机硬件和软件的飞速发展,机器视觉技术成为视频研究热门研究手段之一,机器视觉重点研究内容为从视频中分析并获取其中所包含的信息,宗旨是从视频中提取出人体的外观特征以及运动特征,并针对获取的特征进行分类,从而识别出人体行为。
[0003]在相关技术中,一方面,对视频的处理过程是对整个视频序列进行识别,能够获得动作的整体特征。但在长时间的动作中,会存在大量与关键动作无关动作,因此对整体进行分析很容易造成因忽略关键动作而造成误分类。另一方面,利用固定权值的方式将不同模态的特征融合起来,而并没有考虑不同模态特征的重要程度,因此会造成分类结果不准确的问题。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种行为识别方法、装置、设备及计算机可读存储介质。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种行为识别方法,所述方法包括:
[0007]获取待识别的视频数据,并抽取所述视频数据中的多个视频帧;
[0008]对所述多个视频帧按照不同尺度进行划分处理,得到各个尺度对应的划分结果,所述划分结果包括第一图像空间特征和第一骨骼数据;并提取各个划分结果中第一图像空间特征对应的第一图像时空特征;
[0009]基于各个第一图像时空特征确定所述视频数据的第二图像时空特征,基于各个第一骨骼数据确定所述视频数据的骨骼时空特征;
[0010]基于训练好的自适应注意力融合网络对所述第二图像时空特征和所述骨骼时空特征进行融合处理,得到所述视频数据的融合时空特征;
[0011]基于所述融合时空特征对所述视频数据进行行为分类处理,得到行为识别结果。
[0012]本申请实施例提供一种行为识别装置,所述行为识别装置包括:
[0013]获取模块,用于获取待识别的视频数据,并抽取所述视频数据中的多个视频帧;
[0014]划分模块,用于对所述多个视频帧按照不同尺度进行划分处理,得到各个尺度对应的划分结果,所述划分结果包括第一图像空间特征和第一骨骼数据;并提取各个划分结果中第一图像空间特征对应的第一图像时空特征;
[0015]确定模块,用于基于各个第一图像时空特征确定所述视频数据的第二图像时空特征,基于各个第一骨骼数据确定所述视频数据的骨骼时空特征;
[0016]融合模块,用于基于训练好的自适应注意力融合网络对所述第二图像时空特征和
所述骨骼时空特征进行融合处理,得到所述视频数据的融合时空特征;
[0017]分类模块,用于基于所述融合时空特征对所述视频数据进行行为分类处理,得到行为识别结果。
[0018]本申请实施例提供一种行为识别设备,所述行为识别设备包括:
[0019]处理器;以及
[0020]存储器,用于存储可在所述处理器上运行的计算机程序;
[0021]其中,所述计算机程序被处理器执行时实现上述行为识别方法。
[0022]本申请实施例提供一种计算机可读存储介质,所述计算机存储介质中存储有计算机可执行指令,该计算机可执行指令配置为执行上述行为识别方法。
[0023]本申请实施例提供一种行为识别方法、装置、设备及计算机可读存储介质,该行为识别方法包括:针对获取到的待识别的视频数据,按照一定间隔从视频数据中抽取多个视频帧;接着,利用多个不同尺度分别对多个视频帧进行划分处理,得到个尺度对应的划分结果,该划分结果包括第一图像空间特征和第一骨骼数据;然后,还提取各个划分结果中第一图像空间特征对应的第一图像时空特征;并基于各个第一图像时空特征确定视频数据的第二图像时空特征,基于各个第一骨骼数据确定视频数据的骨骼时空特征;最后,基于训练好的自适应注意力融合网络对第二图像时空特征和骨骼时空特征进行融合处理,得到视频数据的融合时空特征,并基于该融合时空特征对视频数据进行行为分类处理,最终得到行为识别结果。在进行划分处理的过程中,是利用不同尺度分别对多个视频帧进行划分处理,从而能够得到包含多方位信息的不同的划分结果,为正确分类提供基础;在进行不同模态特征融合的过程中,利用训练好的自适应注意力融合网络能够充分考虑不同模态特征的重要程度,基于此,便能够提升分类结果的准确度。
附图说明
[0024]在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
[0025]图1为本申请实施例提供的四个场景下人体骨骼数据的一种结构示意图;
[0026]图2为本申请实施例提供的行为识别方法的一种实现流程示意图;
[0027]图3为本申请实施例提供的划分处理的一种实现流程示意图;
[0028]图4A为本申请实施例提供的确定图像时空特征一种实现流程示意图;
[0029]图4B为本申请实施例提供的确定骨骼时空特征一种实现流程示意图;
[0030]图5为本申请实施例提供的确定第三权重和第四权重的一种实现流程示意图;
[0031]图6为本申请实施例提供的确定融合时空特征的一种实现流程示意图;
[0032]图7为本申请实施例提供的行为识别模型框图的一种实现流程示意图;
[0033]图8为本申请实施例提供的基于RGB图像的多尺度时序特征提取框图的一种结构示意图;
[0034]图9为本申请实施例提供的基于骨骼坐标的多尺度时序特征提取框图的一种结构示意图;
[0035]图10为本申请实施例提供的融合分类框图的一种结构示意图;
[0036]图11为本申请实施例提供的行为识别装置的组成结构示意图;
[0037]图12为本申请实施例提供的行为识别设备的组成结构示意图。
具体实施方式
[0038]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0039]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0040]在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0041]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种行为识别方法,其特征在于,所述方法包括:获取待识别的视频数据,并抽取所述视频数据中的多个视频帧;对所述多个视频帧按照不同尺度进行划分处理,得到各个尺度对应的划分结果,所述划分结果包括第一图像空间特征和第一骨骼数据;并提取各个划分结果中第一图像空间特征对应的第一图像时空特征;基于各个第一图像时空特征确定所述视频数据的第二图像时空特征,基于各个第一骨骼数据确定所述视频数据的骨骼时空特征;基于训练好的自适应注意力融合网络对所述第二图像时空特征和所述骨骼时空特征进行融合处理,得到所述视频数据的融合时空特征;基于所述融合时空特征对所述视频数据进行行为分类处理,得到行为识别结果。2.根据权利要求1中所述的方法,其特征在于,对所述多个视频帧按照不同尺度进行划分处理,得到各个尺度对应的划分结果,包括:对所述多个视频帧进行空间特征提取,获得所述多个视频帧的第二图像空间特征;对所述多个视频帧进行姿态估计处理,得到所述多个视频帧的第二骨骼数据;对所述第二图像空间特征按照不同尺度进行划分,得到不同尺度下各组视频片段的第一图像空间特征;对第二骨骼数据按照不同尺度进行划分,得到不同尺度下各组视频片段的第一骨骼数据。3.根据权利要求2中所述的方法,其特征在于,所述提取各个划分结果中第一图像空间特征对应的第一图像时空特征,包括:对所述各组视频片段的第一图像空间特征进行时序特征提取,获得所述各组视频片段的第三图像时空特征;将所述各组视频片段的第三图像时空特征确定为所述第一图像时空特征。4.根据权利要求2中所述的方法,其特征在于,所述基于各个第一图像时空特征确定所述视频数据的第二图像时空特征,包括:对所述多个视频帧的第二图像空间特征进行时序特征提取,获得所述多个视频帧的第四图像时空特征;如果所述划分结果包括多个第一图像空间特征,获取所述划分结果对应的第一目标尺度的第一自适应注意力模型;基于所述多个第一图像时空特征和所述第一自适应注意力模型,确定各个第一图像时空特征对应的各个第一权重;基于所述各个第一权重和所述各个第一图像时空特征,确定所述第一目标尺度下多个视频帧的融合图像时空特征;对所述融合图像时空特征和所述第四图像时空特征进行融合处理,得到所述第二图像时空特征。5.根据权利要求2中所述的方法,其特征在于,所述基于各个第一骨骼数据确定所述视频数据的骨骼时空特征,包括:如果所述划分结果包括多个第一骨骼数据,获取所述划分结果对应的第二目标尺度的第二自适应注意力模型;
基于所述多个第一骨骼数据和所述第二自适应注意力模型,确定各个第一骨骼数据的各个第二权重;基于所述各个第二权重对所述各个第一骨骼数据进行加权处理,得到所述多个视频帧的加权骨骼数据;依次...

【专利技术属性】
技术研发人员:郭伏正
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1