动作识别方法及相关装置,存储介质制造方法及图纸

技术编号:38611152 阅读:11 留言:0更新日期:2023-08-26 23:39
本申请公开了一种动作识别方法及相关设备和存储介质,该动作识别方法包括:将需识别的视频划分为多个视频片段;对每个视频片段分别提取多种模态的多个片段级特征;对每个视频片段的片段级特征与其他视频片段的片段级特征进行多层模态/片段间聚合特征,得到每个视频片段的聚合特征;利用视频片段的聚合特征得到需识别视频的动作识别预测。本申请通过上述方案可以提高基于多模态的动作识别精度。方案可以提高基于多模态的动作识别精度。方案可以提高基于多模态的动作识别精度。

【技术实现步骤摘要】
【国外来华专利技术】动作识别方法及相关装置,存储介质


[0001]本申请涉及视频处理
,特别是涉及一种动作识别方法及其相关装置和存储介质。

技术介绍

[0002]近年来,归因于在安全及动作分析等诸多场景中的广泛应用,动作识别技术已经引起了业内普遍关注。在诸多相关技术路线中,优于引入多种模态能够获取更多信息,故理论上其识别精度应优于基于单种模态的动作识别。然而,实践发现,相较于基于单种模态的动作识别,单纯地引入多种模态反而无法取得更优的识别精度。有鉴于此,如何提高基于多种模态的动作识别精度成为亟待解决的问题。

技术实现思路

[0003]本申请主要解决的技术问题是提供一种动作识别方法及相关装置、存储介质,能够提高基于多种模态的动作识别精度。
[0004]为解决上述技术问题,本申请采用的一个技术方案是:提供一种动作识别方法,包括:将待识别视频划分为多个视频片段;分别提取每个所述视频片段的多种模态的多个片段级特征;对每个所述视频片段的片段级特征与其他所述视频片段的片段级特征进行多层模态/片段间聚合,得到每个所述视频片段的聚合特征;利用每个所述视频片段的所述聚合特征,得到所述待识别视频的动作识别结果。
[0005]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种动作识别装置,包括视频剪辑模块,用于将待识别的视频划分为多个视频片段;特征提取模块,用于分别提取所述每个视频片段的多种模态的多个片段级特征;特征聚合模块,用于对每个所述视频片段的片段级特征与其他视频片段的片段级特征进行多层模态/片段间聚合,得到所述每个视频片段的聚合特征。结果预测模块,用于利用所述视频片段的聚合特征得到所述待识别视频的动作识别结果。
[0006]为解决上述技术问题,本申请采用的又一个技术方案是:提供一种电子装置,包括一个非暂态存储器和一个处理器,其中,所述非暂态存储器和处理器相互耦合,所述非暂态存储器存储程序指令,所述处理器执行所述程序指令以实现上述动作识别方法。
[0007]为解决上述技术问题,本申请采用的又一个技术方案是:提供一种计算机可读存储介质,有程序指令存储于所述存储介质中,其中,处理器执行所述程序指令以实现上述动作识别方法。
[0008]为解决上述技术问题,本申请采用的又一个技术方案是:提供一种电子装置,包括一个非暂态存储器和一个处理器,其中,所述非暂态存储器和处理器相互耦合,所述非暂态存储器存储程序指令,所述处理器执行所述程序指令以实现:将待识别视频划分为多个视频片段;分别提取每个所述视频片段的多种模态的多个片段级特征;对每个所述视频片段的片段级特征与其他所述视频片段的片段级特征进行多层模态/片段间聚合,得到每个所
述视频片段的聚合特征;利用每个所述视频片段的所述聚合特征,得到所述待识别视频的动作识别结果。
[0009]本申请的有益效果是:区别于现有技术的情况,将待识别视频划分为多种视频片段,并分别提取每个视频片段的多种模态的多个片段级特征,基于此对所有片段级特征进行片段间聚合和模态间聚合,得到每个视频片段的聚合特征,能够有利于建模不同视频片段的片段间相关关系,因此每个视频片段的聚合特征不仅能够包含多种模态的特征信息,还能够包含片段间相关关系,从而再利用多个视频片段的聚合特征,预测得到待识别视频的动作结果的精度得到提高。
附图说明
[0010]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
[0011]图1是本申请动作识别方法一实施例的流程示意图;
[0012]图2是动作识别模型一实施例的框架示意图;
[0013]图3是基于单模态进行动作识别一实施例的框架示意图;
[0014]图4是基于简单模态间聚合进行动作识别一实施例的框架示意图;
[0015]图5是本申请动作识别装置一实施例的框架示意图;
[0016]图6是本申请电子装置一实施例的框架示意图;
[0017]图7是本申请计算机可读存储介质一实施例的框架示意图;
[0018]图8是是本申请电子装置一实施例的另一框架示意图
具体实施方式
[0019]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本申请保护的范围。
[0020]请参阅图1,图1是本申请动作识别方法一实施例的流程示意图。具体而言,可以包括如下步骤:
[0021]步骤S11:将待识别视频划分为多个视频片段。
[0022]在一个实施例中,每个视频片段中可以包括至少一帧图像,如可以包括2帧图像、3帧图像、4帧图像等等,在此不做限定。此外,每个视频片段所包含的图像的数量可以相同,也可以不同,在此不做限定。需要说明的是,每个视频片段中所包含的图像是连续的。
[0023]在一个实施例中,多个视频片段可以为2个、3个、3个等等,在此不做限定。为了便于划分,可以预先设定每个视频片段所包含的图像的数量为T,则可以在待识别视频中每隔T帧图像划分一次,以得到一个视频片段。
[0024]在一个实施例中,为了提高动作识别的效率,可以预先训练一个动作识别模型,动作识别模型的训练过程,可以参阅下述相关实施例,在此暂不赘述。请结合参阅图2,图2是
动作识别模型一实施例的框架示意图。如图2所示,待识别视频被划分为3个视频片段,且每个视频片段包括3帧图像。需要说明的是,图2所示的划分方式仅仅是实际应用可能存在的一种方式,并不因为而限制实际所采用的视频划分方式。
[0025]步骤S12:分别提取每个视频片段的多种模态的多个片段级特征。
[0026]在一个实施例中,多种模态可以包括但不限于:视觉模态和听觉模态,在此不做限定。在多种模态包括视觉模态的情况下,可以分别对每个视频片段所包含的图像进行特征提取,得到视频片段关于视觉模态的片段级特征;在多种模态包括听觉模态的情况下,可以先分别提取每个视频片段对应的音频数据,并提取音频数据的声学参数,在此基础上,可以分别对每个视频片段对应的声学参数进行特征提取,得到视频片段关于听觉模态的片段级特征。也就是说,在多种模态包括视频模态和听觉模态的情况下,多种模态的多个片段级特征可以包括关于视觉模态的片段级特征和关于听觉模态的片段级特征。其他情况可以以此类推,在此不再一一举例。
[0027]在一个具体的实施例中,声学参数可以包括但不限于:对数梅尔谱(即log

mel)等,在此不做限定。
[0028]在另一个具体的实施例中,如前所述,为了提高动作识别效率,可以预先训练一个动作识别模型,动作识别模型可以包括特征提取网络,进而可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种动作识别方法,其特征在于,包括将待识别视频划分为多个视频片段;分别提取每个所述视频片段的多种模态的多个片段级特征;对每个所述视频片段的片段级特征与其他所述视频片段的片段级特征进行多层模态/片段间聚合,得到每个所述视频片段的聚合特征;利用每个所述视频片段的所述聚合特征,得到所述待识别视频的动作识别结果。2.根据权利要求1所述的制程方法,其特征在于,对每个所述视频片段的片段级特征与其他所述视频片段的片段级特征进行多层模态/片段间聚合,得到每个所述视频片段的聚合特征,包括:对每个所述视频片段的多种模态的片段级特征进行模态间聚合,得到所述每个视频片段的第一聚合特征;对每个所述视频片段的第一聚合特征与其他所述视频片段的第一聚合特征进行片段间聚合,得到每个所述视频片段的聚合特征。3.根据权利要求2所述的方法,其特征在于,对每个所述视频片段的片段级特征与其他所述视频片段的片段级特征进行多层模态/片段间聚合,得到每个所述视频片段的聚合特征后,该方法进一步包括:将获得的所述每个所述视频片段的聚合特征作为每个所述视频片段的新第一聚合特征,并对每个所述视频片段的新第一聚合特征与其他所述视频片段的新第一聚合特征进行另一次片段间聚合,以更新每个所述视频片段的聚合特征。4.根据权利要求1所述的方法,其特征在于,对每个所述视频片段的片段级特征与其他所述视频片段的片段级特征进行多层模态/片段间聚合,得到每个所述视频片段的聚合特征,包括:分别将所述多种模态中的每一种模态作为当前模态,并对每个所述视频片段的当前模态的片段级特征与其他所述视频片段的当前模态的片段级特征进行片段间聚合,得到每个所述视频片段的当前模态的第二聚合特征,从而获得每个所述视频片段的多种模态的第二聚合特征;对每个所述视频片段的多种模态的第二聚合特征进行模态间聚合,得到每个所述视频片段的所述聚合特征。5.根据权利要求4所述的方法,其特征在于,对每个所述视频片段的多种模态的第二聚合特征进行模态间聚合,得到每个所述视频片段的所述聚合特征前,该方法进一步包括:将获得的每个所述视频片段的当前模态的第二聚合特征作为所述每个视频片的当前模态的新片段级特征,并对每个所述视频片段的当前模态的新片段级特征与其他所述视频片段的当前模态的新片段级特征进行又一次片段间聚合,以更新每个所述视频片段的当前模态的第二聚合特征。6.根据权利要求1所述的方法,其特征在于,利用所述视频片段的聚合特征得到所述待识别视频的动作识别预测,包括:连接所述视频片段的聚合特征,得到所述待识别视频的视频级特征;利用所述视频级特征,预测得到所述动作识别结果。
7.根据权利要求1所述的方法,其特征在于,分别提取每个所述视频片段的多种模态的多个片段级特征,包括:通过动作识别模型的特征提取网络提取每个所述视频片段的多种模态的片段级特征;对每个所述视频片段的片段级特征与所述其他视频片段的片段级特征进行多层模态/片段间聚合,得到每个所述每个视频片段的聚合特征,包括:通过动作识别模型的特征聚合网络对每个所述视频片段的片段级特征与所述其他视频片段的片段级特征进行多层模态/片段间聚合,以获得每个所述视频片段的聚合特征;利用所述视频片段的聚合特征得到所述待识别视频的动作识别预测,包括:通过动作识别模型的结果预测网络处理所述视频片段的聚合特征,以获得需识别视频的动作识别结果。8.根据权利要求7所述的方法,其特征在于,所述多种模态包括听觉模态和视觉模态;所述特征提取网络包括第一提取网络和第二提取网络,其中,所述第一提取网络用于提取关于所述视觉模态的片段级特征,所述第二提取网络用于提取关于所述听觉模态的片段级特征;和/或,所述特征聚合网络包括一个双向注意力机制层;和/或,所述结果预测网络包括一个全连接层。9.一种动作识别装置,其特征在于,包括:视频剪辑模块,用于将待识别的视频划分为多个视频片段;特征提取模块,用于分别提取所述每个视频片段的多种模态的多个片段级特征;特征聚合模块,用于对每个所述视频片段的片段级特征与其他视频片段的片段级特征进行多层模态/片段间聚合,得到所述每个视频片段的聚合特征。结果预测模块,用于利用所述视频片段的聚合特征得到所述待识别视频的动作识别结果。10.一个非暂态存储器和一个处理器,其中,所述非暂态存储器和处理器相互耦合,所述非暂态存储器存...

【专利技术属性】
技术研发人员:萧人豪陈佳伟何朝文
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1