【技术实现步骤摘要】
【国外来华专利技术】动作识别方法及相关装置,存储介质
[0001]本申请涉及视频处理
,特别是涉及一种动作识别方法及其相关装置和存储介质。
技术介绍
[0002]近年来,归因于在安全及动作分析等诸多场景中的广泛应用,动作识别技术已经引起了业内普遍关注。在诸多相关技术路线中,优于引入多种模态能够获取更多信息,故理论上其识别精度应优于基于单种模态的动作识别。然而,实践发现,相较于基于单种模态的动作识别,单纯地引入多种模态反而无法取得更优的识别精度。有鉴于此,如何提高基于多种模态的动作识别精度成为亟待解决的问题。
技术实现思路
[0003]本申请主要解决的技术问题是提供一种动作识别方法及相关装置、存储介质,能够提高基于多种模态的动作识别精度。
[0004]为解决上述技术问题,本申请采用的一个技术方案是:提供一种动作识别方法,包括:将待识别视频划分为多个视频片段;分别提取每个所述视频片段的多种模态的多个片段级特征;对每个所述视频片段的片段级特征与其他所述视频片段的片段级特征进行多层模态/片段间聚合,得到每个所述视频片段的聚合特征;利用每个所述视频片段的所述聚合特征,得到所述待识别视频的动作识别结果。
[0005]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种动作识别装置,包括视频剪辑模块,用于将待识别的视频划分为多个视频片段;特征提取模块,用于分别提取所述每个视频片段的多种模态的多个片段级特征;特征聚合模块,用于对每个所述视频片段的片段级特征与其他视频片段的片段级特征进行多层模态/片段间聚合,得 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种动作识别方法,其特征在于,包括将待识别视频划分为多个视频片段;分别提取每个所述视频片段的多种模态的多个片段级特征;对每个所述视频片段的片段级特征与其他所述视频片段的片段级特征进行多层模态/片段间聚合,得到每个所述视频片段的聚合特征;利用每个所述视频片段的所述聚合特征,得到所述待识别视频的动作识别结果。2.根据权利要求1所述的制程方法,其特征在于,对每个所述视频片段的片段级特征与其他所述视频片段的片段级特征进行多层模态/片段间聚合,得到每个所述视频片段的聚合特征,包括:对每个所述视频片段的多种模态的片段级特征进行模态间聚合,得到所述每个视频片段的第一聚合特征;对每个所述视频片段的第一聚合特征与其他所述视频片段的第一聚合特征进行片段间聚合,得到每个所述视频片段的聚合特征。3.根据权利要求2所述的方法,其特征在于,对每个所述视频片段的片段级特征与其他所述视频片段的片段级特征进行多层模态/片段间聚合,得到每个所述视频片段的聚合特征后,该方法进一步包括:将获得的所述每个所述视频片段的聚合特征作为每个所述视频片段的新第一聚合特征,并对每个所述视频片段的新第一聚合特征与其他所述视频片段的新第一聚合特征进行另一次片段间聚合,以更新每个所述视频片段的聚合特征。4.根据权利要求1所述的方法,其特征在于,对每个所述视频片段的片段级特征与其他所述视频片段的片段级特征进行多层模态/片段间聚合,得到每个所述视频片段的聚合特征,包括:分别将所述多种模态中的每一种模态作为当前模态,并对每个所述视频片段的当前模态的片段级特征与其他所述视频片段的当前模态的片段级特征进行片段间聚合,得到每个所述视频片段的当前模态的第二聚合特征,从而获得每个所述视频片段的多种模态的第二聚合特征;对每个所述视频片段的多种模态的第二聚合特征进行模态间聚合,得到每个所述视频片段的所述聚合特征。5.根据权利要求4所述的方法,其特征在于,对每个所述视频片段的多种模态的第二聚合特征进行模态间聚合,得到每个所述视频片段的所述聚合特征前,该方法进一步包括:将获得的每个所述视频片段的当前模态的第二聚合特征作为所述每个视频片的当前模态的新片段级特征,并对每个所述视频片段的当前模态的新片段级特征与其他所述视频片段的当前模态的新片段级特征进行又一次片段间聚合,以更新每个所述视频片段的当前模态的第二聚合特征。6.根据权利要求1所述的方法,其特征在于,利用所述视频片段的聚合特征得到所述待识别视频的动作识别预测,包括:连接所述视频片段的聚合特征,得到所述待识别视频的视频级特征;利用所述视频级特征,预测得到所述动作识别结果。
7.根据权利要求1所述的方法,其特征在于,分别提取每个所述视频片段的多种模态的多个片段级特征,包括:通过动作识别模型的特征提取网络提取每个所述视频片段的多种模态的片段级特征;对每个所述视频片段的片段级特征与所述其他视频片段的片段级特征进行多层模态/片段间聚合,得到每个所述每个视频片段的聚合特征,包括:通过动作识别模型的特征聚合网络对每个所述视频片段的片段级特征与所述其他视频片段的片段级特征进行多层模态/片段间聚合,以获得每个所述视频片段的聚合特征;利用所述视频片段的聚合特征得到所述待识别视频的动作识别预测,包括:通过动作识别模型的结果预测网络处理所述视频片段的聚合特征,以获得需识别视频的动作识别结果。8.根据权利要求7所述的方法,其特征在于,所述多种模态包括听觉模态和视觉模态;所述特征提取网络包括第一提取网络和第二提取网络,其中,所述第一提取网络用于提取关于所述视觉模态的片段级特征,所述第二提取网络用于提取关于所述听觉模态的片段级特征;和/或,所述特征聚合网络包括一个双向注意力机制层;和/或,所述结果预测网络包括一个全连接层。9.一种动作识别装置,其特征在于,包括:视频剪辑模块,用于将待识别的视频划分为多个视频片段;特征提取模块,用于分别提取所述每个视频片段的多种模态的多个片段级特征;特征聚合模块,用于对每个所述视频片段的片段级特征与其他视频片段的片段级特征进行多层模态/片段间聚合,得到所述每个视频片段的聚合特征。结果预测模块,用于利用所述视频片段的聚合特征得到所述待识别视频的动作识别结果。10.一个非暂态存储器和一个处理器,其中,所述非暂态存储器和处理器相互耦合,所述非暂态存储器存...
【专利技术属性】
技术研发人员:萧人豪,陈佳伟,何朝文,
申请(专利权)人:OPPO广东移动通信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。