【技术实现步骤摘要】
一种基于关系建模的弱监督视频动作定位模型的训练方法
本专利技术属于计算机视觉
,具体涉及一种基于关系建模的弱监督视频动作定位模型的训练方法。
技术介绍
弱监督时序动作定位试图从一段未裁剪的视频中,在仅给定视频级别类别标签监督的情况下,定位出所有的动作片段。如今,动作定位技术已经广泛应用于众多领域,如视频监控,自动驾驶,视频检索,体育视频集锦生成等。随着深度学习的发展,弱监督视频动作定位技术有着很大的进步。然而现有的方法往往是先得到片段级别的类别得分,再通过注意力机制和阈值进行筛选,得到阈值较大的连续片段作为动作片段输出。一些文献直接通过时序类别激活图来进行定位。一些学者使用条件随机场,聚类,背景损失的方式去解决视频神经网络在分类时候关注的视频片段碎片化问题。虽然现阶段时序检测任务发展迅速,但这些方法往往将视频片段看作是相互独立的个体,未能对视频内以及视频间进行建模,这使得现有方法在面对背景复杂,场景多变的实际应用中时,产生动作定位不完整,动作背景混淆两大问题,给弱监督定位的实际应用带来巨大的挑战。 >
技术实现思路
...
【技术保护点】
1.一种基于关系建模的弱监督视频动作定位模型的训练方法,包括:/n构建初始动作定位模型,其中,所述初始动作定位模型包括:特征提取模块、视频内关系更新模块、跨视频关系更新模块、分类与定位模块;/n通过所述特征提取模块对样本视频进行特征提取,输出具有相同动作特征标签的第一初始视频特征和第二初始视频特征,其中,所述第一初始视频特征和所述第二初始视频特征分别包括多个视频片段特征;/n通过所述视频内关系更新模块对所述第一初始视频特征和所述第二初始视频特征中的视频片段特征分别进行处理,以更新所述第一初始视频特征和所述第二初始视频特征,得到第一视频内关系特征和第二视频内关系特征;通过所述 ...
【技术特征摘要】
1.一种基于关系建模的弱监督视频动作定位模型的训练方法,包括:
构建初始动作定位模型,其中,所述初始动作定位模型包括:特征提取模块、视频内关系更新模块、跨视频关系更新模块、分类与定位模块;
通过所述特征提取模块对样本视频进行特征提取,输出具有相同动作特征标签的第一初始视频特征和第二初始视频特征,其中,所述第一初始视频特征和所述第二初始视频特征分别包括多个视频片段特征;
通过所述视频内关系更新模块对所述第一初始视频特征和所述第二初始视频特征中的视频片段特征分别进行处理,以更新所述第一初始视频特征和所述第二初始视频特征,得到第一视频内关系特征和第二视频内关系特征;通过所述跨视频关系更新模块对所述第一视频内关系特征和所述第二视频内关系特征进行处理,得到跨视频融合特征,根据所述跨视频融合特征和所述第一初始视频特征生成第一跨视频特征,根据所述跨视频融合特征和所述第二初始视频特征生成第二跨视频特征;
根据所述第一视频内关系特征和所述第一跨视频特征,以及/或者所述第二视频内关系特征和所述第二跨视频特征,输入所述分类与定位模块,以训练所述初始动作定位模型,得到训练后的动作定位模型。
2.根据权利要求1所述的方法,其中,所述通过所述特征提取模块对样本视频进行特征提取,输出具有相同动作特征标签的第一初始视频特征和第二初始视频特征包括:
通过所述特征提取模块对样本视频进行特征提取,得到初始视频特征集;
从所述初始视频特征集中随机采样,输出所述第一初始视频特征和所述第二初始视频特征。
3.根据权利要求1所述的方法,其中,所述通过所述视频内关系更新模块对所述第一初始视频特征和所述第二初始视频特征中的视频片段特征分别进行处理,以更新所述第一初始视频特征和所述第二初始视频特征,得到第一视频内关系特征和第二视频内关系特征包括:
分别对所述第一初始视频特征和所述第二初始视频特征进行降维处理,得到降维后的所述第一初始视频特征和所述第二初始视频特征;
通过图卷积网络对降维后的所述第一初始视频特征和所述第二初始视频特征进行更新,得到所述第一视频内关系特征和所述第二视频内关系特征。
4.根据权利要求1所述的方法,其中,所述通过所述跨视频关系更新模块对所述第一视频内关系特征和所述第二视频内关系特征进行处理,得到跨视频融合特征包括:
分别对所述第一视频内关系特征和所述第二视频内关系特征标准化处理,得到标准化后的所述第一视频内关系特征和所述第二视频内关系特征;
将标准化后的所述第一视频内关系特征和所述第二视频内关系特征通过点积的方法计算,得到所述跨视频融合特征,其中,所述跨视频融合特征为所述第一视频内关系特征和所述第二视频内关系特征的相似度矩阵。
5.根据权利要求4所述的方法,其中,所述根据所述跨视频融合特征和所述第一初始视频特征生成第一跨视频特征,根据所述跨视频融合特征和所述第二初始视频特征生成第二跨视频特征包括:
通过softmax函数对所述跨视频融合特征进行计算,分别得到所述第一初始视频特征相对于所述第二初始视频特征的第一跨视频注意力和所述第二初始视频特征相对于所述第一初始视频特征的第二跨视频注意力;
通过加权求和的方法对所述第一初始视频特征和所述第一跨视频注意力进行计算,得到所述第一跨视频特征;以及
通过加权求和的方法对所述第二初始视频特征和所述第二跨视频注意力进行计算,得到所述第二跨...
【专利技术属性】
技术研发人员:张天柱,张勇东,占永昆,吴枫,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。