【技术实现步骤摘要】
一种基于动作关联注意力的弱监督视频时序动作定位方法
[0001]本申请涉及人工智能的视频理解领域,尤其是涉及一种基于动作关联注意力的弱监督视频时序动作定位方法。
技术介绍
[0002]时序动作定位(TAL)是视频理解中的一项具有挑战性的任务,被广泛应用于快速定位不同时间范围的动作片段,即,定位动作在视频中的开始和结束时间并进行动作的分类。现有技术中,通常在监督或弱监督设置下实现时序动作定位。对于监督的情况,需要为训练视频人工标注每个动作的帧级标签和动作的起止时间,因而会浪费大量的时间。相比之下,弱监督方法只需标注动作的视频级标签,即仅表明动作是否在视频中的标签,就可以对动作进行分类和对时间定位。因而这种弱监督时序动作定位提供了一种省力但更具挑战性的解决方案。
[0003]在没有帧级标注的情况下,弱监督时序动作定位利用同一动作的相似性来确定它的整个片段,利用不同动作的区分性来对标签进行分类。因此,W
‑
TALC和Autoloc两个模型使用具有特征相似度的协同活动相似度损失进行定位,使用具有特征不相似度的多实例学习损失进行分类。然而,以上方法并不能模拟长期时间片段之间的关系,导致某些动作被其他动作隔开时,由于不能捕捉到后面动作对前面动作的依赖信息,那么导致最终预测的相应的时序动作定位存在较大的误差。例如,“打开衣柜”和“关闭衣柜”共享信息,但中间被长时间动作“折叠衣服”隔开,那么,预测“关闭衣柜”动作时序定位时,上述方法则无法捕捉到对“打开衣柜”信息的依赖性,导致最终预测的动作时序定位存在较大的 ...
【技术保护点】
【技术特征摘要】
1.一种基于动作关联注意力的弱监督视频时序动作定位方法,其特征在于:采用动作关联注意力模型来建立视频中动作片段之间的关系,进而实现动作片段的定位及分类;其中,所述的动作关联注意力模型,利用查询机制建立弱监督的预训练,并将查询机制的输出输入到Transformer架构的解码器中用于实现查询集合的时间定位;利用Transformer架构的编码器确定视频片段特征之间的关系,实现视频中动作片段的分类。2.根据权利要求1所述的基于动作关联注意力的弱监督视频时序动作定位方法,其特征在于,所述的动作关联注意力模型,利用查询机制建立弱监督的预训练,具体包括:建立预训练任务,随机裁剪出M个视频片段S={S1,...,S
M
},并记录它们的时间戳作为真值;提取所述的M个视频片段的特征,得查询片段集随机生成N个包含开始和结束时间戳的时间区域,其中,所述的N远远大于M;将每个时间区域编码为动作查询则包含N个动作查询的动作查询集为将所述查询集Qu均分给所述特征集Fs,即N/M个动作查询对应一个获得具有对应关系的查询集将所述的具有对应关系的查询集输入Transformer架构的解码器中,用有时间戳的查询片段集Fs,去监督动作查询集的学习,使得Qu中有M个动作查询的时间区域一一对应Fs中记录的时间戳。3.根据权利要求2所述的基于动作关联注意力的弱监督视频时序动作定位方法,其特征在于,采用冻结参数的I3D*网络提取所述的M个视频片段的特征;和/或,在预训练期间,将10%的动作查询片段随机屏蔽为零。4.根据权利要求2所述的基于动作关联注意力的弱监督视频时序动作定位方法,其特征在于,在分配查询集Qu时,将掩模矩阵添加到解码器的注意力层中,即使用注意掩码矩阵来控制不同对象查询之间的交互;所述的注意掩码为:其中,X
i,j
确定动作查询是否与动作查询交互;或者,在分配查询集Qu时,随机打乱所有动作查询编码的排列。5.根据权利要求1所述的基于动作关联注意力的弱监督视频时序动作定位方法,其特征在于,所述的动作关联注意力模型通过以下方法来训练:输入包含动作的视频作为训练数据;对所述的训练数据进行预处理,获取视频的视频帧和光流帧,并提取视频片段的I3D特征;将所述视频片段的视频时序信息编码为位置编码;将所述视频片段的视频时序位置编码和I3D特征输入动作关联注意力模型的编码器中,用于确定视频片段特征之间的关系,实现动作片段的分类;将所述的视频片段的视频时序位置编码输入动作关联注意力模型的解码器中,同时利用查询机制建立弱...
【专利技术属性】
技术研发人员:徐成,李梦竹,刘宏哲,付莹,徐冰心,潘卫国,代松银,
申请(专利权)人:北京联合大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。