一种基于动作关联注意力的弱监督视频时序动作定位方法技术

技术编号:34522109 阅读:19 留言:0更新日期:2022-08-13 21:11
本申请涉及一种基于动作关联注意力的弱监督视频时序动作定位方法,采用动作关联注意力模型来建立视频中动作片段之间的关系,进而实现动作片段的定位及分类;其中,所述的动作关联注意力模型,利用查询机制建立弱监督的预训练,并将查询机制的输出输入到Transformer架构的解码器中用于实现查询集合的时间定位;利用Transformer架构的编码器确定视频片段特征之间的关系,实现视频中动作片段的分类。本申请实现了采用弱监督方法实现视频的时序动作定位。作定位。作定位。

【技术实现步骤摘要】
一种基于动作关联注意力的弱监督视频时序动作定位方法


[0001]本申请涉及人工智能的视频理解领域,尤其是涉及一种基于动作关联注意力的弱监督视频时序动作定位方法。

技术介绍

[0002]时序动作定位(TAL)是视频理解中的一项具有挑战性的任务,被广泛应用于快速定位不同时间范围的动作片段,即,定位动作在视频中的开始和结束时间并进行动作的分类。现有技术中,通常在监督或弱监督设置下实现时序动作定位。对于监督的情况,需要为训练视频人工标注每个动作的帧级标签和动作的起止时间,因而会浪费大量的时间。相比之下,弱监督方法只需标注动作的视频级标签,即仅表明动作是否在视频中的标签,就可以对动作进行分类和对时间定位。因而这种弱监督时序动作定位提供了一种省力但更具挑战性的解决方案。
[0003]在没有帧级标注的情况下,弱监督时序动作定位利用同一动作的相似性来确定它的整个片段,利用不同动作的区分性来对标签进行分类。因此,W

TALC和Autoloc两个模型使用具有特征相似度的协同活动相似度损失进行定位,使用具有特征不相似度的多实例学习损失进行分类。然而,以上方法并不能模拟长期时间片段之间的关系,导致某些动作被其他动作隔开时,由于不能捕捉到后面动作对前面动作的依赖信息,那么导致最终预测的相应的时序动作定位存在较大的误差。例如,“打开衣柜”和“关闭衣柜”共享信息,但中间被长时间动作“折叠衣服”隔开,那么,预测“关闭衣柜”动作时序定位时,上述方法则无法捕捉到对“打开衣柜”信息的依赖性,导致最终预测的动作时序定位存在较大的误差。

技术实现思路

[0004]为了解决现有技术中的弱监督时序动作定位技术无法模拟长期时间片段之间的关系,导致某些动作被其他动作隔开时,由于不能捕捉到后面动作对前面动作的依赖信息,导致最终预测的相应的时序动作定位存在较大的误差的问题,本申请提供一种基于动作关联注意力的弱监督视频时序动作定位方法。
[0005]第一方面,本申请提供的一种基于动作关联注意力的弱监督视频时序动作定位方法采用如下的技术方案:一种基于动作关联注意力的弱监督视频时序动作定位方法,采用动作关联注意力模型来建立视频中动作片段之间的关系,进而实现动作片段的定位及分类;其中,所述的动作关联注意力模型,利用查询机制建立弱监督的预训练,并将查询机制的输出输入到Transformer架构的解码器中用于实现查询集合的时间定位;利用Transformer架构的编码器确定视频片段特征之间的关系,实现视频中动作片段的分类。
[0006]通过采用上述技术方案,尤其是动作关联注意力模型通过利用查询机制建立弱监督的预训练,解决了弱监督训练中无真值监督训练的问题,再将查询机制的输出输入到Transformer架构的解码器中用于实现查询集合的时间定位;同时利用Transformer架构的
编码器确定视频片段特征之间的关系,实现视频中动作片段的分类,最终实现了采用弱监督方法实现视频的时序动作定位,因而针对某些动作被其他动作隔开的情况,也能通过本申请的精确的动作片段分类对应的动作片段的时间定位,捕捉到后面动作对前面动作的依赖信息,使得最终预测的相应的时序动作定位精度较高。
[0007]优选的,所述的动作关联注意力模型,利用查询机制建立弱监督的预训练,具体包括:建立预训练任务,随机裁剪出M个视频片段S={S1,...,S
M
},并记录它们的时间戳作为真值;提取所述的M个视频片段的特征,得查询片段集随机生成N个包含开始和结束时间戳的时间区域,其中,所述的N远远大于M;将每个时间区域编码为动作查询则包含N个动作查询的动作查询集为将所述查询集Q
u
均分给所述特征集F
S
,即N/M个动作查询对应一个获得具有对应关系的查询集将所述的具有对应关系的查询集输入Transformer架构的解码器中,用有时间戳的查询片段集F
S
,去监督动作查询集的学习(即对于初始时随机生成时间区域的查询集Q
u
,q
i
不断调整自己的起止时间戳位置,去匹配已知时间戳的查询片段集F
S
),使得Q
u
中有M个动作查询的时间区域一一对应F
S
中记录的时间戳(即不断训练,使得动作查询对应的特征与提取的特征相匹配)。
[0008]通过采用上述方法,从而使得利用查询机制建立的弱监督的预训练模型具备了给出任意特征,即可定位出这个特征起止时间戳的能力,尤其是通过随机裁剪出M个视频片段S={S1,...,S
M
}并记录它们的时间戳作为真值进行模型训练,采用了一种查询打乱的方法达到输入解码器中的查询分配的随机性。
[0009]更优选的,采用冻结参数的I3D*网络提取所述的M个视频片段的特征。本申请通过利用查询机制结合冻结参数的I3D*网络提取所述的M个视频片段的特征,从而可以有效平衡分类和定位对特征的不同偏好,使得同时获得的视频时序动作定位和分类数据更准确。
[0010]优选的,在分配查询集Q
u
时,将掩模矩阵添加到解码器的注意力层中,即使用注意掩码矩阵来控制不同对象查询之间的交互;所述的注意掩码为:其中,X
i,j
确定动作查询是否与动作查询交互。通过以上方法,从而可以满足每个动作查询q
i
的独立性,进一步提高了视频时序动作定位和分类整体的准确性和稳定性。
[0011]优选的,在分配查询集Q
u
时,随机打乱所有动作查询编码的排列;和/或在预训练期间,将10%的动作查询片段随机屏蔽为零。从而可以提高模型的泛化能力,解决模型对不同数据集的通用性。
[0012]优选的,所述的动作关联注意力模型通过以下方法来训练:输入包含动作的视频作为训练数据;对所述的训练数据进行预处理,获取视频的
视频帧和光流帧,并提取视频片段的I3D特征;将所述视频片段的视频时序信息编码为位置编码;将所述视频片段的视频时序位置编码和I3D特征输入动作关联注意力模型的编码器中,用于确定视频片段特征之间的关系,实现动作片段的分类;将所述的视频片段的视频时序位置编码输入动作关联注意力模型的解码器中,同时利用查询机制建立弱监督的预训练,并将查询机制的输出输入到动作关联注意力模型的解码器中,用于实现查询集合的时间定位;采用分类损失函数和定位损失函数对所述的动作关联注意力模型进行联合训练,其中,分类损失函数用于监督特征分类效果;定位损失函数用于定位给定特征的开始和结束时间中测量邻近性的视频片段损失;将所述编码器和解码器输出的查询集合进行合并,得到视频中动作片段的定位及分类。
[0013]优选的,所述的动作关联注意力模型通过全局匹配损失算法进行训练,通过二分匹配实现唯一预测;具体的,采用分类损失函数特征重建损失函数和定位损失函数进行联合训练;其中,分类损失函数用于监督特征分类效果;特征重建损失用于平衡分类和定位对特征的不同偏好;定位损失函数用于定位给定特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动作关联注意力的弱监督视频时序动作定位方法,其特征在于:采用动作关联注意力模型来建立视频中动作片段之间的关系,进而实现动作片段的定位及分类;其中,所述的动作关联注意力模型,利用查询机制建立弱监督的预训练,并将查询机制的输出输入到Transformer架构的解码器中用于实现查询集合的时间定位;利用Transformer架构的编码器确定视频片段特征之间的关系,实现视频中动作片段的分类。2.根据权利要求1所述的基于动作关联注意力的弱监督视频时序动作定位方法,其特征在于,所述的动作关联注意力模型,利用查询机制建立弱监督的预训练,具体包括:建立预训练任务,随机裁剪出M个视频片段S={S1,...,S
M
},并记录它们的时间戳作为真值;提取所述的M个视频片段的特征,得查询片段集随机生成N个包含开始和结束时间戳的时间区域,其中,所述的N远远大于M;将每个时间区域编码为动作查询则包含N个动作查询的动作查询集为将所述查询集Qu均分给所述特征集Fs,即N/M个动作查询对应一个获得具有对应关系的查询集将所述的具有对应关系的查询集输入Transformer架构的解码器中,用有时间戳的查询片段集Fs,去监督动作查询集的学习,使得Qu中有M个动作查询的时间区域一一对应Fs中记录的时间戳。3.根据权利要求2所述的基于动作关联注意力的弱监督视频时序动作定位方法,其特征在于,采用冻结参数的I3D*网络提取所述的M个视频片段的特征;和/或,在预训练期间,将10%的动作查询片段随机屏蔽为零。4.根据权利要求2所述的基于动作关联注意力的弱监督视频时序动作定位方法,其特征在于,在分配查询集Qu时,将掩模矩阵添加到解码器的注意力层中,即使用注意掩码矩阵来控制不同对象查询之间的交互;所述的注意掩码为:其中,X
i,j
确定动作查询是否与动作查询交互;或者,在分配查询集Qu时,随机打乱所有动作查询编码的排列。5.根据权利要求1所述的基于动作关联注意力的弱监督视频时序动作定位方法,其特征在于,所述的动作关联注意力模型通过以下方法来训练:输入包含动作的视频作为训练数据;对所述的训练数据进行预处理,获取视频的视频帧和光流帧,并提取视频片段的I3D特征;将所述视频片段的视频时序信息编码为位置编码;将所述视频片段的视频时序位置编码和I3D特征输入动作关联注意力模型的编码器中,用于确定视频片段特征之间的关系,实现动作片段的分类;将所述的视频片段的视频时序位置编码输入动作关联注意力模型的解码器中,同时利用查询机制建立弱...

【专利技术属性】
技术研发人员:徐成李梦竹刘宏哲付莹徐冰心潘卫国代松银
申请(专利权)人:北京联合大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1