根据语言描述的视频动作者分割方法技术

技术编号:31700826 阅读:22 留言:0更新日期:2022-01-01 11:02
本发明专利技术公开了一种根据语言描述的视频动作者分割方法,所述方法利用级联跨模态注意力模块,利用剪辑级视觉特征粗略地关注语言查询的信息词,再利用帧级视觉特征来微调单词的注意力,微调目标帧中语言的权重,可以在丰富的视频信息中辨别分割出正例,并通过对比学习挖掘难负例,可以学习从视频中识别目标演员,还可以在不同的视频中区分它,显着提高帧内匹配和分割的准确率。和分割的准确率。

【技术实现步骤摘要】
根据语言描述的视频动作者分割方法


[0001]本专利技术涉及视频识别
,具体涉及一种根据语言描述的视频动作者分割方法。

技术介绍

[0002]近年来,视频理解任务受到了广泛关注,尤其是涉及自然语言处理的问题。在这个领域,已经取得了在语言选择性时间动作定位、视频字幕生成和根据句子描述对视频中动作者和动作分割任务的巨大成就。在现实场景中,一个视频包含多个在做动作的动作者是很常见的。因此,通过语言查询在空间和时间上选择性地细粒度地定位一个特定的动作者及其动作成为计算机更好地理解视频的一项重要任务。
[0003]在相关任务中广泛使用的框架,例如视频/图像对象接地,是通过一些检测方法生成视频/图像中的区域提议,然后将文本特征与提议的视觉特征进行匹配以选择最佳的对象提议作为匹配的对象。为了提高匹配两个异构特征的性能,以前的工作首先利用双向LSTM和自注意力机制来生成语言特征,然后使用加权文本特征来处理视觉特征,最后进行文本

视觉特征匹配。但这种自注意力机制学到的语言注意力实际上是训练数据的平均解,而不是专注于某个视频的个性解。这样,在推理过程中,无论输入视频是什么,都确定了关注的语言特征,因为视频是包含丰富内容的高级语义空间,因此很难掌握视频的最具判别力的特征。因而,视频决定了语言查询中的关键,捕获信息性单词和学习视觉感知的判别语言表示对于语言引导的视频动作者

动作分割任务至关重要。
[0004]如何设计视觉感知的语言编码器和生成判别性语言,从而对视频中的动作者及其动作进行分割,还需进一步优化分割方法,提高帧内匹配和分割的准确率。

技术实现思路

[0005]为了克服上述问题,本专利技术提供一种根据语言描述对视频动作者及其动作进行分割的方法,其中,利用级联跨模态注意力机制的协作优化网络,显著提高了匹配和分割的准确性。利用两个视角的视觉特征从粗到细地关注语言,生成具有辨别力的视觉感知的语言特征,另外,配备对比学习的方法,设计难负例挖掘策略,有利于网络从负例中识别正例,并进一步提高性能,从而完成本专利技术。
[0006]本专利技术第一方面的目的在于提供一种根据语言描述的视频动作者分割方法,所述方法利用级联跨模态注意力模块进行,生成具有辨别力的句子查询特征,提高匹配和分割的准确性。
[0007]所述级联跨模态注意力模块包括剪辑级特征注意力单元和帧级特征注意力单元。
[0008]所述剪辑级特征注意力单元采用句子嵌入s和目标帧j的剪辑级特征v
c
作为输入。
[0009]所述剪辑级特征注意力单元利用剪辑级特征v
c
对语言特征进行粗略加权,分别得到:
[0010][0011]F1=Att1·
ψ(v
c
)+φ(s)
[0012]其中,T为矩阵转置;σ
softmax
是softmax激活函数;Att1为剪辑特征v
c
和句子嵌入s的注意力图;F1为粗加权的句子特征;剪辑特征v
c
经过卷积层和ψ(
·
)处理后得到和ψ(v
c
);将组合单词嵌入e
t
形成句子嵌入s,接着将其放入一个卷积层φ(
·
)中以生成句子特征φ(s)。
[0013]对于视频V,剪辑级特征v
c
由下式进行编码:
[0014][0015]其中,表示L2范数,θ
avg
为均值池化操作,I3D(
·
)为双流I3D编码器,优选地,使用I3D网络的Mixed

4f层的输出作为I3D编码器。
[0016]所述帧级特征注意力单元处理所述粗略加权的句子特征F1和帧级特征v
f
,得到微调的句子特征F2:
[0017][0018]F2=Att2·
ψ

(v
f
)+F1[0019]其中,Att2为帧级特征v
f
和粗加权的句子特征F1的注意力图;F2表示微调的句子特征,其每一列表示一个单词的向量;为v
f
经过一个线性层得到的特征;ψ

(v
f
)为v
f
经过一个线性层ψ

(
·
)得到的特征。
[0020]所述帧级特征v
f
利用ResNet

101网络进行提取,优选地,提取帧级特征前,在COCO数据集上进行预训练,并在A2D数据集训练分割上进行微调;
[0021]所述帧级特征为从帧j到帧i的扭曲特征和原始特征v
i
的线性加权组合,具体如下式所示:
[0022][0023]其中,v
i
为对目标帧i的ResNet

101编码特征,β是权重系数,i为目标帧,j为参考帧,2K为参考帧的帧数(即在目标帧前向取K帧,后向取K帧,对目标帧特征进行补偿),v
j

i
为从参考帧j到目标帧i的扭曲特征;
[0024]所述v
j

i
为:
[0025][0026]其中,v
j
是参考帧j的ResNet

101编码特征;OF
j

i
为参考帧j和目标帧i之间的光流;为双线性扭曲方程。
[0027]加权的单词特征h
t
经过一个全连接层,得到句子查询特征q:
[0028]m
t
=FC(h
t
)
[0029]α
t
=σ
softmax
(m
t
)
[0030][0031]其中,h
t
为F2特征的第t列,表示第t个单词的向量;FC(h
t
)为一个全连接层;m
t
为h
t
经过一个全连接层的中间向量;α
t
为第t个单词的加权系数。
[0032]本专利技术第二方面还提供了一种计算机可读存储介质,存储有根据语言描述的视频动作者分割的训练程序,所述程序被处理器执行时,使得处理器执行所述根据语言描述的视频动作者分割方法的步骤。
[0033]本专利技术中所述的根据语言描述的视频动作者分割方法可借助软件加必需的通用硬件平台的方式来实现,所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本专利技术所述方法。
[0034]本专利技术第三方面还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有根据语言描述的视频动作者分割的训练程序,所述程序被处理器执行时,使得处理器执行所述根据语言描述的视频动作者分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种根据语言描述的视频动作者分割方法,其特征在于,所述方法利用级联跨模态注意力模块进行,所述级联跨模态注意力模块包括剪辑级特征注意力单元和帧级特征注意力单元。2.根据权利要求1所述的方法,其特征在于,所述剪辑级特征注意力单元采用句子嵌入s和目标帧i的剪辑级特征v
c
作为输入。3.根据权利要求1或2所述的方法,其特征在于,所述剪辑级特征注意力单元利用剪辑级特征v
c
对语言特征进行粗略加权,分别得到:F1=Att1·
ψ(v
c
)+φ(s)其中,T为矩阵转置;σ
softmax
是softmax激活函数;Att1为剪辑特征v
c
和句子嵌入s的注意力图;F1为粗加权的句子特征;剪辑特征v
c
经过卷积层和ψ(
·
)处理后得到和ψ(v
c
);将组合单词嵌入e
t
形成句子嵌入s,接着将其放入一个卷积层φ(
·
)中以生成句子特征φ(s);e
t
为第t个单词的嵌入特征。4.根据权利要求1至3之一所述的方法,其特征在于,对于视频V,剪辑级特征v
c
由下式进行编码:其中,表示L2范数,θ
avg
为均值池化操作,I3D(
·
)为双流I3D编码器。5.根据权利要求1至4之一所述的方法,其特征在于,所述帧级特征注意力单元处理所述粗略加权的句子特征F1和帧级特征v
f
,得到微调的句子特征F2:F2=Att2·
ψ

(v
f
)+F1其中,Att2为帧级特征v
f
和粗加权的句子特征F1的注意力图;F2表示微调后的句子特征;为v
f
经过一个线性层得到的特征;ψ

(v
f
)为v
f
经过一个线性层ψ

(
·
)得到的特征。6.根据权利要求5所述的方法,其特征在于,所述帧级特征v
f
利用ResNet

101网络进行提取,优选地,提取帧级特征前,ResNet

101网络在COCO数据集上进行预训练,并在A2D数据集训练分割上进行微调;所述帧级特征为从帧j到帧i的扭曲特征和原始特征v
i
的线性加权组合,具体如下式所示:其中,v
i
为对目标帧i的ResNet

101编码特征,β是权重系数,i为目标帧,j为参考帧,2K为参考帧的帧数,在目标帧前向取K帧,后向取K帧,对目标帧特征进行补偿,v
j

i
为从参考帧j到目标帧i的扭曲特征;所述v
...

【专利技术属性】
技术研发人员:李国荣陈伟东张新峰黄庆明
申请(专利权)人:中国科学院大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1