【技术实现步骤摘要】
根据语言描述的视频动作者分割方法
[0001]本专利技术涉及视频识别
,具体涉及一种根据语言描述的视频动作者分割方法。
技术介绍
[0002]近年来,视频理解任务受到了广泛关注,尤其是涉及自然语言处理的问题。在这个领域,已经取得了在语言选择性时间动作定位、视频字幕生成和根据句子描述对视频中动作者和动作分割任务的巨大成就。在现实场景中,一个视频包含多个在做动作的动作者是很常见的。因此,通过语言查询在空间和时间上选择性地细粒度地定位一个特定的动作者及其动作成为计算机更好地理解视频的一项重要任务。
[0003]在相关任务中广泛使用的框架,例如视频/图像对象接地,是通过一些检测方法生成视频/图像中的区域提议,然后将文本特征与提议的视觉特征进行匹配以选择最佳的对象提议作为匹配的对象。为了提高匹配两个异构特征的性能,以前的工作首先利用双向LSTM和自注意力机制来生成语言特征,然后使用加权文本特征来处理视觉特征,最后进行文本
‑
视觉特征匹配。但这种自注意力机制学到的语言注意力实际上是训练数据的平均解,而不是专注于某个视频的个性解。这样,在推理过程中,无论输入视频是什么,都确定了关注的语言特征,因为视频是包含丰富内容的高级语义空间,因此很难掌握视频的最具判别力的特征。因而,视频决定了语言查询中的关键,捕获信息性单词和学习视觉感知的判别语言表示对于语言引导的视频动作者
‑
动作分割任务至关重要。
[0004]如何设计视觉感知的语言编码器和生成判别性语言,从而对视频中的动作者及其动 ...
【技术保护点】
【技术特征摘要】
1.一种根据语言描述的视频动作者分割方法,其特征在于,所述方法利用级联跨模态注意力模块进行,所述级联跨模态注意力模块包括剪辑级特征注意力单元和帧级特征注意力单元。2.根据权利要求1所述的方法,其特征在于,所述剪辑级特征注意力单元采用句子嵌入s和目标帧i的剪辑级特征v
c
作为输入。3.根据权利要求1或2所述的方法,其特征在于,所述剪辑级特征注意力单元利用剪辑级特征v
c
对语言特征进行粗略加权,分别得到:F1=Att1·
ψ(v
c
)+φ(s)其中,T为矩阵转置;σ
softmax
是softmax激活函数;Att1为剪辑特征v
c
和句子嵌入s的注意力图;F1为粗加权的句子特征;剪辑特征v
c
经过卷积层和ψ(
·
)处理后得到和ψ(v
c
);将组合单词嵌入e
t
形成句子嵌入s,接着将其放入一个卷积层φ(
·
)中以生成句子特征φ(s);e
t
为第t个单词的嵌入特征。4.根据权利要求1至3之一所述的方法,其特征在于,对于视频V,剪辑级特征v
c
由下式进行编码:其中,表示L2范数,θ
avg
为均值池化操作,I3D(
·
)为双流I3D编码器。5.根据权利要求1至4之一所述的方法,其特征在于,所述帧级特征注意力单元处理所述粗略加权的句子特征F1和帧级特征v
f
,得到微调的句子特征F2:F2=Att2·
ψ
′
(v
f
)+F1其中,Att2为帧级特征v
f
和粗加权的句子特征F1的注意力图;F2表示微调后的句子特征;为v
f
经过一个线性层得到的特征;ψ
′
(v
f
)为v
f
经过一个线性层ψ
′
(
·
)得到的特征。6.根据权利要求5所述的方法,其特征在于,所述帧级特征v
f
利用ResNet
‑
101网络进行提取,优选地,提取帧级特征前,ResNet
‑
101网络在COCO数据集上进行预训练,并在A2D数据集训练分割上进行微调;所述帧级特征为从帧j到帧i的扭曲特征和原始特征v
i
的线性加权组合,具体如下式所示:其中,v
i
为对目标帧i的ResNet
‑
101编码特征,β是权重系数,i为目标帧,j为参考帧,2K为参考帧的帧数,在目标帧前向取K帧,后向取K帧,对目标帧特征进行补偿,v
j
→
i
为从参考帧j到目标帧i的扭曲特征;所述v
...
【专利技术属性】
技术研发人员:李国荣,陈伟东,张新峰,黄庆明,
申请(专利权)人:中国科学院大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。