基于预训练语言模型适配网络的跨模态视频片段检索方法技术

技术编号:38683181 阅读:15 留言:0更新日期:2023-09-02 22:55
本发明专利技术公开了预训练语言模型适配网络的跨模态视频文本片段检索方法。本发明专利技术步骤如下:1、数据预处理及数据集的划分,2、使用预训练的网络对视频提取特征,3、构建视频特征序列和候选段特征序列,4、构建文本特征序列,5、构建预训练语言模型,6、构建片段检索适配网络,7、损失函数,8、训练模型、9、网络预测值计算。本发明专利技术提出一种基于预训练语言模型适配网络的跨模态视频文本片段检索方法,同时采用视频帧和候选段两种表示方法,在一次前向传播中实现了文本特征、帧特征和视频特征的同时交互,充分挖掘视频和文本信息之间的潜在联系,相比于传统采用帧回归再候选段排序的两阶段模式性能有了很大提升。能有了很大提升。能有了很大提升。

【技术实现步骤摘要】
基于预训练语言模型适配网络的跨模态视频片段检索方法


[0001]本专利技术属于计算机视觉与自然语言处理领域,本专利技术提出一种基于预训练语言模型适配适配网络的跨模态视频片段检索方法(Cross

model Video Moment Retrieval)。

技术介绍

[0002]多模态检索是指,给定一种模态的查询样例,返回与查询样例语义相关的其他模态的样本。不同于单一模态的研究,多模态的任务往往需要多个模态参与并同时对多个模态进行分析得到最终的结果。因此,多模态模型首先需要正确理解单个模态的内容。其次由于不同模态的信息往往具有较大的语义鸿沟,多模态模型需要分析多种模态的特征和关系,有效地对多模态信息进行建模和交互。在现实生活中,我们在接受信息时多种模态的信息往往会同时出现,因此对比单一模态的任务,多模态任务也更适应真实场景下的需求。
[0003]跨模态视频文本检索属于视频模态和文本模态参与的多模态任务,是计算机视觉与自然语言处理这两大学科的交叉研究项目。该任务旨在让模型根据用户提供的文本描述,在一个完整的视频中自动定位到和给定的文本描述最先关的特定视频段。该任务的输入为视频信息和文本信息,首先需要将两个模态的信息分别进行编码获取特征表示。其次需要分析两种模态的语义相关性并进行预测。跨模态视频文本检索任务在生活中具有广泛的实际应用场景。例如,(1)在文娱方面,一个应用场景是在视频播放的时候可以通过用户输入的句子自动跳转到感兴趣的视频片段进行观看,避免了用户手动筛选的繁琐,极大地提升了用户体验。(2)另一个文娱方面的应用场景是用户可使用文本对感兴趣的场景进行描述,由机器自动快速地查找出多个与给定文本相关的视频段并制作成个人影片集,增添了用户观看视频的趣味性。(3)在智能安防方面,可设置好需要查找的违法违纪行为快速检索,如“带着头盔的人在殴打路人”或“穿红衣服的人抢劫后骑车逃走”等,将视频直接输入模型即可获得对应的时序位置。这一应用可缩减人工查看监控的时间复杂度和繁琐程度,更高效地保障了社会的安定与和谐。
[0004]综上所述,跨模态视频片段检索任务是一个值得深入研究的课题,本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的跨模态视频片段检索系统。
[0005]场景图的标签一般来自不同的标注者,具有较高的自由度,不具备统一固定的语义信息。同时,自然场景下的图片载体主题多样,内容复杂富于变化,目标与目标间可能具有较高的差异性,而这使得场景图生成面临巨大的挑战。
[0006]针对跨模态视频片段检索这一任务而言,研究的重点在于探究建模视频模态和文本模态存在的潜在关联关系,即通过多模态信息间的交互,挖掘出信息间的语义相关性。但同时,对比图像文本定位,视频模态具有十分明显的时序关联性,并且包含了丰富的动作信息。所以,跨模态视频片段检索任务还要考虑视频存的时空演化表征难题。概括起来,主要存在如下两方面的难点:
[0007](1)如何对目标上下文信息进行有效建模:视频模态在时序上具有极强的关联性,
通常相邻时序位置的和语序上具有极强的关联性。视频可以被理解为是拥有时序关联的图片的组合,比如假设当前时刻中发生的事“篮球在空中”,那么前一时刻发生的是“抛出球”,有可能是“篮球反弹下落”,可见充分利用视频中的时序信息可以更好地理解视频。因此如何对视频时序信息进行建模也是一个至关重要的问题。文本模态在序列上也具有极强的相关性,词与词之间包含了丰富的上下文信息,如何获取文本那一步的关联也是一个重要的问题。然而,目前存在的方法因过分关注模态间的交互,反而丢失了单模态本身的细粒度信息。
[0008](2)如何对两种模态语义信息进行更加深层次的建模,以更好获得有助于跨模态对齐的信息:目前存在的大部分方法是分开建模视频上下文信息和文本上下文信息,然后在交互模块深度堆叠,进行跨模态信息的对齐。该方式可能会出现的问题是,在单独某一模态建模时会丢失对跨模态交互有用的信息,例如,对于描述“一个人第二次拿起水杯”,在文本模态信息建模中,可能会弱化对“第二次”的语义信息的强调,这时,在后续的跨模态信息交互中,会有大量“一个人拿起水杯”的片段被检索到。同理,对于一个描述“一个戴白帽子的人举起右手”,而在视频模态信息建模中,可能会弱化对“右手”的语义信息的强调,这时将导致在后续的跨模态信息交互中,给定描述无法目标片段对对齐。所以,我们需要一种方式在一个模型中同时建模模态内信息和模态间信息,捕捉不同模态之间的关联性,发掘模态内部的特征和关联性,提高跨模态信息对齐的能力。
[0009][1]Devlin J,Chang M W,Lee K,et al.Bert:Pre

training of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018.[2]Liu Y,Ott M,Goyal N,et al.Roberta:A robustly optimized bert pretraining approach[J].arXiv preprint arXiv:1907.11692,2019.
[0010][3]Tran D,Bourdev L,Fergus R,et al.Learning spatiotemporal features with 3dconvolutional networks[C]//Proceedings of the IEEE international conference on computer vision.2015:4489

4497.
[0011][4]Carreira J,Zisserman A.Quo vadis,action recognition?a new model and the kinetics dataset[C]//proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017:6299

6308.

技术实现思路

[0012]本专利技术所要解决的问题是:现有跨模态视频片段检索方法普遍采用两阶段模式——先通过视频帧特征序列回归生成候选段,然后再通过候选段特征和文本特征交互计算评分,依据评分对候选段排序。此两阶段模式存的在问题以下问题:1,不管是视频帧特征和文本特征交互还是候选段特征和文本特征交互,跨模态交互模块堆叠较浅,两种不同模态特征之间的信息没有深层次交互,没有充分挖掘两种模态特征之前的潜在语义联系。2,每一阶段只有一种形式的视频特征和文本特征进行交互,割裂了视频帧特征和候选段特征之间联系,没有充分挖掘视频帧特征、候选段特正常和文本特征三者之间的潜在语义联系。
[0013]针对上述问题,本专利技术提出基于预训练语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于预训练语言模型适配网络的跨模态视频片段检索方法,其特征在于包括如下步骤:步骤1:数据预处理及数据集的划分对视频进行预处理,并划分数据集;步骤2:使用预训练好的网络对视频提取特征对于一个输入视频,按照固定时间长度切分为多个视频段,对每个视频段使用网络抽取视频语义特征;将所有视频段特征组合在一起得到输入视频的完整特征;步骤3:构建视频特征序列和候选段特征序列对视频原始特征进行均匀采样,使每个视频输入到模型中的特征序列长度保持一致,即输入模型特征序列为v
i
表示第i个视频段对应的特征,N
v
表示固定的视频段数量;根据视频特征序列V,构建不同时间尺度的候选段特征f,将所有生成的候选段特征拼接得到候选段特征序列F
ad
;依据视频时间长度T和输入特征序列长度N
v
,换算目标片段时间边界和特征序列起止序号的对应关系;步骤4:构建文本特征序列将输入文本进行分词,然后根据预先训练好的词向量模型转化为包含语义信息的词向量,将所有得到的词向量拼接得到输入文本的特征序列量,将所有得到的词向量拼接得到输入文本的特征序列q
i
表示第i个词对应的特征,N
q
表示文本特征序列长度;步骤5:构建预训练语言模型将文本特征序列Q、视频特征序列V拼接成最终的输入特征序列将文本特征序列Q、视频特征序列V拼接成最终的输入特征序列将F
lm
输入到L层的预训练语言模型,模型中的每一层以上一层的输出特征作为输出,最终得到输出特征序列步骤6:构建片段检索适配网络将候选段特征序列F
ad
输入片段检索适配网络,片段检索适配网络在每一阶段和步骤5中的预训练语言模型进行交互,使候选片段特征与文本特征、视频特征进行语义对齐;步骤7:损失函数将步骤5中输出的特征序列中对应视频帧的部分用于时间跨度损失函数计算,将步骤6中输出的候选段特征序列重新组合为二维相邻时间关系图用于候选段的损失函数计算;步骤8:训练模型根据步骤7中的损失函数产生的损失值利用反向传播算法对步骤5和步骤6中的模型参数进行梯度回传,不断优化学习;步骤9:网络预测值计算根据步骤7得到的二维相邻时间关系图,经过一系列二维卷积得到每个候选段对应评分,对所有候选段的评分进行排序,选择分数最高的候选段作为预测的结果。2.根据权利要求书1所述的基于预训练语言模型适配网络的跨模态视频片段检索方法,其特征在于步骤2使用预训练好的网络对视频提取特征,包括以下步骤:
对于每秒传输帧数为f
v
总时长为T秒的输入视频,使用已经训练好的行为识别网络C3D/I3D进行特征提取;网络每隔s帧对视频进行采样,提取网络最后一层的输出作为视频的特征将所有视频段特征拼接得到完整的原始特征序列其中d
v
表示网络输出特征维度。3.根据权利要求书2中所述的基于预训练语言模型适配网络的跨模态视频片段检索方法,其特征在于步骤3所述构建视频特征序列和候选段特征序列,包括以下步骤:考虑不同视频时间长度不同,对应步骤2提取的视频特征长也不同,设定统一视频特征长度N
v
,对V
o
进行均匀采样,使其满足同时,考虑和步骤5中预训练语言模型的中间层特征维度一致,通过前馈神经网络进行维度映射对于视频事件的开始起止τ
s(e)
和视频特征序列中对应的序号a
s(e)
的转换公式如下a
s(e)
=<τ
s(e)
/T
×
N
v
>
ꢀꢀꢀꢀꢀꢀꢀꢀ
(公式2)τ
s(e)
=a
s(e)
/N
v
×
T
ꢀꢀꢀꢀ
(公式3)其中,<
·
>表示取整操作;根据统一后的视频特征V,通过最大池化操作获得对应序号(i,j)的候选片段的特征公式如下f
i,j
=MAXPOOL(v
i
,v
i+1
,...,v
j
)
ꢀꢀꢀꢀꢀꢀ
(公式4)其中,1≤i<j≤N;对所有生成的候选片段按照一定规则稀疏采样,得到M(M<<N2/2)个候选段特征;候选段特征序列表示如下F
ad
=[f1,f2,...,f
M
]
ꢀꢀꢀꢀꢀꢀ
(公式5)同时,按照公式6所示规则,将候选段特征序列转换为一个二维相邻时间关系图F
map
[i,j,:]=...

【专利技术属性】
技术研发人员:余宙杨宏福俞俊
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1