【技术实现步骤摘要】
基于预训练语言模型适配网络的跨模态视频片段检索方法
[0001]本专利技术属于计算机视觉与自然语言处理领域,本专利技术提出一种基于预训练语言模型适配适配网络的跨模态视频片段检索方法(Cross
‑
model Video Moment Retrieval)。
技术介绍
[0002]多模态检索是指,给定一种模态的查询样例,返回与查询样例语义相关的其他模态的样本。不同于单一模态的研究,多模态的任务往往需要多个模态参与并同时对多个模态进行分析得到最终的结果。因此,多模态模型首先需要正确理解单个模态的内容。其次由于不同模态的信息往往具有较大的语义鸿沟,多模态模型需要分析多种模态的特征和关系,有效地对多模态信息进行建模和交互。在现实生活中,我们在接受信息时多种模态的信息往往会同时出现,因此对比单一模态的任务,多模态任务也更适应真实场景下的需求。
[0003]跨模态视频文本检索属于视频模态和文本模态参与的多模态任务,是计算机视觉与自然语言处理这两大学科的交叉研究项目。该任务旨在让模型根据用户提供的文本描述,在一个完整的视频中自动定位到和给定的文本描述最先关的特定视频段。该任务的输入为视频信息和文本信息,首先需要将两个模态的信息分别进行编码获取特征表示。其次需要分析两种模态的语义相关性并进行预测。跨模态视频文本检索任务在生活中具有广泛的实际应用场景。例如,(1)在文娱方面,一个应用场景是在视频播放的时候可以通过用户输入的句子自动跳转到感兴趣的视频片段进行观看,避免了用户手动筛选的繁琐,极大地提升了用户体验。 ...
【技术保护点】
【技术特征摘要】
1.基于预训练语言模型适配网络的跨模态视频片段检索方法,其特征在于包括如下步骤:步骤1:数据预处理及数据集的划分对视频进行预处理,并划分数据集;步骤2:使用预训练好的网络对视频提取特征对于一个输入视频,按照固定时间长度切分为多个视频段,对每个视频段使用网络抽取视频语义特征;将所有视频段特征组合在一起得到输入视频的完整特征;步骤3:构建视频特征序列和候选段特征序列对视频原始特征进行均匀采样,使每个视频输入到模型中的特征序列长度保持一致,即输入模型特征序列为v
i
表示第i个视频段对应的特征,N
v
表示固定的视频段数量;根据视频特征序列V,构建不同时间尺度的候选段特征f,将所有生成的候选段特征拼接得到候选段特征序列F
ad
;依据视频时间长度T和输入特征序列长度N
v
,换算目标片段时间边界和特征序列起止序号的对应关系;步骤4:构建文本特征序列将输入文本进行分词,然后根据预先训练好的词向量模型转化为包含语义信息的词向量,将所有得到的词向量拼接得到输入文本的特征序列量,将所有得到的词向量拼接得到输入文本的特征序列q
i
表示第i个词对应的特征,N
q
表示文本特征序列长度;步骤5:构建预训练语言模型将文本特征序列Q、视频特征序列V拼接成最终的输入特征序列将文本特征序列Q、视频特征序列V拼接成最终的输入特征序列将F
lm
输入到L层的预训练语言模型,模型中的每一层以上一层的输出特征作为输出,最终得到输出特征序列步骤6:构建片段检索适配网络将候选段特征序列F
ad
输入片段检索适配网络,片段检索适配网络在每一阶段和步骤5中的预训练语言模型进行交互,使候选片段特征与文本特征、视频特征进行语义对齐;步骤7:损失函数将步骤5中输出的特征序列中对应视频帧的部分用于时间跨度损失函数计算,将步骤6中输出的候选段特征序列重新组合为二维相邻时间关系图用于候选段的损失函数计算;步骤8:训练模型根据步骤7中的损失函数产生的损失值利用反向传播算法对步骤5和步骤6中的模型参数进行梯度回传,不断优化学习;步骤9:网络预测值计算根据步骤7得到的二维相邻时间关系图,经过一系列二维卷积得到每个候选段对应评分,对所有候选段的评分进行排序,选择分数最高的候选段作为预测的结果。2.根据权利要求书1所述的基于预训练语言模型适配网络的跨模态视频片段检索方法,其特征在于步骤2使用预训练好的网络对视频提取特征,包括以下步骤:
对于每秒传输帧数为f
v
总时长为T秒的输入视频,使用已经训练好的行为识别网络C3D/I3D进行特征提取;网络每隔s帧对视频进行采样,提取网络最后一层的输出作为视频的特征将所有视频段特征拼接得到完整的原始特征序列其中d
v
表示网络输出特征维度。3.根据权利要求书2中所述的基于预训练语言模型适配网络的跨模态视频片段检索方法,其特征在于步骤3所述构建视频特征序列和候选段特征序列,包括以下步骤:考虑不同视频时间长度不同,对应步骤2提取的视频特征长也不同,设定统一视频特征长度N
v
,对V
o
进行均匀采样,使其满足同时,考虑和步骤5中预训练语言模型的中间层特征维度一致,通过前馈神经网络进行维度映射对于视频事件的开始起止τ
s(e)
和视频特征序列中对应的序号a
s(e)
的转换公式如下a
s(e)
=<τ
s(e)
/T
×
N
v
>
ꢀꢀꢀꢀꢀꢀꢀꢀ
(公式2)τ
s(e)
=a
s(e)
/N
v
×
T
ꢀꢀꢀꢀ
(公式3)其中,<
·
>表示取整操作;根据统一后的视频特征V,通过最大池化操作获得对应序号(i,j)的候选片段的特征公式如下f
i,j
=MAXPOOL(v
i
,v
i+1
,...,v
j
)
ꢀꢀꢀꢀꢀꢀ
(公式4)其中,1≤i<j≤N;对所有生成的候选片段按照一定规则稀疏采样,得到M(M<<N2/2)个候选段特征;候选段特征序列表示如下F
ad
=[f1,f2,...,f
M
]
ꢀꢀꢀꢀꢀꢀ
(公式5)同时,按照公式6所示规则,将候选段特征序列转换为一个二维相邻时间关系图F
map
[i,j,:]=...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。