【技术实现步骤摘要】
一种受阅读策略启发的跨模态视频检索方法
[0001]本专利技术涉及视频跨模态检索
,尤其涉及一种受阅读策略启发的跨模态视频检索方法。
技术介绍
[0002]随着YouTube和TikTok等视频流媒体平台的日益普及,视频数据出现了爆炸式增长。本专利技术的目标是实现基于语言的视频检索。给定一个自然语言句子形式的查询,它被要求从大量无标签的视频中检索与给定查询语义相关的视频。
[0003]为了建立这样的视频检索模型,如何计算两种模态即视频和文本之间的语义相似度是至关重要的。早期基于语言的视频检索是基于概念的方法,它们将视频和文本查询表示到预定义的概念空间,并通过概念匹配计算相似度。由于基于概念的方法性能有限,因此基于跨模态表示学习的方法更受青睐,它以无概念的方式学习联合嵌入空间来进行跨模态相似度度量,表现出了更好的性能。
[0004]本专利技术在基于跨模态表示学习方法的基础上,重点研究视频表征学习,它是基于语言的视频检索的重要组成部分。视频表征学习的一种典型方法是首先通过预先训练的CNN模型从视频帧中提取视 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种受阅读策略启发的跨模态视频检索方法,其特征在于,包括如下步骤:(1)采用预先训练的卷积神经网络提取视频模态的初始特征,得到视频的初始特征序列;(2)将初始特征序列输入并通过预览分支进行编码得到视频中的预览特征;(3)将初始特征序列输入并通过精读分支进行编码得到多粒度片段特征,后感知并集成预览特征,提取出精读特征;(4)使用预训练的BERT模型对文本模态进行编码,得到文本多级编码特征;(5)将视预览特征和精读特征分别与文本多级编码特征映射输入到对应混合空间,通过混合空间计算视频模态与文本模态之间的相似度来进行跨模态匹配;(6)优化并训练通过步骤(1)至步骤(5)建立的检索模型,最后将视频和文本输入到训练好的检索模型中来实现文本到视频的跨模态检索。2.如权利要求1所述的一种受阅读策略启发的跨模态视频检索方法,其特征在于,所述步骤(2)具体为:将视频帧特征序列输入到预览分支的双向GRU网络,双向GRU由一个前向GRU和后向GRU组成,将在前向GRU和后向GRU中所有特定时间步{t=1,...,m}的隐藏状态进行拼接作为双向GRU的输出,得到一个特征向量序列H={h1,h2,...,h
m
},大小为m
×
1024维;然后沿着时间维度对特征向量序列H应用平均池化操作来获得预览特征向量,即3.如权利要求2所述的一种受阅读策略启发的跨模态视频检索方法,其特征在于,所述步骤(3)具体包括以下步骤:(3
‑
1)首先使用精读分支的全连接层对视觉特征序列进行降维,得到降维后的视觉特征序列V
′
;(3
‑
2)然后将V
′
输入卷积核大小为n,步长为s,卷积核数量为r的卷积神经网络CNN来提取不同长度的片段特征,具体公式表示为:C
n
=δ(Conv1D
r,n,s
(V
′
))其中δ代表Relu激活函数;将由不同大小的卷积核生成的分段特征放在一起,获得多粒度片段特征,即:其中φ表示卷积核的大小,m
n
表示长度为n的片段的数量,r是片段特征向量的维度,向量化片段特征后为C
′
,使用视觉特征序列V
′
作为长度为1的片段特征;(3
‑
3)对多粒度片段特征,进行感知预览注意力操作得到精读特征向量。4.如权利要求3所述的一种受阅读策略启发的跨模态视频检索方法,其特征在于,所述步骤(3
‑
3)具体为:首先,将预览特征向量p映射为一个d
k
维的查询query特征向量Q,将片段特征向量C
′
技术研发人员:王雅冰,董建锋,陈先客,王勋,徐晓刚,王军,
申请(专利权)人:浙江工商大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。