【技术实现步骤摘要】
基于差分多尺度多粒度特征融合的视频文本检索方法
[0001]本专利技术属于人工智能
,更进一步涉及一种视频文本检索方法,可用于视频主题检测和视频应用的内容推荐。
技术介绍
[0002]随着大数据和5G技术的发展,互联网上的多媒体数据呈现出爆发性的增长,同时也催生出很多新的检索需求。传统的检索方法主要是支持简单自然语言文本查询的基于概念的检索,其对于具有复杂语义的复杂长自然语言文本查询无效,即无法满足多样化的检索需要。
[0003]近年来,兴起了基于共享子空间的跨模态检索方法作为当前多媒体研究领域的热点,其将视频和自然语言文本模态映射到联合视觉语义共享空间以计算跨模态语义相似度作为检索工作的依托,可以很好的满足用户在不同媒体数据之间的搜索需求。
[0004]湖南大学在其申请号为CN202111312233.1的专利文献中公开了“一种基于时空关系增强的跨模态文本
‑
视频检索方法”,其利用多种预训练模型先分别提取视频全局、局部对象特征,再通过仿射变换映射的技术手段最终实现文本
‑r/>视频检索。该方本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于差分多尺度多粒度特征融合的视频文本检索方法,其特征在于,包括如下:(1)处理视频数据集:(1a)选择待训练的视频数据集及其对应的文本标注,并将视频数据集通过视频图像生成工具按信息量提取关键帧,得到采样后由图片组成的视频序列集:V={V
i
},其中:V
i
表示视频数据集的第i个视频序列,每个视频序列由n帧图片构成,i=1,2,3,...,N,N为视频数据集的大小;(1b)将视频对应的文本标注按空格切分,得到切分后的文本标注;(2)构建提取特征网络,即使用视觉特征编码器和文本特征编码器作为特征提取网络,并使用现有的CLIP预训练模型中的参数对特征网络进行初始化;(3)获取文本标注的全局特征S
i
和局部特征T
i
,获取视频序列V
i
的视觉特征序列F
i
:(3a)对一个视频序列V
i
,提取其RGB像素信息,即红、绿、蓝颜色特征,得到3组特征矩阵;(3b)构建一层全连接层,其神经元节点个数与(3a)得到的每组特征矩阵维数相同,且参数可随机初始化;(3c)按照给定步长对视频序列V
i
中的每一帧进行切分,再将切分特征按组展平,并输入到这一层全连接层中映射成一维向量;(3d)将(1b)得到的切分后的文本标注输入到文本特征编码器,输出文本标注的全局特征S
i
和局部特征将(3c)中得到的视频的一维向量输入视频特征编码器,输出视频序列V
i
的视觉特征序列F
i
={f
i1
,f
i2
,...,f
ik
,....,f
in
},其中m表示当前文本标注中单词的个数,n为该序列中视频帧的长度,w
ip
表示第i个文本标注中第p个单词的特征,f
ik
表示视频序列V
i
的第k帧视觉特征;(4)计算视频序列V
i
的局部特征和全局特征:(4a)将视觉特征序列F
i
按不同步长进行差分,得到视频帧的差分特征:d
ijk
=f
ik
‑
f
ij
,k=1,2,...i
‑
1,i+1,...,n其中d
ijk
表示视频序列V
i
的第j帧与第k帧的差分特征,f
ij
表示视频序列V
i
的第j帧视觉特征,k表示差分步长;(4b)计算一个视频帧的所有差分特征,将其组成序列,并在头部插入当前帧的视觉特征序列,即对于视频序列V
i
中的第j帧f
ij
,其差分特征序列为:同理计算其他帧的差分特征序列,得到视频序列V
i
的多尺度差分特征序列(4c)构建时序特征提取模块,将(4b)中得到的差分特征序列Δ
i
作为该模块的输入,提取视频序列V
i
的时序信息,输出视频序列V
i
的局部特征其中表示视频序列V
i
的第k个局部特征;(4d)根据文本标注的全局特征S
i
和对应的视频局部特征L
vi
,计算视频序列V
i
的全局特征A
i
;(5)计算视频和文本标注的最终相似度:(5a)计算文本标注的全局特征S
i
与视频序列的局部特征L
vi
之间的交叉相似度Sim
S
‑
f
;(5b)根据视频序列V
i
的全局特征A
i
与文本标注的局部特征T
i
,计算视频全局特征到文本标注局部特征的交叉相似度Sim
V
‑
w
:(5c)根据视频V
i
的全局部特征A
i
和文本标注的全局特征S
i
,计算视频到文本标注的全
局特征相似度Sim
S
‑
A
;(5d)根据(5a)、(5b)、(5c)的结果得到视频和文本标注的如下最终相似度:Sim(S,V)=(Sim
S
‑
A
+Sim
V
‑
w
+Sim
S
‑
f
)/3其中,S表示文本标注,V表示视频;(6)对特征提取网络进行训练:(6a)根据视频和文本标注的最终相似度,构建特征提取网络的总损失函数L:(6a1)根据(5d)得到的视频和文本标注的最终相似度Sim(S,V),计算视频特征对文本标注特征的先验概率和文本标注特征对视频特征的先验概率(6a2)根据(6a1)得到的先验概率,利用交叉熵函数,分别计算视频到文本标注的匹配损失和文本标注到视频的匹配损失(6a3)根据(5d)得到的视频和文本标注的最终相似度最终相似度Sim(S,V),计算视频到文本标注的多项式损失和文本标注到视频的...
【专利技术属性】
技术研发人员:王笛,李锦峰,王泉,万波,田玉敏,刘锦辉,王义峰,罗雪梅,安玲玲,赵辉,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。