当前位置: 首页 > 专利查询>天津大学专利>正文

基于多语义空间的视频文本检索方法、系统、设备及介质技术方案

技术编号:38587691 阅读:11 留言:0更新日期:2023-08-26 23:29
本发明专利技术公开了一种基于多语义空间的视频文本检索方法、系统、设备及介质:视频特征编码得到视频特征和多个视频语义子空间;文本特征编码得到文本特征和多个文本语义子空间;跨模态子空间学习降低两个模态间的语义鸿沟同模态子空间学习得到语义不同的子空间;同模态和跨模态两类损失同时作用于视频文本检索任务;通过子空间融合匹配,加权融合多个语义空间的相似度分数,来充分利用多个语义子空间实现视频和文本之间的互相检索;检索系统包括特征编码模块、子空间学习模块,包括跨模态子空间学习模块和同模态子空间学习模块。本发明专利技术通过同模态子空间保持差异性且跨模态子空间保持一致性的方式,来自适应地学习并表示不同模态数据的语义子空间。据的语义子空间。据的语义子空间。

【技术实现步骤摘要】
基于多语义空间的视频文本检索方法、系统、设备及介质


[0001]本专利技术属于计算机视觉和语言领域,主要涉及视频和文本之间的相互检索,更具体的说,是涉及一种基于多语义空间的视频文本检索方法、系统、设备及介质。

技术介绍

[0002]多媒体检索的研究已经发展了很长一段时间,但在过去的一段时间里学者们在研究单个模态数据的检索。在单模态数据检索场景下,用户通过输入文本内容来检索想要的其他文本内容或者输入一张图片去检索与这张图片相似的其他图片。但是,在互联网高速发展的今天,单模态数据检索很难满足用户日益增长的数据检索需求。所以,近年来多个模态之间的数据检索方法逐渐被研究人员关注。随着短视频的发展,文本与视频的检索在跨模态检索领域中成为了研究的焦点。
[0003]视频和文本之间的相互检索本质上是两个模态数据语义之间的检索。视频和文本数据的语义都非常丰富,比如视频中的背景、音乐、人物、动作等多种不同语义,文本中的动词、名词、多义词和语气词等多种不同的语义。因此,在文本检索视频的时候相当于多种不同的文本语义信息同时去匹配多种不同的视频语义信息。将视频和文本分别表示成单独的向量进行检索,等价于将视频和文本的多种语义都融合到一个公共向量空间中计算相似度来匹配。由于视频和文本语义的复杂性和多样性,所以通过单个向量检索的方式做精准的匹配是非常困难的。MEE和HGR分别是从视频多语义和文本多语义出发,将视频和文本编码成指定语义上的公共空间进行匹配,这样可以一定程度上缓解在复杂、多样的语义场景下视频和文本相互检索问题。但是要想通过人工的方式找到合适的语义特征进行表示,是需要经验并花费不少时间的。此外,想要让视频和文本多语义空间进行匹配需要分别考虑视频的某个语义空间与文本的某个语义空间是否可以匹配,如果明显不能匹配的语义空间被我们强制进行匹配的话,最终的效果可能会变的更差。

技术实现思路

[0004]本专利技术的目的是为了克服现有技术中的不足,提出了一种基于多语义空间的视频文本检索方法、系统、设备及介质,不仅可以自适应的生成多个差异化的语义子空间,还可以通过多语义空间融合的方式来充分利用这些子空间提升视频和文本匹配的效果。语义子空间生成和匹配通过模型训练的过程来降低两个模态之间的语义鸿沟,进而保持跨模态空间的一致性。但是,对于同模态的语义空间需要保持差异。自适应生成的语义子空间的特点:同模态之间保持差异性,跨模态之间保持一致性。这种方式不需要人工去挖掘并表示视频或者文本不同的语义信息,并且可以根据实际的应用场景非常灵活的设置语义子空间的数量和子空间匹配的方法来提高检索性能。
[0005]本专利技术的目的是通过以下技术方案实现的。
[0006]一种基于多语义空间的视频文本检索方法,包括以下过程:
[0007]第一步:特征编码
[0008]①
视频特征编码,得到视频特征v
feat
和多个视频语义子空间
[0009]先对视频中的帧按照时间顺序进行采样,然后使用在ImageNet数据集上预训练的CNN模型对采样出来的每一张图片都提取对应的特征向量,每个提取的特征向量都是2048维,然后将两个提取的特征向量拼接成一个4096维的特征向量,得到的视频帧级特征表示为一个特征序列{v1,v2,...,v
n
},其中v
i
表示n帧视频中第i帧视频的特征向量,然后使用注意力池化进一步得到视频帧级聚合特征v
f

[0010]将视频帧级特征序列{v1,v2,...,v
n
}通过双向门控循环单元提取视频的序列特征,双向门控循环单元输出的隐藏状态序列记为其中表示双向门控循环单元第j个时间步的隐藏状态,然后使用注意力池化进一步得到视频序列聚合特征v
s

[0011]将视频的帧级聚合特征v
f
与序列聚合特征v
s
拼接得到视频最终的特征表示v
feat
;使用k个全连接层将视频特征映射成k个视频语义子空间,记为:
[0012][0013]②
文本特征编码,得到文本特征t
feat
和多个文本语义子空间
[0014]通过预训练现有的双编码模型得到预训练词向量矩阵,文本中的单词通过预训练词向量矩阵转换为词向量,文本就变成了词向量,记作:{t1,t2,...,t
m
};词向量通过双向门控循环单元得到词向量序列,两者分别通过注意力池化得到词向量聚合特征以及词向量序列聚合特征,将文本的词向量聚合特征与词向量序列聚合特征拼接得到文本特征的最终表示t
feat
,接着使用k个全连接层映射成k个文本语义子空间,记为:
[0015]第二步:子空间学习
[0016]①
跨模态子空间学习
[0017]余弦相似度函数计算不同模态向量之间的距离,使得相似的跨模态样本之间的距离更近,不相似的跨模态样本之间的距离更远,得出单个语义子空间跨模态匹配的损失函数,进而得到k个子空间跨模态匹配损失函数L
cross
,视频和文本跨模态子空间学习通过k个子空间跨模态匹配的损失函数挖掘正负样本;
[0018]②
同模态子空间学习
[0019]将视频和文本的语义子空间分别转换成概率分布,对同模态的多个语义子空间分布,分别两两计算KL散度并令差异之和最大,得到视频最大化语义空间差异的损失函数和文本最大化语义空间差异的损失函数
[0020]视频和文本利用上述跨模态匹配损失函数L
cross
进行跨模态语义子空间一致性优化降低两个模态间的语义鸿沟,利用上述损失函数和进行同模态语义差异性优化,得到语义不同的子空间;同模态和跨模态两类损失同时作用于视频文本检索任务,得出加权损失函数L;
[0021]第三步:子空间融合匹配
[0022]通过加权融合多个语义子空间的相似度分数,来充分利用多个语义子空间实现视频和文本之间的互相检索。
[0023]第一步中所述视频帧级聚合特征v
f
[0024][0025][0026]其中,v
f
是视频帧级聚合特征,γ
i
表示第i帧视频帧级聚合权重,表示的是视频帧级注意力权重,ReLU是激活函数;
[0027]双向门控循环单元第j个时间步的隐藏状态表示为:
[0028][0029][0030][0031]其中,Concat表示向量拼接;和分别表示正向和反向门控循环单元;和分别表示正向和反向GRU在第j时间步的隐藏状态;
[0032]视频序列聚合特征v
s
表示为:
[0033][0034][0035]其中,v
s
是视频序列聚合特征,β
i
表示第i帧视频序列的聚合权重,表示的是视频序列注意力权重;
[0036]视频最终的特征表示v
feat
如下:
...

【技术保护点】

【技术特征摘要】
1.一种基于多语义空间的视频文本检索方法,其特征在于,包括以下过程:第一步:特征编码

视频特征编码,得到视频特征v
feat
和多个视频语义子空间先对视频中的帧按照时间顺序进行采样,然后使用在ImageNet数据集上预训练的CNN模型对采样出来的每一张图片都提取对应的特征向量,每个提取的特征向量都是2048维,然后将两个提取的特征向量拼接成一个4096维的特征向量,得到的视频帧级特征表示为一个特征序列{v1,v2,...,v
n
},其中v
i
表示n帧视频中第i帧视频的特征向量,然后使用注意力池化进一步得到视频帧级聚合特征v
f
;将视频帧级特征序列{v1,v2,...,v
n
}通过双向门控循环单元提取视频的序列特征,双向门控循环单元输出的隐藏状态序列记为其中表示双向门控循环单元第j个时间步的隐藏状态,然后使用注意力池化进一步得到视频序列聚合特征v
s
;将视频的帧级聚合特征v
f
与序列聚合特征v
s
拼接得到视频最终的特征表示v
feat
;使用k个全连接层将视频特征映射成k个视频语义子空间,记为:

文本特征编码,得到文本特征t
feat
和多个文本语义子空间通过预训练现有的双编码模型得到预训练词向量矩阵,文本中的单词通过预训练词向量矩阵转换为词向量,文本就变成了词向量,记作:{t1,t2,...,t
m
};词向量通过双向门控循环单元得到词向量序列,两者分别通过注意力池化得到词向量聚合特征以及词向量序列聚合特征,将文本的词向量聚合特征与词向量序列聚合特征拼接得到文本特征的最终表示t
feat
,接着使用k个全连接层映射成k个文本语义子空间,记为:第二步:子空间学习

跨模态子空间学习余弦相似度函数计算不同模态向量之间的距离,使得相似的跨模态样本之间的距离更近,不相似的跨模态样本之间的距离更远,得出单个语义子空间跨模态匹配的损失函数,进而得到k个子空间跨模态匹配损失函数L
cross
,视频和文本跨模态子空间学习通过k个子空间跨模态匹配的损失函数挖掘正负样本;

同模态子空间学习将视频和文本的语义子空间分别转换成概率分布,对同模态的多个语义子空间分布,分别两两计算KL散度并令差异之和最大,得到视频最大化语义空间差异的损失函数和文本最大化语义空间差异的损失函数视频和文本利用上述跨模态匹配损失函数L
cross
进行跨模态语义子空间一致性优化降低两个模态间的语义鸿沟,利用上述损失函数和进行同模态语义差异性优化,得到语义不同的子空间;同模态和跨模态两类损失同时作用于视频文本检索任务,得出加权损失函数L;第三步:子空间融合匹配通过加权融合多个语义子空间的相似度分数,来充分利用多个语义子空间实现视频和文本之间的互相检索。2.根据权利要求1所述的基于多语义空间的视频文本检索方法,其特征在于,第一步中所述视频帧级聚合特征v
f
其中,v
f
是视频帧级聚合特征,γ
i
表示第i帧视频帧级聚合权重,表示的是视频帧级注意力权重,ReLU是激活函数;双向门控循环单元第j个时间步的隐藏状态表示为:表示为:表示为:其中,Concat表示向量拼接;和分别表示正向和反向门控循环单元;和分别表示正向和反向GRU在第j时间步的隐藏状态;视频序列聚合特征v
s
表示为:表示为:其中,v
...

【专利技术属性】
技术研发人员:尚凡华刘红英杨琳琳罗如意刘园园冯伟
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1