一种基于双语义空间的对抗性跨媒体检索方法技术

技术编号:20363290 阅读:23 留言:0更新日期:2019-02-16 16:42
本发明专利技术公布了一种基于双语义空间的对抗性跨媒体检索方法,涉及模式识别、自然语言处理、多媒体检索等技术领域;包括:特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程。本发明专利技术通过建立同构双语义空间,即文本子空间和图像子空间,实现在最大限度保留原有图像和文本信息的同时消除语义鸿沟;并通过对抗训练来优化同构子空间数据分布,挖掘多媒体数据中丰富的语义信息,在保证类别不变、模态可区分的情况下拟合语义空间中不同模态的向量分布。本发明专利技术方法能够有效的消除不同模态信息异构性,实现有效的跨媒体检索,在图文检索、模式识别等领域具有广泛的市场需求和应用前景。

【技术实现步骤摘要】
一种基于双语义空间的对抗性跨媒体检索方法
本专利技术涉及模式识别、自然语言处理、多媒体检索等
,尤其涉及一种基于双语义空间的对抗性跨媒体检索方法,主要应用公共空间的特征映射来消除语义鸿沟,将不同模态的数据进行匹配达到检索的目的,并在跨媒体检索经典数据库中验证本方法的有效性。
技术介绍
近年来,互联网技术飞速发展,随之而来的是多媒体信息的爆炸式增长,用户更倾向于通过检索获得多媒体信息结果,比如,用户输入关键字“狮子”,期望得到相关文字介绍以及其他模态的相关信息,比如狮子的图像,狮子的吼声以及狮子相关的视频等等。如此看来,传统的检索技术以经不能满足用户对于检索结果多样性、全面性的要求。跨媒体检索由于可以实现不同媒体间的灵活检索得到了广泛关注。其面临的挑战主要是不同模态的异构性和不可比性,以及不同模态所携带信息类型的不平衡性。比如,图片中包含更多的空间位置以及层次信息而文本中则包含着更多的上下文和背景信息。现有方法大多将异构的特征映射到一个单一的同构空间,以消除“语义鸿沟”,但是,这样的处理同时伴随着大量的信息丢失,不同模态的特有信息不能得以保留,难以有效实现跨媒体检索。
技术实现思路
本专利技术提供了一种基于双语义空间的对抗性跨媒体检索方法,通过建立文本子空间和图像子空间,分别保留不同模态内部特征,并通过对抗训练来挖掘多媒体数据中丰富的语义信息,从而实现有效的跨媒体检索。本专利技术的技术方案是:一种基于双语义空间的对抗性跨媒体检索方法,通过建立文本子空间和图像子空间,分别保留不同模态内部特征,并通过对抗训练来挖掘多媒体数据中丰富的语义信息,从而实现有效的跨媒体检索;包括:特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程。1)特征生成过程;具体实施时,分别获取NUS-WIDE-10k和Wikipedia两个数据集的训练数据,验证数据及测试数据。并利用深度卷积神经网络CNN(ConvolutionalNeuralNetwork)对训练及测试图像提取视觉特征向量,利用BoW(BagofWords)模型对训练和测试文本提取“BoW文本特征向量”;设有n组训练数据,将图像和文本数据分别送入CNN网络和BoW模型,提取到的特征分别表示为图像特征I={i1,i2,…,in}和文本特征T={t1,t2,…,tn};2)双语义空间的构建过程,包括图像子空间和文本子空间;本专利技术构建了双语义空间,即图像子空间和文本子空间。21)在图像子空间中,分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整,同时引入三元组损失(tripletloss)进行同构空间特征优化,实现在最大限度保留图像信息的同时消除“语义鸿沟”。具体执行如下操作:211)在图像子空间中,图像特征I经过三层全连接网络在原有维度(4096维)上调整特征分布,为之后的图文匹配做准备,网络最后一层使用ReLU激活函数。同时引入一个相似的三层全连接网络将文本特征T映射到图像空间当中,尽量多的保留原有图像特征。212)在同构图像子空间中定义三元组其中vi表示参照用图片,为与vi类别相同的正样例文本,表示与vi类别不同的负样例文本,使用L2范数计算的不同模态数据间距离,表示为式1:其中,fv(i)与ft(t)分别为图像与文本的映射函数,表示同构空间内图像文本间的欧式距离。以空间中的图像为参照,引入三元组约束(tripletconstraint)调整文本分布,即拉近相同语义的文本图像对的距离,同时增加语义不同的图像文本对间距离。图像子空间三元组损失可以表示为式2:其中,α为表示安全系数的超参数;为图像子空间三元组损失;V表示图像子空间。22)相似的,在文本子空间中实现图像特征映射以及文本特征调整。具体执行如下操作:221)在文本子空间中,文本特征T利用文本映射函数ψt(T)在原文本特征空间进行分布调整,图像映射函数ψv(I)将图像特征I映射到文本空间当中,实现文本子空间内不同模态特征同构,同时避免大量损失原有文本信息。两个映射函数均为使用ReLU激活函数的3层全连接网络。222)文本子空间的三元组损失可以表示为式3:其中,α为表示安全系数的超参数,与式2中相同。ΦT表示文本子空间内的三元组ti为参照用文本,是与ti类别相同的正样例图片,是与ti类别不同的负样例图片。223)两个语义子空间平行工作,实现特征提取的互补与平衡。将双子空间的三元组损失适应性融合,得到最终不同模态在同构空间新的特征分布,表达式如式4,其中ηV、ηT为超参数:3)对抗性语义空间优化过程本专利技术引入对抗性学习优化双语义空间,在保证类别不变的前提下拟合不同模态的空间分布,同时保证模态可判别,上述结果反向传输更新双语义空间,通过衡量空间距离完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”的跨媒体检索任务。执行如下操作:31)采用类别预测(conceptprediction)方法,设定包含图像子空间和文本子空间的类别恒定目标函数,分别对图像子空间和文本子空间进行优化,使得子空间内不同模态特征映射或调整前后类别不变;以图像子空间为例,优化目标是最小化数据类别真实分布与同构空间内向量的类别预测分布间的误差,其表达式如下:式中,N是一次迭代中数据的数目,ci为数据类别真实分布,pc(fv(I))、pc(ft(T))分别为同构图像子空间内图像向量与文本向量的类别预测概率;文本子空间内目标函数定义类似:pc(ψv(I))与pc(ψt(T))分别为同构文本子空间内图像向量与文本向量的类别预测概率;类别恒定目标函数整体可表示为式7:32)利用对抗性学习模型更新优化双空间网络参数,其中将步骤212)、221)中的同构空间特征表示fv(v)、ft(t)、ψv(I)与ψt(T)作为对抗性学习模型的生成器生成向量,生成器的优化目标为在保证类别恒定的前提下使得图像和文本在双子空间内的分布尽量相似,优化函数表达式为式8:LG=μc·Lc+μtri·Ltri(式8)其中,μc、μtri为超参数。对抗性学习模型的判别器的目标是尽量准确地判断出不同模态数据在双子空间内的向量是来自图像还是文本。具体实施时,本专利技术使用3层前向传播全连接网络进行模态判别。以图像子空间为例,其优化目标是使得数据模态真实分布mi与模态预测概率分布误差最小化,其表达式为式9:其中,N是一次迭代中数据的数目,mi为数据真实模态,D(fv(I))与D(ft(T))为同构图像子空间内图像与文本向量的模态预测。文本子空间内目标函数表达式与上述表达式类似:D(ψv(I))与D(ψt(T))分别为同构文本子空间内图像与文本向量的模态预测。判别器在双子空间内的目标函数整体可以表示为式11:生成器与判别器的目标函数交替训练,得到最优化的两个同构语义空间。利用优化的同构双语义空间,通过衡量空间距离完成“图像检索文本(Img2Text)”和“文本检索图像(Text2Img)”,即可实现基于双语义空间的对抗性跨媒体的检索。与现有技术相比,本专利技术的有益效果是:本专利技术提供了一种基于双语义空间的对抗性跨媒体检索方法,其技术优势体现在:(一)通过建立文本子空间和图像子空间,分别保留不同模态内部特征。在图像子空间中,分别用三层的全连接网络实现本文档来自技高网...

【技术保护点】
1.一种基于双语义空间的对抗性跨媒体检索方法,通过建立文本子空间和图像子空间,分别保留不同模态内部特征,并通过对抗训练挖掘多媒体数据中的语义信息,从而实现有效的跨媒体检索;包括:特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程;1)特征生成过程;执行如下操作:获取训练数据,验证数据及测试数据;利用深度卷积神经网络CNN模型,对训练及测试图像提取视觉特征向量,利用BoW模型对训练和测试文本提取得到BoW文本特征向量;设有n组训练数据,提取到的特征分别表示为图像特征I={i1,i2,…,in}和文本特征T={t1,t2,…,tn};2)双语义空间的构建过程,包括图像子空间和文本子空间;执行如下操作:21)在图像子空间中,分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整,同时引入三元组损失进行同构空间特征优化,保留图像信息并消除语义鸿沟;具体执行如下操作:211)在图像子空间中,图像特征I经过三层全连接网络在原有维度上调整特征分布,网络最后一层使用ReLU激活函数;引入三层全连接网络,将文本特征T映射到图像空间当中,保留原有图像特征;212)在同构图像子空间中定义三元组...

【技术特征摘要】
2018.06.29 CN 20181069540641.一种基于双语义空间的对抗性跨媒体检索方法,通过建立文本子空间和图像子空间,分别保留不同模态内部特征,并通过对抗训练挖掘多媒体数据中的语义信息,从而实现有效的跨媒体检索;包括:特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程;1)特征生成过程;执行如下操作:获取训练数据,验证数据及测试数据;利用深度卷积神经网络CNN模型,对训练及测试图像提取视觉特征向量,利用BoW模型对训练和测试文本提取得到BoW文本特征向量;设有n组训练数据,提取到的特征分别表示为图像特征I={i1,i2,…,in}和文本特征T={t1,t2,…,tn};2)双语义空间的构建过程,包括图像子空间和文本子空间;执行如下操作:21)在图像子空间中,分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整,同时引入三元组损失进行同构空间特征优化,保留图像信息并消除语义鸿沟;具体执行如下操作:211)在图像子空间中,图像特征I经过三层全连接网络在原有维度上调整特征分布,网络最后一层使用ReLU激活函数;引入三层全连接网络,将文本特征T映射到图像空间当中,保留原有图像特征;212)在同构图像子空间中定义三元组其中vi表示参照用图片,为与vi类别相同的正样例文本,表示与vi类别不同的负样例文本;使用L2范数计算的不同模态数据间距离,表示为式1:其中,fv(i)与ft(t)分别为图像与文本的映射函数,表示同构空间内图像文本间的欧式距离;引入图像子空间三元组约束调整文本图像分布,拉近相同语义的文本图像对的距离,同时增加语义不同的图像文本对间距离;图像子空间三元组损失可以表示为式2:其中,α为表示安全系数的超参数;为图像子空间三元组损失;V表示图像子空间;22)在文本子空间中实现图像特征映射及文本特征调整;执行如下操作:221)在文本子空间中,文本特征T利用文本映射函数ψt(T)在原文本特征空间进行分布调整,图像映射函数ψv(I)将图像特征I映射到文本空间当中,实现文本子空间内不同模态特征同构;222)文本子空间的三元组损失表示为式3:其中,α为表示安全系数的超参数;ΦT表示文本子空间内的三元组ti为参照用文本,是与ti类别相同的正样例图片,是与ti类别不同的负样例图片;223)图像子空间和文本子空间平行工作,实现特征提取的互补与平衡;将双子空间的三元组损失适应性融合,得到最终不同模态在同构空间新的特征分布,表示为...

【专利技术属性】
技术研发人员:王文敏夏雅娴韩梁王荣刚李革高文
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1