一种基于双语义空间的对抗性跨媒体检索方法技术

技术编号：20363290 阅读：23 留言：0更新日期：2019-02-16 16:42

本发明专利技术公布了一种基于双语义空间的对抗性跨媒体检索方法，涉及模式识别、自然语言处理、多媒体检索等技术领域；包括：特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程。本发明专利技术通过建立同构双语义空间，即文本子空间和图像子空间，实现在最大限度保留原有图像和文本信息的同时消除语义鸿沟；并通过对抗训练来优化同构子空间数据分布，挖掘多媒体数据中丰富的语义信息，在保证类别不变、模态可区分的情况下拟合语义空间中不同模态的向量分布。本发明专利技术方法能够有效的消除不同模态信息异构性，实现有效的跨媒体检索，在图文检索、模式识别等领域具有广泛的市场需求和应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双语义空间的对抗性跨媒体检索方法
本专利技术涉及模式识别、自然语言处理、多媒体检索等
，尤其涉及一种基于双语义空间的对抗性跨媒体检索方法，主要应用公共空间的特征映射来消除语义鸿沟，将不同模态的数据进行匹配达到检索的目的，并在跨媒体检索经典数据库中验证本方法的有效性。
技术介绍
近年来，互联网技术飞速发展，随之而来的是多媒体信息的爆炸式增长，用户更倾向于通过检索获得多媒体信息结果，比如，用户输入关键字“狮子”，期望得到相关文字介绍以及其他模态的相关信息，比如狮子的图像，狮子的吼声以及狮子相关的视频等等。如此看来，传统的检索技术以经不能满足用户对于检索结果多样性、全面性的要求。跨媒体检索由于可以实现不同媒体间的灵活检索得到了广泛关注。其面临的挑战主要是不同模态的异构性和不可比性，以及不同模态所携带信息类型的不平衡性。比如，图片中包含更多的空间位置以及层次信息而文本中则包含着更多的上下文和背景信息。现有方法大多将异构的特征映射到一个单一的同构空间，以消除“语义鸿沟”，但是，这样的处理同时伴随着大量的信息丢失，不同模态的特有信息不能得以保留，难以有效实现跨媒体检索。
技术实现思路
本专利技术提供了一种基于双语义空间的对抗性跨媒体检索方法，通过建立文本子空间和图像子空间，分别保留不同模态内部特征，并通过对抗训练来挖掘多媒体数据中丰富的语义信息，从而实现有效的跨媒体检索。本专利技术的技术方案是：一种基于双语义空间的对抗性跨媒体检索方法，通过建立文本子空间和图像子空间，分别保留不同模态内部特征，并通过对抗训练来挖掘多媒体数据中丰富的语义信息，从而实现有效的跨媒...

【技术保护点】
1.一种基于双语义空间的对抗性跨媒体检索方法，通过建立文本子空间和图像子空间，分别保留不同模态内部特征，并通过对抗训练挖掘多媒体数据中的语义信息，从而实现有效的跨媒体检索；包括：特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程；1)特征生成过程；执行如下操作：获取训练数据，验证数据及测试数据；利用深度卷积神经网络CNN模型，对训练及测试图像提取视觉特征向量，利用BoW模型对训练和测试文本提取得到BoW文本特征向量；设有n组训练数据，提取到的特征分别表示为图像特征I＝{i1,i2,…,in}和文本特征T＝{t1,t2,…,tn}；2)双语义空间的构建过程，包括图像子空间和文本子空间；执行如下操作：21)在图像子空间中，分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整，同时引入三元组损失进行同构空间特征优化，保留图像信息并消除语义鸿沟；具体执行如下操作：211)在图像子空间中，图像特征I经过三层全连接网络在原有维度上调整特征分布，网络最后一层使用ReLU激活函数；引入三层全连接网络，将文本特征T映射到图像空间当中，保留原有图像特征；212)在同构图像子空间中定义三元组...

【技术特征摘要】
2018.06.29 CN 20181069540641.一种基于双语义空间的对抗性跨媒体检索方法，通过建立文本子空间和图像子空间，分别保留不同模态内部特征，并通过对抗训练挖掘多媒体数据中的语义信息，从而实现有效的跨媒体检索；包括：特征生成过程、双语义空间的构建过程和对抗性语义空间优化过程；1)特征生成过程；执行如下操作：获取训练数据，验证数据及测试数据；利用深度卷积神经网络CNN模型，对训练及测试图像提取视觉特征向量，利用BoW模型对训练和测试文本提取得到BoW文本特征向量；设有n组训练数据，提取到的特征分别表示为图像特征I＝{i1,i2,…,in}和文本特征T＝{t1,t2,…,tn}；2)双语义空间的构建过程，包括图像子空间和文本子空间；执行如下操作：21)在图像子空间中，分别用三层的全连接网络实现对文本特征的映射以及图像特征在原有维度上的调整，同时引入三元组损失进行同构空间特征优化，保留图像信息并消除语义鸿沟；具体执行如下操作：211)在图像子空间中，图像特征I经过三层全连接网络在原有维度上调整特征分布，网络最后一层使用ReLU激活函数；引入三层全连接网络，将文本特征T映射到图像空间当中，保留原有图像特征；212)在同构图像子空间中定义三元组其中vi表示参照用图片，为与vi类别相同的正样例文本，表示与vi类别不同的负样例文本；使用L2范数计算的不同模态数据间距离，表示为式1:其中，fv(i)与ft(t)分别为图像与文本的映射函数，表示同构空间内图像文本间的欧式距离；引入图像子空间三元组约束调整文本图像分布，拉近相同语义的文本图像对的距离，同时增加语义不同的图像文本对间距离；图像子空间三元组损失可以表示为式2：其中，α为表示安全系数的超参数；为图像子空间三元组损失；V表示图像子空间；22)在文本子空间中实现图像特征映射及文本特征调整；执行如下操作：221)在文本子空间中，文本特征T利用文本映射函数ψt(T)在原文本特征空间进行分布调整，图像映射函数ψv(I)将图像特征I映射到文本空间当中，实现文本子空间内不同模态特征同构；222)文本子空间的三元组损失表示为式3：其中，α为表示安全系数的超参数；ΦT表示文本子空间内的三元组ti为参照用文本，是与ti类别相同的正样例图片，是与ti类别不同的负样例图片；223)图像子空间和文本子空间平行工作，实现特征提取的互补与平衡；将双子空间的三元组损失适应性融合，得到最终不同模态在同构空间新的特征分布,表示为...

【专利技术属性】
技术研发人员：王文敏，夏雅娴，韩梁，王荣刚，李革，高文，
申请(专利权)人：北京大学深圳研究生院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人