一种基于协同矩阵分解的跨模态检索方法技术

技术编号:18553697 阅读:205 留言:0更新日期:2018-07-28 10:48
本发明专利技术公开了一种基于协同矩阵分解的跨模态检索方法,同时考虑保持原始空间样本对的局部几何流形结构,使用图正则项加入了模态内与模态间的约束,采用普遍使用的mAP(平均准确率)作为性能评价指标。本发明专利技术不仅考虑了样本的模态内相似性,还考虑了样本对模态间的相似性,为以文检图和以图检文准确性提供了保障。本发明专利技术利用协同矩阵分解技术、哈希函数,同时加入了保持模态内与模态间相似性的图正则化项,提高了以文检图和以图检文的相互检索性能,广泛应用于移动设备、互联网以及电子商务中的图片文本互相检索服务。

【技术实现步骤摘要】
一种基于协同矩阵分解的跨模态检索方法
本专利技术涉及一种基于协同矩阵分解的跨模态检索方法,具体涉及一种考虑保持原始空间数据的模态内相似性和模态间相似性的图正则化方法,属于图像处理

技术介绍
随着互联网技术的迅速发展,社会步入了大数据时代,大数据以图像、文本、音频和视频等不同的模态表示,这些不同模态的数据并不是独立的,它们有着本质的联系,如何挖掘出数据之间的关联信息成为了人们关注的热点。跨模态检索技术作为一种基本的相关技术,在机器学习、计算机视觉和数据挖掘等领域被广泛的应用,比如用文本检索图片和用图片检索文本。然而大数据具有数据量大、维度高以及不同模态数据间的语义鸿沟大等一系列特点,这使得针对大数据的跨模态检索困难重重。为了减轻模态间的差异性,相关学者提出了一系列方法,其中一部分主要关注于潜在子空间学习,比如典型关联分析CCA及其扩展变形;而哈希算法作为一种近似最近邻检索技术,具有存储量小、检索速度快等特点,所以另一部分工作者主要进行哈希算法的研究,典型方法主要有跨视图哈希CVH、媒体间哈希IMH和语义关联最大化的监督多模态哈希。然而,这些方法具有一定的局限性,检索效果比较低本文档来自技高网...

【技术保护点】
1.一种基于协同矩阵分解的跨模态检索方法,其特征在于,包括如下步骤:步骤1,获取原始数据,首先对原始数据中的图像和文本分别进行特征提取,并对提取到的图像特征和文本特征分别进行归一化处理,再将归一化处理后的图像特征和文本特征分别分为两个部分,一部分图像特征和文本特征构成训练集,另一部分图像特征和文本特征构成测试集;步骤2,利用训练集中的特征数据的类标签构造图像与图像、文本与文本模态内以及图像与文本模态间相似性矩阵和拉普拉斯矩阵;步骤3,将矩阵分解函数、哈希函数和正则化项合并生成整体目标函数,整体目标函数的表达式如下所示:

【技术特征摘要】
1.一种基于协同矩阵分解的跨模态检索方法,其特征在于,包括如下步骤:步骤1,获取原始数据,首先对原始数据中的图像和文本分别进行特征提取,并对提取到的图像特征和文本特征分别进行归一化处理,再将归一化处理后的图像特征和文本特征分别分为两个部分,一部分图像特征和文本特征构成训练集,另一部分图像特征和文本特征构成测试集;步骤2,利用训练集中的特征数据的类标签构造图像与图像、文本与文本模态内以及图像与文本模态间相似性矩阵和拉普拉斯矩阵;步骤3,将矩阵分解函数、哈希函数和正则化项合并生成整体目标函数,整体目标函数的表达式如下所示:式中,i,j=1,2,λ1和λ2分别表示图像模态内和文本模态内的平衡系数,X1和X2分别表示训练集中图像特征数据和文本特征数据,U1和U2分别表示X1和X2的基矩阵,V是成对的图像和文本在低维潜在语义空间的共同表示,α为哈希函数学习时的权重系数,h(·)表示将投影矩阵离散化为二进制的哈希函数,γ为图正则化项的加权系数,tr(·)表示矩阵的迹范数,P1和P2分别表示X1和X2利用哈希函数所学习的投影矩阵,L11、L22分别表示图像与图像模态内、文本与文本模态内拉普拉斯矩阵,L12=L21表示图像与文本模态间的拉普拉斯矩阵;步骤4,对步骤3生成的整体目标函数中的变量Ui、V、Pi分别进行迭代更新,直至达到设定的最大迭代次数,具体为:(1)将Ui、V、Pi中的所有元素均初始化为(0,1)区间内的随机数,设定λi、α、γ的值以及最大迭代次数;(2)固定V、P1和P2,更新U1、U2:其中,U1t+1、U1t分别表示第t+1、t次迭代后的U1,U...

【专利技术属性】
技术研发人员:李新卫荆晓远吴飞孙莹
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1