当前位置: 首页 > 专利查询>鲁东大学专利>正文

基于在线学习的潜在语义跨媒体哈希检索方法技术

技术编号:19057552 阅读:31 留言:0更新日期:2018-09-29 12:18
本发明专利技术公开了一种基于在线学习的潜在语义跨媒体哈希方法实现图像和文本模态的跨媒体检索,该方法包括以下步骤:建立图像、文本对数据集,提取数据集中数据的特征并去均值,按照一定比例划分训练集和测试集;将离散标签映射到连续的潜在语义空间,并利用保持数据间相似性构建目标函数;利用基于在线学习的迭代优化方案求解目标函数,当有新数据产生时,只利用新数据更新哈希函数,提升了训练过程的效率;利用哈希函数计算测试集中图像和文本数据的哈希码,将测试集中某一模态的数据作为查询集,另一模态的数据作为目标数据集,计算查询数据集中数据与目标数据集中所有数据的汉明距离,并按升序排序,返回排序靠前的异构数据作为跨媒体检索结果。

【技术实现步骤摘要】
基于在线学习的潜在语义跨媒体哈希检索方法
本专利技术涉及多媒体检索和模式识别领域,尤其是一种基于在线学习的潜在语义跨媒体哈希检索方法。
技术介绍
近年来,由于哈希方法在大规模数据集上的高效性和有效性,引起了研究者的广泛关注;哈希方法的目标是通过保持数据在原始特征空间或标签的结相似性,将数据映射到汉明空间;数据间的相似性可以通过XOR运算高效计算,在保证检索性能的前提下大大加快检索速度;然而,大部分哈希方法只是针对单一模态的应用,随着互联网技术和数字设备的快速发展,网络上多媒体数据越来越多;不同模态的数据可以表示相同语义数据,这限制了单模哈希方法的应用;对于用户而言,用户虽然输入的是单一模态数据,但期望返回各种模态的相似数据;然而,异构数据间的相似性是不能直接度量的,如何度量异构数据的相似度成为一个挑战,跨媒体哈希方法将异构数据映射到一个共享汉明空间,在此空间异构数据的相似度可以高效的计算。最近,研究者提出了多种跨媒体哈希方法,并取得了令人满意的成果;已有成果证明,利用数据的监督信息(例如,类别标签)可以生成基于高层语义保持的哈希码来提高检索性能;但离散标签不能准确地度量数据间的相似度,会导致哈希函数区分能力下降;此外,尽管跨媒体哈希的研究取得了一些进展,但大多数已有方法是基于批量数据的;这类方法需要所有的训练数据在学习哈希函数之前都是可用的,但在实际应用中,网络上的多媒体数据会随时间的推移不断产生,例如每天都有数十亿图像上传到互联网;当新数据产生后,这些方法须利用所有积累的训练数据重新训练哈希函数;这使哈希方法失去了其高效性,尤其是当新数据频繁产生时;另外,随着新数据的不断产生,训练数据集变得非常大;一方面,训练数据占用内存太高,导致无法将所有数据一次性加载到内存中;另一方面,即使内存足够用,通常训练时间也是难以接受的;为了解决以上问题,本专利技术提出一种基于在线学习的跨媒哈希体检索方法,该方法利用离散标签学习一个连续的潜在语义空间,以更准确地度量数据间的相似度,使返回的检索结果更准确;而且该方法有效地实现了当有新数据产生时,只利用新数据更新训练哈希函数,使哈希函数的训练更高效和减少内存开销。
技术实现思路
本专利技术的目的是提供一种基于在线学习的跨媒哈希体检索方法,其特征在于,该方法包括以下步骤。步骤1:从网络上搜集图像、文本数据对,构建跨模态检索数据库,提取数据库中图像和文本数据的特征并去均值,将数据集分为训练集和测试集。步骤2:将数据的离散标签映射到连续的潜在语义空间,并保持基于此空间的数据间相似性构建目标函数。步骤3:利用基于在线学习的迭代优化算法求解目标函数,使得当有新数据产生时,只利用新数据更新哈希函数。步骤4:根据测试集中数据的模态,利用相应模态哈希函数将数据映射到汉明空间。步骤5:将测试集中某一模态(例如:图像)的数据作为查询集,另一模态(例如:文本)的数据作为目标数据集。步骤6:计算查询集中一个数据与目标数据集中所有数据的汉明距离,并按升序排序,返回前个数据作为跨媒体检索结果。根据权利要求1所述的基于在线学习的监督跨媒体哈希检索方法,其特征在于,所述步骤1包括以下步骤。1)利用网络收集图像和文本数据,并且使图像和文本数据是一一对应的。2)对所有图像数据提取其SIFT特征点,并对特征点进行K-Means聚类,把聚类中心作为视觉单词;然后把所有特征点量化到距离最近的视觉单词,最后与对文本数据的处理相同,利用词频-逆文件频率的方法生成图像的特征表示,图像数据最终被表示为,其中为图像数据表示的维数,为训练数据库文本数据的数量。3)对所有文本数据利用词袋模型生成特征表示,并利用词频-逆文件频率的方法对每个单词加权,最终所有文本数据被表示为,其中为文本表示的维数。4)对生成的图像和文本特征表示进行去均值处理。5)按照一定比例,将数据集划分为训练集和测试集。根据权利要求1所述的基于在线学习的监督跨媒体哈希检索方法,其特征在于,所述步骤2中,包括以下步骤。1)基于所述的训练集中图像和文本数据的特征建立目标函数。2)所述目标函数,定义如下:其中,为所有数据的标签矩阵,和为映射矩阵,为数据的哈希码,分别表示图像和文本模态的哈希函数,和为待定权重参数,表示F-范数。根据权利要求1所述的基于在线学习的监督跨媒体哈希检索方法,其特征在于,所述步骤3中,包括以下步骤。1)把训练数据库中的数据按照收集时间顺序分成个数据块,模拟数据随着时间的推移,新数据不断产生,初始训练集只包含第一个数据块的数据,然后每次向训练集添加一个数据块;2)设定阈值和最大迭代次数,只要满足相邻两次迭代目标函数值之差大于阈值或迭代次数小于最大迭代次数,执行3)--7);3)固定、、和求解:当第()次数据产生时,新图像和文本数据分别用,表示,新数据的标签用表示,新数据的哈希码用表示,已有图像和文本数据用,表示,已有数据的标签用表示,已有数据的哈希码用表示;去除常数项,目标函数变为:这个问题可以利用离散循环坐标下降法逐一比特求解,得到,并更新变量;4)固定、、和求解:去除常数项,目标函数可写为:则:其中:其中和为常数项,可以在更新函数前预先计算,存放到内存,因此更新只与新数据有关;5)固定、、和求解:去除常数项,目标函数可写为:则:其中:其中和为常数项,,可以在更新函数前预先计算,存放到内存,因此更新只与新数据有关;6)固定、、和求解:去除常数项,目标函数可写为:则:其中:其中和为常数项,可以在更新函数前预先计算,存放到内存,因此更新只与新数据有关;7)固定、、和求解:与求解类似其中:其中和为常数项,可以在更新函数前预先计算,存放到内存,因此更新与新数据有关。本专利技术与
技术介绍
相比,具有的有益效果是:本专利技术提出了一套新的基于内容的跨媒体检索方法;通过将离散标签映射到连续空间,更精确的度量数据间的相似度;提出了一种基于在线学习的优化方法,当有新数据产生时,只需要利用新数据更新哈希函数,在保证算法性能的前提下,提升了算法的效率;该专利技术将异构数据映射到共享汉明空间,适用于现实中面向流式网络大数据的跨媒体检索。附图说明图1是本专利技术基于在线学习的监督跨媒体哈希检索方法流程图。图2是根据本专利技术跨媒体检索方法从图像到文本的检索效果示意图。图3是根据本专利技术跨媒体检索方法从文本到图像的检索效果示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图对本专利技术进一步详细说明。本专利技术将异构数据映射到同一个汉明空间,而且当有新数据产生时,只利用新数据更新不同模态的哈希函数;在学习的共享汉明子空间中度量不同模态的数据的相似性,实现高效跨媒体检索的目的。图1是本专利技术基于在线学习的潜在语义跨媒体哈希检索方法流程图,本专利技术提出的一种基于在线学习的潜在语义跨媒体哈希检索方法包括以下几个步骤。步骤1:从网络上搜集图像、文本数据,构建跨模态检索的数据库,提取数据库中图像和文本数据的特征并去均值,将数据集划分为训练集和测试集。所述的提取数据集中图像和文本数据的特征,本专利技术中,对于图像数据,首先提取尺度不变特征变换(Scale-InvariantFeatureTransform,SIFT)特征,然后利用K-means算法对SIFT特征进行聚类,得到50本文档来自技高网
...

【技术保护点】
1.一种基于在线学习的跨媒哈希体检索方法,其特征在于,该方法包括以下步骤:步骤1:从网络上搜集图像、文本数据对,构建跨模态检索数据库,提取数据库中图像和文本数据的特征并去均值,将数据集分为训练集和测试集;步骤2:将数据的离散标签映射到连续的潜在语义空间,并保持基于此空间的数据间相似性构建目标函数;步骤3:利用基于在线学习的迭代优化算法求解目标函数,使得当有新数据产生时,只利用新数据更新哈希函数;步骤4:根据测试集中数据的模态,利用相应模态哈希函数将数据映射到汉明空间;步骤5:将测试集中某一模态(例如:图像)的数据作为查询集,另一模态(例如:文本)的数据作为目标数据集;步骤6:计算查询集中一个数据与目标数据集中所有数据的汉明距离,并按升序排序,返回前

【技术特征摘要】
1.一种基于在线学习的跨媒哈希体检索方法,其特征在于,该方法包括以下步骤:步骤1:从网络上搜集图像、文本数据对,构建跨模态检索数据库,提取数据库中图像和文本数据的特征并去均值,将数据集分为训练集和测试集;步骤2:将数据的离散标签映射到连续的潜在语义空间,并保持基于此空间的数据间相似性构建目标函数;步骤3:利用基于在线学习的迭代优化算法求解目标函数,使得当有新数据产生时,只利用新数据更新哈希函数;步骤4:根据测试集中数据的模态,利用相应模态哈希函数将数据映射到汉明空间;步骤5:将测试集中某一模态(例如:图像)的数据作为查询集,另一模态(例如:文本)的数据作为目标数据集;步骤6:计算查询集中一个数据与目标数据集中所有数据的汉明距离,并按升序排序,返回前个数据作为跨媒体检索结果。2.根据权利要求1所述的基于在线学习的监督跨媒体哈希检索方法,其特征在于,所述步骤1包括:1)利用网络收集图像和文本数据,并且使图像和文本数据是一一对应的;2)对所有图像数据提取其SIFT特征点,并对特征点进行K-Means聚类,把聚类中心作为视觉单词;然后把所有特征点量化到距离最近的视觉单词,最后与对文本数据的处理相同,利用词频-逆文件频率的方法生成图像的特征表示,图像数据最终被表示为,其中为图像数据表示的维数,为训练数据库文本数据的数量;3)对所有文本数据利用词袋模型生成特征表示,并利用词频-逆文件频率的方法对每个单词加权,最终所有文本数据被表示为,其中为文本表示的维数;4)对生成的图像和文本特征表示进行去均值处理;5)按照一定比例,将数据集划分为训练集和测试集。3.根据权利要求1所述的基于在线学习的监督跨媒体哈希检索方法,其特...

【专利技术属性】
技术研发人员:姚涛王刚苏庆堂王洪刚张小峰岳峻
申请(专利权)人:鲁东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1