基于有监督的拓扑保持哈希的快速图像检索方法技术

技术编号:12347972 阅读:163 留言:0更新日期:2015-11-18 19:53
本发明专利技术公开了一种基于有监督的拓扑保持哈希的快速图像检索方法,所述方法包括:步骤S1,对获取的训练图像和查询图像进行特征提取,并将特征空间变换到新的核空间,获得每幅图像的核空间表示;步骤S3,对训练图像和查询图像进行二元编码;步骤S4,利用二元编码进行图像检索。本发明专利技术针对快速图像检索问题,在具有更强表达能力的核空间学习哈希编码,通过在哈希映射矩阵学习过程中加入监督信息以及拓扑保持信息,使得学习到的映射矩阵有更强的语义表达能力和类内差异表达能力,从而使得学习到的二元编码更适用于图像检索任务,提高了检索准确率并优化了检索结果的排序。

【技术实现步骤摘要】

本专利技术涉及计算机视觉、模式识别,机器学习等
,特别涉及一种基于有监 督的拓扑保持哈希的快速图像检索方法(Supervised Topology Preserving Hashing,简 称 STPH)〇
技术介绍
当前网络中的图像、文本、视频以及音频数据正在以指数级增长的速度不断涌现 出来,如何快速有效的查找我们所需要的信息成为人们日益关注的问题。信息检索,特别是 图像检索是一个比较复杂的过程。现有的检索方法通常需要首先将图像用高层特征表达, 然后根据特征向量的相似度比对来判断是否为相似图像。如何进行有效的特征表达和高效 的相似度比对是图像检索的两个研究重点。本专利技术主要解决高效相似度比对问题。 图像检索所涉及的科学问题是最近邻搜索问题,虽然这一问题的时间复杂度是线 性的,但当数据库的数量N巨大,而且特征表达的维度d又比较大的时候,图像检索便会变 得非常慢。为了加快检索效率,人们针对上述两个问题,分别设计了两类方法。第一类方法 是通过减小数据库数量N减小特征比对的数量,比如k-d tree算法;另一类方法是通过对 特征d降维,从而减少每次特征比对时的耗时。更进一步,通过将原始特征表达变换到二值 空间,使用二元编码对图像进行特征表达,可以大幅度减少存储所需要的空间;而相似度的 计算可以采用汉明距离,可以比传统的欧式距离计算快上数倍。此类算法通常被称作基于 哈希编码的图像检索方法,这种方法具有两个明显的优点,即有效减少数据存储空间和大 幅度提尚检索效率。 传统的哈希方法通常是不依赖数据的哈希方法,比如局部敏感哈希,利用随机生 成的映射函数进行投影。而数据相关的哈希方法则利用训练数据的分布甚至标签信息,通 过机器学习的方法,学习出来一个哈希映射函数。为了使得学习到的哈希编码具有更强的 语义检索能力,可以在哈希学习过程中加入监督信息。而大多数有监督的哈希学习算法因 为没有考虑类内差异的问题,经常使得学习到的二元编码在检索的时候无法提供更准确的 相似度排序。
技术实现思路
本专利技术的目的是提出一种,以解 决传统有监督哈希方法对类内差异表达能力有限的问题。 为了实现本专利技术的目的,本专利技术提供了一种基于有监督的拓扑保持哈希的快速图 像检索方法,所述方法包括: 步骤S1,对获取的训练图像和查询图像进行特征提取,并将特征空间变换到新的 核空间,获得每幅图像的核空间表示; 步骤S2,优化学习训练集的图像的二元编码B,哈希映射矩阵P以及分类器参数W, 具体包括:按照提出的有监督的拓扑保持哈希模型对训练集数据的损失函数建模,通过两 步交替迭代的优化方式最小化损失函数,学习训练集图像的二元编码B,哈希映射矩阵P以 及分类器参数W ; 步骤S3,对训练图像和查询图像进行二元编码,具体包括:通过学习到的哈希映 射矩阵P将核空间的特征映射到新的连续空间中,接下来使用取符号函数sign (?)对连续 空间进行简单的阈值操作,获得最终的取值只可能为1或_1的二兀编码; 步骤S4,利用二元编码进行图像检索,具体包括:通过计算查询图像和每一幅训 练图像的汉明距离,并按照距离大小排序得到相似度,可以进行线性复杂度的图像检索。 其中,在步骤Si中,对获取的训练图像和查询图像进行特征提取,包括提取基于 GIST、SIFT特征的词袋模型特征,或者深度卷积神经网络特征,其中训练数据的特征表示为 X = Ix丄i = L ? ? N,X G RdXN,d代表特征维度,N是训练集图像数量。 其中,在步骤Sl中,对提取后的特征进行核空间变换,包括利用高斯核和随机选 取的锚点,进行变换:巾(X) = ,其中,{xjfj 是h个随机选取的锚点,〇代表核宽度,如此,原始空间特征就变换到了 h维的核空间特征。 其中,在步骤S2中,通过使得训练集的二元编码具有准确分类能力,并保证哈希 映射后连续空间和二值空间量化误差最小,再加上哈希映射后的连续空间对原核空间的拓 扑保持约束,构成如下的有监督的拓扑保持哈希模型:哈希映射到连续空间后的特征与最终的二值空间特征的量化误差,其中,B = Sign(P1X); 是对分类器参数的正则项;巧代表拓扑保持项,其作用是使得哈 希映射后的连续空间可以尽可能的保持原来的核空间中拓扑结构;L是拉普拉斯矩阵,且L =D-S,S为原始核空间的相似度矩阵,其构造方法多样,可以完全依赖欧氏距离,或者结合阵Y G {〇,IKxn,的每一列为仅有一个元素为1的列向量,这里y i= 冲 非零元素的位置对应于训练样本的标签信息,a,(6, Y,为人工设置的权重参数,用于调节 各项之间的相对大小关系。 其中,在步骤S2中,有监督的拓扑保持哈希模型的优化是通过一个三步的交替迭 代优化策略来完成的,具体如下: S21,对所有训练集图像,首先对每张图像随机生成一个二元编码,构成初始化的 B,接下来,进入交替迭代过程,循环S22、S23和S24直到收敛或达到迭代次数要求; S22,固定B、P,优化W,此时,上述对目标函数(1)的最小化问题退化成一个最小二 乘问题,其解可以通过下式得到: ff = (BBt+P I) 1BYt (2) 其中I是单位矩阵; S23,固定参数B、W,更新P,此时,目标函数(1)就退化为如下式(3)所示的目标函 数: s.t.BG{-1,l}kXN 为了求解上述目标函数,可以求导,并令其导数为0,则上式的最优解为: P= (2aXXt+ yX(L+LT)XT) :2aXBt (4) S24,固定参数W、P,更新B,此时,目标函数(1)就退化为如下式(5)所示的目标函 数:s.t.BG{-1,l}kXN 将上式展开,并对B逐行迭代求解(也就是对二元编码一位一位的求解)。可以得 到,B的每一行b的最优解如下式所示: b=sgn(q_B,Vw) (6) 其中,Q = WY+a PtX ;bT是B的第1行,1 = 1,. . .,k ;B'是B去除b留下的矩阵, 同理,qT是Q的第1行,Q'是Q去除q留下的矩阵;w T是的W的第1行,W'是W去除w留下 的矩阵,使用上式(6)对B的所有位循环迭代4-6次后,就可以收敛到一个稳定的B。 其中,在步骤S3中,在模型训练完成之后,对于原来的训练样本或者新来的查询 样本集合的核空间表示舛^,利用哈希映射矩阵和阈值化操作将原始特征映射到二元空 间中,具体操作如下:s 其中,在步骤S4中,在计算了所有的训练样本和查询样本的二元编码之后,通过 计算各个训练样本与每个查询样本之间的汉明距离,得到样本之间的相似度,距离越大,相 似度越低,根据这一相似度度量,就可以实现对大规模图像的快速检索。 与现有技术相比,本专利技术的有益效果为,本专利技术针对快速图像检索问题,在具有更 强表达能力的核空间学习哈希编码,通过在在哈希映射矩阵学习过程中加入监督信息以及 拓扑保持信息,使得学习到的映射矩阵有更强的语义表达能力和类内差异表达能力,从而 使得学习到的二元编码更适用于图像检索任务,提高了检索准确率并优化了检索结果的排 序。【附图说明】 图1是本专利技术的方法流程图; 图2是本专利技术用于建立训练集的部分训练样本图像示例; 图3是本专利技术与其他哈希方法在编码长度为24bit时的准确率-召回率曲线图; 图4是本专利技术与本文档来自技高网
...

【技术保护点】
一种基于有监督的拓扑保持哈希的快速图像检索方法,其特征在于,所述方法包括:步骤S1,对获取的训练图像和查询图像进行特征提取,并将特征空间变换到新的核空间,获得每幅图像的核空间表示;步骤S2,优化学习训练集的图像的二元编码B,哈希映射矩阵P以及分类器参数W,具体包括:按照提出的有监督的拓扑保持哈希模型对训练集数据的损失函数建模,通过两步交替迭代的优化方式最小化损失函数,学习训练集图像的二元编码B,哈希映射矩阵P以及分类器参数W;步骤S3,对训练图像和查询图像进行二元编码,具体包括:通过学习到的哈希映射矩阵P将核空间的特征映射到新的连续空间中,接下来使用取符号函数sign(·)对连续空间进行简单的阈值操作,获得最终的取值只可能为1或‑1的二元编码;步骤S4,利用二元编码进行图像检索,具体包括:通过计算查询图像和每一幅训练图像的汉明距离,并按照距离大小排序得到相似度,可以进行线性复杂度的图像检索。

【技术特征摘要】

【专利技术属性】
技术研发人员:赫然谭铁牛孙哲南张树张曼
申请(专利权)人:天津中科智能识别产业技术研究院有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1