一种海量图片快速检索方法技术

技术编号:8078909 阅读:313 留言:0更新日期:2012-12-13 21:42
本发明专利技术提出了一种新的海量图片快速检索方法,包括以下几个方面一是通过把RGB颜色空间的图片转化到HSV颜色空间,二是通过把图片空间分块,分别提取各个小块的HSV颜色直方图信息,三是使用谱哈希算法得到图片的索引特征,四是对使用谱哈希索引特征检索返回的相似图片集,使用原始的HSV颜色空间分块颜色直方图特征,采用街区距离作为图像之间相似性度量的函数,对基于谱哈希生成的索引特征返回的相似图片集进行重新排序,实验证明,与以往算法相比,本发明专利技术提出的算法能准确实时的处理百万规模的图片数据,这种方法能够用于互联网基于内容的图片检索,在线电子购物网站等场景中。

【技术实现步骤摘要】

本专利技术涉及应用于基于内容的图像检索、电子购物网站领域,尤其涉及。
技术介绍
目前,随着照相机,手机,摄像机等电子产品的普及,我们可以随时随处,拍下我们喜欢的景色,动物,食品,等等各种各样的图片。截止到2010年一月,Facebook声称其网站上图片的数量已经超多250亿张,面对如此海量的图片资源,如何快速准确的找到我们感兴趣的图片已经是我们必须要解决的问题。正是在这种背景之下,本专利技术从图片中提取HSV颜色空间分块颜色直方图信息,由于它考虑到了颜色的空间分布信息,相比于传统的颜色直方图特征具有更好的判别性,可以过滤掉颜色信息相同但是空间分布不同的图片;同时本专利技术采用谱哈希算法把颜色直方图特征向量嵌入到二进制空间,这样既节省了存储空间,同时大大减少了相似度计算带来的复杂度,可以实现海量图片的快速检索。传统的基于文字的图像检索方法,有着内在的缺陷由于图片需要人工标注,给人带来了繁重的工作量,同时由于图片信息的丰富,往往标注人员很难能把图片所展示的信息完全标注出来;另一方面由于人的主观性,不同的人可能对于一幅图片的理解和兴趣点完全都不同,这样标注出来的信息也就可能完全不同。传统的基于内容的图像检索,由于颜色直方图没有考虑颜色的空间分布,当处理海量的图片信息的时候,往往有好多图片的颜色直方图信息完全相同,但是颜色的空间分布很不一致。为此,本专利技术采用基于分块的颜色直方图特征,通过对空间划分的各个小块提取颜色直方图信息,并且在图片之间的相似度计算的时候只考虑对应块之间的相似度,这样既考虑了颜色的信息,同时考虑到颜色的空间分布信息,增加了判别性。为了快速对海量图片数据进行处理,实时进行检索结果的呈现,高维索引技术是必不可少的。传统的高维索引技术主要可以分为两大类,一种是基于空间划分的方法,通过一定的规则进行空间划分,并且通过一定的规则过滤掉不可能是目标搜索区域的数据点,这种方法在特征维度比较小的时候效果比较好,当特征的维度高于20维的时候,这种方法就会退化成查询特征向量和数据库中每一个的特征向量线性的对比的过程,失去了原有的优势。另一种是随机方法,比较有代表性的是局部敏感哈希方法(Locality SensitiveHashing),但是由于该方法需要维持多张哈希索引以保证相似的特征向量被映射到相同的哈希桶中,这就需要使用大量的内存空间,面临海量的数据,这种方法也是不合适的。
技术实现思路
针对上述技术缺陷,本专利技术提出。为了解决上述技术问题,本专利技术的技术方案如下 ,包括如下步骤 11)首先把图片从RGB颜色空间转化到HSV颜色空间,然后对HSV颜色空间的三个通道H,S,V分别均匀量化为12,2,2个区间,使其量化成48种颜色;对图片按照水平和垂直的方向分别平均的分成两个小块,分别把每一个小块当做一张图片,计算上面的HSV颜色直方图的统计信息,使得每一个小块生成48维度的颜色特征,把4个小块的颜色特征从上到下,从左到右,结合成一个一维的特征向量,这样一张图片就会生成48*4 = 192维度的特征向量; 12)使用谱哈希算法把原始的HSV颜色空间分块颜色直方图192维度的特征向量嵌入到二进制空间,得到的二进制索引特征; 13)使用汉明距离计算待查询图像二进制索引特征和数据库中所有图片的二进制索引特征的距离,返回汉明距离小于一个阈值T的所有图片作为相似图片集; 14)对步骤13)采用二进制索引特征返回的相似图片集中的每一幅图像,依次计算待查询图像原始HSV颜色空间分块颜色直方图特征和相似图片集中的每一幅图像对应的原始HSV颜色空间分块颜色直方图特征的街区距离,并对所有的距离排序,并且按照距离的排序返回查询图片的目标结果集。进一步的,所述步骤11)中将HSV颜色空间量化成48种颜色,包括如下步骤HSV颜色空间的三个通道H,S,V通道分别量化的数量为HBin,SBin和VBin,取HBin=12,SBin=2,VBin=2,使用三个整数值HValue,SValueJP VValue代表三个通道每个数值落入的小区间的标号,其中 0〈=HValue〈=HBin-l, 0<=SValue<=SBin-l, 0〈=VValue〈=VBin-l,使用以下公式计算最终要生成的颜色直方图的标号,这个最终颜色直方图的标号用Bin表示,Bin = HValue*SBin*VBin +SValue^VBin + VValue, Bin 的取值范围是 0〈=Bin〈=47,即一幅图片的直方图表示成了 48维度的直方图。进一步的,所述步骤12)将特征向量嵌入到二进制空间,得到的二进制索引特征,包括如下步骤 一个图片集特征向量的集合fe),每一个特征向量Ii是(1维度空间的一个样本点,使用谱哈希算法将原始的特征向量嵌入到二进制空间中,使得新生成的特征向量用k位O或者I的比特位表示,所述谱哈希算法包括如下步骤 31)使用主成分分析算法得到数据臬的各个主成分分量; 32)在每一维度主成分分析算法主方向上,使用公式(a)计算k个最小单一维度的特征函数,在计算每一维度特征函数的时候可以通过假定数据是分布在区间上的均匀分布来简化计算,这样得到了k X d个特征值,对这些特征值进行排序保留k个最小的特征值;/ir k X π \ + Fnx ■'') (a) 所述公式(a)计算的是变量X第k维度的特征函数,其中的参数含义如下ιγ代表圆周率,k是特征向量维度的标号,X表示的是特征向量在第k维度的取值其中a和b代表了X的取值范围,也就是a〈=x〈=b ;33)以O为阈值对特征函数Ofe进行量化,即Oli 5 O得到的最终比特位为1,否则得到最终的比特位为O。进一步的,所述步骤13)包括如下步骤使用公式Dfcy) = If=iA计算待查询图像二进制索引特征和数据库中所有图片的二进制索引特征的距离; 其中,Φ代表模2加法运算,X和y都是长度为k由O或者I组成的二进制索引特征向量,即,k代表了特征向量X,和I的二进制位数。进一步的,所述步骤14)包括如下步骤使用Dfcy) = [1匕-3^1街区距离对原始的HSV颜色空间分块颜色直方图特征进行重新排序;其中d代表了原始HSV颜色空间分块颜色直方图特征向量X和I的维度。进一步的,对每一个颜色的出现频率开根号作为该维度的特征,最后的这192维度的的特征向量的每一个维度除以这张图片的总的像素个数作为最后的HSV颜色空间分块颜色直方图特征向量。本专利技术的有益效果在于本专利技术提出了一种新的海量图片快速检索方法,可以快速,准确,实时的处理海量的图片信息。其基本特征包括以下几个方面。一是通过把RGB颜色空间的图片转化到HSV颜色空间,可以更好模拟人眼感官特性。二是通过把图片空间分块,分别提取各个小块的HSV颜色直方图信息,可以同时考虑颜色和空间分布的信息。三是使用谱哈希算法得到图片的索引特征,采用这种方法可以减低特征占用的存储空间和计算图片特征相似度所用的时间。四是对使用谱哈希索引特征检索返回的相似图片集,使用原始的HSV颜色空间分块颜色直方图特征,采用街区距离作为图像之间相似性度量的函数,对基于谱哈希生成的索引特征返回的相似图片集进行重新排序。实验证明,与以往算法相t匕,本专利技术提出的算法能准确实本文档来自技高网
...

【技术保护点】
一种海量图片快速检索方法,其特征在于,包括如下步骤:11)首先把图片从RGB颜色空间转化到HSV颜色空间,然后对HSV颜色空间的三个通道H,S,V分别均匀量化为12,2,2个区间,使其量化成48种颜色;对图片按照水平和垂直的方向分别平均的分成两个小块,分别把每一个小块当做一张图片,计算上面的HSV颜色直方图的统计信息,使得每一个小块生成48维度的颜色特征,?把4个小块的颜色特征从上到下,从左到右,结合成一个一维的特征向量,这样一张图片就会生成48*4?=?192维度的特征向量;12)使用谱哈希算法把原始的HSV颜色空间分块颜色直方图192维度的特征向量嵌入到二进制空间,得到的二进制索引特征;13)使用汉明距离计算待查询图像二进制索引特征和数据库中所有图片的二进制索引特征的距离,返回汉明距离小于一个阈值T的所有图片作为相似图片集;14)对步骤13)采用二进制索引特征返回的相似图片集中的每一幅图像,依次计算待查询图像原始HSV颜色空间分块颜色直方图特征和相似图片集中的每一幅图像对应的原始HSV颜色空间分块颜色直方图特征的街区距离,?并对所有的距离排序,并且按照距离的排序返回查询图片的目标结果集。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王海赵志峰张卫单炳云刘杰
申请(专利权)人:华数传媒网络有限公司北京数视宇通技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1