一种基于内容检索相同或相似图像的方法与系统技术方案

技术编号:12223589 阅读:90 留言:0更新日期:2015-10-22 01:31
本发明专利技术提供一种基于内容检索相同或相似图像的方法与系统,通过对图像进行全量降维并建立索引,以搭建小规模的数据集群即能满足类实时搜索相同或相似图像,检索精度高、时间短。该方法包括:对图像进行去重处理后,利用卷积神经网络模型提取图像的特定层的全连接特征向量;对提取的特定层的全连接特征向量进行降维,并将降维后的特征向量与图像的标识符及属性信息相关联;将降维后的特征向量及图像的标识符在分布式的检索集群中建立索引,并批量插入图像的数据信息;通过对降维后的特征向量在分布式的检索集群中进行相似度量,将满足预定阈值的图像确定为相同或相似图像。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别地涉及一种基于内容检索相同或相似图像的方法与系统
技术介绍
常规的图像检索,是通过输入关键词的形式搜索到互联网上相关的图片资源,查找出自己所需要的特定图片。但是对于某个特定的图像特征,通常又有多种不同的表达方法。由于人们主观认识上的千差万别,对于某个特征并不存在一个所谓的最佳的表达方式,这样在进行图像检索时就会出现检索精度低,甚至检索不到需要的图片的情况。因此,基于内容的图像检索使用越来越多。基于内容的图像检索为从大量图像中检索出特定内容的图像提供了有效的方法,一般使用一些特征提取的方法提取出图像的特征,然后再检索比较。现有的图片搜索引擎在进行相似图片搜索时,主要有如下两种方式:1、根据输入的关键字,在搜索结果中挑选一张图片,再根据这张图片的特点来进行搜索,例如:Xcavator、Live, com、Picitup等,其中,图片的特点主要指色彩、形状等方面的特征;2、通过上传本地图片或输入网络图片的URL地址,自动分析图像中的元数据,作为搜索的关键数据,例如,颜色、形状、主题风格等,取出多个像素点,提取特征值,寻找相似的图片,例如:百度识图、Gazopa、Byo image search等。由上述可知,现有的基于内容的图像检索主要是根据图像的颜色、形状、主题风格等特征,取多个像素点提取特征值以寻找相似的图片。然而,通常情况下,不同的特征提取方法对提取出来的结果影响甚大;对于检索响应时间,会随着图像数量的增多而逐渐拉长。且现有的大部分图像识别产品,针对性是全网搜索的图片,对特定领域的相同或相似图像检索精度并没有那么高。因此,需要一种针对特定领域的相同或相似图像类实时检索的方法和系统。由于从海量的高维数据集合中找到相似数据计算复杂度非常高,因此对需要实时查询的系统而言,方案几乎不可取。但是,如果能把特征维度降低一个量级,然后对特征建立索引,那么通过查询请求即可做到类实时查询。
技术实现思路
有鉴于此,本专利技术提供一种基于内容检索相同或相似图像的方法与系统,通过对图像进行特征向量提取,并对提取的图像特征向量降维及建立索引,以搭建小规模的数据集群即能满足类实时搜索相同或相似图像,检索精度高、时间短。为实现上述目的,本专利技术提供以下技术方案:利用卷积神经网络模型提取图像的高层特征向量,根据特征向量维度大小利用降维方法选择最优参数进行特征向量降维,降维后的特征向量插入实时检索集群,对于要查询的图像,用上述步骤提取降维后的特征向量,在实时检索集群中采用汉明距离进行相似度量,根据计算出来的分数得到相同或相似图像。根据本专利技术的一个方面,提供了一种基于内容检索相同或相似图像的方法。本专利技术的一种基于内容检索相同或相似图像的方法,包括:对图像进行去重处理后,利用卷积神经网络模型提取所述图像的特定层的全连接特征向量;对提取的所述特定层的全连接特征向量进行降维,并将降维后的特征向量与所述图像的标识符及属性信息相关联;将降维后的特征向量及图像的标识符在分布式的检索集群中建立索引,并批量插入所述图像的数据信息,其中所述数据信息包括所述降维后的特征向量、所述图像的标识符及属性信息;通过对所述降维后的特征向量在所述分布式的检索集群中进行相似度量,将满足预定阈值的图像确定为相同或相似图像。可选地,将降维后的特征向量及图像的标识符在分布式的检索集群中建立索引的步骤包括:对降维后的特征向量的每一项都采用整数建立索引;对图像的标识符采用不分词的方式直接建立索引。可选地,将降维后的特征向量及图像的标识符在分布式的检索集群中建立索引的步骤之后,还包括:将图像的属性信息只进行存储而不建立索引。可选地,批量插入所述图像的数据信息包括:按照图像类型批量插入所述图像的数据信息。可选地,所述索引为倒排索引。可选地,对所述降维后的特征向量在所述分布式的检索集群中进行相似度量包括:计算所述降维后的特征向量与所述分布式的检索集群中的特征向量之间的汉明距离。可选地,对所述降维后的特征向量在所述分布式的检索集群进行相似度量的步骤包括:将降维后的特征向量的每一个维度的权重设为同一整数,并与所述分布式的检索集群中的特征向量进行比较,以计算汉明距离得分;所述得分在所述预定阈值之上的图像认为是所要查询图像的相同图像,否则为所要查询图像的相似图像。可选地,所述权重是1,并且所述预定阈值为降维后特征向量维度的95%。根据本专利技术的另一方面,提供了一种基于内容检索相同或相似图像的系统。本专利技术的一种基于内容检索相同或相似图像的系统,包括:特征提取模块,用于对图像进行去重处理后,利用卷积神经网络模型提取图像的特定层的全连接特征向量;特征降维模块,用于对提取的所述特定层的全连接特征向量进行降维,并将降维后的特征向量与所述图像的标识符及属性信息相关联;特征入库模块,用于将降维后的特征向量及图像的标识符在分布式的检索集群中建立索引,并批量插入所述图像的数据信息,其中所述数据信息包括所述降维后的特征向量、所述图像的标识符及属性信息;特征查询模块,用于通过对所述降维后的特征向量在所述分布式的检索集群中进行相似度量,将满足预定阈值的图像确定为相同或相似图像。可选地,所述特征入库模块还用于:对降维后的特征向量的每一项都采用整数建立索引;对图像的标识符采用不分词的方式直接建立索引。可选地,所述特征入库模块在将降维后的特征向量及图像的标识符在分布式的检索集群中建立索引之后,还用于:将图像的属性信息只进行存储而不建立索引。可选地,所述特征入库模块还用于:按照图像类型批量插入所述图像的数据信息。可选地,所述索引为倒排索引。可选地,所述特征查询模块还用于:计算所述降维后的特征向量与所述分布式的检索集群中的特征向量之间的汉明距离。可选地,所述特征查询模块还用于:将降维后的特征向量的每一个维度权重设为同一整数,并与所述分布式的检索集群中的数据进行比较,以计算汉明距离得分;所述得分在预定阈值之上的图像认为是所要查询图像的相同图像,否则为所要查询图像的相似图像。可选地,所述权重是1,并且所述预定阈值为降维后特征向量维度的95%。根据本专利技术的技术方案,通过对图像进行全连接特征向量提取,并对提取的图像特征向量降维及建立索引,以搭建小规模的数据集群即能满足类实时搜索相同或相似图像,检索精度尚、时间短,从而提尚了检索效率,提尚了用户体验度。【附图说明】附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的一种基于内容检索相同或相似图像的方法的主要步骤示意图;图2是根据本专利技术实施例的一种基于内容检索相同或相似图像的系统的主要模块不意图。【具体实施方式】以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本专利技术实施例的一种基于内容检索相同或相似图像的方法的主要步骤示意图。如图1所示,本专利技术的一种基于内容检索相同或相似图像的方法包括步骤Sll至步骤S14。步骤Sll:对图像进行去重处理后,利用卷积神经网络模型提取本文档来自技高网
...

【技术保护点】
一种基于内容检索相同或相似图像的方法,其特征在于,包含:对图像进行去重处理后,利用卷积神经网络模型提取所述图像的特定层的全连接特征向量;对提取的所述特定层的全连接特征向量进行降维,并将降维后的特征向量与所述图像的标识符及属性信息相关联;将降维后的特征向量及图像的标识符在分布式的检索集群中建立索引,并批量插入所述图像的数据信息,其中所述数据信息包括所述降维后的特征向量、所述图像的标识符及属性信息;通过对所述降维后的特征向量在所述分布式的检索集群中进行相似度量,将满足预定阈值的图像确定为相同或相似图像。

【技术特征摘要】

【专利技术属性】
技术研发人员:布如国牟川邢志峰林熙东
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1