基于关键词和内容特征的混合图片索引构建和查询方法及其应用技术

技术编号:2912548 阅读:275 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于关键词和内容的图片索引构建和相应的查询方法,其中索引构建包括以下步骤:以图片的描述说明或其名称说明为基础的构建基于关键词的关键词倒排索引;以抽取的图片特征向量构建基于内容的图片特征索引。查询方法包括以下步骤:用户提交查询请求,查询关键词与关键词集合进行模式匹配得到语义相关图片集合;用提取样图特征其特征向量在应用位置敏感的哈希方法在图片特征向量索引中查询得到相似的图片特征向量;综合结果将相似度高的图片返回给用户。本发明专利技术能兼顾关键词索引和图片索引的优点,既能利用关键词检索速度快,又利用图片索引提高查询结果相关度,提高查准率。该技术方案可以应用于图片图像的检索领域中。

【技术实现步骤摘要】

本专利技术属于信息检索技术的图片检索领域,更具体的涉及了一种基于关键词和内容的混合图片索引构建和查询方法及其应用。
技术介绍
当今随着网络的迅速普及,数码照相的广泛应用,互联网上图片的数量已呈爆炸式增长的趋势。在航天探索、生物医学、制药等领域也常常有大量的图片需要处理。在这样数量极其繁多的图片中如何能够快速准确的查找、定位所需的图片就成为亟待解决的问题。传统的图片检索借用了在文献检索中经常被使用的基于关键词的技术。该技术对于图片的文件名和文字说明进行关键词的提取和分析,建立关键词索引,以便通过关键词查询找到相应的图片。现有技术中主流图片搜索引擎,如,谷歌(Google),百度等均是采用这项技术。这种技术实现起来比较简单,即通过关键词的逻辑模式匹配得到查询结果,该方法可以比较快速的完成用户的查询需求。但是,这种方法的弊端也是显而易见的。如图片文件的名称或者文字说明与图片所描绘的内容没有直接、必然的联系。通过这种方法查询得到的图片经常与用户的需求存在有一定的差距,即查询结果与用户需求相关度比较低。为了克服传统的基于关键词的图片检索的不足之处,兴起于上世纪90年代的基于内容的图片检索逐渐为人们所重视。该基于内容的图片检索不是采用图片的文字说明作为建立索引的根据,而是对于图片本身的特征进行分析提取,并在图片本身的特征上建立索引。用户查询时可以向系统提交一幅样图;系统便可以通过对样图进行特征抽取再和已建索引中的特征比较返回给用户相似的图片。在这种技术里提取的图片本身特征包括图片本身的颜色、纹理、图形形状、像素空间关系等。这种基于图片特征的内容检索虽然意在克服传统的基于关键词的检索方法的不足,但也带来了很多新的问题。第一,颜色、纹理、形状等信息虽能客观的反映图片的特征,但并不能完全表达图片承载的信息。-->第二、对图片颜色、纹理、形状特征的分析与提取并建立索引在信息的计算量上大大超过单纯对于关键词的提取,也就需要更多的计算时间。目前在对于特征索引的查找常常需要较长时间的等待,常常并不能适合用户的要求。现有技术中基于关键词和基于内容的图片检索技术存在上述种种问题和缺陷,能迅速找到一种图片检索技术来解决这些问题、缺陷的需求由来已久。本专利技术因此而来。
技术实现思路
本专利技术的主要目的在于提供一种基于关键词和内容的混合图片索引构建和查询方法,解决了现有技术中基于关键词的图片索引时查询结果与用户需求相关度比较低、基于内容的图片索引时查询效率较低、费时很长等缺陷。为了解决上述问题,本专利技术提供的技术方案如下:一种基于关键词和内容的混合图片索引构建方法,包括以下步骤:以图片的描述说明或其名称说明为基础的构建基于关键词的关键词索引;对图片进行特征抽取;以抽取得到的图片特征构建基于内容的图片特征索引。优选的,所述的方法中构建基于关键词的关键词索引是基于Lucene索引引擎构建;其构建步骤包括对图片的描述说明或其名称说明全文索引分解成索引关键词建立索引关键词集合;将所述的索引关键词集合存入Lucene索引中。优选的,所述的基于Lucene索引引擎构建基于关键词的关键词索引还包括将存入Lucene索引中的索引关键词建立倒排索引。优选的,所述的方法中构建基于内容的图片特征索引是基于Lucene索引引擎构建;所述构建方法包括根据图片特征不同抽取方法处理产生由实数组成的特征向量集合,将所述特征向量集合存入Lucene索引中。优选的,所述Lucene索引包括所述关键词索引、图片特征索引分别与图片文件路径的关联。优选的,所述的关联为链接表关联。-->优选的,所述的特征抽取步骤包括对图片的颜色、纹理、图形形状、像素空间关系进行抽取;所述抽取方法包括边缘直方图(MPEG-7EdgeHistrogram)或自动颜色关联表(Auto Colour Correlogram)方法。本专利技术的另一目的在于提供一种基于关键词和内容的混合图片查询方法,包括以下步骤:用户提出包括关键词和样图的查询需求;用户的关键词与Lucene索引中的关键词集合进行模式匹配,计算匹配文件描述说明与用户的关键词相似度;对用户提供的样图通过特征抽取得到样图特征向量集合,将样图特征向量与Lucene索引中的图片特征索引进行距离比较并计算相似度;综合关键词匹配结果和样图匹配结果排序呈现给用户。优选的,所述的距离比较方法采用基于位置敏感的哈希(LocalitySensitive Hashing)方法来进行比较。优选的,所述的用户需求包括关键词、样图及其相关权值。本专利技术技术方案结合了基于文字的图片检索和基于内容的图片检索各自的优势,既使用文字索引又使用特征索引以便最大限度的提高检索精度,满足用户的需要。另外本专利技术提供的索引优选使用Lucene索引,该索引引擎框架是一个开放的架构,可以支持多种特征提取算法。并且本专利技术所使用的基于位置敏感的哈希方法(Locality Sensitive Hashing,LSH)技术,使得查找时间低于纯线性查找,使得大规模应用时查询响应时间短、实时。在本案专利技术的技术方案中,每一个图片文件可以有一个与之唯一对应的文本说明文件。该文本说明文件中存储着相应图片的文字描述和说明。这些文本说明文件可以通过程序自动生成,也可以在网络爬行的过程中通过对图片周边文字等信息的归纳生成。在建立索引的过程中本案专利技术中采用的混合索引算法会处理分析所有的文本说明文件并利用全文索引技术对这些文本说明文件建立全文关键词索引。与此同时,混合检索中的特征提取部分会处理所有的图片文件,利用单一的或多种特征提取方法来提取图片特征。特征提取方法可以是边缘直方图(MPEG-7 Edge Histogram)和自动颜色关联表(Auto Colour Correlogram)-->方法。在文本文件中建立的全文索引和从图片中提取的特征都会被存放在统一的Lucene索引中。通过这些方法的使用使得用户查询结果的响应时间大大缩短,满足了用户的实时要求。该专利技术的优点在于本专利技术提供的技术方案能兼顾关键词索引和图片索引的优点,既能利用关键词检索速度快,又利用图片索引提高查询结果相关度,提高查准率。该技术方案可以应用于图片图像的检索领域中。附图说明下面结合附图及实施例对本专利技术作进一步描述:图1为本专利技术实施例基于关键词和图片内容的开放式图片索引构建的流程图;图2为本专利技术应用例用户图片检索查询的流程图。具体实施方式为了更详尽的表述上述专利技术的技术方案,以下本专利技术人列举出具体的实施例来明技术效果;需要强调的是,这些实施例是用于说明本专利技术而不限于限制本专利技术的范围。实施例基于关键词和图片内容的开放式图片索引构建每一个图片文件都有一个与之唯一对应的文本说明文件,该文本说明文件中存储着相应图片的文字描述和说明。这些文本说明文件可以通过程序自动生成,也可以在网络爬行的过程中通过对图片周边文字等信息的归纳生成。用I来表示图片库中的图片集合,I={I1,I2,K,In本文档来自技高网
...

【技术保护点】
一种基于关键词和内容的混合图片索引构建方法,包括以下步骤: 以图片的描述说明或其名称说明为基础的构建基于关键词的关键词索引; 对图片进行特征抽取;以抽取得到的图片特征构建基于内容的图片特征索引。

【技术特征摘要】
1.一种基于关键词和内容的混合图片索引构建方法,包括以下步骤:以图片的描述说明或其名称说明为基础的构建基于关键词的关键词索引;对图片进行特征抽取;以抽取得到的图片特征构建基于内容的图片特征索引。2、根据权利要求1所述的基于关键词和内容的混合图片索引构建方法,其特征在于所述的方法中构建基于关键词的关键词索引是基于Lucene索引引擎构建;其构建步骤包括对图片的描述说明或其名称说明全文索引分解成索引关键词建立索引关键词集合;将所述的索引关键词集合存入Lucene索引中。3、根据权利要求2所述的基于关键词和内容的混合图片索引构建方法,其特征在于所述的基于Lucene索引引擎构建基于关键词的关键词索引还包括将存入Lucene索引中的索引关键词建立倒排索引。4、根据权利要求1所述的基于关键词和内容的混合图片索引构建方法,其特征在于所述的方法中构建基于内容的图片特征索引是基于Lucene索引引擎构建;所述构建方法包括根据图片特征不同抽取方法处理产生由实数组成的特征向量集合,将所述特征向量集合存入Lucene索引中。5、根据权利要求2或4所述的基于关键词和内容的混合图片索引构建方法,其...

【专利技术属性】
技术研发人员:张楠
申请(专利权)人:西交利物浦大学
类型:发明
国别省市:32[中国|江苏]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1