一种基于视觉注意力模型的图像语义检索方法技术

技术编号:3855597 阅读:232 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一种完全数据驱动的,基于视觉注意力机制模型的图像检索方法,从而在无需增加用户交互负担的情况下,尽可能地从用户的角度理解图像的语义,贴近用户的感知以提高检索性能。该方法优点在于:(1)将视觉认知理论中的视觉注意力机制理论引入到图像检索中;(2)该方法是完全自底向上的检索模式,无需用户反馈所带来的用户负担;(3)同时考虑了图像中的显著边缘信息及显著区域信息,实现了融合检索的模式,提高了图像检索的性能。

【技术实现步骤摘要】

本专利技术涉及图像识别和检索技术,尤其涉及一种图像语义检索方法。
技术介绍
随着多媒体技术和互联网技术的飞速发展,数字图像成为一种获得广泛利用的媒 体。而近年来数码相机和可拍照移动设备的迅速普及,使得数字图像的获取更加容易,人们 每天所接触到和需要处理的图像数量呈现几何级的增长,且应用范围也大大扩展。面对如 此大规模的图像资源,如何对它们进行有效组织和快速检索,成为一个迫切需要解决的问 题。由于图像不同于文本,文本本身就可以说明所讲的内容,而图像则需要借助人的主观理 解来说明其含义,因此图像的检索比起文本的查询和匹配要困难得多。在上世纪70到80 年代,对图像的检索主要是基于文本的检索方式,与图像相关的文本都是手工标注上去,标 注的工作量大,而且依赖于标注者的个人主观判断。在1992年首次提出了基于内容的图像 检索(Content-Based Image Retrieval, CBIR)技术,基于内容的图像检索(CBIR)技术由 于其具有的丰富内容形式以及广泛的应用前景而得到了大量的研究,在生物医学、数字图 书馆、军事、教育、商业、互联网搜索等多个领域,CBIR技术都有着广泛的潜在应用。在基于 内容的图像检索系统中,图像用其本身的视觉信息(如颜色、纹理和形状等高维特征向量) 进行描述,查询是根据图像之间的视觉相似性度量来实现。检索时,由于用户难以直接输入 目标图像对应的特征向量,因此系统要求用户提供具有代表性的一幅示例图像或者手绘的 草图,然后系统利用该图像的特征向量在图像数据库中查找与其在视觉内容上比较相似的 图像,并按照相似度的大小取前面的多幅图像作为检索结果返回给用户。由于系统自动完 成了图像视觉内容的提取和匹配,因此CBIR技术克服了手工标注的低效性和主观性。 在CBIR的早期阶段,研究工作主要集中于如何选择合适的全局特征(如颜色直 方图、边缘方向直方图)或者特征组合去描述图像内容,然后以及采用适当的相似性度量 进行图像匹配以提高检索精确度。由于全局的图像特征只提供粗粒度的语义描述,未考虑 到图像中前景物体和背景的差异,因而不能反映图像丰富的细节语义信息。该方法一般只 适用于简单的图像或者背景较为单一的图像。早期的CBIR原型系统如QBIC(参见文献1, Flickner M, Sawhney H, et al. Query by image and video content :the QBIC System. IEEE Computer, 1995,28(9) :23-32) 、 Photobook(参见文献2, Pentland A, Picard R W, Sclaoff S. Photobook :toolsfor content—based manipulation of image database. In :Proc.of SPIE, Vol. 2185 (1994) 34-47) 、VisualSEEK(参见文献3, Smith J R, Chang S F. VisualSEEK :a fullyautomated content—based image query system. In :Proc. of Int. Conf. on AC馳ltimedia(ACM Multimedia' 96) Juan_les_Pins, France, Nov. 1996 :87-98) 等均采用基于全局特征表示的检索模式。 由于单纯对整幅图像的颜色及纹理进行特征提取,难以有效地表达图像的本质内 容,在很多情况下距离语义信息差距太大,研究遇到了很大的困难。因此通过图像分割技 术,将图像分割为若干区域后实现基于区域的图像表示是理解图像语义的重要手段。虽然3图像分割一直是计算机视觉领域的经典难题,但现有的一些经典分割算法已经能够在一定 程度上满足图像检索的要求。鉴于此,基于区域特征的图像检索方法成为了实现图像语义 检索的重要途径之一。它能够克服使用基于全局图像特征无法满足用户在对象层完成检索 的需求。相对于全局图像特征,使用基于区域的特征可以对图像进行更进一步的理解和分 析,也更易于获取图像的语义信息。同时,基于区域的图像检索方法更加贴近用户的检索意 图,用户在检索图像时,通常情况下是想查询与待检索图像中包含的对象相似的图像集合。 基于区域的图像检索方法一般采用如下的解决方案利用经典的图像分割技术将图像分为 若干个同质区域,然后对于每一个区域提取低层视觉特征,如颜色、纹理、形状等,并将其组 成特征向量,最后进行基于区域的特征匹配,输出最为相似的图像集合。 最早提出采用分割后的区域进行图像检索思想的是加州大学圣芭芭拉 分校(UCSB)提出的Netra系统(参见文献4, Ma W Y, Manjunath B. Netra :a toolboxfor navigating large image databases. In :Proc.of IEEE Int.Conf. on ImageProcessing(ICIP' 97), Santa Barbara, USA, Oct. 1997 :568-571),系统采用边缘流 (Edgeflow)分割方法对图像进行分割。对于每一个分割区域,使用颜色、纹理和区域之间的 空间位置关系等作为特征来描述,再使用矢量量化技术对每一种特征进行聚类形成视觉辞 典(Visual Codebook)。在线查询过程主要依靠用户在图像分割成的区域中挑选需要查询 的区域,同时用户还可以指明查询使用的特征(形状、颜色、纹理等),然后根据用户提供的 信息在图像库中完成匹配,最后输出相似的结果。Netra系统奠定了基于区域检索方法的基 础,后续的许多工作都是源于该系统的基本框架。但该系统存在明显的缺点,系统需要用户 完成的交互过程过于复杂,因而难以得到推广。 加州大学伯克利分校(Berkeley)推出的Blobworld系统(参见文献5, CarsonC, Belongie S, Greenspan H, Malik J. Blobworld :Image segmentation usingexpectation—maximization and its application to image querying, IEEE Trans. onPattern Analysis and Machine Intelligence, 2002, 24(8) :1026-038)采用了 一种基于期望最大化算法的图像分割算法。该算法采用混合高斯模型来对图像的颜色和纹 理特征的联合分布建立模型,进而将图像分割为多个颜色和纹理均匀的区域。由于该系统 需要用户指定感兴趣区域,因此在相似度的匹配策略上就可以采用简单的"一对一"匹配方 式进行检索。该系统的缺陷也在于需要用户完成的交互操作过多。 之后,Standford大学的研究小组推出了 SIMPLIcity系统(参见文献6, WangJ Z, Li J, Wiederhold G.SIMPLIcity :semantics—sensitive integrated matching forpicture librarie本文档来自技高网...

【技术保护点】
一种基于视觉注意力模型的图像语义检索方法,该方法包括:    步骤1:输入原始图像;    步骤2:生成对应于原始图像的显著图、边缘图、区域分割图;    步骤3:利用所述对应于原始图像的显著图和边缘图,生成显著边缘图;利用所述对应于原始图像的显著图和区域分割图,生成显著区域图;    步骤4:利用所述显著边缘图和显著区域图,生成显著边缘特征和显著区域特征;    步骤5:融合显著边缘特征和显著区域特征,进行图像检索。

【技术特征摘要】

【专利技术属性】
技术研发人员:冯松鹤郎丛妍须德
申请(专利权)人:北京交通大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利