一种视觉显著性与短语相结合的图像检索方法技术

技术编号:10115657 阅读:239 留言:0更新日期:2014-06-04 20:02
本发明专利技术涉及一种视觉显著性与短语相结合的图像检索方法,包括:输入一幅查询图像;计算查询图像的显著图;提取查询图像的显著性区域;提取查询图像显著性区域的视觉词,构造视觉短语;获得每幅图像的图像描述子;计算查询图像与图库中每幅图像的图像相似度,根据相似度值对图库中的所有图像进行排序,并按要求返回相关图像作为查询结果。本发明专利技术在经典的“词袋”模型基础上通过引入视觉显著性对图像区域进行约束,降低了图像表达的噪声,使图像在计算机中的表达更符合人类对图像语义的理解,使本发明专利技术具有良好的检索效果。本发明专利技术通过视觉词间的区域约束来构造视觉短语,与其它构造视觉短语方法相比,具有较快的速度。

【技术实现步骤摘要】
一种视觉显著性与短语相结合的图像检索方法
本专利技术属于图像处理领域,涉及图像检索中的图像表示与匹配方法,具体涉及一种视觉显著性与短语相结合的图像检索方法。
技术介绍
随着计算机、网络以及多媒体技术的迅速发展和应用,数字图像的数量正以惊人的速度增长,如何快速高效地从海量数字图像集合中找到人们需要的图像成为一个亟待解决的问题。为此,图像检索技术应运而生并取得了很大的发展,从最早基于图像人工标注的检索,发展到现在基于图像内容的检索,图像检索的精度和效率也都有显著提高,但仍无法满足人们的需求。其问题的关键在于目前还没有一种方法能够使计算机完全像人一样的理解图像语义。如果能够进一步挖掘图像的真实含义,并在计算机中准确表达,势必会提升图像检索的效果。在有关图像检索的文献中,目前普遍使用“词袋”模型进行检索,该模型的核心思想是通过对图像局部特征的提取与描述来描述整幅图像。主要分为五步:第一,检测图像的特征点,或者图像的角点,通常统称为兴趣点;第二,描述兴趣点,通常是用一个向量来描述一个点,这个向量称为该点的描述子;第三,对所有训练样本图像的兴趣点描述子进行聚类,得到包含若干词的词典;第四,把查询图像的所有兴趣点描述子向词典进行映射,得到图像描述子;第五,把查询图库中的每幅图像的所有兴趣点描述子向词典进行映射,得到图像描述子,并与查询图像的描述子进行匹配,获得检索结果。该模型用于图像检索可以取得良好的效果,但在表示图像时只是对映射得到的视觉词进行了统计,缺乏视觉词间的空间关系。另一方面,在基于“词袋”模型的图像检索中,人们是对整幅图像提取视觉词,这样容易引入许多噪声。例如,在一些图像中,图像背景并不是人们真正关注的区域,不能表达图像所包含的语义,提取图像背景区域的视觉词来表示图像,不仅会增加冗余信息,也会使图像的表达效果受到影响。
技术实现思路
针对现有图像检索技术中存在的图像语义表达不够准确的问题,本专利技术提出一种视觉显著性与短语相结合的图像检索方法。该方法通过引入视觉显著性对图像区域进行约束,并在显著性区域内构建视觉短语进行检索。此处的“短语”是相对于“词袋”模型中视觉词而言,是由视觉词以某种规则组合而成,通过构造视觉短语增强了视觉词间的空间关系。一种视觉显著性与短语相结合的图像检索方法,其特征在于包括以下步骤:步骤1,输入一幅查询图像。步骤2,计算查询图像的显著图。步骤3,利用视点转移模型在步骤2所得到的显著图上模拟人类观察该图像时的视点变化,定义视点周围的区域为显著性区域。步骤4,在步骤3所得到的显著性区域内提取视觉单词,根据视觉单词间的共生关系构造视觉短语,统计整个查询图像中每个视觉短语出现的次数,并将查询图像以视觉短语直方图的形式表示。步骤5,对查询图库中的所有图像进行步骤2~4的操作,将查询图库中的每幅图像表示为视觉短语直方图的形式。步骤6,对查询图像和查询图库中的每幅图像进行相似性度量计算,根据查询图库中每幅图像与查询图像的相似性得分返回检索结果。本专利技术的方法具有以下优点:1.本专利技术在经典的“词袋”模型基础上通过引入视觉显著性对图像区域进行约束,降低了图像表达的噪声,使图像在计算机中的表达更符合人类对图像语义的理解,使本专利技术具有良好的检索效果。2.本专利技术仅通过视觉词间的区域约束来构造视觉短语,与其它构造视觉短语方法相比,本专利技术具有较快的速度。附图说明图1是本专利技术所涉及方法全过程的流程图。图2是生成图像描述子的流程图。具体实施方式下面结合具体实施方式对本专利技术做进一步的说明。本专利技术所述方法的流程图如图1所示,包括以下步骤:步骤1,输入一幅宽为W、高为H的查询图像I。步骤2,计算该查询图像的显著图。步骤2.1,将图像I均匀切分成L个不重叠的图像块pi,i=1,2,...,L,使切分后每行包含N个图像块,每列包含J个图像块,每个图像块是一个方块,将每个图像块pi向量化为列向量fi,并对所有向量通过主成分分析进行降维,降维后等到一个d×L的矩阵U,其第i列对应图像块pi降维后的向量。矩阵U构成为:U=[X1X2…Xd]T(1)步骤2.2,计算每个图像块pi的视觉显著性程度。视觉显著性程度为:Mi=maxj{ωij},j=1,2,...,L(3)D=max{W,H}(4)其中,表示图像块pi和pj之间的不相似度,ωij表示图像块pi和pj之间的距离,umn表示矩阵U第m行第n列的元素,(xpi,ypi)、(xpj,ypj)分别代表图块pi和pj在原图像I上的中心点坐标。步骤2.3,把所有图像块的视觉显著性程度取值按照原图像I上各图像块之间的位置关系组织成二维形式,构成显著图SalMap,具体取值为:SalMap(i,j)=Sal(i-1)·N+ji=1,..,J,j=1,...,N(7)步骤2.4,根据人眼中央偏置原则,对步骤2.3中得到的显著图施加中央偏置,并通过二维高斯平滑算子进行平滑得到最终的结果图,公式如下:SalMap'(i,j)=SalMap(i,j)×AttWeiMap(i,j)(8)其中,i=1,..,J,j=1,...,N,AttWeiMap为人眼平均关注程度权值图,该图与显著图SalMap的大小一致,DistMap为距离图,max{DistMap}、min{DistMap}分别表示距离图上的最大值和最小值。步骤3,提取查询图像I的显著性区域。使用视点转移模型在步骤2所得到的查询图像I的显著图上进行视点转移,并定义视点周围的圆形区域为显著性区域。假设取每幅图像的前k个视点,每个显著性区域用半径为R的圆表示。这样就得到了k个查询图像的显著性区域。步骤4,提取查询图像I显著性区域的视觉词,构造视觉短语,生成图像I的图像描述子。步骤4.1,构造词典。利用SIFT算法从查询图库中不同类别的图像中提取SIFT特征点,将所有特征点向量集合到一块,利用K-Means聚类算法合并相似的SIFT特征点,构造一个包含若干个词汇的词典,假设字典的大小为m。步骤4.2,提取图像I显著性区域的视觉词,统计显著性区域内视觉词的个数。统计显著性区域内视觉词的个数,第k个显著性区域regionk内第j个单词的个数为步骤4.3,构造视觉短语。在同一个显著性区域出现的两个不同的视觉词和且j≠j',则和构成视觉短语步骤4.4,统计视觉短语频率。首先,分别统计每个显著性区域内短语出现的次数取两个共生视觉词的最小词频作为由这两个词构成的短语的出现次数显著性区域regionk内的所有短语出现的次数可用矩阵P(k)表示:将前k个区域的矩阵P(k)进行叠加,得到图像I的所有短语出现的次数矩阵PH:其中,步骤4.5,用视觉短语表示图像。根据步骤4.4中统计的显著性区域视觉短语出现的次数,将查询图像I表示为矩阵PH(I)。矩阵PH(I)是关于主对角线对称的,其上三角矩阵涵盖了矩阵的所有信息,将PH(I)的上三角部分按行或按列拼接成向量得到图像I的描述子V(I)。步骤5,对查询图库中的每幅图像进行步骤4.2~4.5的操作,获得每幅图像的图像描述子V(Ii)。生成图像描述子的流程图如图2所示。步骤6,计算查询图像与图库中每幅图像的图像相似度,根据相似度值对图库中的所有图像进行排序,并按要求返回相关图像作为查询结果。采用余弦相似度计算两幅图像的相本文档来自技高网
...
一种视觉显著性与短语相结合的图像检索方法

【技术保护点】
一种视觉显著性与短语相结合的图像检索方法,其特征在于,引入视觉显著性对图像区域进行约束,并在显著性区域内构建视觉短语进行检索;所述方法包括以下步骤:步骤1,输入一幅宽为W、高为H的查询图像I;步骤2,计算查询图像I的显著图;步骤2.1,将图像I均匀切分成L个不重叠的图像块pi,i=1,2,...,L,使切分后每行包含N个图像块,每列包含J个图像块,每个图像块是一个方块,将每个图像块pi向量化为列向量fi,并对所有向量通过主成分分析进行降维,降维后等到一个d×L的矩阵U,其第i列对应图像块pi降维后的向量;矩阵U构成为:U=[X1 X2 … Xd]T步骤2.2,计算每个图像块pi的视觉显著性程度;视觉显著性程度为:Mi=maxj{ωij},j=1,2,...,LD=max{W,H}ωij=(xpi-xpj)2+(ypi-ypj)2]]>其中,表示图像块pi和pj之间的不相似度,ωij表示图像块pi和pj之间的距离,umn表示矩阵U第m行第n列的元素,(xpi,ypi)、(xpj,ypj)分别代表图块pi和pj在原图像I上的中心点坐标;步骤2.3,把所有图像块的视觉显著性程度取值按照原图像I上各图像块之间的位置关系组织成二维形式,构成显著图SalMap,具体取值为:SalMap(i,j)=Sal(i‑1)·N+ji=1,..,J,j=1,...,N步骤2.4,根据人眼中央偏置原则,对步骤2.3中得到的显著图施加中央偏置,并通过二维高斯平滑算子进行平滑得到最终的结果图,公式如下:SalMap'(i,j)=SalMap(i,j)×AttWeiMap(i,j)AttWeiMap(i,j)=1-DistMap(i,j)-min{DistMap}max{DisMap}-min{DistMap}]]>DistMap(i,j)=(i-(J+1)/2)2+(j-(N+1)/2)2]]>其中,i=1,..,J,j=1,...,N,AttWeiMap为人眼平均关注程度权值图,该图与显著图SalMap的大小一致,DistMap为距离图,max{DistMap}、min{DistMap}分别表示距离图上的最大值和最小值;步骤3,提取查询图像I的显著性区域;使用视点转移模型在步骤2所得到的查询图像I的显著图上进行视点转移,并定义视点周围的圆形区域为显著性区域;假设取每幅图像的前k个视点,每个显著性区域用半径为R的圆表示;这样就得到了k个查询图像的显著性区域;步骤4,提取查询图像I显著性区域的视觉词,构造视觉短语,生成图像I的图像描述子;步骤5,对查询图库中的每幅图像进行所述步骤4的操作,获得每幅图像的图像描述子V(Ii);步骤6,计算查询图像与图库中每幅图像的图像相似度,根据相似度值对图库中的所有图像进行排序,并按要求返回相关图像作为查询结果;采用余弦相似度计算两幅图像的相似度,公式为:cos<V(Ii),V(Ii)>=V(Ii)·V(Ii′)||V(Ii)||·||V(Ii′)||.]]>...

【技术特征摘要】
1.一种视觉显著性与短语相结合的图像检索方法,其特征在于,引入视觉显著性对图像区域进行约束,并在显著性区域内构建视觉短语进行检索;所述方法包括以下步骤:步骤1,输入一幅宽为W、高为H的查询图像I;步骤2,计算查询图像I的显著图;步骤2.1,将图像I均匀切分成L个不重叠的图像块pi,i=1,2,...,L,使切分后每行包含N个图像块,每列包含J个图像块,每个图像块是一个方块,将每个图像块pi向量化为列向量fi,并对所有向量通过主成分分析进行降维,降维后得到一个d×L的矩阵U,其第i列对应图像块pi降维后的向量;矩阵U构成为:U=[X1X2…Xd]T步骤2.2,计算每个图像块pi的视觉显著性程度;视觉显著性程度为:Mi=maxj{ωij},j=1,2,...,LD=max{W,H}其中,表示图像块pi和pj之间的不相似度,ωij表示图像块pi和pj之间的距离,umn表示矩阵U第m行第n列的元素,(xpi,ypi)、(xpj,ypj)分别代表图块pi和pj在原图像I上的中心点坐标;步骤2.3,把所有图像块的视觉显著性程度取值按照原图像I上各图像块之间的位置关系组织成二维形式,构成显著图SalMap,具体取值为:SalMap(i,j)=Sal(i-1)·N+j,i=1,..,J,j=1,...,N步骤2.4,根据人眼中央偏置原则,对步骤2.3中得到的显著图施加中央偏置,并通过二维高斯平滑算子进行平滑得到最终的结果图,公式如下:SalMap'(i,j)=SalMap(i,j)×AttWeiMap(i,j)其中,i=1,..,J,j=1,...,N,AttWeiMap为人眼平均关注程度权值图,该图与显著图SalMap的大小一致,DistMap为距离图,max{DistMap}、min{DistMap}分别表示距离图上的最大值和最小值;步骤3,提取查询图像I的显著性区域;使用视点转移模型在步骤2所得到的查...

【专利技术属性】
技术研发人员:段立娟赵则明马伟张璇苗军乔元华
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1