基于层次聚类的图像检索方法技术

技术编号:4349634 阅读:241 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于层次聚类的图像检索方法,通过对关键字进行语义解析和对图像进行视觉聚类,在传统的图像搜索引擎的基础上提出了基于层次聚类网络图像检索的系统框架,主要包括:(1)从语义层面上对图像的检索结果进行聚类;(2)从视觉特征层面上对图像检索结果进行聚类;(3)提供便捷、高效的层次聚类导航显示。与传统图像搜索引擎不同的是,本发明专利技术将聚类思想融入到图像检索中来。对关键字进行语义解析,形成不同的主题;同时对图像从视觉特征上加以分析,将相近的图像聚在一个类中,最后通过简洁清晰的界面分门别类地将检索结果显示给用户,从而帮助用户快速、有效地从主题混叠的检索结果中找到自己所需要的目标图像。

【技术实现步骤摘要】

本专利技术属于图像处理
,涉及一种。
技术介绍
随着互联网应用的普及和数字媒体技术的发展,图像作为信息传递的最重要载 体,已经深入到人们日常生活的方方面面。每天都会有数以GB甚至TB的图像涌入互联网, 如何对这些图像进行有效的组织和管理,让用户快速、准确的找到所需要的信息成为目前 亟需解决的一大难题。 传统的图像搜索引擎如Google、 Yahoo等,大都依据网络图像的相关文本信息与 查询关键词的相关程度,经过排序,将检索结果呈现给用户。然而,由于关键字的多义性, 检索结果中通常包含多个主题并且他们交互混叠在一起。如图1为关键字即ple在 Google图像搜索引擎中的前16个结果,与即ple相关的词有即ple computer、即ple fruit、即plelogo、即ple iPod、即ple phone等等。从这些主题混合的结果列表中 找到自己需要的内容,将是一项费时费力的工作。
技术实现思路
本专利技术要解决的问题是找到一种能自动对检索结果进行主题归类的方法,让用 户方便找到自己需要的信息,为此,本专利技术的目的是提供一种基于层次聚类的图像检索方 法。为达成所述目的,本专利技术提供的,包括步骤如下 步骤1 :用关键字文本搜索,对得到的与关键字相关的文档进行分析,提取与关键字相关的短语,对这些短语从语义层面上聚类,获得语义的聚类; 步骤2 :对图像检索结果从视觉特征层面上聚类,获得图像内容的聚类; 步骤3 :在搜索引擎检索结果显示界面的基础上,添加一个层次聚类导航栏,用于便捷高效的层次聚类导航显示。 本专利技术的实施例,从所述语义层面上聚类提取图像检索结果的相关短语特征,对 于任何一个给定的关键字,先通过文本搜索引擎得到与关键字相关的文档;然后从这些文 档中提取与关键字相关的短语,同时记录下文档中短语出现的频率、包含短语的文档比率、 短语的长度信息;最后使用回归学习模型综合这些信息,转换为对这些短语相关性的评分, 这样,前n个短语是要找的与关键字最相关的相关性短语。 本专利技术的实施例,从所述语义层面上聚类提取短语之间的相似性程度,使用基于 k-line的方法进行聚类,对短语之间的相似性程度NGD(x, y)用如下公式来衡量 NGD(x, y) = (max {logf (x) , logf (y)}-logf (x, y)) 〃logN_min {logf (x), logf函 其中f(x)和f(y)分别表示单独用短语x或者y在Google搜索引擎中检索返回 的结果页数,f (x,y)表示将短语x和y —起放到Google搜索引擎中检索返回的结果页数,3两个短语越相似联合出现的概率越大,相似性程度NGD(x,y)越小,这样再使用基于K-line 的方法聚类就能把相关性很大的短语聚集到一组中来,形成一个主题,就能够按照主题的 重要性分类显示给用户,让用户方便找到自己需要的信息。 本专利技术的实施例,从所述视觉特征层面上的聚类是在语义聚类的基础上进行,首 先检索得到与每个短语相关的图像,然后提取他们的视觉特征,并计算得到各图像之间的 相关性,最后利用这些信息进行图像内容的聚类。 本专利技术的实施例,所述高效的层次聚类导航显示,在传统搜索引擎检索结果显示 界面的基础上,添加一个层次聚类导航栏,这个导航栏将与关键字相关的图像检索结果按 照主题的重要性、按照视觉层面上的相关性,分门别类的显示给用户。这样的外观结构让用 户很容易就聚焦到自己感兴趣的主题和自己需要的视觉效果上,帮助用户快速、高效地从 主题混叠的检索结果中找到自己所需要的目标图像。 本专利技术的有益效果本专利技术与传统图像搜索引擎不同,是将聚类思想融入到图像 检索中来。对关键字进行语义解析,形成不同的主题;同时对图像从视觉特征上加以分析, 将相近的图像聚在一个类中,最后通过简洁清晰的界面分门别类地将检索结果显示给用 户,从而帮助用户快速、有效地从主题混叠的检索结果中找到自己所需要的目标图像。附图说明 图1现有技术关键字即ple在谷歌Google图像搜索引擎中的前16个结果; 图2为本专利技术整体构架流程图; 图3为本专利技术提取关键字的相关短语的流程图; 图4系统用户交互界面; 图5 macbook pro的视觉聚类显示; 图6本专利技术与微软IGroup系统和谷歌系统Google对比效果; 图7用户检索信息需要付出的努力比较; 图8检索效果对比具体实施例方式下面结合附图详细说明本专利技术技术方案中所涉及的各个细节问题。应指出的是,所描述的实施例仅旨在便于对本专利技术的理解,而对其不起任何限定作用。 本专利技术从语义上解析关键字、从视觉特征上分析检索结果,提出了一种层次聚类的架构,自动对检索结果进行聚类,并依主题返回给用户,让用户方便快捷的找到自己需要的信息。如图2示出用本专利技术方法实现的系统(简称本系统)整体构架流程图包括的三个部分(l)从语义层次上对图像的检索结果聚类;(2)视觉特征层次上对图像检索结果聚类;(3)用户便捷高效的层次聚类导航交互显示。本系统全部工作都在一台计算机上开发完成,系统采用JAVA语言实现了网络爬虫爬取网络图像来构建数据库、实现了倒排机制建立索引、实现了图像特征的提取、实现了语义层次上的聚类以及视觉特征层次上的聚类,采用JSP和HTML语言构建网页用于用户交互输入以及最后的结果显示。 语义层次上聚类包含三个步骤 第一,从语义层次上解析关键字,抽取与关键字相关的短语。请参阅图3为本专利技术提取关键字的相关短语的流程图,对于任何一个给定的关键字,先通过目前比较成熟的文 本搜索引擎如谷歌Google、雅虎Yahoo、百度Baidu等得到相关的文档;然后从这些文档中 提取与关键字相关的短语,同时记录下文档中短语出现的频率、包含短语的文档比率、短语 的长度等等信息;最后使用回归学习模型综合这些信息,转换为对这些短语相关性的评分。 这样得到的前n个短语就是我们要找的与关键字最相关的短语。 第二,语义层面上聚类的另一个特征则在于得到相关短语后,使用基于k-line的 方法对这些短语进行聚类,这里每一类就代表一个主题。基于K-line的语义聚类过程如 下 1. 计算相似度矩阵A = e邓(-NGD(x, y)2/2 S 2) 其中52= [mean(NGD(x, y))]2/22. 计算拉普拉斯矩阵L = S—1/2AS—1/2 其中Sii =E jAij ;当i ^ j时Su = 03. 计算前K个特征向量nv..mk4. 将所有的点根据他们与特征向量的距离划分到k个 类中来5. 对于任何一类j ,创建矩阵Mj = [yi] i e pj,用MjMjT的 最大特征值对应的特征向量来更新mj其中Pj表示第j类的所有点6. 重复4,5步直到mj不再变化 其中,NGD(Normalized Google Distance)是用来衡量一对短语x和y之间的相关性,短语之间的相似性程度用NGD(x, y)公式来衡量「, ,.mas0o容:x),lo容R;y)〗——〗ogf(x,y)MGO(x,y = i ;t' , n& 、、 'c/..、,' 7. log N —— !丽《iogf(x),logt(y)} N表示Google搜索引擎总文档的数目,f (本文档来自技高网...

【技术保护点】
一种基于层次聚类的图像搜索方法,其特征在于,包括步骤如下:步骤1:用关键字文本搜索,对得到的与关键字相关的文档进行分析,提取与关键字相关的短语,对这些短语从语义层面上聚类,获得语义的聚类;步骤2:对图像检索结果从视觉特征层面上聚类,获得图像内容的聚类;步骤3:在搜索引擎检索结果显示界面的基础上,添加一个层次聚类导航栏,用于便捷高效的层次聚类导航显示。

【技术特征摘要】
一种基于层次聚类的图像搜索方法,其特征在于,包括步骤如下步骤1用关键字文本搜索,对得到的与关键字相关的文档进行分析,提取与关键字相关的短语,对这些短语从语义层面上聚类,获得语义的聚类;步骤2对图像检索结果从视觉特征层面上聚类,获得图像内容的聚类;步骤3在搜索引擎检索结果显示界面的基础上,添加一个层次聚类导航栏,用于便捷高效的层次聚类导航显示。2. 根据权利要求1所述的图像搜索方法,其特征在于,从所述语义层面上聚类提取图 像检索结果的相关短语特征,对于任何一个给定的关键字,先通过文本搜索引擎得到与关 键字相关的文档;然后从这些文档中提取与关键字相关的短语,同时记录下文档中短语出 现的频率、包含短语的文档比率、短语的长度信息;最后使用回归学习模型综合这些信息, 转换为对这些短语相关性的评分,这样,前n个短语是要找的与关键字最相关的相关性短 语。3. 根据权利要求1所述的图像搜索方法,其特征在于,从所述语义层面上聚类提取短 语之间的相似性程度,使用基于k-line的方法进行聚类,对短语之间的相似性程度NGD(x, y)用如下公式来衡量<formula>formula see original document page 2</fo...

【专利技术属性】
技术研发人员:卢汉清桂创华刘静
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1