当前位置: 首页 > 专利查询>浙江大学专利>正文

图像搜索引擎中的排名方法技术

技术编号:2844778 阅读:196 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种图像搜索引擎中的排名方法。本发明专利技术的方法包含静态排名和动态排名部分。其中静态排名主要考虑图像所在网页的一些信息,如基于链接分析的网页的重要程度,基于图像点击率及网页所在网站的类型等等信息来确定一张图像的重要程度。动态排名动态计算用户查询与图像的相似度。整合静、动态排名,将图像按相似度由高到低返回给用户。该方法较现有的方法具有更佳的性能和查准率。

【技术实现步骤摘要】

本专利技术涉及一种。
技术介绍
伴随着互联网络的快速发展,它已经成为最大的图像资源库。近年来,搜索引擎因其能够在几乎无限的资源中为广大用户找到所需的信息而越来越受到重视,图像搜索引擎也应运而生。目前已经出现了一批比较知名的图像搜索引擎,如Google,Ask等,凭借其较高的搜索准确率而成为当前搜索引擎的主流。然而,当前搜索引擎仍然存在着查准率太低的问题,搜索结果充斥着太多的无用信息,要想在如此庞大的图像库中找到用户需要的信息仍然充满挑战。大多数的图像搜索引擎从互联网中搜集图像,然后提取图像所在网页的一些文本信息为图像建立索引,更简单的,仅仅提取图像所在网页的标题为图像建立索引。用户向搜索引擎提交查询时,仅仅考虑查询与预提取的信息的相似度并返回结果。目前,传统的文本搜索引擎已经比较成熟。如以Google为代表的第三代搜索引擎采用基于链接分析的技术来评价网页的重要程度,具有较好的效果。而在图像搜索领域,目前的排名方法往往采用较简单的方式,搜索的查准率还不太理想。因此,有必要设计一种图像搜索引擎的排名算法,它既充分借鉴已有的文本搜索引擎较成熟的技术,同时也考虑图像固有的一些特点,使得图像搜索的结果具有较高的查准率,更好地满足用户查询的需求。
技术实现思路
本专利技术的主要目的在于提供一种,根据用户的查询请求,快速准确地定位到用户需要的图像。本专利技术解决其技术问题采用的技术方案如下一种,主要包括以下步骤1)图像搜索引擎根据每张图像所在网页的信息及该图像的特点预先计算好每张图像的重要程度,即静态排名;2)图像搜索引擎根据实时的用户查询请求,计算查询与图像所在网页的相似度,即动态排名;3)整合静、动态排名,将图像按相似度由高到低返回给用户。1.步骤(1)计算静态排名,考虑图像所在网页的重要程度,考虑包括链接分析、网页图像所在网站类型、图像点击率等所有能决定网页的重要程度的信息。2.步骤(2)计算动态排名前,预先从网页中的关键标签及图像的上下文中提取文本,并采用命名实体识别技术和依存句法技术提取网页中能代表图像意义的关键词。3.步骤(2)计算动态排名,计算查询关键词与预取的代表图像意义的关键词的相似度,获得动态排名。4.步骤(3)采用推理网络模型整合静态和动态排名,获得最终的图像排名,将图像按相似度由高到低返回给用户。本专利技术与
技术介绍
相比,具有的有益的效果是该方法包含静态排名和动态排名部分。其中静态排名主要考虑图像所在网页的一些信息,如基于链接分析的网页的重要程度,基于图像点击率及网页所在网站的类型等等信息来确定一张图像的重要程度。动态排名动态计算用户查询与图像的相似度。最后采用推理网络模型有效地整合静、动态排名,将图像按相似度由高到低返回给用户。该方法较现有的方法具有更佳的性能和查准率。首先,该方法较现有方法考虑了更多的因素来确定图像的重要程度,具有更高的查准率。另外,该方法的静态排名部分可以预先计算好,具有更佳的性能。同时,采用推理网络模型,可以有效整合静、动态排名,将满足用户需求的图像返回给用户。附图说明附图为根据本专利技术优选实施例的推理网络模型的示意图。具体实施例方式本专利技术实施的关键有三点静态排名的计算、动态排名的计算和静、动态排名的整合,所述的包括以下步骤(1)图像搜索引擎根据每张图像所在网页的信息及该图像的特点预先计算好每张图像的重要程度,即静态排名;(2)图像搜索引擎根据实时的用户查询请求,计算查询与图像所在网页的相似度,即动态排名;(3)整合静、动态排名,将图像按相似度由高到低返回给用户。在上述步骤(1)计算静态排名部分,考虑图像所在网页的重要程度,优选地,考虑包括链接分析、网页图像所在网站类型、图像点击率等能决定网页的重要程度的信息。采用下面的公式计算静态排名P(Ij)=kpr×PR(dj)+ktype×TYPE(dj)+khit×WH(Ij) (1)其中P(Ij)代表图像Ij的静态排名,PR(dj)表示图像Ij所在网页dj的基于链接分析的重要程度值,TYPE(dj)代表图像Ij所在网站的类型,WH(Ij)代表图像Ij的点击率。kpr、ktype、khit分别代表链接分析、网页图像所在网站类型、图像点击率三项的权重,且kpr+ktype+khit=1(2)目前较成熟的链接分析方法由Google提出的PageRank算法和IBM提出的HITS算法,优选地,可以采用类PageRank算法计算基于链接分析的网页的重要程度PR(dj)。这里考虑网站的类型,将网站的类型分为若干类,对于专业提供的图像的网站认为其提供的图片的质量较高,即获得较高的TYPE(dj)值。图像Ij的点击率WH(Ij)的计算考虑该图像在搜索返回结果中的第几页被点击,因为越在搜索结果的后面的几页被用户点击可能性较低,这类点击将获得较高的排名。另外,考虑到新的图像刚被索引时,没有被用户点击的机会,这类图像将获得一个缺省的WH(Ij)值。在上述步骤(2)计算动态排名前,搜索引擎预先从网页中的关键标签及图像的上下文中提取文本。关键标签包括如超级链接标签A、网页标题标签TITLE、代表图像的IMG标签及其ALT属性、网页的元信息标签META以及网页中图像的上下文的一些文本。获得这些文本后,采用依存句法分析技术提取这些文本的主干部分,获得主干后,再采用命名实体识别技术提取文本中的命名实体,以提高描述图像关键词的准确率。采用推理网络模型来整合静态排名和动态排名,如附图所示为一个推理网络模型。其中最顶层I1,...,Ij...,In代表图像搜索引擎搜集的所有图像,中间层的k1,k2,...,ki,...,kt代表图像搜索引擎包含的所有关键词,q代表用户的查询。采用如下公式获得最终的排名P(q,Ij)=Σ∀KP(q|K)×P(K|Ij)×P(Ij)...(3)]]>其中P(q,Ij)代表查询q和图像Ij的相似度,P(Ij)代表图像Ij的静态排名有公式(1)获得。公式(3)是附图1的展开,P(Ij)是推理网络模型的先验概率,P(K|Ij)表示给定图像Ij出现关键词的条件概率,P(q|K)表示给定关键词出现查询q的条件概率。K是关键词的t维向量,即K=(k1,k2,...,kt),其中k1,k2,...,kt是与关键词k1,k2,...,ki,...,kt对应的随机变量。具体计算时,将公式(3)展开,如下 查询q是t维向量K的一个实例,qi对应t维向量K的第i个随机变量。idfi代表关键词ki的逆文档频率(inverse document frequency)。fi,j代表关键词ki在图像Ij所在网页中提取关键词组中的词频。计算出查询q同图像的相似度后,按照相似度由高到低返回给用户。上述具体实施方式用来解释说明本专利技术,而不是对本专利技术进行限制,在本专利技术的精神和权利要求的保护范围内,对本专利技术作出的任何修改和改变,都落入本专利技术的保护范围。本文档来自技高网
...

【技术保护点】
一种图像搜索引擎中的排名方法,其特征在于:    1)图像搜索引擎根据每张图像所在网页的信息及该图像的特点预先计算好每张图像的重要程度,即静态排名;    2)图像搜索引擎根据实时的用户查询请求,计算查询与图像所在网页的相似度,即动态排名;    3)整合静、动态排名,将图像按相似度由高到低返回给用户。

【技术特征摘要】
1.一种图像搜索引擎中的排名方法,其特征在于1)图像搜索引擎根据每张图像所在网页的信息及该图像的特点预先计算好每张图像的重要程度,即静态排名;2)图像搜索引擎根据实时的用户查询请求,计算查询与图像所在网页的相似度,即动态排名;3)整合静、动态排名,将图像按相似度由高到低返回给用户。2.根据权利要求1所述的一种图像搜索引擎中的排名方法,其特征在于步骤(1)计算静态排名,考虑图像所在网页的重要程度,考虑包括链接分析、网页图像所在网站类型、图像点击率能决定网页的重要程度的信息。3.根据权利要求1所述的一...

【专利技术属性】
技术研发人员:卜佳俊陈纯刘康苗陈伟周纯张利军
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1