一种用于根据链接和页面布局分析来确定页面图像相关度的方法和系统。链接分析系统通过首先识别网页内的块,然后分析块对网页、网页对块、以及图像对块的重要性,来确定图像之间的相关度。根据该分析,链接分析系统确定每幅图像与其它各幅图像的相关度。链接分析系统也可以使用图像的相关度产生图像的排列。链接分析系统也可以根据图像的相关度产生图像的矢量表示,并将群集算法应用于矢量表示以识别相关图像群。
【技术实现步骤摘要】
所描述的技术总体上涉及分析网页,具体的说,涉及网页图像的相关度。
技术介绍
诸如Google和Overture的许多搜索引擎服务提供搜索经由因特网可访问的信息。这些搜索引擎服务允许用户搜索用户可能感兴趣的显示页面,例如网页。在用户提交包括搜索项的搜索请求之后,搜索引擎服务识别可能与那些搜索项相关的网页。为了快速识别相关网页,搜索引擎服务会保持关键字到网页的映射。通过“爬行和索引”该网络(即,万维网)可以产生该映射,以识别每个网页的关键字。为了爬行网络,搜索引擎服务会使用根网页列表以识别可通过那些根网页访问的所有网页。可以使用各种已知的信息检索技术识别所有特定网页的关键字,诸如识别标题字、网页元数据中提供的字、高亮的字、等等。然后,搜索引擎服务根据每个匹配的紧密度,网页的普及性(例如,Google的页面排列)等排列搜索结果的网页。搜索引擎服务也会产生相关分数以表明网页信息与搜索请求的相关程度。然后,搜索引擎服务以基于其排列的顺序向用户显示指向那些网页的链接。虽然许多网页是面向图像的,因为它们会包含许多图像,但是常规搜索引擎服务一般只根据网页的文本内容搜索。然而,已进行许多尝试以支持基于图像的网页搜索。例如,正浏览网页的用户可能希望识别包含与该网页上图像相关图像的其它网页。基于图像的搜索技术一般是基于内容或基于链接的,并另外使用围绕文本以帮助分析图像。基于内容的技术使用低层视觉信息以便图像索引。因为基于内容的搜索技术是非常昂贵的,所以它们不适用于网络上的图像搜索。基于链接的搜索技术一般假设在相同网页的图像可能是相关的,并且在网页上的、由相同网页彼此链接的图像是相关的。不幸的是,这些假设在许多情况下是不正确的,主要因为单个网页会包含涉及许多不同主题的内容。例如,新闻网站的网页会包含涉及国际政治事件的内容以及涉及国家体育事件的内容。在这种情况下,涉及国家体育事件的体育团体的图片不可能与由涉及国际政治事件的内容链接的网页相关。因此,我们希望有一种不象常规的基于内容的搜索技术那样昂贵的基于图像的搜索技术,不同于常规的基于链接的搜索技术,它能解释在单个网页上出现的不同主题。概述提供一种系统,用于根据链接和网页布局分析确定页面图像的相关度。链接分析系统通过首先识别页面内的块,并然后分析块对页面、页面对块、和图像对块的重要性,来确定图像之间的相关度。根据该分析,链接分析系统确定每幅图像与所有其他图像的相关程度。因为一幅图像与另一幅图像的相关度是基于块级重要性,而不是页面级重要性,块是比页面更小的单元,该相关度是比常规基于链接的搜索技术更正确的相关度表示。附图的简要说明附附图说明图1是表示网页的样本集合中块、图像、和链接的框图。附图2是表示在一个实施例中,链接分析系统的组件的框图。附图3是表示在一个实施例中,产生图像对图像矩阵组件的处理流程图。附图4是表示在一个实施例中,产生块对页面矩阵组件的处理流程图。附图5是表示在一个实施例中,产生页面对块的矩阵组件的处理流程图。附图6是表示在一个实施例中,产生块对图像的矩阵组件的处理流程图。详细描述提供一种用于根据链接和页面布局分析确定网页图像的相关度的系统和方法。在一个实施例中,链接分析系统通过首先识别网页内的块,并然后分析块对网页、网页到块、和图像对块的重要性来确定图像之间的相关度。根据该分析,链接分析系统确定每幅图像对其他每幅图像的相关程度。网页的块表示看起来涉及相似主题的网页区域。例如,涉及国际政治事件的新闻文章会表示一个块,以及涉及国家体育事件的新闻文章会表示另一个块。块对页面的重要性会表明用户在浏览网页时注意该块的概率。页面对块的重要性会表明用户从块选择指向该页面的链接的概率。图像对块的重要性会表明用户在浏览块时注意该图像的概率。在计算这些成对的页面和块以及成对的图像和块的重要性的数字指标之后,链接分析系统通过结合计算的块对页面的重要性、计算的页面对块的重要性、以及计算的图像对块的重要性来产生每幅图像与每幅其他图像的相关度的指标。因为一幅图像与另一幅图像的相关度是基于块级别的重要性而不是页面级别的重要性,因而该相关度是比常规的基于链接的搜索引擎更准确的相关度表示。链接分析系统也会使用图像的相关度以产生图像的排列。排列可以是基于开始浏览任意图像的用户在图像之间任意次地转变之后将转变到另一幅图像的概率。链接分析系统也会根据图像的相关度产生图像的矢量表示,并将群群集算法应用于矢量表示以识别相关图像群。附图1表示在网页的样本集合中块、图像和链接的框图。该网页集合包括网页1-4。网页中的块用矩形表示,块内的图像用圆表示,以及块内的链接用从块指向链接到的网页的箭头来表示。网页1包含块1,块1包含图像1和2以及链接1和2。网页2包含块2和块3,块2包含图像3和链接3,块3包含图像4和链接4。网页3包含块4和块5,块4包含图像5以及链接5和6,块5包含图像6和链接7。网页4包含块5,块5包含图像7、8、9和10以及链接8。因为链接分析系统是基于块上的而不是整个网页的图像相关度,因而一幅图像到其他图像的相关度有可能是基于更准确的图像主题的表示。例如,网页2包含块2和块3,它们会分别指向不同的主题,诸如国际政治事件和国内体育事件。链接分析系统可以识别到,由于包括图像4的块3具有到网页4的链接4,因而图像4与网页4的图像比起网页3的图像联系更为紧密。例如,网页4比网页3更有可能是涉及体育的,因为块3包含到网页4的链接,而不是到网页3的。同样,图像4比对网页3的图像5和6更有可能涉及图像7、8、9和10。不是基于块级别的分析的技术会识别图像4是同等地涉及网页3和网页4的,因为这些技术并不区分网页2上的块3和块2。在一个实施例中,链接分析系统为每个块和页面的结合计算页面对块的重要性,作为选择该块链接的用户将选择到该页面链接的概率。如果块没有到页面的链接,那么概率为0。如果块有到页面的链接,那么链接分析系统会假设用户以相等的概率选择该块的每一个链接。块到页面的概率矩阵由以下公式定义 其中Zij表示选择块i链接的用户将选择到页面j的链接的概率,si是块i内的链接数。附图1的网页的块到页面矩阵Z如表1所示。表1的行表示块,以及列表示页面。在该示例中,选择块4链接的用户将选择到网页2的链接的概率为.5。表1 在一个实施例中,链接分析系统为每个页面和块的结合计算块对页面的重要性,作为该块成为页面中最重要块的概率。没有包含在页面中的块成为该页面中最重要块的概率为0。链接分析系统会假设包含在页面上的每个块成为最重要的块是具有同等概率的。由以下公式定义页面到块概率矩阵 其中,Xij表示块j是页面i最重要块的概率,以及si是页面i上的块数。在一个实施例中,链接分析系统根据块的位置、大小、字体、颜色和其他物理属性计算块是页面中最重要块的概率。例如,位于页面中间的大块会比位于页面左下角的小块更重要。于2004年4月29日申请的美国专利申请号为_____,名为“Method and System for Calculating Importace of Block Within aDisplay Page”描述了用于计算块的重要性和块的相干相关程度的技术,在这里并入其本文档来自技高网...
【技术保护点】
一种用于在计算机系统中确定页面的块内图像之间相关度的方法,该方法包括: 计算块对页面的重要性指标; 计算页面对块的重要性指标; 计算图像对块的重要性指标;以及 通过结合块对页面的重要性指标、页面对块的重要性指标,以及图像对块的重要性指标,来计算一幅图像对另一幅图像的图像对图像的相关度指标。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:蔡登,文继荣,马维英,X何,
申请(专利权)人:微软公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。