当前位置: 首页 > 专利查询>南京大学专利>正文

Web搜索中的图像摘录反馈方法技术

技术编号:2920250 阅读:229 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种适用于Web搜索中的图像摘录反馈方法,包括以下步骤:(1)网页处理装置接受用户提交的由关键词组成的查询,使用基于关键词的Web搜索方法对Web进行搜索;(2)基于图像摘录进行反馈的方法精化用户查询;(3)最终返回用户满意的搜索结果。本发明专利技术所提供的方法同时使用网页中的文字信息和网页中大量存在的图像信息,通过有效地获取用户的信息需求极大地辅助提高Web搜索的性能。

【技术实现步骤摘要】

本专利技术涉及网页处理装置,特别涉及一种应用于Web搜索的图像摘录反馈方法。
技术介绍
随着多媒体技术和互联网络的迅速发展,Web逐渐成为人们最重要和快捷的信息来源以及最常用的信息交互平台。由于Web本身的信息量巨大并且内容复杂,用户从互联网上寻找信息非常困难,因此,设计有效的Web搜索技术成为一项重要的工作。在Web搜索过程中,在搜索引擎将搜索结果反馈给用户后,用户如果对搜索结果不满意,通常就会根据搜索结果提供反馈,例如指明哪些结果是与搜索目标相关的,搜索引擎利用这些反馈信息再进行进一步搜索,以产生更好的搜索结果。目前的Web搜索中的用户反馈技术只使用了网页中的文字信息,而没有利用网页中大量存在的图像信息。
技术实现思路
1、专利技术目的本专利技术的主要目的是针对目前Web搜索中的用户反馈技术没有很好地利用网页中的图像内容这一问题,提供一种同时利用文字信息与图像信息的用户反馈方法,通过有效地获取用户的信息需求辅助提高Web搜索的性能。2、技术方案为实现本专利技术所述目的,本专利技术所述的一种适用于,包括以下步骤(1)网页处理装置接受用户提交的由关键词组成的查询,使用基于关键词的Web搜索方法对Web进行搜索;(2)基于图像摘录进行反馈的方法精化用户查询;(3)最终返回用户满意的搜索结果。其中基于图像摘录进行反馈的方法精化用户查询包括以下步骤(11)获取用户的查询关键词;(12)利用基于关键词的Web搜索方法获取相关的网页;(13)从搜索到的相关网页中生成网页的文字摘要和图像摘录,并将这些信息提交给用户,供用户了解搜索结果;(14)用户对搜索到的网页进行判断,如果网页满足用户的需求,则转至(16),整个过程结束;否则,转至(15);(15)获取用户的反馈信息,生成新的查询关键词,转至(12);(16)结束。3、有益效果本专利技术所提供的方法同时使用网页中的文字信息和网页中大量存在的图像信息,通过有效地获取用户的信息需求极大地辅助提高Web搜索的性能。下面将结合附图对最佳实施例进行详细说明。四附图说明图1是网页处理装置工作流程图。图2是本专利技术方法的流程图。图3是获取文字摘要和图像摘录的流程图。图4是获取第一类图像摘录的流程图。图5是获取第二类图像摘录的流程图。图6是获取用户反馈信息生成新的查询关键词的流程图。图7是用户选择进行第一类反馈的流程图。图8是用户选择进行第二类反馈的流程图。五具体实施例方式如图1所示,网页处理装置接受用户提交的由关键词组成的查询,使用经典的基于关键词的Web搜索技术对Web进行搜索。使用图2中描述的基于图像摘录进行反馈的技术精化用户查询,最终返回用户满意的搜索结果。本专利技术的技术如图2所示。步骤10是初始动作。步骤11获取用户的查询关键词。步骤12利用经典的基于关键词的Web搜索技术获取相关的网页。步骤13从搜索到的相关网页中生成网页的文字摘要和图像摘录,并将这些信息提交给用户,供用户了解搜索结果。文字摘要是指将网页中的文本内容进行浓缩后所得到的能够在一定程度上反映网页内容的文字,经典的Web搜索技术就是利用文字摘要来向用户反馈搜索结果。图像摘录是本专利所提出的技术,具体是指从网页中获取的与用户查询最相关的图像,将这些图像反馈给用户将有助于用户更快更准地了解搜索结果。步骤14用户对搜索到的网页进行判断,如果网页满足用户的需求,则转至步骤16,整个过程结束;否则,转至步骤15,获取用户的反馈信息,利用这些信息生成新的查询关键词,并将新的查询关键词提交给系统,转至步骤12,重复以上过程。图3详细描述了步骤13,即获取网页的文本摘要和图像摘录。步骤130是起始步骤。步骤131使用经典的生成文字摘要的方法生成网页的文字摘要。步骤132生成第一类的图像摘录,这一类的图像摘录与网页一一对应,用于辅助文字摘要展示网页内容并用于之后的用户反馈。步骤133生成第二类的图像摘录,该类的图像摘录用于之后的用户的反馈。在Web搜索界面中,第一类图像摘录应该与对应网页的文字摘要一起提交给用户,而第二类图像摘录则不需要和文字摘要放在一起。步骤134结束。图4详细描述了步骤132,即获取第一类图像摘录。步骤1320是起始步骤。步骤1321将计数器i置为1。步骤1322判断i是否大于搜索到的网页的数目M。如果i大于M,转至步骤1328,结束;否则转至步骤1323。步骤1323利用经典的网页分块算法对第i个网页进行分块。步骤1324利用经典Web搜索技术中的重要性判别方法判断各个分块重要与否。步骤1325从至少包含一幅图像的重要分块中,选出与查询关键词最相似的分块。这里采用经典的文字相似度度量方法来度量查询关键词与分块的文字描述之间的相似度。步骤1326从最相似的分块中选出最先出现的图像作为第i个网页的图像摘录。步骤1327将i加1,转至步骤1322。图5详细描述了步骤133,即获取第二类图像摘录。步骤1330是起始步骤。步骤1331将集合IMG置空。步骤1332将计数器i置为1。步骤1333判断i是否大于搜索到的网页的数目M。如果i大于M,转至步骤1338;否则转至步骤1334。步骤1334对利用经典Web搜索技术中的网页分块方法对第i个网页进行分块。步骤1335利用经典Web搜索技术中的重要性判别方法判断各个分块重要与否。步骤1336将重要分块中的图像加入集合IMG。步骤1337将i加1,转至步骤1333。步骤1338根据IMG中图像的文字描述与查询关键词的相似程度对IMG中的图像进行排序,选出最相似的j幅图像作为第二类的图像摘录。这里的相似度度量采用经典的文字相似度度量方法。图像的文字描述由三部分组成,图像在HTML源码中的ALT字段,图像所在网页的标题和图像所在分块的文字描述。步骤1339结束。图6详细描述了步骤15,即获取用户的反馈信息,生成新的查询关键词以精化查询。步骤150是起始步骤。步骤151,由用户选择进行哪一类的反馈。步骤152,用户选择进行第一类反馈,根据用户的反馈信息生成新的查询关键词。第一类反馈是基于第一类的图像摘录完成的。在这一类的反馈中,用户结合给出的文字摘要和图像摘录,判断搜索到的网页相关与否。步骤153,用户选择进行第二类反馈,根据用户的反馈信息生成新的查询关键词。第二类反馈是基于第二类的图像摘录完成的。在这一类的反馈中,用户直接判断给出的图像摘录是否相关。步骤154结束。图7详细介绍了步骤152,即在第一类反馈中生成新的查询关键词。步骤1520是起始步骤。步骤1521置集合TERM为空。步骤1522置计数器i为1。步骤1523判断i是否小于用户反馈的网页的数目F。如果i大于F,转至步骤1526;否则转至步骤1524。步骤1524,将第i个网页中出现的词加入集合TERM(已出现在查询关键词中的除外)。步骤1525将计数器i加1,转至步骤1523。步骤1526,根据公式(1)计算TERM中每个词的分值,选择分值最高的k个词作为新增的查询关键词。公式(1)中,Score(t)是词t的分值,rt是被用户选择为相关的网页中包含t的数目,nt是搜索到的网页中包含t的数目,R是被用户选择为相关的网页的数目,N是搜索到的网页的数目。步骤1527结束。Score(t)=logrt/(R-rt)(nt-rt本文档来自技高网...

【技术保护点】
一种Web搜索中的图像摘录反馈方法,其特征是该方法包括以下步骤:(1)网页处理装置接受用户提交的由关键词组成的查询,使用基于关键词的Web搜索方法对Web进行搜索; (2)基于图像摘录进行反馈的方法精化用户查询;(3 )最终返回用户满意的搜索结果。其中基于图像摘录进行反馈的方法精化用户查询包括以下步骤:(11)获取用户的查询关键词;(12)利用基于关键词的Web搜索方法获取相关的网页;(13)从搜索到的相关网页中生成网页的 文字摘要和图像摘录,并将这些信息提交给用户,供用户了解搜索结果;(14)用户对搜索到的网页进行判断,如果网页满足用户的需求,则转至(16),整个过程结束;否则,转至(15);(15)获取用户的反馈信息,生成新的查询关键词,转 至(12);(16)结束。

【技术特征摘要】

【专利技术属性】
技术研发人员:周志华薛晓冰张仲非
申请(专利权)人:南京大学
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1