当前位置: 首页 > 专利查询>清华大学专利>正文

基于内容引用的网页搜索结果排序方法技术

技术编号:3844739 阅读:334 留言:0更新日期:2012-04-11 18:40
基于内容引用的网页搜索结果排序方法属于计算机信息检索技术领域,其特征在于,首先,针对各类用户的各类查询词获取各类网页的网页全集,再经过正文提取、文本分块、引用列表建立的步骤得到该网页全集内各文本块的所有引用列表,再通过网页排名计算,得到引用最多的50个文本块作为引用黑名单,其次,当同一用户输入查询词时,把该引用黑名单作为引用列表建立时的文本块索引表,利用表内的网页列表,作为网页排名计算时的参照物得到对包含用户查询词的所有网页排序。本发明专利技术在排除了导航性质的网页干扰的同时,也提高了查询和排序的速度。

【技术实现步骤摘要】

本专利技术属于自然语言处理

技术介绍
随着Internet规模的迅速膨胀,如何从Internet上获取用户需要的信息成为一个重要的研究课题,于是搜索引擎技术应运而生。它根据用户的查询返回一系列可能与用户的查询相关的网页,并按照某种算法对这些网页进行排序最后呈现在用户面前。评价一个搜索引擎的性能主要有以下这些指标准确率、査全率、第一页(或前N个结果)的准确率。由于Internet上面的信息量极其庞大,而且用户关心的是迅速准确的找到自己需要的信息,所以真正用户最直接体验的指标是第一页(或前N个结果)的准确率。 一个好的搜索引擎必须有一个好的搜索结果排序算法,将质量最好的网页放在第一页呈现给用户。现在最广泛应用的搜索结果排序算法是PageRank算法和HITS算法。PageRank算法与HITS算法均是基于链接分析的搜索引擎排序算法,并且在算法中二者均利用了特征向量作为理论基础。他们都有一个局限性即认为网页之间的全部联系就是超链接。所有的计算也都是基于网页之间的超链接进行。而现实中很可能网页中不包括显式的超链接,有可能以文字表明文章来源,也可能直接引用其它文章的文字而不加说明,或者虽然文字不是完全一致但是明显借鉴了另外一篇文章等等,按照PageRank的思想这些行为实际上都应当提高引用源页面的排序分值,但由于没有超链接存在,所以现有的PageRank算法并不能体现这些关系。这便造成了 PageRank算法结果与实际情况的偏差。根据统计在中文网页中大量存在不加任何说明注释的直接引用,更没有超链接指向引用源,这造成了很多网页现有的排序值很低,背离了该网页的真实重要程度,影响了网页排序算法的效果。如何在网页超链接相对比较缺乏时,挖掘并利用这种超链接之外的网页之间的相互关系成为一个有着重要现实意义的课题。而基于文本内容的网页排序算法则很接近人的直观认识,它不区分不同网页上的相同文字,排序的对象不是一个用URL标示的网页而是网页中的文章内容。本专利技术正是基于这种思想提出了一种基于文本引用关系的网页排序算法。算法认为被引用次数越多的文本段落可能越重要,从而应当获得更好的排名。当一个网页中的内容被很多网页引用时,我们认为有很多人同意该网页的观点,于是给该网页一个较高的评分。另外如果一个网页引用了许多其他网页的内容,我们认为他包含了很大的信息量,是一种总结性综述性的文章,同样也给其一个较高的评分。它从一个与当前流行的基于超链接分析的网页排序算法完全不同的侧面着眼,能够挖掘出大量无法体现在超链接中的文本信息,以接近人类思考的方式进行网页排名。当用户需要査询包含大量信息的网页时,如查询某词的定义、百科知识等,这种算法比起传统的基于超链接分析的算法有着较明显的优势。术语定义查询词用户提交的用于査询的词。系统返回一系列与査询词相关的网页,按照重要程度从高至低进行排序。待处理网页使用搜索引擎获取的与査询词相关的一系列网页。整个算法的排序对象就是这些网页。文本块网页中长度约为10个汉字的纯文本片断。引用/引用块当一个文本块同时在两个以上的网页上出现时,称之为引用。该文本块称之为引用块。有效引用/有效引用块为区别于无效引用块,我们将包含一定相关信息量,确实能够反映文档重要程度的引用块称为有效引用块,该引用称为有效引用。无效引用/无效引用块 一些只包含广告文字、论坛导航信息、版权声明等与査询词完全无关的引用块称为无效引用块。这些引用块会对结果造成一定干扰,必须设法尽量检出。无效引用块列表事先生成的一些无效引用块的列表。在后面的计算中凡是在该列表中的引用全部不计算。哈希表按照(关键字,值)对进行存储的数据结构。对给定关键字可以迅速查找到其相对应的值(无论表的规模如何,均可在固定时间内找到对应的值)。块索引表针对所有待处理网页中的文本块,建立一个对(文本块,包含该文本块的网页编号列表),使用哈希表进行存储,称为块索引表。大规模互联网语料库从Internet上抓取的包含极大数量网页的语料库。
技术实现思路
本专利技术的目的在于提出一种,把包含用户所希望的内容的网页排在前面。本专利技术的特征在于所述方法是在信息检索系统的计算机上依次按以下步骤实现的-步骤(l)初始化步骤(l.l)建立相关网页获取模块、网页正文获取模块、文本分块模块、引用列表建立模块以及网页排名计算模块,其中相关网页提取模块,根据用户输入的査询词,用Google搜索引擎从互联网上获取与5所述査询词相关的网页,组成网页集合,网页正文提取模块,从所述相关网页获取模块输入所建的网页集合,使用jericho-html-2.5工具包进行各网页的正文抽取工作,把各网页转化为纯文本格式,文本分块模块,从所述网页正文抽取模块输入各网页的正文,把各个网页切分为每10个汉字为一块的文本块,在句号或换行符处结束当前块,并进行块对齐,若当前块不足5个汉字,则把当前块与上一块合并,然后,把每个纯文本文件用一个文本块列表表示,引用列表建立模块,从所述文本分块模块逐个输入全部待处理网页中的文本块,对于每一个所述网页,对其中每一个文本块,按照以下步骤建立该文本块的网页引用列表,根据一读入的所述全部待处理网页中的文本块,建立一个块索引表,采取哈希表的格式,关键词为该文本块的内容,其对应值为一个列表,该列表中存储了该文本块的网页编号,构成网页列表,以后每输入一个文本块,便通过所述块索引表查找所输入的文本块所对应的网页列表若所读入的文本块不包含在所述块索引表内,则把已读入的文本块加入到所述块索引表中,所指向的网页列表中只包含当前网页,若所读入的文本块已包含在所述块索引表的一个或多个称为引用块的文本块中,如果在该块索引表中相应的一个或多个文本块己有N个网页,则所读入的文本块便检测到N个引用,再把所读入的文本块所在的那个当前网页也加入网页列表,得到对应于所读入文本块的网页索引列表,上述网页正文抽取模块、文本分块模块、以及用应列表建立模块共同构成了一个引用次数计算模块,简称引用计算模块,网页排名计算模块,按照以下步骤生成网页排名序列使用Sogou互联网语料库作为大规模互联网语料库,生成无效引用列表,所述无效引用块是指只包含广告文字、论坛导航信息、版权声明在在内的与所述用户查询词完全无关的引用块,从所述引用列表建立模块输入的所述网页引用列表,生成两个集合待处理集合P与结果集合S,初始值为空,把全部待处理网页放入所述待处理集合P,检査块索引表,对于每一个待处理网页而言,针对每一个关键字若对应的值列表中包含多于一个网页,则其中任何两个网页之间记为一次引用,若该文本块在引用时包含的汉字大于5个,且也不出现在所述无效引用表中,则对引用块双方网页均进行 加分,所述引用双方分别为当前计算的网页与该文本块对应的网页列表中的每一个网 页,加分分值为该文本块长度,也称引用块长度/网页长度,并回放在所述集合P 中,选取分数最高的网页放入结果集合S中,并在所述集合P中加以删除,并再重复 此步骤,若所述集合S中的网页个数满足要求,或所述集合P为空,则结束,否则把正在 做排序计算的网页中所有的文本块以所述块索引表中山区,再计算下一个网页; 步骤(1.2>程序初始化步骤(1.2.1)置引用黑名单为空,步骤(1.2.2)把与各类用户查询词相关的本文档来自技高网
...

【技术保护点】
基于内容引用的网页搜索结果排序方法,其特征在于,所述方法是在信息检索系统的计算机上依次按以下步骤实现的: 步骤(1)初始化 步骤(1.1)建立相关网页获取模块、网页正文获取模块、文本分块模块、引用列表建立模块以及网页排名计算模块 ,其中: 相关网页提取模块,根据用户输入的查询词,用Google搜索引擎从互联网上获取与所述查询词相关的网页,组成网页集合, 网页正文提取模块,从所述相关网页获取模块输入所建的网页集合,使用jericho-html-2.5工具包 进行各网页的正文抽取工作,把各网页转化为纯文本格式,文本分块模块,从所述网页正文抽取模块输入各网页的正文,把各个网页切分为每10个汉字为一块的文本块,在句号或换行符处结束当前块,并进行块对齐,若当前块不足5个汉字,则把当前块与上一块合并,然后,把每个纯文本文件用一个文本块列表表示, 引用列表建立模块,从所述文本分块模块逐个输入全部待处理网页中的文本块,对于每一个所述网页,对其中每一个文本块,按照以下步骤建立该文本块的网页引用列表,根据一读入的所述全部待处理网页中的文本块 ,建立一个块索引表,采取哈希表的格式,关键词为该文本块的内容,其对应值为一个列表,该列表中存储了该文本块的网页编号,构成网页列表, 以后每输入一个文本块,便通过所述块索引表查找所输入的文本块所对应的网页列表: 若:所读入的文本块 不包含在所述块索引表内,则把己读入的文本块加入到所述块索引表中,所指向的网页列表中只包含当前网页, 若:所读入的文本块已包含在所述块索引表的一个或多个称为引用块的文本块中,如果在该块索引表中相应的一个或多个文本块已有N个网页,则所读入 的文本块便检测到N个引用,再把所读入的文本块所在的那个当前网页也加入网页列表,得到对应于所读入文本块的网页索引列表, 上述网页正文抽取模块、文本分块模块、以及用应列表建立模块共同构成了一个引用次数计算模块,简称引用计算模块, 网 页排名计算模块,按照以下步骤生成网页排名序列: 使用Sogou互联网语料库作为大规模互联网语料库,生成无效引用列表,所述无效引用块是指只包含广告文字、论坛导航信息、版权声明在在内的与所述用户查询词完全无关的引用块, 从所述引用列 表建立模块输入的所述网页引用列表, 生成两个集合:待处理集合P与结果集合S,初始值为空, 把全部待处理网页放入所述待处理集合P...

【技术特征摘要】

【专利技术属性】
技术研发人员:高嵩周强
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1