基于内容引用的网页搜索结果排序方法技术

技术编号：3844739 阅读：334 留言：0更新日期：2012-04-11 18:40

基于内容引用的网页搜索结果排序方法属于计算机信息检索技术领域，其特征在于，首先，针对各类用户的各类查询词获取各类网页的网页全集，再经过正文提取、文本分块、引用列表建立的步骤得到该网页全集内各文本块的所有引用列表，再通过网页排名计算，得到引用最多的５０个文本块作为引用黑名单，其次，当同一用户输入查询词时，把该引用黑名单作为引用列表建立时的文本块索引表，利用表内的网页列表，作为网页排名计算时的参照物得到对包含用户查询词的所有网页排序。本发明专利技术在排除了导航性质的网页干扰的同时，也提高了查询和排序的速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理

技术介绍
随着Internet规模的迅速膨胀，如何从Internet上获取用户需要的信息成为一个重要的研究课题，于是搜索引擎技术应运而生。它根据用户的查询返回一系列可能与用户的查询相关的网页，并按照某种算法对这些网页进行排序最后呈现在用户面前。评价一个搜索引擎的性能主要有以下这些指标准确率、査全率、第一页(或前N个结果)的准确率。由于Internet上面的信息量极其庞大，而且用户关心的是迅速准确的找到自己需要的信息，所以真正用户最直接体验的指标是第一页(或前N个结果)的准确率。一个好的搜索引擎必须有一个好的搜索结果排序算法，将质量最好的网页放在第一页呈现给用户。现在最广泛应用的搜索结果排序算法是PageRank算法和HITS算法。PageRank算法与HITS算法均是基于链接分析的搜索引擎排序算法，并且在算法中二者均利用了特征向量作为理论基础。他们都有一个局限性即认为网页之间的全部联系就是超链接。所有的计算也都是基于网页之间的超链接进行。而现实中很可能网页中不包括显式的超链接，有可能以文字表明文章来源，也可能直接引用其它文章的文字而不加说明，或者虽然文字不是完全一致但是明显借鉴了另外一篇文章等等，按照PageRank的思想这些行为实际上都应当提高引用源页面的排序分值，但由于没有超链接存在，所以现有的PageRank算法并不能体现这些关系。这便造成了 PageRank算法结果与实际情况的偏差。根据统计在中文网页中大量存在不加任何说明注释的直接引用，更没有超链接指向引用源，这造成了很多网页现有的排序值很低，背离了该网页的...

【技术保护点】
基于内容引用的网页搜索结果排序方法，其特征在于，所述方法是在信息检索系统的计算机上依次按以下步骤实现的：　步骤（１）初始化　步骤（１．１）建立相关网页获取模块、网页正文获取模块、文本分块模块、引用列表建立模块以及网页排名计算模块，其中：　相关网页提取模块，根据用户输入的查询词，用Ｇｏｏｇｌｅ搜索引擎从互联网上获取与所述查询词相关的网页，组成网页集合，　网页正文提取模块，从所述相关网页获取模块输入所建的网页集合，使用ｊｅｒｉｃｈｏ－ｈｔｍｌ－２．５工具包进行各网页的正文抽取工作，把各网页转化为纯文本格式，文本分块模块，从所述网页正文抽取模块输入各网页的正文，把各个网页切分为每１０个汉字为一块的文本块，在句号或换行符处结束当前块，并进行块对齐，若当前块不足５个汉字，则把当前块与上一块合并，然后，把每个纯文本文件用一个文本块列表表示，　引用列表建立模块，从所述文本分块模块逐个输入全部待处理网页中的文本块，对于每一个所述网页，对其中每一个文本块，按照以下步骤建立该文本块的网页引用列表，根据一读入的所述全部待处理网页中的文本块，建立一个...

【技术特征摘要】

【专利技术属性】
技术研发人员：高嵩，周强，
申请(专利权)人：清华大学，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人