搜索引擎排重系统及方法技术方案

技术编号:7220631 阅读:439 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种搜索引擎排重系统及方法,所述系统包括:查询请求模块,根据用户输入的查询条件发送查询请求;搜索模块,查询符合所述查询条件的网页,提取网页的摘要,对所述摘要进行指纹计算,根据摘要的指纹排除重复摘要,将保留的摘要及对应网页返回至所述查询请求模块。采用本发明专利技术提供的搜索引擎排重系统及方法,使排重更准确。

【技术实现步骤摘要】
搜索引擎排重系统及方法
本专利技术涉及网络搜索
,尤其涉及一种搜索引擎排重系统及方法。
技术介绍
搜索引擎通过自身的网页抓取程序,搜集互联网上的信息,搜集到的网页经过预处理后生成索引数据库,为用户提供检索服务。由于搜索引擎抓取的网页会有很多是重复的,因此需要对网页进行排重。所谓排重,是指去掉重复的网页,仅保留一篇进索引,其它则删除掉,不进索引。传统的搜索引擎排重系统通常是在预处理过程中进行排重,具体是:对抓取的网页中的文档内容提取文本特征,例如对文档提取10个特征词,再提取这些特征词的指纹。指纹是判断网页相似程度的参数,调用特别的算法(如MD5算法)将一组特征词转化为一组代码,这组代码即为标识文档的指纹。如果两篇文档的指纹相同,则这两篇文档是重复的,需选择一篇文档进索引数据库,而其他重复的文档进行删除。然而,上述传统的搜索引擎排重系统由于在预处理过程中进行排重,需要对网页内容的全部文档内容提取特征词,若特征词提取不准确,则会造成很多误判和错判,从而导致索引数据库提供的搜索页面会有很多重复的文档。
技术实现思路
基于此,有必要提供一种排重更准确的搜索引擎排重系统。一种搜索引擎排重系统,包括:查询请求模块,根据用户输入的查询条件发送查询请求;搜索模块,查询符合所述查询条件的网页,提取网页的摘要,对所述摘要进行指纹计算,根据摘要的指纹排除重复摘要,将保留的摘要及对应网页返回至所述查询请求模块。其中,所述搜索模块包括:至少一个检索模块,用于查询符合所述查询条件的网页,提取网页的摘要;搜索管理模块,获取至少一个检索模块提取的摘要,对所述摘要进行指纹计算,根据摘要的指纹排除重复摘要,将保留的摘要及对应网页返回至所述查询请求模块。其中,所述搜索模块包括:至少一个检索模块,用于查询符合所述查询条件的网页,提取网页的摘要,对所述摘要进行指纹计算;搜索管理模块,获取至少一个检索模块计算得到的摘要的指纹,根据摘要的指纹排除重复摘要,将保留的摘要及对应网页返回至所述查询请求模块。其中,搜索管理模块还用于获取网页的页面权重,在根据摘要的指纹排除重复摘要时,保留页面权重最高的网页及摘要。其中,所述搜索模块包括至少一个:网页抓取模块,抓取网页;预处理模块,从抓取的网页中提取文本特征,对所述文本特征进行指纹计算,根据文本特征的指纹排除重复网页。其中,所述预处理模块还用于从抓取的网页中提取关键词,根据所述关键词建立网页索引文件;所述搜索模块还包括根据所述网页索引文件存储排除重复网页后的网页、供所述检索模块查询的的索引数据库。此外,还有必要提供一种排重更准确的搜索引擎排重方法。一种搜索引擎排重方法,包括以下步骤:根据用户输入的查询条件发送查询请求;查询符合所述查询条件的网页,提取网页的摘要;对所述摘要进行指纹计算,根据摘要的指纹排除重复摘要;返回保留的摘要及对应网页。其中,所述返回保留的摘要及对应网页的步骤包括:获取网页的页面权重,根据摘要的指纹排除重复摘要,并保留页面权重最高的网页及摘要。其中,在所述查询符合搜索条件的网页之前还包括:抓取网页,从抓取的网页中提取文本特征,对所述文本特征进行指纹计算,根据文本特征的指纹排除重复网页。其中,所述根据文本特征的指纹排除重复网页的步骤是:获取网页的页面权重,排除重复网页时保留页面权重最高的网页。上述搜索引擎排重系统及方法,通过对网页的摘要进行指纹计算,相对于现有对网页的全部文档内容进行指纹计算,能减少特征词提取不准确的几率,使排重更准确。此外,在预处理过程中对网页进行排重,使得网页在进入索引数据库之前得到了一次排重,而根据查询请求在索引数据库中找到符合查询条件的网页后,根据网页的摘要的指纹再进行一次排重,两次排重能更加准确的排除重复的网页,从而减少了提供给用户的重复网页。【附图说明】图1为第一实施例中的搜索引擎排重系统的示意图;图2为第二实施例中的搜索引擎排重系统的示意图;图3为第三实施例中搜索引擎排重系统的示意图;图4为一个实施例中搜索引擎排重方法的流程图;图5为另一个实施例中搜索引擎排重方法的流程图。【具体实施方式】如图1所示,一种搜索引擎排重系统,包括查询请求模块10和搜索模块20。其中,查询请求模块10位于前台,用于根据用户输入的查询条件发送查询请求,查询条件包括关键词等;搜索模块20位于后台,接收到查询请求模块10发送的查询请求后,查询符合查询条件的网页,提取网页的摘要,对这些摘要进行指纹计算,根据摘要的指纹排除重复摘要,只保留一条摘要及对应的网页即可,并将保留的摘要及对应网页返回至查询请求模块10。由于搜索模块20在提供网页给用户检索时,除了提供网页标题以及链接外,通常都会提取网页的摘要以便用户区分不同的网页,对这些摘要进行指纹计算,具体可以是:对摘要进行分词处理后,通过加权技术统计每个词的权重,提取预设数量(如10个)个权重较高的词,将这些词组成一个词串,对词串通过MD5算法得到一组代码,即为该摘要的指纹。指纹相同则认为摘要相同,摘要对应的网页为重复网页。因此根据摘要的指纹即可排除掉重复摘要。根据摘要的指纹来排重,相对于现有对于网页的整个文档内容进行指纹计算,能减少特征词提取不准确的几率,使排重更准确。如图2所示,在一个实施例中,搜索模块20包括搜索管理模块201和至少一个检索模块202,搜索管理模块201是作为后台代理,统一管理多个检索模块202提交的数据。在一个实施方式中,网页的摘要的指纹计算放在搜索管理模块202中进行,检索模块202用于查询符合查询条件的网页,提取网页的摘要;搜索管理模块12则获取至少一个检索模块202提取的网页的摘要,对摘要进行指纹计算,根据摘要的指纹排除重复摘要,将保留的摘要及对应网页返回至查询请求模块10。在另一个实施方式中,网页的摘要的指纹计算也可放在检索模块202中进行,检索模块202用于查询符合所述查询条件的网页,提取网页的摘要,对摘要进行指纹计算;搜索管理模块201则获取至少一个检索模块202计算得到的摘要的指纹,根据摘要的指纹排除重复摘要,将保留的摘要及对应网页返回至查询请求模块10。关于摘要的指纹计算上文已有论述,在此则不再赘述。在网页的预处理过程中,可通过排名运算法则计算每个网页的页面权重。搜索管理模块201则可获取网页的页面权重,在根据摘要的指纹排除重复摘要时,保留页面权重最高的网页及摘要,这样保留的网页会更符合用户的需求。同样的,检索模块202在根据摘要的指纹排除重复摘要时,也可保留权重最高的网页。如图3所示,在一个实施例中,搜索模块20包括至少一个网页抓取模块205、预处理模块204和索引数据库203。其中,网页抓取模块205运行网页抓取程序抓取网页,每个独立的搜索引擎都会有相应的网页抓取程序;预处理模块204从抓取的网页中提取文本特征,对文本特征进行指纹计算,根据文本特征的指纹排除重复网页。例如,预处理模块204从抓取的网页的文档内容中提取预设数量(如10个)个特征词,对这些特征词取指纹,指纹相同,则认为文档内容相同,需排除掉重复的文档内容,只保留一个文档,将该文档对应的网页加入索引数据库203中。该实施例中,预处理模块204还用于从抓取的网页中提取关键词,根据关键词建立网页索引文件;索引本文档来自技高网...
搜索引擎排重系统及方法

【技术保护点】

【技术特征摘要】
1.一种搜索引擎排重系统,其特征在于,包括:查询请求模块,根据用户输入的查询条件发送查询请求;搜索模块,查询符合所述查询条件的网页,提取网页的摘要,对所述摘要进行指纹计算,具体是:对摘要进行分词处理后,通过加权技术统计每个词的权重,提取预设数量个权重较高的词,将这些词组成一个词串,对词串通过摘要算法得到一组代码即为该摘要的指纹,根据摘要的指纹排除重复摘要,将保留的摘要及对应网页返回至所述查询请求模块;所述搜索模块还用于获取网页的页面权重,在根据摘要的指纹排除重复摘要时,保留页面权重最高的网页及摘要,其中网页的页面权重是在网页的预处理过程中通过排名运算法则计算得到的。2.根据权利要求1所述的搜索引擎排重系统,其特征在于,所述搜索模块包括:至少一个检索模块,用于查询符合所述查询条件的网页,提取网页的摘要;搜索管理模块,获取至少一个检索模块提取的摘要,对所述摘要进行指纹计算,根据摘要的指纹排除重复摘要,将保留的摘要及对应网页返回至所述查询请求模块。3.根据权利要求1所述的搜索引擎排重系统,其特征在于,所述搜索模块包括:至少一个检索模块,用于查询符合所述查询条件的网页,提取网页的摘要,对所述摘要进行指纹计算;搜索管理模块,获取至少一个检索模块计算得到的摘要的指纹,根据摘要的指纹排除重复摘要,将保留的摘要及对应网页返回至所述查询请求模块。4.根据权利要求1所述的搜索引擎排重系统,其特征在于,所述搜索模块包括至少...

【专利技术属性】
技术研发人员:文勖
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术