一种互联网主题文件搜索方法、爬虫系统和搜索引擎技术方案

技术编号:2834264 阅读:312 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种互联网主题文件搜索方法,包括:解析下载的网页,提取网页中包含的统一资源定位符URL;确定出各URL的对应优先级;按优先级从高到低的顺序采集各URL,建立索引,搜索所需互联网主题文件。本发明专利技术还公开了一种互联网主题文件的搜索引擎的爬虫系统和搜索引擎。本发明专利技术提供的爬虫系统至少包括:URL队列存储模块、网页和文件下载模块、网页解析模块和采集控制模块。采用本发明专利技术可以提高互联网主题文件搜索效率。

【技术实现步骤摘要】

本专利技术涉及互联网文件搜索,尤其涉及一种互联网主题文件搜索方法,以 及相应的爬虫系统和搜索引擎。
技术介绍
Internet已经成为计算机领域最热门的一项技术,Internet的普及使人们可 以突破空间、地域的限制,方便地共享信息资源。www是Internet上提供的最 主要、应用最广泛的一种信息服务,自诞生以来得到了迅猛发展,已经成为一 个巨大的信息库,存储着大量有价值的信息,人们可以在其上查找到自己感兴 趣的各种内容。但在实际使用中,web网上庞大的数据量会给用户的信息查询 工作带来极大的困难。在这种情况下,各种信息检索服务应运而生,而全文检 索技术是广泛采用的一项重要信息检索技术。目前,基于www网的全文检索 技术正得到日益广泛的应用,已经有不少颇具影响的大型全文检索工具,其中 比较著名的中文搜索引擎系统有www.soso.com, www.baidu.com等,这些全文 检索系统的应用对www网上文档信息的查询起到了巨大作用。目前互联网搜索引擎一般由爬虫系统、索引系统、检索系统组成,爬虫系 统需要从网络上不同的网站采集网页和各种文件,比如web网页、mp3文件等, 然后交给索引系统建立索引数据库,检索系统接收用户的检索请求,检索索引 数据库,返回符合用户需求的结果。一般互联网搜索引擎系统架构如图1所示,包括网页服务器提供中文搜索引擎系统网页访问服务,是用户使用中文搜索 引擎系统的用户接口;检索系统根据用户提交的检索关键词检索索引数据库,根据一定算法对符合检索需求的文档进行排序、过滤,返回给网页服务器;索引系统对爬虫系统采集的文档进行处理,建立索引数据库; 爬虫系统采集互联网的网页和各种文档数据。 现有技术一采集所有的web网站和网页。执行特定互联网主题文件搜索的搜索引擎中,其爬虫系统一般只采集特定 主题的文件,然后建立索引,提供检索。但要采集特定主题的文件,需要采集 网页,找到特定主题文件的统一资源定位符(Uniform Resource Locator, URL)链接。目前爬虫系统一般采用遍历所有网页,即采集所有的网页和文件,然后保 存需要的特定主题的文件。由于含有特定主题文件的网页很少,导致下载特定 主题文件的效率很低,下载几万个网页才包含有一个特定主题文件,而且还很 可能是死链。因此需要一种技术提高下载包含特定主题文件的网页的概率。 现有技术二采集特定的主题网站和网页。根据对采集的网页进行分析,发现一般网页间的链接具有以下特征主题 聚集性和本地性。网页普遍具有这两个特性,本地性决定同一主机的网页互相 链接概率比较大,主题聚集性决定同一主题的网页互相链接概率大。网页之间的链接特性可以用图2来进行模拟表示,图2中,每一个圓圏代 表一个网页,实心圓圏代表包含mp3文件的网页;假设需要采集MP3文件, 图2中显示出新闻主题和音乐主题的网页之间的链接和包含的MP3文件,结 果表明新闻主题的网页之间互相链接比较多,音乐主题的网页之间互相链接 比较多,音乐主题和新闻主题之间的网页链接比较少。音乐主题的网页包含 MP3文件的URU既率要比新闻主题的网页包含的MP3文件的URL概率大。因此,现有技术二中采用对特定的主题网页进行搜索的方法。以上述采集 MP3文件为例,MP3搜索引擎的爬虫系统采集音乐主题网站和网页,发现和 采集MP3文件的效率会比较高。尽管现有技术二的采集效率较高,但由于只采集特定的少数网站,导致整 个采集的特定主题文件比较少,无法采集互联网上尽可能多的文件。
技术实现思路
本专利技术提供一种互联网主题文件搜索方法,用以解决现有技术中存在的搜 索互联网主题文件效率低或釆集不全面的问题。为解决所述技术问题,本专利技术釆用的技术方案是,提供一种互联网主题文件搜索方法,该方法包括A、 解析下载的网页,提取网页中包含的统一资源定位符URL;B、 确定出各URL的对应优先级;C、 按优先级从高到低的顺序采集各URL,建立索引,搜索所需互联网主 题文件。根据本专利技术的上述方法,还包括 保存已采集的URL历史记录;所述步骤B中,根据所述历史记录判断下载网页中包含的URL是否已采 集,仅对未采集过的URL确定优先级。 根据本专利技术的上述方法,还包括设置URL过滤条件,仅对未采集过的不符合所述过滤条件的URL确定优 先级。才艮据本专利技术的上述方法,所述确定优先级,具体方法为 采用预定算法计算出待采集URL的URL的主题分;根据所述主题分的分 值大小确定URL的对应优先级。所述采用预定算法计算出待采集URL的URL的主题分,具体方法为计算包含该URL的已采集的网页对应的网页主题分;累加包括该URL的全部网页的主题分作为该URL的URL的主题分。所述网页主题分具体计算公式为F (p) = a x numFileLink x FactorLink + b*numKeyWord x FactorWord;式中,F (p)为计算出的网页主题分;numFileLink为该网页含有的主题文件URL的个数;FactorLink为URL链接的积分因子;numKeyWord为该网页含有的主题关键词个数;FactorWord为主题关键词的积分因子;a, b为4又重因子,且a+b-l。同时,本专利技术还提供一种搜索引擎的爬虫系统,包括URL队列存储模块、 网页和文件下载才莫块、网页解析模块和采集控制模块;所述URL队列存储模块,按优先级顺序存储待采集的URL;所述网页和文件下载模块,按URL优先级从高到低的顺序下载网页或文 件;将下栽的网页发送到所述网页解析模块,将下栽的文件发送到搜索引擎的 索引系统处理;所述网页解析模块,对网页进行解析,提取网页中包含的URL发送到所 述采集控制模块;所述采集控制模块确定出待采集的URL的优先级,并将待采集的URL按 其优先级存入所述URL队列存储模块中的对应优先级队列中。根据本专利技术提供的上述爬虫系统,还包括URL过滤模块连接在所述网页 解析模块和采集控制模块之间;所述URL过滤才莫块判断所述网页解析4莫块解析出的URL是否已采集,仅 保留未采集过的URL;并进一步判断未采集过的URL是否符合设置的URL 过滤条件,仅将不符合所述过滤条件的未采集过的URL发送给所述采集控制 模块。所述采集控制模块包括URL的主题分计算子模块,采用预定算法计算出待采集URL的URL的主 题分;URL优先级确定子模块,根据URL主题分的分值大小确定对应URL的优先级,存入到所述URL队列存储模块的不同优先级队列中。对应于所述爬虫系统,本专利技术还提供一种搜索引擎,包括爬虫系统、索引系统和检索系统,所述爬虫系统包括URL队列存储模块、网页和文件下栽模块、网页解析模块和釆集控制模块;所述URL队列存储模块,按优先级顺序存储待采集的URL; 所述网页和文件下载模块,按URL优先级从高到低的顺序下载网页或文件;将下载的网页发送到所述网页解析模块,将下载的文件发送到搜索引擎的索引系统处理;所述网页解析模块,对网页进行解析,提取网页中包含的URL发送到所 述采集控制模块;所述采集控制模块确定出待采集的URL的优先级,并将待采集的URL按 其优先级存入所述URL队列存储模块中的对应优先级队列中。 本专利技术有益效果如下(1) 本专利技术通过解析下载本文档来自技高网
...

【技术保护点】
一种互联网主题文件搜索方法,其特征在于,包括:A、解析下载的网页,提取网页中包含的统一资源定位符URL;B、确定出各URL的对应优先级;C、按优先级从高到低的顺序采集各URL,建立索引,搜索所需互联网主题文件。

【技术特征摘要】
1、一种互联网主题文件搜索方法,其特征在于,包括A、解析下载的网页,提取网页中包含的统一资源定位符URL;B、确定出各URL的对应优先级;C、按优先级从高到低的顺序采集各URL,建立索引,搜索所需互联网主题文件。2、 如权利要求1所述的互联网主题文件搜索方法,其特征在于,还包括 保存已采集的URL历史记录;所述步骤B中,根据所述历史记录判断下载网页中包含的URL是否已采 集,仅对未采集过的URL确定优先级。3、 如权利要求2所述的互联网主题文件搜索方法,其特征在于,还包括 设置URL过滤条件,仅对未采集过的不符合所述过滤条件的URL确定优先级。4、 如权利要求1所述的互联网主题文件搜索方法,其特征在于,所述确 定优先级,具体方法为采用预定算法计算出待采集URL的URL的主题分;根据所述主题分的分 值大小确定URL的对应优先级。5、 如权利要求4所述的互联网主题文件搜索方法,其特征在于,所述采 用预定算法计算出待采集URL的URL的主题分,具体方法为计算包含该URL的已采集的网页对应的网页主题分;累加包括该URL的全部网页的主题分作为该URL的URL的主题分。6、 如权利要求5所述的互联网主题文件搜索方法,其特征在于,所述网 页主题分具体计算公式为F (p) = a x numFileLink x FactorLink + b*numKeyWord x FactorWord; 式中,F (p)为计算出的网页主题分; numFileLink为该网页含有的主题文件URJL的个数; FactorLink为URL链接的积分因子; numKeyWord为该网页含有的主题关键词个数; FactorWord为主题关键词的积分因子; a, b为权重因子,且a+b-l。7、 一种搜索引擎的爬虫系统,其特征在于包括URL队列存储模块、网 页和文件下载模块、网页解析模块和采集控制模块...

【专利技术属性】
技术研发人员:余祥鑫杨卫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1