一种聚焦爬虫的设计方法技术

技术编号:8323622 阅读:183 留言:0更新日期:2013-02-14 01:57
本发明专利技术公开了一种聚焦爬虫的设计方法,通过搜索引擎检索到与领域相关的本领域网页URL资源,而非针对少数特定的网站,丰富了URL资源的数量;针对URL资源与领域的相关性强弱,采用一定的概率选取种子URL进行资源爬取,即以一定的概率不处理与领域相关性弱的URL资源,提高了URL资源的处理效率,使爬取资源更为快速;最后利用网页标签的权重分析有针对性的获取待爬取的信息,提高信息的有效性。

【技术实现步骤摘要】

本专利技术属于网络信息处理
,具体来讲,涉及。
技术介绍
随着互联网的迅速发展,互联网已成为大量信息的载体,其中的信息呈现爆炸式的增长,这些海量互联网的信息资源包含着巨大的潜在价值,如何有效,快捷地提取并利用这些信息成为一个巨大的挑战,因而各种网络爬虫技术应运而生,例如传统的通用网络爬虫,主题网络爬虫,增量式网络爬虫与深层网络爬虫等技术。网络爬虫是一种自动WEB网页抓取程序,可以从互联网中爬取(抓取)相关有用的网页资源。 传统网络爬虫从一个或者若干个初始的URL开始,爬取网页源码信息并从当前网页信息中提取新的URL放入队列,如此循环处理URL队列中URL对应的页面,直至满足系统设定的停止条件。通常聚焦爬虫在具体处理URL时,需要一定的网页分析算法,过滤与主题无关的URL链接,保留有用的URL链接并将其放入URL等待队列中,此外,还要根据一定的URL搜索策略从队列中选择下一个要抓取的URL,重复以上过程,直到达到系统的终止条件。聚焦爬虫获取的网页会被系统存储,进行一定的分析,过滤处理,获得与主题或领域相关性强的信息,它的关键技术包括(I)本体信息描述或定义;(2)网页URL搜索策略;(3)网页分析与过滤算法等。首先聚焦爬虫对本体信息的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念三种,基于目标网页特征的爬虫是针对预定的网页或网站进行抓取,基于目标数据模式的爬虫是针对符合一定模式的网页数据进行抓取,而基于领域概念的爬虫则是建立领域本体或字,并从语义角度去度量不同特征的重要程度。然后聚焦爬虫通常按照一定的搜索策略访问网页中的链接,按照网络的构造模式,搜索策略有广度优先、深度优先、最佳优先三种形式。深度优先搜索对网页的超链接遍历直到不能深入为止,广度优先搜索按层抓取网页中的超链接,最佳优先搜索通过一定的页面分析算法来获取目标网页的超链接。最后聚焦爬虫需要对抓取的页面进行分析过滤,去掉相关度低或者网页粒度小的页面,此页面分析算法归纳为三种基于网络拓扑结构、基于页面内容、基于用户访问行为。基于网络拓扑结构的思想,主要对已知的网页,对与其有直接或间接链接关系的对象做出评价;基于网页内容的分析算法利用网页内容特征对其进行网页评价,如对网页中文本和数据分析,计算出和主题的相关度;基于用户的访问模式可以反映资源的重要性和与主题相关性,能随时反映网络链接的变化。目前针对聚焦爬虫提出了一些不同的技术方案,比较著名的有Heritrix与Nutch等。前者由互联网档案馆和北欧国家图书馆联合开发的,采用了模块化的设计,它由一些核心类与可插件模块构成,核心类可以配置,满足实际配置需求,插件模块可任由第三方模块取代,可以不断的被其感兴趣的第三方改进,已成为一个比较成熟的开源爬虫,并被广泛使用。后者是一个开放源代码的WEB搜索引擎,提供了 Web聚焦爬虫模块(crawler),它首先根据WebDB生成一个待爬取网页的URL集合(list),接着下载线程根据I i st中的URL爬取网页,然后再根据爬取回来的网页WebDB进行更新,生成新的URL集合,里面包含未爬取或新发现的URL,如此操作,合并各阶段list中URL的索引,生成最终待爬取网页的索引。它的实现是通过一系列子操作的实现来完成的,针对这些子操作都提供了相应的子命令行,单独进行调试。通过以上相关聚焦爬虫的分析发现,目前已经存在的网络爬虫仍有许多值得研究的领域,例如传统的聚焦爬虫往往针对预先指定的网站或网页进行爬取,而如何合理的利用海量的互联网信息、根据领域信息快速丢弃与领域相关性弱的网页、有效定位所采集的信息资源等问题等方面研究较少。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种更为快速、有效的爬取网络资源的聚焦爬虫的设计方法。为实现上述专利技术目的,本专利技术聚焦爬虫的设计方法,其特征在于,包括以下步骤(I)、配置领域本体的描述信息并作为聚焦爬虫的模板,这些描述信息包括搜索关键词、筛选关键词、爬取关键词;其中,搜索关键词是指提交给搜索引擎进行资源检索的关键词,筛选关键词是指根据搜索引擎的反馈结果进行爬取的资源中包含的需要进行进一步筛选的超链接(URL)所对应的关键词,爬取关键词是指最终要爬取的有效信息所对应的关键词;(2)、选择爬虫模板的搜索关键词提交给搜索引擎进行资源检索,获取本领域网页URL信息,形成初始种子URL序列N ;(3)、从初始种子URL序列N中依次取出种子URL交给的爬虫处理线程3. I )、在爬虫处理线程进行分析处理种子URL时,根据取出的种子URL在初始种子URL序列N之前种子URL的有效性即是否提取到有用信息,以一定的爬取概率P选取种子URL进行资源爬取,实现对种子URL的有效过滤,提高URL的处理效率;3. 2)、依据爬虫模板的筛选关键词,对步骤3. I)选取的种子URL进行深度遍历搜索,并获取包含筛选关键词的URL超链接队列;3. 3)、依据爬虫模板的爬取关键词对步骤3. 2)获取的URL超链接队列中的URL依次进行页面源码分析,对页面中的标签进行权重分析,定位出有用信息在页面源码中的位置,提取出有用的信息,并存入数据库中。本专利技术的专利技术目的是这样实现的本专利技术聚焦爬虫的设计方法,通过搜索引擎检索到与领域相关的本领域网页URL资源,而非针对少数特定的网站,丰富了 URL资源的数量;针对URL资源与领域的相关性强弱,采用一定的概率选取种子URL进行资源爬取,即以一定的概率不处理与领域相关性弱的URL资源,提高了 URL资源的处理效率,使爬取资源更为快速;最后利用网页标签的权重分析有针对性的获取待爬取的信息,提高信息的有效性。附图说明图I是本专利技术聚焦爬虫的设计方法一种实施方式流程图。具体实施例方式下面结合附图对本专利技术的具体实施方式进行描述,以便本领域的技术人员更好地理解本专利技术。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本专利技术的主要内容时,这些描述在这里将被忽略。图I是本专利技术聚焦爬虫的设计方法一种实施方式流程图。在本实施例中,如图I所示,本专利技术聚焦爬虫设计方法包括以下步骤ST1、配置领域本体的描述信息并作为聚焦爬虫的模板,这些描述信息包括搜索关键词、筛选关键词、爬取关键词,分别作为爬虫模板的三级信息。在本实施中,采用百度作为搜索引擎,设置爬虫模板中的搜索关键词由本体名“软件公司”和扩展域“四川”两部分组成,筛选关键词包含一层即“联系我们(联系)”,爬取关键词包括“名称”、“地址(address ) ”、“联系方式(电话、手机、总机、热线)”、“邮箱(E-mai I) ”、“网址(公司主页)”、“传真(fax、FAX)”、“邮编(邮政编码)”、“QQ”,其中上面括号中的内容是关键词的同义词。配置好爬虫模板后,将会为这些关键词训练成正则表达式,为后面信息处理做准备,如“邮箱”对应的正则表达式是〃邮.10,50}箱〃。ST2、选择爬虫模板的搜索关键词提交给搜索引擎进行资源检索,获取本领域网页URL信息,形成初始种子URL序列N。页面下载是建立在HTTP请求和回应的基础上的,Java作为时下流行的开发语言,可以引用HttpParser、HttpClient等提供的强大而灵活易用的开源类库。为使抓取的网页本文档来自技高网
...

【技术保护点】
一种聚焦爬虫的设计方法,其特征在于,包括以下步骤:(1)、配置领域本体的描述信息并作为聚焦爬虫的模板,这些描述信息包括:搜索关键词、筛选关键词、爬取关键词;其中,搜索关键词是指提交给搜索引擎进行资源检索的关键词,筛选关键词是指根据搜索引擎的反馈结果进行爬取的资源中包含的需要进行进一步筛选的超链接(URL)所对应的关键词,爬取关键词是指最终要爬取的有效信息所对应的关键词;(2)、选择爬虫模板的搜索关键词提交给搜索引擎进行资源检索,获取本领域网页URL信息,形成初始种子URL序列N;(3)、从初始种子URL序列N中依次取出种子URL交给的爬虫处理线程:3.1)、在爬虫处理线程进行分析处理种子URL时,根据取出的种子URL在初始种子URL序列N之前种子URL的有效性即是否提取到有用信息,以一定的爬取概率P选取种子URL进行资源爬取,实现对种子URL的有效过滤,提高URL的处理效率;3.2)、依据爬虫模板的筛选关键词,对步骤3.1)选取的种子URL进行深度遍历搜索,并获取包含筛选关键词的URL超链接队列;3.3)、依据爬虫模板的爬取关键词对步骤3.2)获取的URL超链接队列中的URL依次进行页面源码分析,对页面中的标签进行权重分析,定位出有用信息在页面源码中的位置,提取出有用的信息,并存入数据库中。...

【技术特征摘要】
1.一种聚焦爬虫的设计方法,其特征在于,包括以下步骤 (1)、配置领域本体的描述信息并作为聚焦爬虫的模板,这些描述信息包括搜索关键词、筛选关键词、爬取关键词;其中,搜索关键词是指提交给搜索引擎进行资源检索的关键词,筛选关键词是指根据搜索引擎的反馈结果进行爬取的资源中包含的需要进行进一步筛选的超链接(URL)所对应的关键词,爬取关键词是指最终要爬取的有效信息所对应的关键词; (2)、选择爬虫模板的搜索关键词提交给搜索引擎进行资源检索,获取本领域网页URL信息,形成初始种子URL序列N ; (3)、从初始种子URL序列N中依次取出种子URL交给的爬虫处理线程 3. I)、在爬虫处理线程进行分析处理种子URL时,根据取出的种子URL在初始种子URL序列N之前种子URL的有效性即是否提取到有用信息,以一定的爬取概率P选取种子URL进行资源爬取,实现对种子URL的有效过滤,提高URL的处理效率; 3. 2)、依据爬虫模板的筛选关键词,对步骤3. I)选取的种子URL进行深度遍历搜索,并获取包含筛选关键词的URL超链接队列; 3. 3)、依据爬虫模板的爬取关键词对步骤3. 2)获取的URL超链接队列中的URL依...

【专利技术属性】
技术研发人员:陈端兵高辉傅彦张博
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1