网页信息的获取系统技术方案

技术编号:8453103 阅读:317 留言:0更新日期:2013-03-21 17:37
本发明专利技术公开了一种网页信息的获取系统,其包括网页信息的获取装置及站点服务器,其中,所述网页信息的获取装置包括:网页抓取器,适于从站点服务器处抓取网页;页面信息解析器,适于根据预先设定的页面抽取规则,从所述网页的指定位置抽取指定页面信息;动作处理器,适于将所述指定页面信息进行结构化存储。根据本发明专利技术提供的网页信息的获取系统,在从站点服务器处抓取到网页之后,并不是直接存储整个网页的信息,而是根据页面抽取规则从网页的指定位置抽取指定页面信息,将该指定页面信息进行结构化存储。其中页面抽取规则可根据用户的需求而定制,通过对网页的信息做解析,满足了定制化抽取网页信息的需求。

【技术实现步骤摘要】

本专利技术涉及计算机网络
,具体涉及一种网页信息的获取系统
技术介绍
网络爬虫(又被称为网页蜘蛛、网络机器人,在一些社区中,更经常的被称为网页追逐者)是一种自动获取网页内容的程序或脚本,它是搜索引擎的重要组成部分,搜索引擎的优化在很大程度上就是针对网络爬虫而做出的优化。网络爬虫一般分为传统爬虫和聚焦爬虫。传统爬虫从一个或若干初始网页的URL(Uniform/Universal Resource Locator,统一资源定位符)开始,获得初始网页的URL ;在抓取网页的过程中,不断从当前页面上抽取新的网页的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列;然后,根据一定的搜索策略从队列中选择下一步要抓取的网页的URL,重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存储,进行一定的分析和过滤,并建立索引,以便之后的查询和检索。上述两种网络爬虫都是获取整个网页的信息,然后直接存储。这类爬虫不会对网页的信息做解析,无法满足定制化抽取网页信息的需求。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的网页信息的获取系统。根据本专利技术,提供了一种网页信息的获取系统,其包括网页信息的获取装置和站点服务器,其中,所述网页信息的获取装置包括网页抓取器,适于从站点服务器处抓取网页;页面信息解析器,适于根据预先设定的页面抽取规则,从所述网页的指定位置抽取指定页面信息;动作处理器,适于将所述指定页面信息进行结构化存储。根据本专利技术提供的网页信息的获取系统,在从站点服务器处抓取到网页之后,并不是直接存储整个网页的信息,而是根据页面抽取规则从网页的指定位置抽取指定页面信息,将该指定页面信息进行结构化存储。其中页面抽取规则可根据用户的需求而定制,通过对网页的信息做解析,满足了定制化抽取网页信息的需求。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中图I示出了根据本专利技术一个实施例的网页信息的获取方法的流程图;图2示出了根据本专利技术一个实施例的网页信息的获取装置的结构框图;以及图3示出了根据本专利技术一个实施例的网页信息的获取系统的结构框图。具体实施例方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图I示出了根据本专利技术一个实施例的网页信息的获取方法100的流程图。如图I所示,方法100始于步骤S101,步骤SlOl为抓取步骤,具体为从站点服务器处抓取网页。爬虫系统从站点服务器处抓取网页可以具体采用以下三种方法1)从站点服务器处直接下载网页,针对没有防抓取策略的站点可以采用这种方法。2)通过浏览器渲染方法从站点服务器处下载网页;由于有些站点使用了 ajax (Asynchronous JavaScript and XML,异步JavaScript和可扩展标记语言)技术,需要利用浏览器渲染的方法得到完整的页面结构。爬虫系统配备了几种内核的渲染模块,例如IE内核、Gecko (火狐)内核、Chrome内核等。3)为了防止爬虫系统频繁访问某个站点服务器导致被该站点服务器封IP的情况,爬虫系统可以通过代理服务器从站点服务器处下载网页,采用代理服务器下载网页可以确保抓取的及时性和不间断性。以上三种方法基本可以解决各种类型的站点的抓取问题。随后,方法100进入步骤S102,步骤S102为页面信息解析步骤,具体为根据预先设定的页面抽取规则,从网页的指定位置抽取指定页面信息。爬虫系统分析每个网页的页面结构,根据页面抽取规则抽取指定页面信息。其中页面抽取规则是定制的,可由人工配置。可选地,页面抽取规则设定了指定位置的前后的HTML标签。由于页面中的有效信息都在HTML标签中,指定位置一般也都是HTML标签,指定位置是由其前后的HTML标签所界定,该指定位置的HTML标签就是要抽取的指定页面信息。例如,对于来自某个站点服务器的网页,如果想要抽取该网页中的“游戏名称”字段,那么所定制的页面抽取规则应包括该字段前后的HTML标签<div>。爬虫系统分析该网页时,从中抽取出两个HTML标签<div>之间的信息,即“游戏名称”。对于下载文件(例如软件包)链接网页,从中抽取的指定页面信息通常包括下载文件链接,可选的,还包括该网页的父页面链接,将这些链接信息抽取出来以供后续根据该链接信息下载相应的下载文件。父页面链接用于溯源,在下载相应的下载文件的同时还能够查到该下载文件的来源,包括父页面或站点等等,便于后续对数据的维护以及提供相应的查询功能。进一步的,爬虫系统从站点服务器处抓取网页可以采用两种方式全量爬取方式和增量爬取方式。采用全量爬取方式还是增量爬取方式是根据需求而定的。例如对于一个新的游戏站点服务器,会收录很多新的游戏,这时需要将该站点服务器的网页全部遍历,即全量爬取,抓取所有游戏,后续再做统一处理(即页面信息解析和存储处理)。在该游戏站点服务器的游戏全部抓取完毕之后,该站点服务器每天还会更新游戏,这时需要采用增量爬取方式,抓取其每天更新的游戏。针对全量爬取方式的站点服务器进行一次性任务投递,即一次性的抓取来自该站点服务器的网页。首先通知任务调度器所要抓取的站点服务器的名称,任务调度器会自行查询该站点服务器的抓取规则,然后即可完成全量爬取。任务调度器将抓取任务投递给具体工作进程,所执行的抓取任务可以包括首先,从站点服务器处抓取初始网页。解析该初始网页,获取初始网页链接的新的网页的网址。根据新的网页的网址从站点服务器处抓取该新的网页。通常一个站点服务器从初始页面开始递归,会有十多层甚至更多,任务调度器从初始页面开始抓取,根据网页中的链接递归抓取更深层的网页,即接着执行全量递归子步骤,具体为解析新的网页,再获取新的网页链接的新的网页的网址,从站点服务器处抓取再获取的新的网页;重复执行该全量递归子步骤,直至满足停止抓取条件。通常而言,爬虫系统一般需要抓取前几层的网页即可满足需求,所以爬虫系统可以设置单个站点服务器的递归层数,递归抓取到该站点服务器的设定递归层数就满足停止抓取条件。在全量爬取到来自某站点服务器的网页后,对这些网页做统一处理,包括根据预先设定的页面抽取规则,从上述抓取的初始网页和所有新的网页的指定位置抽取指定页面信息。针对增量爬取方式的站点服务器进行周期性任务调度,即按照爬虫系统为站点服务器设定的调度周期抓取来自该站点服务器的网页。爬虫系统为每个站点服务器设定的调度周期可本文档来自技高网...

【技术保护点】
一种网页信息的获取系统,包括:网页信息的获取装置及站点服务器,其中,所述网页信息的获取装置包括:网页抓取器,适于从站点服务器处抓取网页;页面信息解析器,适于根据预先设定的页面抽取规则,从所述网页的指定位置抽取指定页面信息;动作处理器,适于将所述指定页面信息进行结构化存储。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐锐波路轶
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1