基于网页数据抓取的垂直智能爬虫数据收集方法技术

技术编号:11022889 阅读:102 留言:0更新日期:2015-02-11 12:00
本发明专利技术涉及一种基于网页数据抓取的垂直智能爬虫数据收集方法,其特点是:首先,通过启停入口配置模块,将爬虫初始入口地址配置到启动模块中。之后,爬虫控制系统按照设定的抓取规则和抓取流程,进行深度优先算法开始遍历抓取网页。最终,爬虫通过规则配置系统的规则序列对,对页面数据进行解析提取,对提取出的二维结构数据进行存储。由此,能够满足爬虫通用性要求,在具体业务逻辑上增加解析规则配置,抓取网页深度,抓取线程,数据库配置或索引配置,就可以开启智能化抓取采集信息。能够有效构成智能垂直爬虫框架,同时,能够实现数据自动归档,分类入库,可采用分布式键值对数据库存储的方式。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种,其特点是:首先,通过启停入口配置模块,将爬虫初始入口地址配置到启动模块中。之后,爬虫控制系统按照设定的抓取规则和抓取流程,进行深度优先算法开始遍历抓取网页。最终,爬虫通过规则配置系统的规则序列对,对页面数据进行解析提取,对提取出的二维结构数据进行存储。由此,能够满足爬虫通用性要求,在具体业务逻辑上增加解析规则配置,抓取网页深度,抓取线程,数据库配置或索引配置,就可以开启智能化抓取采集信息。能够有效构成智能垂直爬虫框架,同时,能够实现数据自动归档,分类入库,可采用分布式键值对数据库存储的方式。【专利说明】
本专利技术涉及一种数据收集方法,尤其涉及一种。
技术介绍
爬虫,又称为蜘蛛,它不是昆虫的名称,而是人们为了形象描述计算机程序在网络不断通过定制的入口网址去提取网页的链接,并根据这些链接再度抓取提取更深的其它未知的链接,以此下去,将这样的程序抓取形为形容成类似爬虫似的动作,称之为爬虫,爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。 关于垂直爬虫,垂直搜索的核心技术实际上就是智能爬虫的技术,是如何将定向或者非定向的网页抓取下来并进行分析后得到格式化数据的技术。主要用来精确的提取规则的二维表数据,可以方便建立索引查询,数据分类,后期数据处理。 但是,以往传统垂直抓取程序,需要将解析,以及抓取逻辑强耦合到整个模块中,不便于后期的维护和功能扩展,维护成本高,且效率较氏,无框架伸缩性。
技术实现思路
本专利技术的目的就是为了解决现有技术中存在的上述问题,提供一种。 本专利技术的目的通过以下技术方案来实现:,其包括以下步骤:步骤①,通过启停入口配置模块,将爬虫初始入口地址配置到启动模块中;步骤②,爬虫控制系统按照设定的抓取规则和抓取流程,进行深度优先算法开始遍历抓取网页;步骤③,爬虫通过规则配置系统的规则序列对,对页面数据进行解析提取,对提取出的二维结构数据进行存储。 上述的,其中:步骤①所述的配置模块、启动模块位于服务器中,爬虫初始入口地址通过指定的爬虫网址列表文件进行静态导入,或是,通过将爬虫入口网址放到数据库中进行指定。 进一步地,上述的,其中:步骤②所述的抓取规则是对爬虫入口地址是将每一条合法的http网址一行一条的放入到入口列表文件中,或是一条网址在数据库中存放一行,抓取流程如下,根据配置文件中的提供爬虫入口网址列表进行抓取,按照配置的抓取深度进行遍历,首先取一条网址进行抓取,然后读取第一层解析规则,将第一层的解析规划解析后得到的数据传递到第二层,第二层进行深度抓取的时候,采用第一层解析提取到的网址进行再次抓取,并根据解析规则列表中的规则进行解析,并将解析得到的数据同第一层进行合并,传递到第三层,以此类推,直到配置的最大层数,一条深度抓取结束后,会依次向上返回获取的数据,并根据数据配置将抓取提取到的数据保存到指定的存储介质中,所述的存储介质是磁盘空间上的自定义的数据结构文件,或是,分布式键值对形式的数据库,或是,用Iucene索引分词后进行索引文件存储,所述的爬虫初始入口地址至少配置一个。 更进一步地,上述的,其中:步骤③所述的规则序列对是将解析页面提取有用数据的正则表达式按照层次,保存节点名,按照列表的形式通过配置系统手工配置到系统中,抓取程序按层依次调用每层中的抓取规则进行提取使用,当某一层的正则不适合其指定的层时,会发生解析错误并返回空数据,直到抓取完成设定的层次抓取,每一个抓取线程中的解析规则是依次解析提取,解析提取到的数据存放在服务器内存中,当完成一条完整的抓取层次后,再将数据存入到存储媒介中。 更进一步地,上述的,其中:步骤③所述的储存方式为健值对存储方式,或是为分布式数据库存储方式,或是为文件索引式数据库存储方式。 再进一步地,上述的,其中:所述分布式数据库存储方式,将抓取的数据进行编号,通过机器选择后,将数据推送到指定的存储器中,并将数据存放位置存放到爬虫节点服务器上。 本专利技术技术方案的优点主要体现在:能够满足爬虫通用性要求,适合各类垂直抓取需求,扩展方便,插件式开发。在具体业务逻辑上增加解析规则配置,抓取网页深度,抓取线程,数据库配置或索引配置,就可以开启智能化抓取采集信息。能够有效构成智能垂直爬虫框架,可以基于强大的前台WEB监控程序,控制抓取过程中的各种操作,以及实时显示抓取的进程,数据的完整情况,自动验证抓取过种中数据的准确性。同时,能够实现数据自动归档,分类入库,可采用分布式键值对数据库存储的方式。由此,可以很方便从存储容量水平方向上伸缩数据库,进行数据库扩容。抓取处理的数据不受抓取机器的存储空间限制,可以通过配置将数据自动通过内部快速交换网络迅速存储到存储服务器中。 【专利附图】【附图说明】 图1是的实际实施示意图。 【具体实施方式】 如图1所示的,其特征在于包括以下步骤:步骤①,通过启停入口配置模块,将爬虫初始入口地址配置到启动模块中。步骤②,爬虫控制系统按照设定的抓取规则和抓取流程,进行深度优先算法开始遍历抓取网页。步骤③,爬虫通过规则配置系统的规则序列对,对页面数据进行解析提取,对提取出的二维结构数据进行存储。 就本专利技术一较佳的实施方式来看,为了便于后续的配置使用,配置模块、启动模块位于服务器中,爬虫初始入口地址通过指定的爬虫网址列表文件进行静态导入,或是,通过将爬虫入口网址放到数据库中进行指定。 进一步来看,考虑到规则满足日后的应用需要,有利于爬虫的工作,抓取规则是对爬虫入口地址是将每一条合法的http网址一行一条的放入到入口列表文件中,或是一条网址在数据库中存放一行。抓取流程如下,根据配置文件中的提供爬虫入口网址列表进行抓取,按照配置的抓取深度进行遍历,首先取一条网址进行抓取,然后读取第一层解析规贝U。之后,将第一层的解析规划解析后得到的数据传递到第二层,第二层进行深度抓取的时候。在此期间,采用第一层解析提取到的网址进行再次抓取,并根据解析规则列表中的规则进行解析,并将解析得到的数据同第一层进行合并,传递到第三层。这样,以此类推,直到配置的最大层数,一条深度抓取结束后,会依次向上返回获取的数据,并根据数据配置将抓取提取到的数据保存到指定的存储介质中。 考虑到数据储存的便利,存储介质是磁盘空间上的自定义的数据结构文件,或是,分布式键值对形式的数据库。或是,用Iucene索引分词后进行索引文件存储。为了便数据抓取,爬虫初始入口地址至少配置一个。换句话说,最大个数据没有特别限制,可以根据机器性能和抓取深度,适当调整入口地址数目。 再进一步来看,规则序列对是将解析页面提取有用数据的正则表达式按照层次,保存节点名,按照列表的形式通过配置系统手工配置到系统中,抓取程序按层依次调用每层中的抓取规则进行提取使用。当某一层的正则不适合其指定的层时,会发生解析错误并返回空数据,直到抓取完成设定的层次抓取,每一个抓取线程中的解析规则是依次解析提取,解析提取到的数据存放在服务器内存中,当完成一条完整的抓取层次后,再将数据存入到存储媒介中。 当然,为了适应不同应用对储存的需求,储存方式为健值对存储方式,或是为分布式数据库存储方式。当然,亦可以为文件索引式数据库存储方式。具体来说,分布本文档来自技高网...

【技术保护点】
基于网页数据抓取的垂直智能爬虫数据收集方法,其特征在于包括以下步骤:步骤①,通过启停入口配置模块,将爬虫初始入口地址配置到启动模块中; 步骤②,爬虫控制系统按照设定的抓取规则和抓取流程,进行深度优先算法开始遍历抓取网页;步骤③,爬虫通过规则配置系统的规则序列对,对页面数据进行解析提取,对提取出的二维结构数据进行存储。

【技术特征摘要】

【专利技术属性】
技术研发人员:王专张海龙马和平郭凤林王晓钟庞绍进王祚德靳彩娟
申请(专利权)人:同程网络科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1