一种基于分布式爬虫的数据获取方法及其系统技术方案

技术编号:18940797 阅读:78 留言:0更新日期:2018-09-15 11:07
本发明专利技术公开一种基于分布式爬虫的数据获取方法,包括以下步骤:根据不同网页的属性对网页进行划分;针对网页的划分,确定至少一个爬虫抓取参数;按照确定的爬虫抓取参数抓取当前网页信息,并对抓取的网页信息进行解析,得到解析数据;对获得的解析数据进行编译;对编译后的网页数据信息进行汇总,并反馈至数据保存模块;用汇总后的网页数据信息进行存储。本发明专利技术基于分布式爬虫的数据获取方法及其系统,通过对网页进行划分,并按照网页的划分确定爬虫抓取参数,通过爬虫抓取参数可抓取网页信息,且跳转连接可与其他网页进行连接,实现网页信息的快速抓取,保证在较短的时间内完成数据的采集,提高了采集的效率,满足时间的要求。

A data acquisition method and system based on distributed crawler

The invention discloses a data acquisition method based on distributed crawler, which comprises the following steps: dividing the web pages according to the attributes of different web pages; determining at least one crawler crawling parameter for the division of the web pages; crawling the current web page information according to the determined crawler crawling parameters, and solving the crawled web page information. Analyze, get parsed data; compile the parsed data obtained; summarize the compiled web page data information, and feedback to the data storage module; store the data information with the collected web page data. Based on the distributed crawler's data acquisition method and system, the crawler's crawling parameters are determined by dividing the web pages, and the crawler's crawling parameters can crawl the web pages'information, and the jumping connection can connect with other web pages to realize the fast crawling of the web pages' information and ensure the shorter time. Data collection is completed in time, which improves the efficiency of acquisition and meets the requirement of time.

【技术实现步骤摘要】
一种基于分布式爬虫的数据获取方法及其系统
本专利技术属于网络数据采集
,涉及到一种基于分布式爬虫的数据获取方法及其系统。
技术介绍
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(SearchEngine),例如传统的通用搜索引擎AltaVista,Yahoo和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,因此,网络爬虫应运而生,网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。在爬虫抓取大量网站数据中,通常每个网页的类型不同,造成网页抓取困难,且对于不同的网页需要设置不同爬虫抓取参数,造成抓取的速度慢,甚至陷入循环抓取的死循环,造成计算机的运行负荷,为了方便对网页进行快速抓取,提高爬虫抓取的效率,现设计一种基于分布式爬虫的数据获取方法及其系统。
技术实现思路
本专利技术的目的在于提供一种基于分布式爬虫的数据获取方法及其系统,通过对网页进行划分,并按照网页的划分确定爬虫抓取参数,通过爬虫抓取参数可抓取网页信息,且跳转连接可与其他网页进行连接,实现网页信息的快速抓取,解决了现有爬虫抓取的过程中,存在抓取效率低的问题。本专利技术的目的可以通过以下技术方案实现:一种基于分布式爬虫的数据获取方法,包括以下步骤:S1、根据不同网页的属性对网页进行划分;S2、针对网页的划分,确定至少一个爬虫抓取参数;S3、按照确定的爬虫抓取参数抓取当前网页信息,并对抓取的网页信息进行解析,得到解析数据;S4、对获得的解析数据进行编译,得到用户能够识别的网页数据信息;S5、对编译后的网页数据信息进行汇总,并反馈至数据保存模块;S6、用汇总后的网页数据信息进行存储。一种基于分布式爬虫的数据获取系统,包括网页分类模块、策略抓取模块、解析模块、编译模块、数据反馈模块和数据保存模块;所述网页分类模块用于对不同网页的属性进行划分,将相同属性的网页划分为同一类;所述策略抓取模块根据网页的不同划分,确定至少一个爬虫抓取参数;所述解析模块按照爬虫抓取参数从当前的网页上抓取网页信息,并对抓取的网页信息进行解析,得到解析数据;所述编译模块用于将解析模块根据不同解析规则而获得的解析数据进行编译,得到用户可识别的网页数据信息,并将编译后的网页数据信息发送至数据反馈模块;所述数据反馈模块,对接收的编译后的网页数据信息进行汇总,并将汇总后的网页数据信息反馈至数据保存模块;所述数据保存模块用于对数据反馈模块反馈的汇总后的网页数据信息进行存储。进一步地,所述策略抓取模块至少包括一个跳转连接,用于与其他网页进行连接。进一步地,所述解析模块包括类型判断单元和解析单元,所述类型判断单元用于对获取的网页类型进行判断;解析单元通过根据网页的不同类型,对网页上的数据信息进行解析。本专利技术的有益效果:本专利技术基于分布式爬虫的数据获取方法及其系统,通过对网页进行划分,并按照网页的划分确定爬虫抓取参数,通过爬虫抓取参数可抓取网页信息,且跳转连接可与其他网页进行连接,实现网页信息的快速抓取,保证在较短的时间内完成数据的采集,提高了采集的效率,满足时间的要求。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种基于分布式爬虫的数据获取方法的示意图;图2为本专利技术一种基于分布式爬虫的数据获取系统的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1所示,本专利技术为一种基于分布式爬虫的数据获取方法,包括以下步骤:S1、根据不同网页的属性对网页进行划分;S2、针对网页的划分,确定至少一个爬虫抓取参数;S3、按照确定的爬虫抓取参数抓取当前网页信息,并对抓取的网页信息进行解析,得到解析数据;S4、对获得的解析数据进行编译,得到用户能够识别的网页数据信息;S5、对编译后的网页数据信息进行汇总,并反馈至数据保存模块;S6、用汇总后的网页数据信息进行存储。如图2所示,一种基于分布式爬虫的数据获取系统,包括网页分类模块、策略抓取模块、解析模块、编译模块、数据反馈模块和数据保存模块;网页分类模块用于对不同网页的属性进行划分,将相同属性的网页划分为同一类;策略抓取模块根据网页的不同划分,确定至少一个爬虫抓取参数,其中,策略抓取模块至少包括一个跳转连接,用于与其他网页进行连接,实现网页的跳转;解析模块按照爬虫抓取参数从当前的网页上抓取网页信息,并对抓取的网页信息进行解析,得到解析数据,解析模块包括类型判断单元和解析单元,其中,类型判断单元用于对获取的网页类型进行判断,所述网页类型包括主页、分页和详细页;解析单元通过根据网页的不同类型,对网页上的数据信息进行解析;若当前的网页类型为主页,则根据主页解析的相应规则,对网页上的数据信息进行解析得到解析数据,若当前的网页类型为分页,则根据分页解析的相应规则,对网页上的数据信息进行解析得到解析数据,若当前网页类型为详情页,则根据详情页解析的相应规则,对网页四大行的数据信息进行解析得到解析数据;编译模块用于将解析模块根据不同解析规则而获得的解析数据进行编译,得到用户可识别的网页数据信息,并将编译后的网页数据信息发送至数据反馈模块;数据反馈模块,对接收的编译后的网页数据信息进行汇总,并将汇总后的网页数据信息反馈至数据保存模块;数据保存模块用于对数据反馈模块反馈的汇总后的网页数据信息进行存储。本专利技术基于分布式爬虫的数据获取方法及其系统,通过对网页进行划分,并按照网页的划分确定爬虫抓取参数,通过爬虫抓取参数可抓取网页信息,且跳转连接可与其他网页进行连接,实现网页信息的快速抓取,保证在较短的时间内完成数据的采集,提高了采集的效率,满足时间的要求。以上内容仅仅是对本专利技术的构思所作的举例和说明,所属本
的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离专利技术的构思或者超越本权利要求书所定义的范围,均应属于本专利技术的保护范围。本文档来自技高网
...

【技术保护点】
1.一种基于分布式爬虫的数据获取方法,其特征在于,包括以下步骤:S1、根据不同网页的属性对网页进行划分;S2、针对网页的划分,确定至少一个爬虫抓取参数;S3、按照确定的爬虫抓取参数抓取当前网页信息,并对抓取的网页信息进行解析,得到解析数据;S4、对获得的解析数据进行编译,得到用户能够识别的网页数据信息;S5、对编译后的网页数据信息进行汇总,并反馈至数据保存模块;S6、用汇总后的网页数据信息进行存储。

【技术特征摘要】
1.一种基于分布式爬虫的数据获取方法,其特征在于,包括以下步骤:S1、根据不同网页的属性对网页进行划分;S2、针对网页的划分,确定至少一个爬虫抓取参数;S3、按照确定的爬虫抓取参数抓取当前网页信息,并对抓取的网页信息进行解析,得到解析数据;S4、对获得的解析数据进行编译,得到用户能够识别的网页数据信息;S5、对编译后的网页数据信息进行汇总,并反馈至数据保存模块;S6、用汇总后的网页数据信息进行存储。2.一种基于分布式爬虫的数据获取系统,其特征在于:包括网页分类模块、策略抓取模块、解析模块、编译模块、数据反馈模块和数据保存模块;所述网页分类模块用于对不同网页的属性进行划分,将相同属性的网页划分为同一类;所述策略抓取模块根据网页的不同划分,确定至少一个爬虫抓取参数;所述解析模块按照爬虫抓取参数从当前的网页上抓...

【专利技术属性】
技术研发人员:王华伟
申请(专利权)人:合肥俊刚机械科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1