一种数据采集系统和数据采集方法技术方案

技术编号:16874085 阅读:135 留言:0更新日期:2017-12-23 11:57
本发明专利技术提供了一种数据采集系统和数据采集方法,该数据采集系统包括:控制节点、存储节点和至少两个爬取节点;所述控制节点,用于根据获取到的至少一个主URL,确定至少两个待爬取URL,并将所述至少两个待爬取URL分发给所述至少两个爬取节点;每一个所述爬取节点,用于针对接收到的每一个所述待爬取URL,采集所述待爬取URL所对应网页上的数据,并从采集到的所述数据中获取目标数据发送给所述存储节点;所述存储节点,用于将各个所述爬取节点发送的所述目标数据存储到指定的存储空间。本方案能够提高数据采集的效率。

A data acquisition system and data acquisition method

The invention provides a data acquisition system and data acquisition method, including the data acquisition system: control nodes and storage nodes and at least two crawling nodes; the control node, according to access to at least one of the main URL, determined at least two to climb from the URL, and at least two to crawl the URL distribution to the at least two crawling nodes; each of the crawling nodes for receiving each of the crawling URL, collecting the crawling URL corresponding data on a web page, and the data collected from the acquisition the target data is transmitted to the storage node; the storage node, for each of the climb the target data storage from node into the specified memory space. This scheme can improve the efficiency of data acquisition.

【技术实现步骤摘要】
一种数据采集系统和数据采集方法
本专利技术涉及计算机
,特别涉及一种数据采集系统和数据采集方法。
技术介绍
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更前的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。通过对大数据进行分析,可以获得很多智能的、深入的且有价值的信息,对于企业的发展、社会的管理具有重要意义。在对大数据进行分析之前,首先需要采集大数据,而目前一般通过网络爬虫来获取大数据。目前,在通过网络爬虫采集数据时,在确定需要进行爬取的网页后,爬虫节点对网页上的信息进行爬取,获得网页上包括的数据。针对目前通过网络爬虫进行数据采集的方法,通常通过单节点爬虫爬取网页上的数据,受CPU(CentralProcessingUnit,中央处理器)、IO(Input/Output,输入/输出)和带宽等多重因素的限制,单节点爬虫爬取数据的效率较低,导致数据采集的效率较低。
技术实现思路
本专利技术实施例提供了一种数据采集系统和数据采集方法,能够提高数据采集的效率。第一方面,本专利技术实施例提供了一种数据采集系统,包括:本文档来自技高网...
一种数据采集系统和数据采集方法

【技术保护点】
一种数据采集系统,其特征在于,包括:控制节点、存储节点和至少两个爬取节点;所述控制节点,用于根据获取到的至少一个主URL,确定至少两个待爬取URL,并将所述至少两个待爬取URL分发给所述至少两个爬取节点;每一个所述爬取节点,用于针对接收到的每一个所述待爬取URL,采集所述待爬取URL所对应网页上的数据,并从采集到的所述数据中获取目标数据发送给所述存储节点;所述存储节点,用于将各个所述爬取节点发送的所述目标数据存储到指定的存储空间。

【技术特征摘要】
1.一种数据采集系统,其特征在于,包括:控制节点、存储节点和至少两个爬取节点;所述控制节点,用于根据获取到的至少一个主URL,确定至少两个待爬取URL,并将所述至少两个待爬取URL分发给所述至少两个爬取节点;每一个所述爬取节点,用于针对接收到的每一个所述待爬取URL,采集所述待爬取URL所对应网页上的数据,并从采集到的所述数据中获取目标数据发送给所述存储节点;所述存储节点,用于将各个所述爬取节点发送的所述目标数据存储到指定的存储空间。2.根据权利要求1所述的数据采集系统,其特征在于,所述控制节点、所述存储节点和所述至少两个爬取节点位于同一物理主机上;或者,所述控制节点、所述存储节点和所述至少两个爬取节点位于不同的物理主机上。3.根据权利要求1所述的数据采集系统,其特征在于,所述控制节点,用于针对每一个所述主URL,根据预先设定的爬取深度对所述主URL所对应网页进行解析,获得与所述主URL之间层级数满足所述爬取深度的至少一个第一URL,通过预先定义的正则表达式从所述至少一个第一URL中筛选包括预设关键词的第二URL,对所述第二URL进行去重处理后获得所述待爬取URL。4.根据权利要求1所述的数据采集系统,其特征在于,所述控制节点,用于根据各个所述爬取节点的性能参数,通过分布式消息传递的方式将所述至少两个待爬取URL分发给所述至少两个爬取节点。5.根据权利要求1所述的数据采集系统,其特征在于,每一个所述爬取节点,用于针对所述控制节点分发的每一个所述待爬取URL,依次对所述待爬取URL的HTML页面进行解析,通过预先定义的正则表达式从解析出的数据中筛选包括预设关键词的数据作为所述目标数据。6.根据权利要求1所述的数据采集系统,其特征在于,每一个所述爬取节点,对获取到的所述目标数据进行序列化处理和压缩处理,并将进行序列化处理和压缩处理后的所述目标数据发送给所述存储节点;所述存储节点,用于针对每一个所述爬取节点发送的所述目标数据,依次对所述目标数据进行解压处理和反序列化处理,并将进行解压处理和反序列化处理后的所述目标数据存储到所述指定的存储空间。7.根据权利要求...

【专利技术属性】
技术研发人员:邢文涛刘瑞慧于晓晨王岗
申请(专利权)人:山东浪潮云服务信息科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1