一种高效的分布式大数据采集系统技术方案

技术编号：21628528 阅读：354 留言：0更新日期：2019-07-17 10:57

本发明专利技术公开了一种高效的分布式大数据采集系统，该系统包括：抓取模块、IP代理池模块、解析模块、URL处理模块以及数据存储模块；其中，所述抓取模块是从URL队列中获取要爬取的URL后便从Internet抓取指定的原始数据；所述IP代理池模块负责给所述抓取模块提供可用代理；所述解析模块用于对数据进行预处理与抽取；所述URL处理模块主要用于对URL相关数据的处理；所述数据存储模块负责对数据进行规则化和持久化，为后续的分析和处理奠定基础。

An Efficient Distributed Large Data Acquisition System

全部详细技术资料下载

【技术实现步骤摘要】
一种高效的分布式大数据采集系统
本专利技术属于大数据采集
，涉及一种高效的分布式大数据采集系统。
技术介绍
随着移动互联网、电子商务、社交网络等互联网新兴技术的普及和应用，图像、视频、日志等网络数据呈现爆炸性增长。淘宝网近4亿的会员每天产生的商品交易数据约20TB，Facebook约10亿的用户每天产生的日志数据超过300TB，大数据时代已然来临。数据是实现大数据研究的基础，传统的数据采集技术方案已经难以满足快速采集高质量的数据集的需求，所以如何高效地采集海量的高质量数据对大数据应用与研究具有极其重要的作用。新的问题和需求必将带来新的挑战，具体体现为高质量大数据的高效采集，如何在错综复杂的信息中高效的对信息进行抓取及分析，是现在急需解决的一个重要问题。
技术实现思路
本专利技术目的在于提供一种高效的分布式大数据采集系统，针对传统的数据采集技术方案已无法高效的采集海量的高质量数据集的问题，采用构造标签树的方法，借助比较标签树节点的权值来剪枝掉无用的信息块，并引入IP代理池技术，通过切换代理来保证系统能持续工作，有效地免去无用信息的解析时间以及网页访问频数限制的等待时间，提高了数据的采集效率。为解决上述技术问题，本专利技术采用如下的技术方案：一种高效的分布式大数据采集系统，该系统包括：抓取模块、IP代理池模块、解析模块、URL处理模块以及数据存储模块；其中，所述抓取摸块从URL队列中获取要爬取的URL后便从Internet抓取指定的原始数据；所述IP代理池模块负责给所述抓取模块提供可用代理；所述解析模块用于对数据进行预处理与抽取；所述URL处理模块主要用于对...

【技术保护点】
1.一种高效的分布式大数据采集系统，其特征在于，所述系统包括：抓取模块、IP代理池模块、解析模块、URL处理模块以及数据存储模块；其中，所述抓取摸块从URL队列中获取要爬取的URL后便从Internet抓取指定的原始数据；所述IP代理池模块负责给所述抓取模块提供可用代理；所述解析模块用于对数据进行预处理与抽取；所述URL处理模块主要用于对URL相关数据的处理；所述数据存储模块负责对数据进行规则化和持久化，为后续的分析和处理奠定基础。

【技术特征摘要】
1.一种高效的分布式大数据采集系统，其特征在于，所述系统包括：抓取模块、IP代理池模块、解析模块、URL处理模块以及数据存储模块；其中，所述抓取摸块从URL队列中获取要爬取的URL后便从Internet抓取指定的原始数据；所述IP代理池模块负责给所述抓取模块提供可用代理；所述解析模块用于对数据进行预处理与抽取；所述URL处理模块主要用于对URL相关数据的处理；所述数据存储模块负责对数据进行规则化和持久化，为后续的分析和处理奠定基础。2.根据权利要求1所述的一种高效的分布式大数据采集系统，其特征在于，所述IP代理池...

【专利技术属性】
技术研发人员：周峻松，徐继峰，祁建明，陈墩金，
申请(专利权)人：广州明领基因科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人