通用的分布式采集系统技术方案

技术编号：16175741 阅读：44 留言：0更新日期：2017-09-09 02:58

本发明专利技术公开了一种通用分分布式采集系统，包括种子仓库、任务调度模块、数据抓取模块、正文页仓库；种子仓库用于存放需求站点的URL并设定信息源类别和采集时间间隔；任务调度模块用于协调各采集节点的任务负载量；数据抓取模块用于对分配过来的采集任务进行信息抓取，分为列表页抓取和正文页抓取；任务调度模块和数据抓取模块均包括服务端和客户端，并且都采用了分布式通讯框架；正文页仓库是用来存储解析出来的正文网页链接，为数据抓取模块中的正文页抓取提供站点入口。

全部详细技术资料下载

【技术实现步骤摘要】
通用的分布式采集系统
本专利技术涉及互联网全网数据的分布式高并发采集系统，特别涉及在大数据环境下的高效、实时的数据采集系统，尤其涉及一种通用的分布式采集系统。
技术介绍
近几年来，随着计算机和信息技术的迅猛发展和普及应用，行业应用系统的规模迅速扩大，行业应用所产生的数据呈爆炸性增长。百度目前的总数据量已超过1000PB，每天需要处理的网页数据达到10PB～100PB；淘宝累计的交易数据量高达100PB；Twitter每天发布超过2亿条消息，新浪微博每天发帖量达到8000万条；中国移动一个省的电话通联记录数据每月可达0.5PB～1PB；一个省会城市公安局道路车辆监控数据三年可达200亿条、总量120TB。而针对当前网络环境中大量数据的采集，传统的人工获取数据和单节点爬虫获取数据已经无法满足需求了，目前已有一些分布式的采集系统，但是在数据采集的各流程中都存在了一定的瓶颈，难以高效的合理利用机器的性能以及大规模的扩展。因此，寻求有效的数据采集技术、方法和手段已经成为社会的迫切需求。
技术实现思路
本专利技术要解决的技术问题是提供一种通用的分布式采集系统。为了解决上述技术问题，本专利技术采用的技术方案是，通用的分布式采集系统，包括种子仓库、任务调度模块、数据抓取模块、正文页仓库；种子仓库用于存放需求站点的URL并设定信息源类别和采集时间间隔；任务调度模块用于协调各采集节点的任务负载量；数据抓取模块用于对分配过来的采集任务进行信息抓取，分为列表页抓取和正文页抓取；任务调度模块和数据抓取模块均包括服务端和客户端，且任务调度模块和数据抓取模块都采用分布式通讯框架；正文页仓库...
通用的分布式采集系统

【技术保护点】
通用的分布式采集系统，其特征在于：包括种子仓库、任务调度模块、数据抓取模块、正文页仓库；所述种子仓库用于存放需求站点的URL并设定信息源类别和采集时间间隔；所述任务调度模块用于协调各采集节点的任务负载量；数据抓取模块用于对分配过来的采集任务进行信息抓取，且分为列表页抓取和正文页抓取；所述任务调度模块和数据抓取模块均包括服务端和客户端，且任务调度模块和数据抓取模块都采用分布式通讯框架；所述正文页仓库是用来存储解析出来的正文网页链接，为数据抓取模块中的正文页抓取提供站点入口。

【技术特征摘要】
1.通用的分布式采集系统，其特征在于：包括种子仓库、任务调度模块、数据抓取模块、正文页仓库；所述种子仓库用于存放需求站点的URL并设定信息源类别和采集时间间隔；所述任务调度模块用于协调各采集节点的任务负载量；数据抓取模块用于对分配过来的采集任务进行信息抓取，且分为列表页抓取和正文页抓取；所述任务调度模块和数据抓取模块均包括服务端和客户端，且任务调度模块和数据抓取模块都采用分布式通讯框架；所述正文页仓库是用来存储解析出来的正文网页链接，为数据抓取模块中的正文页抓取提供站点入口。2.根据权利要求1所述的分布式采集系统，其特征在于：所述任务调度模块采用的基于机器性能的动态哈希任务分配算法，包括以下步骤：(1)建立机器性能评分模型库，库里容纳了各种型号的cpu、内存以及磁盘性能评分标准；(2)获取机器配置信息；(3)获取机器性能评分；(4)计算性能加权打分w；(5)创建虚拟节点，虚拟节点基数为2，机器虚拟节点为2*w；(6)一致性哈希均衡分配任务到每个虚拟节点上；(7)虚拟节点映射到真实节点；(8)任务汇总。3.根据权利要求1所述的分布式采集系统，其特征在于：所述数据抓取模块包括列表页抓取和正文页抓取。4.根据权利要求3所述的分布式采集系统，其特征在于：所述列表页和正文页的识别所采用的列表页识别算法，包括以下步骤：(9)获取页面的时间字符串个数；(10)判断时间字符串个数如果大于设定的阈值则判定为待定列表页；(11)再判断页面锚文本的数量，如果大于设定的阈值，则...

【专利技术属性】
技术研发人员：胡淦，周银行，杨东，董郑江，陈焕，郑中华，
申请(专利权)人：安徽博约信息科技股份有限公司，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人