The invention discloses a data acquisition system with high concurrency of parallel computing, including scheduling business data management platform, center, collector, and data stream service node; the service data management platform for content and site characteristics according to different configuration to acquisition task site configuration module and storage and the acquisition rules the acquisition tasks assigned to the distributor; the dispatch center includes at least two will be used for collecting the task into sub tasks of the distributor; the collector is used for collection strategy implementation of the preset crawling task operation for data acquisition based on the collected data is sent to the service flow; flow service for data collection, aggregation, and send the data to the corresponding data nodes are retrieved and stored according to business logo. The invention also discloses a large data collection system with high concurrent and parallel computing, which improves the acquisition ability of large data acquisition system and the real-time performance of data processing.
【技术实现步骤摘要】
一种高并发并行计算的大数据采集系统及方法
本专利技术涉及动态规划、并行计算及网格计算领域,尤其涉及一种高并发并行计算的大数据采集系统及方法。
技术介绍
现有大数据采集架构中主要利用网络蜘蛛技术如Heritrix、PySpider等对互联网数据进行实时抓取,但是专利技术人在研究大数据采集架构过程中发现,目前线上的对互联网数据进行实时抓取的大数据采集架构都是轻量级的,而且现有大数据采集架构将互联网数据发送到数据中心的实时性不高。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种高并发并行计算的大数据采集系统及方法,提高大数据采集架构的采集能力和处理数据的实时性。为了解决上述技术问题,本专利技术提供了一种高并发并行计算的大数据采集系统,包括:业务数据管理平台、调度中心、采集器、流服务和数据节点;所述业务数据管理平台包括站点配置模块和采集规则库;所述调度中心包括代理服务器和至少两个分发服务器;所述数据节点模块包括至少两个数据节点;所述站点配置模块,用于根据不同内容和网站特点配置待采集任务;所述采集规则库,用于存储并将待采集任务分配给相应的所述分发服务器;所述分发服务器 ...
【技术保护点】
一种高并发并行计算的大数据采集系统,其特征在于,包括:业务数据管理平台、调度中心、采集器、流服务和数据节点;所述业务数据管理平台包括站点配置模块和采集规则库;所述调度中心包括代理服务器和至少两个分发服务器;所述数据节点模块包括至少两个数据节点;所述站点配置模块,用于根据不同内容和网站特点配置待采集任务;所述采集规则库,用于存储并将待采集任务分配给相应的所述分发服务器;所述分发服务器,用于将待采集任务进行划分成子任务,并由所述代理服务器将子任务映射到采集器;所述采集器,用于基于预设的采集策略执行爬取所述子任务的操作,以进行数据采集,并将采集数据发送至所述流服务;所述流服务,用 ...
【技术特征摘要】
1.一种高并发并行计算的大数据采集系统,其特征在于,包括:业务数据管理平台、调度中心、采集器、流服务和数据节点;所述业务数据管理平台包括站点配置模块和采集规则库;所述调度中心包括代理服务器和至少两个分发服务器;所述数据节点模块包括至少两个数据节点;所述站点配置模块,用于根据不同内容和网站特点配置待采集任务;所述采集规则库,用于存储并将待采集任务分配给相应的所述分发服务器;所述分发服务器,用于将待采集任务进行划分成子任务,并由所述代理服务器将子任务映射到采集器;所述采集器,用于基于预设的采集策略执行爬取所述子任务的操作,以进行数据采集,并将采集数据发送至所述流服务;所述流服务,用于对采集数据进行聚合,并根据业务的标识将聚合的采集数据发送至相应的数据节点进行检索和存储。2.根据权利要求1所述的一种高并发并行计算的大数据采集系统,其特征在于,所述分发服务器建立有完成端口,所述网络爬虫端创建有用于绑定所述完成端口并监听所述完成端口连接请求的socket。3.根据权利要求1所述的一种高并发并行计算的大数据采集系统,其特征在于,所述采集器包括链接生成单元及网络爬虫单元;其中,所述链接生成单元,用于下载Web页面并生成DOM模型,通过识别处理生成连接节点图并对所述节点图中的各节点进行深度遍历,以获取所需连接组成链接集;所述网络爬虫单元,用于根据Web页面的样式生成视觉树,并对所述视觉树的重要分进行支定位,从而对与所述链接集对应的页面正文结点集合进行选举,并将选举成功的正文结点列表进行去杂质处理,对抽取文本重排段落,得到采集数据。4.根据权利要求1所述的一种高并发并行计算的大数据采集系统,其特征在于,所述数据节点,还用于利用消息队列存储所述流服务发送的标记有业务标识的采集数据。5.根据权利要求4所述的一种高并发并行计算的大数据采集系统,其特征在于,所述数据节点...
【专利技术属性】
技术研发人员:晋彤,李永康,
申请(专利权)人:广州特道信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。