一种基于消息中间件的数据采集系统、方法及装置制造方法及图纸

技术编号:27935828 阅读:44 留言:0更新日期:2021-04-02 14:16
本申请公开了一种基于消息中间件的数据采集系统,包括主节点、消息中间件、多个子节点和数据库,其中,主节点用于获取数据源URL列表,并将数据源URL列表中的URL通过消息中间件分发给各个子节点;子节点基于Scrapy采集框架实现,用于根据接收到的URL进行数据采集,并将数据采集结果通过数据库连接池存储至数据库。可见,该系统通过对Scrapy采集框架进行扩展,实现了一种高效的分布式环境下的数据采集方案,且各个节点和消息中间件稳定性较高,能够保证整个数据采集系统的可靠性。此外,本申请还提供了一种基于消息中间件的数据采集方法及装置,其技术效果与上述系统相对应。

【技术实现步骤摘要】
一种基于消息中间件的数据采集系统、方法及装置
本申请涉及计算机
,特别涉及一种基于消息中间件的数据采集系统、方法及装置。
技术介绍
随着互联网技术的发展,数据激增,在分布式环境下,数据监控是十分有必要的。数据监控的前提是数据采集,然而,目前在分布式环境中缺少可靠的数据采集方案,为数据监控的实施带来困难。
技术实现思路
本申请的目的是提供一种基于消息中间件的数据采集系统、方法及装置,用以解决目前在分布式环境中缺少可靠的数据采集方案的问题。其具体方案如下:第一方面,本申请提供了一种基于消息中间件的数据采集系统,包括:主节点、消息中间件、多个子节点和数据库;其中,所述主节点用于获取数据源URL列表,并将所述数据源URL列表中的URL通过所述消息中间件分发给各个所述子节点;所述子节点基于Scrapy采集框架实现,用于根据接收到的URL进行数据采集,并将数据采集结果通过数据库连接池存储至所述数据库。优选的,所述子节点用于:根据接收到的URL对目标页面进行解析,得到数据采集结果,其中所述目标本文档来自技高网...

【技术保护点】
1.一种基于消息中间件的数据采集系统,其特征在于,包括:主节点、消息中间件、多个子节点和数据库;/n其中,所述主节点用于获取数据源URL列表,并将所述数据源URL列表中的URL通过所述消息中间件分发给各个所述子节点;/n所述子节点基于Scrapy采集框架实现,用于根据接收到的URL进行数据采集,并将数据采集结果通过数据库连接池存储至所述数据库。/n

【技术特征摘要】
1.一种基于消息中间件的数据采集系统,其特征在于,包括:主节点、消息中间件、多个子节点和数据库;
其中,所述主节点用于获取数据源URL列表,并将所述数据源URL列表中的URL通过所述消息中间件分发给各个所述子节点;
所述子节点基于Scrapy采集框架实现,用于根据接收到的URL进行数据采集,并将数据采集结果通过数据库连接池存储至所述数据库。


2.如权利要求1所述的基于消息中间件的数据采集系统,其特征在于,所述子节点用于:
根据接收到的URL对目标页面进行解析,得到数据采集结果,其中所述目标页面为以下任意类型:xpath,css,lxml。


3.如权利要求2所述的基于消息中间件的数据采集系统,其特征在于,所述子节点用于:
根据接收到的URL进行数据采集,将采集得到的数据存储至缓存中;在所述缓存中的数据满足目标条件时,将所述缓存中的数据作为数据采集结果通过数据库连接池存储至所述数据库,其中所述目标条件为数据量大于第一阈值或数据抓取深度大于第二阈值。


4.如权利要求3所述的基于消息中间件的数据采集系统,其特征在于,所述子节点用于:
每隔预设时间间隔根据接收到的URL进行数据采集。


5.如权利要求4所述的基于消息中间件的数据采集系统,其特征在于,所述子节点还用于:
根据所述数据采集结果的数据类型对所述数据采集结果进行数据清洗。


6.如权利要求1所述的基于消息中间件的数据采集系统,其特征在于,所述消息中间件为rabbit...

【专利技术属性】
技术研发人员:张玉良陈烨彭佳勇屠宏伟任丽娜聂鑫王平
申请(专利权)人:牧原食品股份有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1