【技术实现步骤摘要】
一种基于消息中间件的数据采集系统、方法及装置
本申请涉及计算机
,特别涉及一种基于消息中间件的数据采集系统、方法及装置。
技术介绍
随着互联网技术的发展,数据激增,在分布式环境下,数据监控是十分有必要的。数据监控的前提是数据采集,然而,目前在分布式环境中缺少可靠的数据采集方案,为数据监控的实施带来困难。
技术实现思路
本申请的目的是提供一种基于消息中间件的数据采集系统、方法及装置,用以解决目前在分布式环境中缺少可靠的数据采集方案的问题。其具体方案如下:第一方面,本申请提供了一种基于消息中间件的数据采集系统,包括:主节点、消息中间件、多个子节点和数据库;其中,所述主节点用于获取数据源URL列表,并将所述数据源URL列表中的URL通过所述消息中间件分发给各个所述子节点;所述子节点基于Scrapy采集框架实现,用于根据接收到的URL进行数据采集,并将数据采集结果通过数据库连接池存储至所述数据库。优选的,所述子节点用于:根据接收到的URL对目标页面进行解析,得到数据采 ...
【技术保护点】
1.一种基于消息中间件的数据采集系统,其特征在于,包括:主节点、消息中间件、多个子节点和数据库;/n其中,所述主节点用于获取数据源URL列表,并将所述数据源URL列表中的URL通过所述消息中间件分发给各个所述子节点;/n所述子节点基于Scrapy采集框架实现,用于根据接收到的URL进行数据采集,并将数据采集结果通过数据库连接池存储至所述数据库。/n
【技术特征摘要】
1.一种基于消息中间件的数据采集系统,其特征在于,包括:主节点、消息中间件、多个子节点和数据库;
其中,所述主节点用于获取数据源URL列表,并将所述数据源URL列表中的URL通过所述消息中间件分发给各个所述子节点;
所述子节点基于Scrapy采集框架实现,用于根据接收到的URL进行数据采集,并将数据采集结果通过数据库连接池存储至所述数据库。
2.如权利要求1所述的基于消息中间件的数据采集系统,其特征在于,所述子节点用于:
根据接收到的URL对目标页面进行解析,得到数据采集结果,其中所述目标页面为以下任意类型:xpath,css,lxml。
3.如权利要求2所述的基于消息中间件的数据采集系统,其特征在于,所述子节点用于:
根据接收到的URL进行数据采集,将采集得到的数据存储至缓存中;在所述缓存中的数据满足目标条件时,将所述缓存中的数据作为数据采集结果通过数据库连接池存储至所述数据库,其中所述目标条件为数据量大于第一阈值或数据抓取深度大于第二阈值。
4.如权利要求3所述的基于消息中间件的数据采集系统,其特征在于,所述子节点用于:
每隔预设时间间隔根据接收到的URL进行数据采集。
5.如权利要求4所述的基于消息中间件的数据采集系统,其特征在于,所述子节点还用于:
根据所述数据采集结果的数据类型对所述数据采集结果进行数据清洗。
6.如权利要求1所述的基于消息中间件的数据采集系统,其特征在于,所述消息中间件为rabbit...
【专利技术属性】
技术研发人员:张玉良,陈烨,彭佳勇,屠宏伟,任丽娜,聂鑫,王平,
申请(专利权)人:牧原食品股份有限公司,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。