数据采集系统及数据采集方法技术方案

技术编号:14746246 阅读:85 留言:0更新日期:2017-03-01 22:39
本发明专利技术公开一种数据采集系统,包括采集器、分布式消息队列系统、云分拣器;其中:所述采集器用于采集业务日志服务器上的日志数据,将所采集的日志数据发送至所述共享传输通道;所述共享传输通道的接收端用于接收所述采集器采集的日志数据,所述共享传输通道的发送端用于将通道内的日志数据发送至所述分布式消息队列系统;所述云分拣器从所述分布式消息队列系统中读取日志数据,并对所述日志数据进行分拣处理,获得分拣数据,再将所述分拣数据存储至所述分布式消息队列系统;所述分布式消息队列系统将所接收到的数据和所存储的数据同步至文件存储系统。本发明专利技术避免了数据采集过程中,程序意外终止时的数据丢失,从而保证了数据的完整性。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,尤其涉及数据采集系统及数据采集方法
技术介绍
Flume是Cloudera提供的日志收集系统,该日志收集系统主要包括数据采集器Source、传输队列Channel、数据取出器Sink,其中Source用于对日志数据进行采集,并分成transtion和event放入Channel中进行缓存,Sink取出Channel中缓存的数据,并将其存储至相应的存储文件系统、数据库或者提交到远程服务器。但是上述Flume中使用的传输队列是基于jvm创建的用户空间内存,如果程序意外终止时存在该传输队列中的数据会丢失。
技术实现思路
本专利技术实施例的主要目的在于提供一种数据采集系统及数据采集方法,旨在避免数据采集过程中,程序意外终止时的数据丢失,从而保证了数据的完整性。为实现上述目的,本专利技术实施例提供了一种数据采集系统,包括采集器、共享传输通道、分布式消息队列系统、云分拣器;其中:所述采集器用于采集业务日志服务器上的日志数据,将所采集的日志数据发送至分布式消息队列系统;所述共享传输通道的接收端用于接收所述采集器采集的日志数据,所述共享传输通道的发送端用于将通道内的日志数本文档来自技高网...
数据采集系统及数据采集方法

【技术保护点】
一种数据采集系统,其特征在于,所述数据采集系统包括采集器、共享传输通道、分布式消息队列系统、云分拣器;其中:所述采集器用于采集业务日志服务器上的日志数据,将所采集的日志数据发送至所述共享传输通道;所述共享传输通道的接收端用于接收所述采集器采集的日志数据,所述共享传输通道的发送端用于将通道内的日志数据发送至所述分布式消息队列系统;所述云分拣器从所述分布式消息队列系统中读取日志数据,并对所述日志数据进行分拣处理,获得分拣数据,再将所述分拣数据存储至所述分布式消息队列系统;所述分布式消息队列系统将所接收到的数据和所存储的数据同步至文件存储系统。

【技术特征摘要】
1.一种数据采集系统,其特征在于,所述数据采集系统包括采集器、共享传输通道、分布式消息队列系统、云分拣器;其中:所述采集器用于采集业务日志服务器上的日志数据,将所采集的日志数据发送至所述共享传输通道;所述共享传输通道的接收端用于接收所述采集器采集的日志数据,所述共享传输通道的发送端用于将通道内的日志数据发送至所述分布式消息队列系统;所述云分拣器从所述分布式消息队列系统中读取日志数据,并对所述日志数据进行分拣处理,获得分拣数据,再将所述分拣数据存储至所述分布式消息队列系统;所述分布式消息队列系统将所接收到的数据和所存储的数据同步至文件存储系统。2.如权利要求1所述的数据采集系统,其特征在于,所述数据采集系统还包括存储盘、数据发送器;所述存储盘用于存储所述共享传输通道被写满时所述共享传输通道的日志数据;所述数据发送器从所述共享传输通道和所述存储盘中读取日志数据,并将所读取的日志数据发送至所述分布式消息队列系统。3.如权利要求1所述的数据采集系统,其特征在于,所述数据采集系统包括配置中心,用于配置分拣规则;所述云分拣器包括实时分拣引擎,所述实时分拣引擎用于按照所述配置中心的分拣规则,对从所述分布式消息队列系统中读取的所述日志数据进行分拣处理,获得分拣数据,再将该分拣数据存储至所述分布式消息队列系统中。4.如权利要求3所述的数据采集系统,其特征在于,所述云分拣器还包括备用分拣引擎,所述备用分拣引擎用于在实时分拣引擎无法进行分拣时,从所述文件存储系统中读取日志数据,并按照所述配置中心的分拣规则对所
\t述日志数据进行分拣处理,获得分拣数据,再将该分拣数据存储至所述文件存储系统;所述备用分拣引擎的分拣规则与实时分拣引擎的分拣规则相同。5.如权利要求3或4...

【专利技术属性】
技术研发人员:黄浩万春晓徐波
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1