一种分布式流数据的采集方法技术

技术编号:15542117 阅读:156 留言:0更新日期:2017-06-05 11:12
本发明专利技术公开了一种分布式流数据的采集方法,包括:步骤1:Source接收Events或通过特殊机制产生Events,并将Events批量的放到一个或多个Channels;步骤2:Channel接收缓存Source输出Events,而当有Sink消费掉Channel中的数据Channel中的数据直到进入到下一个Channel中或者进入终端才会被删除;步骤3:Sink将events传输到下一跳或最终目的,成功完成后将events从channel移除,Sink会消费Channel中的数据,然后送给外部源或者其他Source。本发明专利技术的分布式流数据的采集方法,解决了关系库和大数据平台的数据复制问题,提高实时性和复制性能。

A method for collecting distributed stream data

The invention discloses a distributed stream data acquisition method, which comprises the following steps: receiving 1:Source Events or Events is produced by a special mechanism, and the Events in a batch or more Channels; step 2:Channel receive buffer Source output Events, and when Sink consumed Channel data in Channel data into the next Channel or enter the terminal will be deleted; step 3:Sink the events transmission to the next hop or the final goal, after the successful completion of the events will be removed from channel, Sink will consume the data in Channel, and then sent to an external source or other Source. The method of collecting distributed stream data solves the data replication problem of the relational database and the large data platform, and improves the real-time performance and the replication performance.

【技术实现步骤摘要】
一种分布式流数据的采集方法
本专利技术涉及分布式系统领域,特别是指一种分布式流数据的采集方法。
技术介绍
信息技术飞速发展导致数据规模极大增加,而且这些数据来源非常丰富,包括:批量日志数据,实时数据,流式数据;数据类型多样,包括:结构化数据,半结构化数据和非结构化数据,如何采集、存储和分析这些海量数据?传统的数据采集技术,因为数据来源比较单一,主要是数据库和文件方式进行存储,且数据量较小,大多采用比较单一的工具甚至程序脚本就可以完成数据采集工作。传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性、扩展性和高性能。而分布式大数据的采集数据来源广,包括批量采集,实时数据采集,流式数据采集;数据量巨大,通常都达到TB,PB级别;数据处理的性能和实时性要求高。因此,传统的集中采集和存储数据的处理方法,已经不能适应大数据的需求。目前在数据采集方面,主要存在的问题为:1)由于在海量数据采集过程中,往往数据源类型多、数据的生成规则复杂多样,海量数据的格式转换太大,传统的数据采集工具很容易失效,即对于同一数据对象,由于采用的编码规范、命名方法的差异等数据差异或者冲突使得在数本文档来自技高网...
一种分布式流数据的采集方法

【技术保护点】
一种分布式流数据的采集方法,其特征在于,包括:步骤1:Source接收Events或通过特殊机制产生Events,并将Events批量的放到一个或多个Channels;步骤2:Channel接收缓存Source输出Events,而当有Sink消费掉Channel中的数据Channel中的数据直到进入到下一个Channel中或者进入终端才会被删除;步骤3:Sink将events传输到下一跳或最终目的,成功完成后将events从channel移除,Sink会消费Channel中的数据,然后送给外部源或者其他Source。

【技术特征摘要】
1.一种分布式流数据的采集方法,其特征在于,包括:步骤1:Source接收Events或通过特殊机制产生Events,并将Events批量的放到一个或多个Channels;步骤2:Channel接收缓存Source输出Events,而当有Sink消费掉Channel中的数据Channel中的数据直到进入到下一个Channel中或者进入终端才会被删除;步骤3:Sink将events传输到下一跳或最终目的,成功完成后将events从channel移除,Sink会消费Channel中的数据,然后送给外部源或者其他Source。2.根据权利要求1所述的分布式流数据的采集方法,其特征在于,所述Source的类型包括:a)系统集成的Sources:Syslog(系统日志),Netcat;b)自动生成事件的Sources:Exec,SEQ;c)用于Agent和Agent之间通信的...

【专利技术属性】
技术研发人员:裴旭斌方舟沈志豪吴尚远王志强沈潇军王以良裘炜浩戚伟强龚小刚张秋霞王冠男张金帅
申请(专利权)人:国网浙江省电力公司北京国电通网络技术有限公司国网信息通信产业集团有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1