一种基于flume系统的数据处理方法及其装置制造方法及图纸

技术编号:14253792 阅读:64 留言:0更新日期:2016-12-22 16:14
本发明专利技术公开了一种基于flume系统的数据处理方法及其装置,该方法应用于数据清洗系统,包括如下步骤:S1、source层从数据源采集原始数据;S2、source层将采集到的原始数据发送至channel层;S3、channel层将原始数据发送至数据清洗模块;S4、channel层从数据清洗模块获取目标数据;S5、sink层从channel层获取目标数据;S6、sink层将目标数据发送至接收方。本发明专利技术的优点在于通过将flume系统的在source层中的清洗功能剥离至flume系统外的数据清洗模块中,提高source层的数据采集效率,减少了对生产机器的损耗。

【技术实现步骤摘要】

本专利技术涉及数据处理技术,尤其涉及一种基于flume系统的数据处理方法及其装置
技术介绍
大数据分析的基础是大数据,通常采集数据的来源多种多样,而且数据格式和编码格式也不完全一致,数据质量良莠不齐,因此在进行大数据分析之前,我们都需要对数据进行数据清洗;数据清洗(Data cleaning)是一个对数据进行重新审查和校验的过程,数据清洗的目的在于删除重复信息,纠正或剔除错误的数据,以保证数据的一致性。在数据采集阶段,我们一般会采用Flume作为数据采集工具。Flume是Cloudera公司提供的一个高可用高可靠分布式的海量数据采集聚合和传输的系统,Flume支持在系统中定制各类数据发送方,用于收集数据;同时Flume可以对数据进行简单处理,并写到各种数据接受方的能力。如图1所示,常规的Flume包括source层、channel层和sink层,由source层从数据源采集数据,并发送至channel层,channel层对数据进行简单的缓存,sink层从channel层中获取数据,并发送至接收方;数据源一般为需要采集数据的生产机器,接收方可以是相应的存储文件系统、数据库或者远程服务器,采集的数据一般为生产机器的日志。常规的flume对采集到的数据进行数据清洗的方式为前置清洗,前置清洗是在source层中配置拦截器,source层采集到的数据里符合系统设定的数据可以通过拦截器,而不符合系统设定的数据将会被清理。但是在实际应用中,flume的前置清洗有如下缺点:(1)Flume系统附在生产机器上,而拦截器的清洗工作会占用生产机器的资源,对生产机器造成负担;(2)拦截器配置在source层中,影响source层的数据采集进度;(3)拦截器的清洗方式简单,无法处理复杂的清洗需求。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种基于flume系统的数据处理方法,其能解决解决清洗数据影响生产机器运行以及数据采集的问题。本专利技术的目的之二在于提供一种基于flume系统的数据处理装置,其能解决解决清洗数据影响生产机器运行以及数据采集的问题。本专利技术的目的之一采用以下技术方案实现:一种基于flume系统的数据处理方法,应用于数据清洗系统,包括如下步骤:S1、source层从数据源采集原始数据;S2、source层将采集到的原始数据发送至channel层;S3、channel层将原始数据发送至数据清洗模块;S4、channel层从数据清洗模块获取目标数据;S5、sink层从channel层获取目标数据;S6、sink层将目标数据发送至接收方。作为优选,所述S3中channel层将原始数据发送至数据清洗模块的传输方式为异步传输。作为优选,所述channel层将原始数据异步传输至数据清洗模块的底层传输方式为TCP/UDP协议及其协议簇衍生方式。作为优选,所述S4中channel层从数据清洗模块获取目标数据的传输方式为异步传输。作为优选,所述channel层从数据清洗模块异步传输获取目标数据的底层传输方式为TCP/UDP协议及其协议簇衍生方式。本专利技术的目的之二采用以下技术方案实现:一种基于flume系统的数据处理装置,包括:采集模块,应用于source层中,用于从数据源采集原始数据;第一传送模块,应用于source层,用于将采集到的原始数据发送至channel层;输出模块,应用于channel层,用于将原始数据发送至数据清洗模块;输入模块,应用于channel层,用于从数据清洗模块获取清洗后的目标数据;获取模块,应用于sink层,用于从channel层获取目标数据;第二传送模块,应用于sink层,用于将目标数据发送至接收方。作为优选,所述输出模块中channel层将原始数据发送至数据清洗模块的传输方式为异步传输。作为优选,所述channel层将原始数据异步传输至数据清洗模块的底层传输方式为TCP/UDP协议及其协议簇衍生方式。作为优选,所述输入模块中channel层从数据清洗模块获取目标数据的传输方式为异步传输。作为优选,所述channel层从数据清洗模块异步传输获取目标数据的底层传输方式为TCP/UDP协议及其协议簇衍生方式。相比现有技术,本专利技术的有益效果在于:通过将flume系统的在source层中的清洗功能剥离至flume系统外的数据清洗模块中,提高source层的数据采集效率,减少了对生产机器的损耗。附图说明图1为常规的flume系统的模块连接图;图2为本专利技术的数据清洗系统的模块连接图;图3为本专利技术的基于flume系统的数据处理方法的流程图;图4为本专利技术的基于flume系统的数据处理装置的模块连接图。具体实施方式下面,结合附图以及具体实施方式,对本专利技术做进一步描述:如图2所示,本专利技术的flume系统包括source层、channel层和sink层;数据清洗系统包括flume系统、数据清洗模块、数据源和接收方,数据源、source层、channel层、sink层和接收方依次连接,channel层和数据清洗模块连接。所述数据清洗模块设置于flume系统外,数据清洗模块内包括多个清洗节点,可以根据用户业务需求的不同,设置不同清洗需求的清洗节点。一种基于flume系统的数据处理方法,应用于数据清洗系统,如图3所示,包括如下步骤:步骤10、source层从数据源采集原始数据。步骤11、source层将采集到的原始数据发送至channel层;本专利技术中不在source层中配置拦截器,source层仅负责采集原始数据和发送数据的工作。步骤12、channel层将原始数据发送至数据清洗模块;数据清洗模块对原始数据进行清理得到目标数据;channel层将原始数据通过发送至数据清洗模块的发送方式为异步传输,其底层传输方式包括但不限于TCP/UDP协议及其协议簇衍生方式。步骤13、channel层从数据清洗模块获取清洗后的目标数据;channel层从数据清洗模块获取目标数据的获取方式为异步传输,其底层传输方式包括但不限于TCP/UDP协议及其协议簇衍生方式。步骤14、sink层从channel层获取目标数据;步骤15、sink层将目标数据发送至接收方。由于channel层将原始数据发送至flume系统外的数据清洗模块进行清洗,数据清洗模块对数据进行清洗不会影响flume系统中source层的采集进度,并且可以减少对生产机器的损耗。另外当存在多个flume系统将原始数据从channel层中输送至数据清洗模块进行数据清洗时,数据清洗模块可以根据每个flume系统的负载不同,将清洗完的数据发送至负载较低的flume系统中,数据清洗模块可以为flume系统提供负载均衡。一种基于flume系统的数据处理装置,如图4所示,包括:采集模块,应用于source层中,用于从数据源采集原始数据;第一传送模块,应用于source层,用于将采集到的原始数据发送至channel层;输出模块,应用于channel层,用于将原始数据发送至数据清洗模块;输入模块,应用于channel层,用于从数据清洗模块获取清洗后的目标数据;输入模块和输出模块不会破坏flume中的层级结构,对flume的架构无侵入;输入模块和输出模块可以跟随flume本文档来自技高网
...
一种基于flume系统的数据处理方法及其装置

【技术保护点】
一种基于flume系统的数据处理方法,应用于数据清洗系统,其特征在于,包括如下步骤:S1、source层从数据源采集原始数据;S2、source层将采集到的原始数据发送至channel层;S3、channel层将原始数据发送至数据清洗模块;S4、channel层从数据清洗模块获取目标数据;S5、sink层从channel层获取目标数据;S6、sink层将目标数据发送至接收方。

【技术特征摘要】
1.一种基于flume系统的数据处理方法,应用于数据清洗系统,其特征在于,包括如下步骤:S1、source层从数据源采集原始数据;S2、source层将采集到的原始数据发送至channel层;S3、channel层将原始数据发送至数据清洗模块;S4、channel层从数据清洗模块获取目标数据;S5、sink层从channel层获取目标数据;S6、sink层将目标数据发送至接收方。2.如权利要求1所述的数据处理方法,其特征在于,所述S3中channel层将原始数据发送至数据清洗模块的传输方式为异步传输。3.如权利要求2所述的数据处理方法,其特征在于,所述channel层将原始数据异步传输至数据清洗模块的底层传输方式为TCP/UDP协议及其协议簇衍生方式。4.如权利要求1所述的数据处理方法,其特征在于,所述S4中channel层从数据清洗模块获取目标数据的传输方式为异步传输。5.如权利要求4所述的数据处理方法,其特征在于,所述channel层从数据清洗模块异步传输获取目标数据的底层传输方式为TCP/UDP协议及其协议簇衍生方式。6.一种基于flume系统的数据处理装置,其特征...

【专利技术属性】
技术研发人员:徐沛
申请(专利权)人:广州安望信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1