【技术实现步骤摘要】
基于Flume快速分区传输数据的方法以及装置
本申请涉及数据处理领域,具体而言,涉及一种基于Flume快速分区传输数据的方法以及装置。
技术介绍
Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据。专利技术人发现,当需要利用Flume将业务数据传输至hadoop的分布式文件系统中,对于不同类型的业务数据,需要分区保存在分布式文件系统的不同目录。通常地采用配置正则表达式的方式,则需要解析文件内容提取分区类型字段,造成数据传输速度较慢。针对相关技术中基于Flume传输数据时数据传输速度较慢的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种基于Flume快速分区传输数据的方法以及装置,以解决基于Flume传输数据时数据传输速度较慢的问题。为了实现上述目的,根据本申请的一个方面,提供了一种基于Flume快速分区传输数据的方法。根据本申请的基于Flume快速分区传输数据的方法包括:接收 ...
【技术保护点】
1.一种基于Flume快速分区传输数据的方法,其特征在于,包括:/n接收业务上报数据,其中所述业务上报数据至少包括一种的业务类型;/n根据所述业务类型将接收到的业务上报数据记录到对应的日志文件中;/n监听所述日志文件目录是否发生变化;/n当所述日志文件目录发生变化,则将文件发送至分布式文件系统的文件目录。/n
【技术特征摘要】
1.一种基于Flume快速分区传输数据的方法,其特征在于,包括:
接收业务上报数据,其中所述业务上报数据至少包括一种的业务类型;
根据所述业务类型将接收到的业务上报数据记录到对应的日志文件中;
监听所述日志文件目录是否发生变化;
当所述日志文件目录发生变化,则将文件发送至分布式文件系统的文件目录。
2.根据权利要求1所述的基于Flume快速分区传输数据的方法,其特征在于,当所述日志文件目录发生变化,则将文件发送至分布式文件系统的文件目录包括:
解析所述日志文件目录中的文件名前缀得到数据类型;
采用文件名前缀设置文件名变量,根据所述文件名变量配置分布式文件系统的目录的文件名。
3.根据权利要求1所述的基于Flume快速分区传输数据的方法,其特征在于,当所述日志文件目录发生变化,则将文件发送至分布式文件系统的文件目录包括:
解析所述日志文件目录中的文件名前缀得到数据类型;
所述日志文件根据文件前缀名基于Flume分别传输至分布式文件系统的对应目录中。
4.根据权利要求1所述的基于Flume快速分区传输数据的方法,其特征在于,监听日志文件目录是否发生变化包括:
配置Flume使用SpoolingDirectorySource监听日志文件目录是否发生变化。
5.一种基于Flume快速分区传输数据的方法,其特征在于,包括:
生成业务数据,其中所述业务上报数据至少包括一种的业务类型;
将所述业务数据上报,并按照所述业务类型将上报的所述业务数据记录到对应的日志文件中;
如果日志文件目录发生变化,则将文件上报至分布式文件系统的文件目...
【专利技术属性】
技术研发人员:徐涛,吴峰,郭伟,
申请(专利权)人:上海易点时空网络有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。