基于Flume分布式数据收集架构的构建方法技术

技术编号：27287958 阅读：22 留言：0更新日期：2021-02-06 11:56

本发明专利技术提供了一种基于Flume分布式数据收集架构的构建方法，可以降低后期的日志采集配置的维护成本，同时也降低大数据应用程序对业务系统的影响。其包括以下步骤：S1.创建至少三台服务器，Flume搭建在Hadoop集群上；S2.根据实际的生产需求，确定需要的设计的规模，先从整体分析系统环境需要什么、该怎么来搭建框架；S3.Flume核心单元Agent组件中配置Agent的Source，来定义接入的数据类型及位置，Agent的Source主要负责连接到数据源，接收数据，并将获取的数据写入Channel；S4.Sink通过对缓存来自Source的数据在Channe上使用和分配数据；S5.Sink从Channel读取数据，并将其发送到下一个Agent或最终的目的地。个Agent或最终的目的地。个Agent或最终的目的地。

全部详细技术资料下载

【技术实现步骤摘要】
基于Flume分布式数据收集架构的构建方法

[0001]本专利技术涉及一种基于Flume分布式数据收集架构的构建方法，属于信息技术

技术介绍

[0002]在互联网飞速发展的二十一世纪的今天，互联网的使用也与时渐进走进了大部分群众的生活、学习、工作之中，互联网成了我们不可或缺的一个关键部分。在如今不仅人与人之间能够进行实时的无阻碍的交流通信，而且由于人工智能AI的兴起，使得人与物、物与物之间也能产生某些奇妙的关系。早在2013年，中国就有公司提出了大数据的高容量、多样性、速度快和价值四个特点，在人们与互联网交流的同时会产生大量的数据，在这些实时生成的海量又复杂的非结构化和结构化的数据中，除了一部分少量的核心业务数据之外，其余的大部分数据都是与这心核心数据相关的日志数据。由于实时数据流的特点，实时数据更好的满足了人们的需求，人们在实际生产中对实时数据的要求越来越高，在海量的数据中实际生产可能只需要其中一部分就可以满足实际的需求，这就需要我们对数据更快速、更高效率、更加准确的去处理并且反应的用户，这也是很好的增强了用户对于我们系统的使用体验以及交互体验。
[0003]在Flume框架中，可以和任意的数据进程集成，并且Flume的读取数据的速率大于数据写出的速率，其中Flume有着先进的缓冲机制，Flume框架包括两个事务模型，分别是数据从Source到Channel和数据从Channel到Sink，在这两个事务的保证下，数据能够成功的被提交，从而不会使数据获取一部分丢失一部分，当数据完全读取或者数据完全写

【技术保护点】

【技术特征摘要】
1.一种基于Flume分布式数据收集架构的构建方法，其特征在于，包括以下步骤：S1.创建至少三台服务器，Flume搭建在Hadoop集群上；S2.根据实际的生产需求，确定需要的设计的规模，先从整体分析系统环境需要什么、该怎么来搭建框架；S3. 根据数据源的格式进行Flume框架采集端的个性化配置：Flume核心单元Agent组件中配置Agent的Source，来定义接入的数据类型及位置，Agent的Source主要负责连接到数据源，接收数据，并将获取的数据写入Channel；S4. 根据不同的需求对即将到来的数据源进行分类汇总，可以通过汇总器来配置多个sink来下发数据，Sink通过对缓存来自Source的数据...

【专利技术属性】
技术研发人员：李向佳，陈付祥，李鹏，黄洋，
申请(专利权)人：山东云缦智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人