一种数据采集方法及Flume数据采集客户端技术

技术编号：18668303 阅读：114 留言：0更新日期：2018-08-14 20:39

本发明专利技术提供了一种数据采集方法及Flume数据采集客户端，其中，方法包括：在数据库设备中安装至少一个Flume数据采集客户端，其中，Flume数据采集客户端包括：Source组件，被配置为查询数据库设备中数据库表更新的数据，利用过滤算法对所述更新的数据进行过滤，读取过滤后的数据，将读取的数据发送至Channel组件；Channel组件，被配置为将所述Source组件读取的数据缓存至内存；Sink组件，被配置为从内存中抽取数据，将抽取的数据发送至目标服务器；启动Flume数据采集客户端完成数据采集。本发明专利技术能够降低冗余数据的采集，减少分析系统的负担。

A data acquisition method and Flume data acquisition client

The invention provides a data acquisition method and a Flume data acquisition client, wherein the method includes: installing at least one Flume data acquisition client in a database device, wherein the Flume data acquisition client includes: Source component, which is configured to query data updated by a database table in a database device, and utilizing The filtering algorithm filters the updated data, reads the filtered data, and sends the read data to the Channel component; the Channel component is configured to cache the data read by the Source component into memory; and the Sink component is configured to extract data from memory and send the extracted data to the target server. Start the Flume data acquisition client to complete data acquisition. The invention can reduce the collection of redundant data and reduce the burden of the analysis system.

全部详细技术资料下载

【技术实现步骤摘要】
一种数据采集方法及Flume数据采集客户端
本专利技术属于数据采集领域，尤其涉及一种数据采集方法及Flume数据采集客户端。
技术介绍
近年来,随着信息技术的快速发展,带来的是各种信息、数据的爆发式增长,大数据时代应运而生。2008年8月,首次提出大数据的概念。在大数据时代,TB、PB,甚至EB级的数据已经成为一种常态。为了应对大数据的存储、处理以及大型计算机成本高的难题,集群化的分布式系统快速发展并取代了单机服务系统。各大公司和开源社区纷纷提出了自己的大数据解决方案,其中开源的Hadoop生态系统最为热门，Hadoop是一个并行处理大规模数据的分布式计算和存储系统,可以将分布式系统部署在廉价机器上。要使用Hadoop来存储、处理数据,首先要解决的问题是如何将数据收集到Hadoop平台上。而将原始关系型数据库中的数据导入到Hadoop中的非关系型数据库HBase中显得尤为重要。但在数据采集过程中会采集到大量陈冗无效的数据，造成系统负担增大，分析系统分出一部分资源在过滤无效信息上，降低系统效率。目前收集结构化数据的方法有OGG方法，可通过ORACLEGOLDENGATEforBIGDATA直接在结构化数据库ORACLE、MYSQL和HADOOP、HBASE之间传输数据。但OGG在维护方面工作量巨大，且经常有进程abend、数据重复收取等问题，在Hadoop系统中,Sqoop可以实现Hadoop集群与关系型数据之间的数据交换,但是由于它底层使用的是MapReduce计算框架,故依赖于Hadoop的集群环境,这是一大缺陷。
技术实现思路
本专利技术用于解决现有技术中...

【技术保护点】
1.一种数据采集方法，其特征在于，包括：在数据库设备中安装至少一个Flume数据采集客户端，其中，Flume数据采集客户端包括：Source组件，被配置为查询数据库设备中预定数据库表更新的数据，利用过滤算法对所述更新的数据进行过滤，读取过滤后的数据，将读取的数据发送至Channel组件；Channel组件，被配置为将所述Source组件读取的数据缓存至内存；Sink组件，被配置为从内存中抽取数据，将抽取的数据发送至目标服务器；启动Flume数据采集客户端完成数据采集。

【技术特征摘要】
1.一种数据采集方法，其特征在于，包括：在数据库设备中安装至少一个Flume数据采集客户端，其中，Flume数据采集客户端包括：Source组件，被配置为查询数据库设备中预定数据库表更新的数据，利用过滤算法对所述更新的数据进行过滤，读取过滤后的数据，将读取的数据发送至Channel组件；Channel组件，被配置为将所述Source组件读取的数据缓存至内存；Sink组件，被配置为从内存中抽取数据，将抽取的数据发送至目标服务器；启动Flume数据采集客户端完成数据采集。2.如权利要求1所述的数据采集方法，其特征在于，所述Source组件还被配置为对读取到的数据做封装处理得到事件，将事件发送至所述Channel组件。3.如权利要求2所述的数据采集方法，其特征在于，所述Sink组件还被配置为对抽取到的数据进行解析处理，将解析后的数据发送至目标服务器。4.如权利要求1所述的数据采集方法，其特征在于，所述Source组件还被配置为根据读取的数据确定并记录已读数据的位置信息。5.如权利要求4所述的数据采集方法，其特征在于，所述已读数据的位置信息为每条已读数据的哈希值，或已读数据的行数，或每预定条已读数据的哈希值。6.如权利要求1至5任一项所述的数据采集方法，其特征在于，所述Sink组件将抽取的数据发送至目标服务器包括：所述Sink组件将抽取的数据发送至中心路由服务器，由所述中心路由服务器根据路由规则将抽取的数据发送至目标服务器。7.一...

【专利技术属性】
技术研发人员：章小文，罗春水，强华盛，沈滨，王彤，
申请(专利权)人：中体彩科技发展有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人