一种海量数据高效抽取平台制造技术

技术编号:17812856 阅读:30 留言:0更新日期:2018-04-28 05:34
本发明专利技术公开了一种海量数据高效抽取平台,包括Oracle数据库、Golden Gate、大数据平台、Tomcat网页服务端,Golden Gate包括Trail File和Flat File,Trail File与Flat File链接,所述大数据平台包括MapReduce、Hbase、HDFS,所述MapReduce、Hbase、HDFS分别与Trail File和Flat File进行信息交互。本发明专利技术提供了一种基于日志的结构化数据复制方式,可以从在线日志中准实时地抓取变化的数据,并将变化的数据保存在Trail格式的文件中。

【技术实现步骤摘要】
一种海量数据高效抽取平台
本专利技术涉及大数据领域,具体涉及一种海量数据高效抽取平台。
技术介绍
数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应GB(1GB=1024MB)的数据,“海量”一般表示的是TB(1TB=1024GB)级的数据,而现在的“大数据”则是PB(1PB=1024TB)、EB(1EB=1024PB)、甚至ZB(1ZB=1024EB)级别以上的数据。2013年Gartner预测世界上存储的数据将达到1.2ZB,如果将这些数据刻录到CD-R只读光盘上,并堆起来,其高度将是地球到月球距离的5倍。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.但大家都普遍认为,大数据有着4“V”特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低):(1)量大(VolumeBig)。数据量级已从TB(210GB)发展至PB(210TB)乃至ZB(220PB),可称海量、巨量乃至超量。(2)多样化(VariableType)。数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。(3)快速化(VelocityFast)。数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可能介入。(4)价值高和密度低(ValueHighandLowDensity)。以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;360°全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。(5)复查Complexity:处理和分析的难度非常大。现有技术中的数据抽取对数据系统资源的占用较大。
技术实现思路
本专利技术所要解决的技术问题是现有技术中的数据抽取对数据系统资源的占用较大,目的在于提供一种海量数据高效抽取平台,实现对数据源系统资源占用的最小化。本专利技术通过下述技术方案实现:一种海量数据高效抽取平台,包括Oracle数据库、GoldenGate、大数据平台、Tomcat网页服务端,GoldenGate包括TrailFile和FlatFile,所述TrailFile与FlatFile链接,所述大数据平台包括MapReduce、Hbase、HDFS,所述MapReduce、Hbase、HDFS分别与TrailFile和FlatFile进行信息交互,所述GoldenGate和大数据平台分别与Tomcat网页服务端进行信息交互;Oracle数据库为数据源,通过GoldenGate提取源数据并结合Tomcat网页服务端作为计算引擎,Hbase用于存储结构化数据。进一步地,Oracle数据库、GoldenGate、大数据平台、Tomcat网页服务端采用的是分布式文件系统存储非结构化和半结构化的数据。进一步地,所述大数据平台包括数据清洗模块、数据转换模块、数据存储模块。基于一种海量数据高效抽取平台的一种海量数据高效抽取方法,包括,步骤1,使用GoldenGate提取数据;利用GoldenGate解析Oracle的日志文件,提取出初始数据及发生变化的增量数据;步骤2,用MapReduce并行计算引擎加快处理速度;使用Hadoop大数据平台的MapReduce并行计算框架,来加速装载抽取出的数据;步骤3,将数据装载进HBase;采用多节点并行写入,直接生成HBase数据的存储格式文件。步骤3中采取批量导入的方法来装载数据。步骤1中的增量数据包括插入数据、更新数据和删除数据。GoldenGate并没有提供对Hadoop集群的直接支持,但是提供了将Trail文件解析为平面文件(FlatFile)的功能。而平面文件是可以被Hadoop识别的。Oracle中数据的变化情况一般可以分为三类:插入数据、更新数据和删除数据。因此,对于这三类情况,我们在解析Oracle的变化数据时,将这三类数据分别解析到各自的文件中,例如用后缀I代表插入的数据(Insert),用后缀D代表删除的数据(Delete),用U代表更新的数据(Update)。由于导出的原始数据往往非常大,如果继续使用传统的串行方法进行数据装载,那么装载过程将会很漫长。因此,我们使用Hadoop大数据平台的MapReduce并行计算框架,来加速装载抽取出的数据。MapReduce计算框架将输入的数据分为多个块(block)存储在多个计算节点上,每个节点只计算本节点上的数据。在每个节点的计算完成之后,将结果输出到MapReduce框架中。MapReduce框架自动汇聚(Aggregate)这些数据并进行排序,最后将最终的结果输出到HDFS中。在这一过程中,多个节点的计算过程是同时进行的,因此整个计算与串行计算相比,速度会大大提高,且计算的时间将与计算节点的数量成反比。NoSQL数据库可以存储相当大的数据,但是如果采用单客户端来加载数据,则吞吐量会受到单机的带宽及磁盘等硬件的限制。此外,NoSQL数据库往往采取复杂的机制来保证数据的健壮性及一致性,数据的写入会经历一个复杂而耗时的过程。例如,HBase在写入数据时,会首先将数据写入预写日志文件(WAL,Write-AheadLog),然后将数据写入到缓存区域(MemStore)中,等到缓存区域满了之后才将其中的数据一次性地写入到磁盘里。因此,为了加快数据导入的速度,我们一方面采用多节点并行写入,另一方面直接生成HBase数据的存储格式文件,即采取批量导入(Bulkload)的方法来装载数据。本专利技术与现有技术相比,具有如下的优点和有益效果:本专利技术利用GoldenGate提取变化数据。GoldenGate可实现秒级的数据捕捉、转换和投递,提供了一种基于日志的结构化数据复制方式,可以从在线日志中准实时地抓取变化的数据,并将变化的数据保存在Trail格式的文件中。其优势在于通过对日志文件的分析实现变化数据的抓取只会占用很小的系统资源,特别是当Oracle中存储的数据量极大、Oracle系统负载很重时基本不会影响Oracle的运行效率。附图说明此处所说明的附图用来提供对本技术实施例的进一步理解,构成本申请的一部分,并不构成对本技术实施例的限定。在附图中:图1为本专利技术结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。实施例一种海量数据高效抽取平台,包括Oracle数据库、GoldenGate、大数据平台、Tomcat网页服务端,GoldenGate包括TrailFile和FlatFile,所述TrailFile与FlatFile链接,所述大数据平台包括MapReduce、Hbase、HDFS,所述MapReduce、Hbase、HDFS分别与TrailFile和本文档来自技高网
...
一种海量数据高效抽取平台

【技术保护点】
一种海量数据高效抽取平台,其特征在于,包括Oracle数据库、Golden Gate、大数据平台、Tomcat网页服务端,Golden Gate包括Trail File和Flat File,所述Trail File与Flat File链接,所述大数据平台包括MapReduce、Hbase、HDFS,所述MapReduce、Hbase、HDFS分别与Trail File和Flat File进行信息交互,所述Golden Gate和大数据平台分别与Tomcat网页服务端进行信息交互;Oracle数据库为数据源,通过Golden Gate提取源数据并结合Tomcat网页服务端作为计算引擎,Hbase用于存储结构化数据。

【技术特征摘要】
1.一种海量数据高效抽取平台,其特征在于,包括Oracle数据库、GoldenGate、大数据平台、Tomcat网页服务端,GoldenGate包括TrailFile和FlatFile,所述TrailFile与FlatFile链接,所述大数据平台包括MapReduce、Hbase、HDFS,所述MapReduce、Hbase、HDFS分别与TrailFile和FlatFile进行信息交互,所述GoldenGate和大数据平台分别与Tomcat网页服务端进行...

【专利技术属性】
技术研发人员:石文威
申请(专利权)人:安徽科创智慧知识产权服务有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1