一种海量数据高效抽取平台制造技术

技术编号：17812856 阅读：30 留言：0更新日期：2018-04-28 05:34

本发明专利技术公开了一种海量数据高效抽取平台，包括Oracle数据库、Golden Gate、大数据平台、Tomcat网页服务端，Golden Gate包括Trail File和Flat File，Trail File与Flat File链接，所述大数据平台包括MapReduce、Hbase、HDFS，所述MapReduce、Hbase、HDFS分别与Trail File和Flat File进行信息交互。本发明专利技术提供了一种基于日志的结构化数据复制方式，可以从在线日志中准实时地抓取变化的数据，并将变化的数据保存在Trail格式的文件中。

全部详细技术资料下载

【技术实现步骤摘要】
一种海量数据高效抽取平台
本专利技术涉及大数据领域，具体涉及一种海量数据高效抽取平台。
技术介绍
数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应GB(1GB＝1024MB)的数据，“海量”一般表示的是TB(1TB＝1024GB)级的数据，而现在的“大数据”则是PB(1PB＝1024TB)、EB(1EB＝1024PB)、甚至ZB(1ZB＝1024EB)级别以上的数据。2013年Gartner预测世界上存储的数据将达到1.2ZB，如果将这些数据刻录到CD-R只读光盘上，并堆起来，其高度将是地球到月球距离的5倍。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。大数据(bigdata)，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在日新月异的IT业界，各个企业对大数据都有着自己不同的解读.但大家都普遍认为，大数据有着4“V”特征，即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)：(1)量大(VolumeBig)。数据量级已从TB(210GB)发展至PB(210TB)乃至ZB(220PB)，可称海量、巨量乃至超量。(2)多样化(VariableType)。数据类型繁多，愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。(3)快速化(VelocityFast)。数据流往往为高速实时数据流，而且往往需要快速、持续的实时处理；...
一种海量数据高效抽取平台

【技术保护点】
一种海量数据高效抽取平台，其特征在于，包括Oracle数据库、Golden Gate、大数据平台、Tomcat网页服务端，Golden Gate包括Trail File和Flat File，所述Trail File与Flat File链接，所述大数据平台包括MapReduce、Hbase、HDFS，所述MapReduce、Hbase、HDFS分别与Trail File和Flat File进行信息交互，所述Golden Gate和大数据平台分别与Tomcat网页服务端进行信息交互；Oracle数据库为数据源，通过Golden Gate提取源数据并结合Tomcat网页服务端作为计算引擎，Hbase用于存储结构化数据。

【技术特征摘要】
1.一种海量数据高效抽取平台，其特征在于，包括Oracle数据库、GoldenGate、大数据平台、Tomcat网页服务端，GoldenGate包括TrailFile和FlatFile，所述TrailFile与FlatFile链接，所述大数据平台包括MapReduce、Hbase、HDFS，所述MapReduce、Hbase、HDFS分别与TrailFile和FlatFile进行信息交互，所述GoldenGate和大数据平台分别与Tomcat网页服务端进行...

【专利技术属性】
技术研发人员：石文威，
申请(专利权)人：安徽科创智慧知识产权服务有限公司，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人