【技术实现步骤摘要】
一种实现混合事务分析的大数据处理方法
[0001]本专利技术涉及大数据处理
,特别涉及一种实现混合事务分析的大数据处理方法。
技术介绍
[0002]随着大数据的不断深入应用,对大数据的要求也越来越高。基于大数据的离线统计分析,提高统计性能是最基础的保证,大规模甚至超大规模的数据必须还要能具备数据的事务处理能力。
[0003]实际应用过程中,原始数据的更新非常困难,并对数据统计分析的性能造成严重影响。由于原始数据的实时增加、删除和修改造成的数据不一致行,必会造成统计分析的结果不够及时和不准确。
[0004]Delta Lake是一个存储层,为大数据提供事务管理ACID(原子性Atomicity,一致性Consistency,隔离性Isolation,持久性Durability)能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency control),在写入数据期间提供一致性的读取,从而为构建在HDFS(Hadoop Distributed File System,Hado ...
【技术保护点】
【技术特征摘要】
1.一种实现混合事务分析的大数据处理方法,其特征在于:将Delta Lake数据文件映射到Apache Hive数据库中,使用Apache Hive管理Delta Lake的元数据,利用Delta Lake事务处理的特性实现对大规模数据的事务处理,同时结合Apache Hive实现对大规模数据的批处理离线统计分析。2.根据权利要求1所述的实现混合事务分析的大数据处理方法,其特征在于:在DeltaLake数据库中创建Delta表,通过操作Delta表数据实现对大规模数据的事务处理。3.根据权利要求2所述的实现混合事务分析的大数据处理方法,其特征在于:所述Delta表的文件格式为parquet。4.根据权利要求2所述的实现混合事务分析的大数据处理方法,其特征在于:创建Apache Hive数据库和映射数据表,并将创建的映射数据表映射到对应的Delta表,利用Apache Hive完成对Delta表数据的离线统计分析。5.根据权利要求4所述的实现混合事务分析的大数据处理方法,其特征在于:ApacheHive使用creat table命令创建映射数据表,使用表模式delta,location加载目录为Delta表的HDFS目录。6.根据权利要求5所述的实现混合事务分析的大数据处理方法,其特征在于:在ApacheHiv...
【专利技术属性】
技术研发人员:刘传涛,胡清,徐伟涛,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。