【技术实现步骤摘要】
一种支持HiveDML增强的混合存储系统及其方法
本专利技术涉及到大数据环境下,使ApacheHive高效的实现DML(DataManipulationLanguage数据操作语言)操作的混合存储系统的开发与实现,特别涉及支持HiveDML增强的混合存储系统。
技术介绍
Hive为基于Hadoop的数据分析提供了类SQL接口,减少了MapReduce开发量,同时方便了从现有的提供SQL接口的关系数据仓库向Hadoop生态系统的转换。Hive能够将用户定义的数据表模式映射到底层的数据存储之上,并基于MapReduce实现对数据的查询与操作。但是,受制于较弱的DML支持,Hive在企业级大数据处理中无法充分发挥效能。学术界和工业界进行了大量Hive优化的工作,包括了查询方案优化、执行系统优化、存储系统优化等方面。(1)查询方案优化在2011年TheInternationalConferenceonDistributedComputingSystems(国际分布式计算系统会议)中RubaoLee等人公开了一篇名为“YSmart:YetanotherSQL-to-MapReduceTranslator”的文献,YSmart能够在复杂的查询中发现关联的操作并基于规则对其化简来产生包含MapReduce任务最少的执行方案,从而减少查询时间。在2011年ACMSymposiumonCloudComputing(ACM云计算研讨会)上SaiWu等人公开了一篇名为“QueryOptimizationforMassivelyParallelDataProcessing”的文献 ...
【技术保护点】
一种支持Hive DML增强的混合存储系统,其特征在于,包括: DualTable表创建模块:用于建立包含主表和附表,为每行数据维护了唯一ID并基于代价模型对外提供特定操作集的DualTable表; DualTable表执行模块:用于基于所述主表和所述附表实现对所述DualTable表中的数据读取和查询,基于所述附表实现对所述DualTable表中的数据进行更改,基于所述代价模型实现所述DualTable表提供的操作集,基于有序的每行数据的所述唯一ID实现所述主表和所述附表数据读取时的合并。
【技术特征摘要】
1.一种支持HiveDML增强的混合存储系统,其特征在于,包括:DualTable表创建模块:用于建立包含主表和附表,为每行数据维护了唯一ID并基于代价模型对外提供操作集的DualTable表,所述DualTable表创建模块指定使用所述DualTable表专用的InputFormat,OutputFormat和SerDe,所述DualTable表创建模块允许设置所述DualTable表的参数,每一所述DualTable表模式中的第一列默认为数据行ID,所述主表使用Hive默认的HDFS存储,所述附表使用HBase存储,创建过程中检查并创建HBase中对应的所述附表,所述操作集为所述DualTable提供的操作集合,包含:UnionRead、UPDATE、DELETE、INSERTINTO、CREATE、DROP、LOAD和COMPACT;DualTable表执行模块:用于基于所述主表和所述附表实现对所述DualTable表中的数据读取和查询,基于所述附表实现对所述DualTable表中的数据进行更改,基于所述代价模型实现所述DualTable表提供的操作集,基于有序的每行数据的所述唯一ID实现所述主表和所述附表数据读取时的合并。2.根据权利要求1所述支持HiveDML增强的混合存储系统,其特征在于,所述维护每行数据唯一ID的机制用于维护每行数据唯一的ID,确保不同存储系统间读取数据有序合并。3.根据权利要求1所述支持HiveDML增强的混合存储系统,其特征在于,所述主表用于所述DualTable表的数据存储,采用分布式文件存储。4.根据权利要求1所述支持HiveDML增强的混合存储系统,其特征在于,所述附表用于存储所述DualTable表中数据的更改信息。5.根据权利要求1所述支持HiveDML增强的混合存储系统,其特征在于,基于所述代价模型,实现所述UPDATE和DELETE操作。6.根据权利要求5所述支持HiveDML增强的混合存储系统,其特征在于,所述UPDATE操作和DELETE操作包括:OVERWRITE操作方式和EDIT操作方式。7.根据权利要求6所述支持HiveDML增强的混合存储系统,其特征在于,基于所述代价模型计算对所述OVERWRITE和EDIT操作方式进行动态选取。8.根据权利要求1所述支持HiveDML增强的混合存储系统,其特征在于,所述DualTable表执行模块,还包括:数据读取模块:通过专用输入格式读取所述DualTable表中的数据;数据查询模块:用于根据所述数据读取模块的读取数据,通过查询语句对所述DualTable中的数据进行查询;数据行ID管理模块:用于确保所述每行数据唯一ID在整个所述DualTable表中的唯一性;COMPACT模块:用于将DualTable表的附表中的数据合并进主表,并清空附表数据;代价模型模块:包含代价模型参数获取子模块,用于获取所述代价模型所需的计算参数,基于所述代价模型的估算,支持所述DualTable表的删除和更新操作的实现;删除和更...
【专利技术属性】
技术研发人员:黄硕,虎嵩林,梁英,谷丹阳,吴凯锋,李祥珍,洪建光,张春光,肖政,裴旭斌,衡星辰,崔蔚,
申请(专利权)人:中国科学院计算技术研究所, 国网浙江省电力公司信息通信分公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。