【技术实现步骤摘要】
数据仓库和数据集市的管理方法及装置
本公开涉及数据处理相关
,尤其涉及一种数据仓库和数据集市的管理方法及装置、计算机可读介质、电子设备。
技术介绍
当前随着各行业业务创新与发展,尤其是互联网、金融、通信等行业,其数据类型、数据量、计算量出现爆发式增长。大数据与云服务技术此时应运而生。在大数据环境下,经常采用Hadoop与Yarn结合来实现集群搭建以及集群资源控制,在此基础上实现企业数据仓库和数据集市,以支持企业决策支持和系统生产。传统行业或部分互联网、金融行业采用关系数据库或大数据集群实现EDW(EnterpriseDataWarehouse,数据仓库)数据存储。但是采用关系数据库的方法无法达到大数据量、高并发的高效性能。而采用大数据集群的方法其存储数据架构往往采用传统BI(BusinessIntelligence)建设时的形式,即只创建一个集群业务系统用户或者集群用户,通过表名称来区分不同的数据层级/数据层次架构或无规则存储数据。此种形式在大数据集群环境下混乱且不利于分布式数据管理,已经达不到业务发展和数据管理的需要。现有技术做数据仓库和数据集市的时候,模 ...
【技术保护点】
1.一种数据仓库和数据集市的管理方法,其特征在于,包括:将数据源的生产数据抽取加工到Hadoop集群环境,在数据仓库集群中将数据按照第一数据存储架构存储;在所述Hadoop集群环境中,根据业务划分或者组织架构,创建相应的Hadoop集群用户;每个Hadoop集群用户下在数据集市集群上按照第二数据存储架构加工自身的数据模型,所述数据集市集群的数据来源于所述数据仓库集群。
【技术特征摘要】
1.一种数据仓库和数据集市的管理方法,其特征在于,包括:将数据源的生产数据抽取加工到Hadoop集群环境,在数据仓库集群中将数据按照第一数据存储架构存储;在所述Hadoop集群环境中,根据业务划分或者组织架构,创建相应的Hadoop集群用户;每个Hadoop集群用户下在数据集市集群上按照第二数据存储架构加工自身的数据模型,所述数据集市集群的数据来源于所述数据仓库集群。2.根据权利要求1所述的数据仓库和数据集市的管理方法,其特征在于,所述第一数据存储架构包括多个数据层次,所述多个数据层次包括数据缓冲层、基础数据层、通用数据层、聚合数据层、应用数据层、维度层、临时层和开发层。3.根据权利要求2所述的数据仓库和数据集市的管理方法,其特征在于,所述第二数据存储架构包括多个数据层次,所述多个数据层次包括基础数据层、通用数据层、聚合数据层、应用数据层、维度层、集市维度层、临时层和开发层。4.根据权利要求3所述的数据仓库和数据集市的管理方法,其特征在于,每一个数据层次对应Hive的一个库,每个库在HadoopHDFS上均对应一个分布式文件目录。5.根据权利要求4所述的数据仓库和数据集市的管理方法,其特征在于,所述数据仓库集群与所述数据集市集群的HDFS存储架构包括HDFS命名空间、Hadoop集群用户、Hive库和模型表名;其中,所述HDFS命名空间用于实现对不同业务分类的存储划分;所述Hadoop集群用户用于实现管理HDFS目录权限;对不同的所述Hadoop集群用户部署不同的Hive库,每个Hive库均会指向一个HDFS文件目录来保存其库下每个表的数据文件;所述模型表名对应的模型表是Hive库中实现统计分析的模型,其在创建时数据会存储在对应的HDFS存储目录下。6.根据权利要求5所述的数据仓库和数据集市的管理方法,其特征...
【专利技术属性】
技术研发人员:杨泽森,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。