一种可视化的数仓建模方法及系统技术方案

技术编号：27811076 阅读：19 留言：0更新日期：2021-03-30 09:45

本发明专利技术公开了一种可视化的数仓建模方法及系统，属于数据建模技术领域。本发明专利技术的方法为：先构建web端，将web端与hive数据仓库连接；然后在web端构建模型目录，具体地，在web端构建一级目录和二级目录，一级目录对应展示hive数据仓库，二级目录对应展示hive数据仓库中不同的业务领域或者应用领域。再根据模型目录构建表，并对构建的表配置数据质量预警规则；之后根据模型目录和表构建表清单。本发明专利技术的系统包括hive数据仓库和web端，hive数据仓库通过连接池与web端连接。本发明专利技术克服了现有技术中，数仓建模过程复杂且管理不便的不足，本发明专利技术可以实现数仓建模的可视化，并且可以简化数仓建模过程，大大降低了数仓的管理难度，进而可以对数据进行快速管理。对数据进行快速管理。对数据进行快速管理。

全部详细技术资料下载

【技术实现步骤摘要】
一种可视化的数仓建模方法及系统

[0001]本专利技术属于数据建模
，更具体地说，涉及一种可视化的数仓建模方法及系统。

技术介绍

[0002]大数据时代，海量的数据处理中数据治理是非常重要的一个环节。对数据集市的管理维护和数据质量监控是数据治理的重中之重。hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。
[0003]现有技术中，一般都是通过hive管理数据，例如专利技术创造名称为：一种基于HIVE的数据处理的方法、系统及终端设备(申请日：2017年6月9日；申请号：201710437410.6)，该方案公开了一种基于Hive的数据处理的方法，包括：将Hadoop集群数据中的源头数据通过Hive映射为源表，源表包括源头数据中用于描述行数据标记的第一主键字段；将Hadoop集群数据中的由源头数据产生的中间数据通过Hive映射为中间表，中间表包括中间数据从源头数据继承的第一主键字段；将欲清理的中间数据所对应的中间表中的第一主键字段备份到备份表；清理欲清理的中间数据及其所对应的中间表。本专利...

【技术保护点】

【技术特征摘要】
1.一种可视化的数仓建模方法，其特征在于，先构建web端，将web端与hive数据仓库连接；然后在web端构建模型目录，再根据模型目录构建表，并对构建的表配置数据质量预警规则；之后根据模型目录和表构建表清单。2.根据权利要求1所述的一种可视化的数仓建模方法，其特征在于，构建模型目录的具体过程为：在web端构建一级目录和二级目录，一级目录对应展示hive数据仓库，二级目录对应展示hive数据仓库中不同的业务领域或者应用领域。3.根据权利要求2所述的一种可视化的数仓建模方法，其特征在于，构建表的具体过程为：利用字段信息或者建表语句在模型目录的二级目录下构建表。4.根据权利要求2所述的一种可视化的数仓建模方法，其特征在于，对构建的表配置数据质量预警规则的具体过程为：对表的字段数据配置字段规则，并对表的数据量配置表级规则。5.根据权利要求2所述的一种可视化的数仓建模方法，其特征在于，web端通过建立连接池与hive数据仓库连接。6.根据权利要求4所述的一种可视化的数仓建模方法，其特征在于，构建表清单的具体过程为：对二级目录下的所有的表的信息进行统计生成表清单；其中，表的信息包括表的基本信息、表的字段数据...

【专利技术属性】
技术研发人员：杨强强，骆乐乐，朱文佳，罗达志，
申请(专利权)人：安徽百诚慧通科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人