一种基于数据仓库的数据开发方法及系统技术方案

技术编号:24456045 阅读:34 留言:0更新日期:2020-06-10 15:34
本发明专利技术公开了一种基于数据仓库的数据开发方法及系统,包括以下步骤:S1、将元数据加载到hive中;S2、在hive上进行数据开发;S3、将步骤S2中数据开发的结果表同步到目标数据库中。本方案通过将元数据加载到hive中,在通过现有的python、SQL等技术在hive上进行数据开发,由于python、SQL等技术是较为现有的技术,因此,技术人员可以根据项目的实际情况对数据开发的流程进行配置调整,同时所需要使用的组件大部分是开源社区免费支持的,各组件可以较为便捷升级版本,达到更好的性能和功能的提升。解决了现有的数据库开发平台扩展性、适应性较差的问题。

A data development method and system based on data warehouse

【技术实现步骤摘要】
一种基于数据仓库的数据开发方法及系统
本专利技术涉及数据仓库领域,特别涉及一种基于数据仓库的数据开发方法及系统。
技术介绍
数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。现有技术中实现数据仓库上的数据开发,需要实现的步骤有如下步骤:第一步,购买、部署商业版ETL开发平台。第二步,在商业平台上配置数据入库抽取信息。第三步,写数据开发脚本,用商业平台定时调度。第四步,在商业平台上把开发后的数据抽取到常用数据库中。第五步,第三方应用读取常用数据库。现有的数据库开发平台有以下缺陷:平台功能不一定适合本项目的实际情况,每个项目的数据开发粒度不一样,采用商业版平台只能采用的是满足开发粒度很细的开发流程,才能覆盖面广,这样导致开发粒度没有那么细的项目必须适应平台的复杂流程,用户体验差。产品质量缺陷无法及时解决,产品本身是闭源的,质量缺陷只能靠产品公司进行bug修改,版本升级来解决,无法调动开源社区的群策群力来快速升级,快速解决问题。
技术实现思路
本专利技术的目的在于:提供了一种基于数据仓库的数据开发方法及系统,解决了现有的数据库开发平台功能不一定适合本项目的实际情况,每个项目的数据开发粒度不一样,采用商业版平台只能采用的是满足开发粒度很细的开发流程,才能覆盖面广,这样导致开发粒度没有那么细的项目必须适应平台的复杂流程,用户体验差的问题。本专利技术采用的技术方案如下:一种基于数据仓库的数据开发方法,包括以下步骤:S1、将元数据加载到hive中;S2、在hive上进行数据开发;S3、将步骤S2中数据开发的结果表同步到目标数据库中。本方案通过将元数据加载到hive中,在通过现有的python、SQL等技术在hive上进行数据开发,由于python、SQL等技术是较为现有的技术,因此,技术人员可以根据项目的实际情况对数据开发的流程进行配置调整,同时所需要使用的组件大部分是开源社区免费支持的,各组件可以较为便捷升级版本,达到更好的性能和功能的提升。解决了现有的数据库开发平台扩展性、适应性较差的问题。进一步的,所述储存元数据的数据库包括关系型数据库和ES数据库中的至少一种。进一步的,所述储存元数据的数据库为关系型数据库时,通过Sqoop组件将元数据从关系型数据库加载到hive中。进一步的,所述储存元数据的数据库为ES数据库时,通过在hive中创建ES映射表将元数据从ES数据库加载到hive中。进一步的,所述步骤S2中通过运行python程序、调用SQL文件在hive上进行数据开发进一步的,所述步骤S3中的目标数据库为关系型数据库。进一步的,所述步骤S3通过Sqoop组件程序,将结果表同步到关系型数据库中。一种基于数据仓库的数据开发系统,包括数据库、数据仓库和操作端,所述操作端包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令,实现上述的一种基于数据仓库的数据开发方法。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1.本专利技术一种基于数据仓库的数据开发方法及系统,数据开发粒度可控,各项目对数据治理的粒度不一样,可以通过SQL文件里的SQL组合自己控制开发粒度和口径;2.本专利技术一种基于数据仓库的数据开发方法及系统,组件的缺陷可通过多种方式解决,如通过组件版本升级或者在开源社区群策群力咨询得以解决;3.本专利技术一种基于数据仓库的数据开发方法及系统,用到的组件全是开源社区免费支持的,对经费不足的项目减轻了负担,降低开发成本;4.本专利技术一种基于数据仓库的数据开发方法及系统,各组件免费升级,组件依赖开源社区庞大后援支持,各组件可以跟着社区一起升级版本,达到更好的性能和功能的提升。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:图1是本专利技术的数据开发全流程示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合图1对本专利技术作进一步地详细描述,所描述的实施例不应视为对本专利技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本专利技术实施例的目的,不是旨在限制本专利技术。对本专利技术实施例进行进一步详细说明之前,对本专利技术实施例中涉及的名词和术语进行说明,本专利技术实施例中涉及的名词和术语适用于如下的解释。入库:指数据文件加载进数据库中的过程。本文特指数据文件加载到Hive的过程hive:hive是基于Hadoop的一个数据仓库工具,数据仓库数据的主要存储形式。同步:两种数据存储载体上的数据转换过程。数据开发:指根据用户的口径,对不同粒度的数据按指定维度进行汇总、统计。Sqoop:开源组件,主要用于在Hadoop(hive)与传统的关系型数据库,如MySQL、Oracle、Postgres等之间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。ES数据库:ES(ElasticSearch)是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口,Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。实施例1一种基于数据仓库的数据开发方法,包括以下步骤:S1、将元数据加载到hive中;S2、在hive上进行数据开发;S3、将步骤S2中数据开发的结果表同步到目标数据库中。本方案通过将元数据加载到hive中,在通过现有的python、SQL等技术在hive上进行数据开发,由于python、SQL等技术是较为现有的技术,因此,技术人员可以根据项目的实际情况对数据开发的流程进行配置调整,同时所需要使用的组件大部分是开源社区免费支持的,各组件可以较为便捷升级版本,达到更好的性能和功能的提升。解决了现有的数据库开发平台扩展性、适应性较差的问题。实施例2本实施例在实施例1的基础上进一步的,所述储存元数据的数据库包括关系型数据库和ES数据库中的至少一种。进一步的,所述储存元数据的数据库为关系型数据库时,通过Sqoop组件将元数据从关系型数据库加本文档来自技高网
...

【技术保护点】
1.一种基于数据仓库的数据开发方法,其特征在于:包括以下步骤:/nS1、将元数据加载到hive中;/nS2、在hive上进行数据开发;/nS3、将步骤S2中数据开发的结果表同步到目标数据库中。/n

【技术特征摘要】
1.一种基于数据仓库的数据开发方法,其特征在于:包括以下步骤:
S1、将元数据加载到hive中;
S2、在hive上进行数据开发;
S3、将步骤S2中数据开发的结果表同步到目标数据库中。


2.根据权利要求1所述的一种基于数据仓库的数据开发方法,其特征在于:所述储存元数据的数据库包括关系型数据库和ES数据库中的至少一种。


3.根据权利要求2所述的一种基于数据仓库的数据开发方法,其特征在于:所述储存元数据的数据库为关系型数据库时,通过Sqoop组件将元数据从关系型数据库加载到hive中。


4.根据权利要求2所述的一种基于数据仓库的数据开发方法,其特征在于:所述储存元数据的数据库为ES数据库时,通过在hive中创建ES映射表将元数据从ES数据库加载到...

【专利技术属性】
技术研发人员:查文宇张艳清廖伟杨尧张永飞
申请(专利权)人:成都四方伟业软件股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1