基于元数据的大数据平台构建方法、系统、设备及介质技术方案

技术编号:29058044 阅读:13 留言:0更新日期:2021-06-30 08:58
本申请提供基于元数据的大数据平台构建方法、系统、设备及介质,所述基于元数据的大数据平台构建方法包括:包括:获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到元数据库;根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标元数据;根据目标元数据配置ETL作业并调度监控所述ETL作业运行。本发明专利技术可以自动将数据源的数据字典读取到元数据库中,自动构建目标库表结构,可以配置ETL作业并调度监控所述ETL作业运行,所以本发明专利技术可以加速大数据平台建设进度,减少人力支出,保证项目元数据的一致性。元数据的一致性。元数据的一致性。

【技术实现步骤摘要】
基于元数据的大数据平台构建方法、系统、设备及介质


[0001]本申请涉及大数据处理
,特别是涉及一种基于元数据的大数据平台构建方法、系统、设备及介质。

技术介绍

[0002]现有数据仓库或大数据平台建设都是一个很浩大的工程,需要大量的人力投入,从前期的需求调研开始,由于涉及的数据源种类很多,需要大量的人员参与需求调研,走访很多需求部门、分析很多数据源系统,很多数据源系统由于建设年代久远,找不到原来的开发运维人员、系统资料不全、系统处于无人管理状态等;在耗费了大量精力做了需求调研之后,还要整理需求出调研报告,做系统设计、数据库设计、ETL设计、调度设计、运维监控设计等等,都需要投入大量的人员,可以说整个大数据平台的建设都是人力密集工作,尤其里面还有很多枯燥无味的ETL配置开发;最严重的问题还是需求、设计、文档以及实际的大数据平台之间的不一致,在实际的项目中,经常发生这种不一致信息。
[0003]申请内容
[0004]鉴于以上所述现有技术的缺点,本申请的目的在于提供基于元数据的大数据平台构建方法、系统、设备及介质,用于解决现有技术中大数据平台构建中依靠人力劳动带来的耗时又繁琐的技术问题。
[0005]为实现上述目的及其他相关目的,本申请的第一方面提供一种基于元数据的大数据平台构建方法,包括:获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到元数据库;根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标元数据;根据目标元数据配置ETL作业并调度监控所述ETL作业运行。
[0006]于本申请的第一方面的一些实施例中,基于元数据的大数据平台构建方法还包括:对读取到所述元数据库中的源数据进行数据质量分析和/或定期扫描数据字典,将所述数据字典结构与元数据库结构进行对比分析。
[0007]于本申请的第一方面的一些实施例中,基于元数据的大数据平台构建方法还包括:生成对源数据进行数据质量分析的数据质量分析报告、将所述数据字典结构与元数据库结构进行对比分析的对比文件报告以及根据数据源的基本信息生成现有数据源调研报告以及根据元数据库生成数据源系统字典中的一个或多个。
[0008]于本申请的第一方面的一些实施例中,所述根据数据源的设置和目标平台的规则构建目标库表结构包括:根据数据源的设置和目标平台的规则生成目标表元数据,目标字段元数据;根据所述目标表元数据,目标字段元数据以及输入的补充配置数据构建目标库表结构。
[0009]于本申请的第一方面的一些实施例中,所述配置ETL作业包括:配置ETL作业基本信息、ETL作业关联信息、ETL字段映射信息以及ETL作业补全信息。
[0010]于本申请的第一方面的一些实施例中,所述调度管理所述ETL作业运行包括:配置
作业执行的批次号及执行顺序;根据ETL元数据表内的配置信息和ETL工具的Job模板文件,自动生成目标ETL工具能执行的Job文件;根据ETL调度配置元数据,生成执行调度的调度脚本;将调度脚本添加到调度工具,以通过所述调度工具进行执行和监控ETL作业。
[0011]于本申请的第一方面的一些实施例中,基于元数据的大数据平台构建方法还包括:根据目标库表结构和/或数据库模板生成数据库设计文档、根据ETL元数据表内的配置和/或ETL设计文档模板生成ETL设计文档。
[0012]为实现上述目的及其他相关目的,本申请的第二方面提供一种基于元数据的大数据平台构建系统,所述基于元数据的大数据平台构建系统包括:源元数据管理模块,用于获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到元数据库;目标元数据管理模块,用于根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标元数据;ETL元数据管理模块,用于根据目标元数据配置ETL作业;调度监控模块,用于调度监控所述ETL作业运行。
[0013]为实现上述目的及其他相关目的,本申请的第三方面提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如上所述的基于元数据的大数据平台构建方法。
[0014]为实现上述目的及其他相关目的,本申请的第四方面一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于元数据的大数据平台构建方法。
[0015]如上所述,本申请的基于元数据的大数据平台构建方法、系统、设备及介质,具有以下有益效果:
[0016]本专利技术可以自动将数据源的数据字典读取到元数据库中,自动构建目标库表结构,可以配置ETL作业并调度监控所述ETL作业运行,所以本专利技术可以加速大数据平台建设进度,减少人力支出,保证项目元数据的一致性。
附图说明
[0017]图1显示为本申请一实施例中的基于元数据的大数据平台构建方法的整体流程示意图。
[0018]图2显示为本申请一实施例中的基于元数据的大数据平台构建方法中构建目标库表结构的流程示意图。
[0019]图3显示为本申请一实施例中的基于元数据的大数据平台构建方法中调度管理所述ETL作业运行的流程示意图。
[0020]图4显示为本申请一实施例中的基于元数据的大数据平台构建方法的具体执行实例流程示意图。
[0021]图5显示为本申请一实施例中的基于元数据的大数据平台构建方法中目标库表和目标库表元数据示意图。
[0022]图6显示为本申请一实施例中的基于元数据的大数据平台构建系统的原理框图。
[0023]图7显示为本申请一实施例中的电子设备的结构示意图。
[0024]元件标号说明
[0025]100
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
基于元数据的大数据平台构建系统
[0026]110
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
源元数据管理模块
[0027]120
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
目标元数据管理模块
[0028]130
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
ETL元数据管理模块
[0029]140
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
调度监控模块
[0030]1101
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
处理器
[0031]1102
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
存储器
[0032]S100~S300
ꢀꢀꢀꢀ
步骤
[0033]S121~S122
ꢀꢀꢀꢀ
步骤
[0034]S131~S134
ꢀꢀꢀꢀ
步骤
具体实施方式
[0035]以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于元数据的大数据平台构建方法,其特征在于:包括:获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到元数据库;根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标元数据;根据目标元数据配置ETL作业并调度监控所述ETL作业运行。2.根据权利要求1所述的基于元数据的大数据平台构建方法,其特征在于:基于元数据的大数据平台构建方法还包括:对读取到所述元数据库中的源数据进行数据质量分析和/或定期扫描数据字典,将所述数据字典结构与元数据库结构进行对比分析。3.根据权利要求2所述的基于元数据的大数据平台构建方法,其特征在于:基于元数据的大数据平台构建方法还包括:生成对源数据进行数据质量分析的数据质量分析报告、将所述数据字典结构与元数据库结构进行对比分析的对比文件报告以及根据数据源的基本信息生成现有数据源调研报告以及根据元数据库生成数据源系统字典中的一个或多个。4.根据权利要求1所述的基于元数据的大数据平台构建方法,其特征在于:所述根据数据源的设置和目标平台的规则构建目标库表结构包括:根据数据源的设置和目标平台的规则生成目标表元数据,目标字段元数据;根据所述目标表元数据,目标字段元数据以及输入的补充配置数据构建目标库表结构。5.根据权利要求1所述的基于元数据的大数据平台构建方法,其特征在于:所述配置ETL作业包括:配置ETL作业基本信息、ETL作业关联信息、ETL字段映射信息以及ETL作业补全信息。6.根据权利要求1所述的基于元数据的大数据平台构建方法,其特征在于:所述...

【专利技术属性】
技术研发人员:刘晋元张嘉锐王茜朱悦赵燕徐旻昕周喆崔丽春吴洁李敏
申请(专利权)人:上海科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1