ETL脚本生成方法和装置制造方法及图纸

技术编号:26342494 阅读:35 留言:0更新日期:2020-11-13 20:34
本发明专利技术涉及人工智能领域,提供一种ETL脚本生成方法和装置,该方法包括:获取目标表的表结构以及贴源表的表结构,所述表结构包括:字段;将所述目标表的字段与所述贴源表的字段进行匹配;判断所述目标表中所有字段在所述贴源表中是否均有匹配的字段;若是,根据所述目标表的表结构、所述贴源表的表结构以及所述目标表与所述贴源表的匹配结果生成ETL脚本。通过采用上述技术方案,能够自动生成ETL脚本,减少开发工作量、准确率高、缩短开发时间,能适应技术的快速发展。

【技术实现步骤摘要】
ETL脚本生成方法和装置
本专利技术涉及人工智能
,尤其涉及一种ETL脚本生成方法和装置。
技术介绍
数据仓库是当前大数据体系的核心,主要用来进行离线的数据分析及多维度统计功能,存在统计目标多、数据量大、运算时间长等特点。为了不影响业务系统的运行,一般会在业务系统业务低谷时定期从业务系统抓取数据,这样,在线业务系统与离线数据分析系统互相隔离,可以互相独立运行。为了提升金融、医疗等行业的服务质量并降低风险,国家各相关监管机构要求各运营机构上传明细类和统计类的运营业务数据,由于各运营机构的业务系统各不相同也没有统一标准,因此需要将各家数据标准化为满足监管机构要求的统一结构后再上报至监控机构。各运营机构通过开发ETL脚本将多种贴源表中的数据整合到目标表中,实现数据标准化。ETL开发过程的第一阶段需要理解业务系统的处理逻辑,调研清楚数据模型的结构、数据表及字段存储数据的含义、表间关系、字段枚举值(字典表)含义等。ETL开发的第二阶段有以下几种方式:1.手工编写SQL语句,将贴源表结构里的数据通过select,insert等本文档来自技高网...

【技术保护点】
1.一种ETL脚本生成方法,其特征在于,包括:/n获取目标表的表结构以及贴源表的表结构,所述表结构包括:字段;/n将所述目标表的字段与所述贴源表的字段进行匹配;/n判断所述目标表中所有字段在所述贴源表中是否均有匹配的字段;/n若是,根据所述目标表的表结构、所述贴源表的表结构以及所述目标表与所述贴源表的匹配结果生成ETL脚本。/n

【技术特征摘要】
1.一种ETL脚本生成方法,其特征在于,包括:
获取目标表的表结构以及贴源表的表结构,所述表结构包括:字段;
将所述目标表的字段与所述贴源表的字段进行匹配;
判断所述目标表中所有字段在所述贴源表中是否均有匹配的字段;
若是,根据所述目标表的表结构、所述贴源表的表结构以及所述目标表与所述贴源表的匹配结果生成ETL脚本。


2.根据权利要求1所述的ETL脚本生成方法,其特征在于,所述将所述目标表的字段与所述贴源表的字段进行匹配,包括:
根据预获取的知识库扩展所述贴源表的字段得到对应的近义词和/或同义词,所述知识库包括:实体字典,所述实体字典包括:词汇及其近义词和同义词;
将所述目标表的字段与所述贴源表的字段、对应的近义词和/或同义词进行匹配。


3.根据权利要求2所述的ETL脚本生成方法,其特征在于,所述知识库还包括:实体间关系,所述将所述目标表的字段与所述贴源表的字段进行匹配之前,还包括:
识别所述目标表中的有歧义的字段;
根据所述实体间关系判断有歧义的字段的最终含义。


4.根据权利要求1所述的ETL脚本生成方法,其特征在于,还包括:
若所述目标表中所有字段在所述贴源表中未能全部都有匹配的字段,则判断未匹配字段是否有对应的业务逻辑;
若有,根据所述业务逻辑得到未匹配字段与贴源表中字段的映射关系;
根据所述目标表的表结构、所述贴源表的表结构、所述目标表与所述贴源表的匹配结果以及上述映射关系生成ETL脚本。


5.根据权利要求1至4任一项所述的ETL脚本生成方法,其特征在于,还包括:
根据预获取的知识库识别所述目标表中的字段是否为字典项;
若是,设置所述字典项对应的字段与对应的贴源表字段之间的映射关系。


6.根据权利要求1所述的ETL脚本生成方法,其特征在于,所述贴源表的数量大于1;
所述将所述目标表的字段与所述贴源表的字段进行匹配,包括:
将所述目标表的字段分别与各贴源表的字段进行匹配;
根据匹配结果得到所述目标表与各贴原边的表结构相似度;
选取与所述目标表的表结构相似度最高的贴源表作为主表;
所述判断所述目标表中所有字段在所述贴源表中是否均有匹配的字段,包括:
判断所述目标表中所有字段在所述主表中是否均有匹配的字段;
若否,判断除所述主表外的贴源表中是否有与所述目标表的剩余字段匹配的字段。


7.根据权利要求2所述的ETL脚本生成方法,其特征在于,还包括:
利用NLP技术处理输入语料得到所述知识库。


8.一种ETL脚本生成装置,其特征在于,包括:
表结构获取模块,获取目标表的表结构以及贴源表的表结构,所述表结构包括:字段;
字段匹配模块,将所述目标表的字段与所述贴源表的字段进行匹配;
字段判断模块,判断所述目标表中所有字段在所述贴源表中是否均有匹配的字段;
第一ETL脚本生成模块,若所述目标表中所有字段在所述...

【专利技术属性】
技术研发人员:刘伟杜利仲尹宏春王晶
申请(专利权)人:工银科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1