【技术实现步骤摘要】
基于元数据的智能化数据清洗方法及装置
本申请涉及数据管理领域,特别是涉及数据清洗方法及装置。
技术介绍
企业在过去信息化的历程中形成了大量生产经营及专业业务应用成果,同时也累积了大量的企业数据资产。限于传统的数据仓库技术手段,数据管理和分析能力成为信息化工作中的短板。企业信息系统众多,系统管理独立,数据存储分散,横向的数据共享和分析应用仅由具体业务驱动,难以对全局数据开展价值挖掘,从规模上和效果上都无法真正体现集团庞大数据资产的价值。随着大数据技术在各领域的大量运用,数据管理工具也得到了飞速发展;从最初的决策支持系统(DSS)到商业智能(BI)和数据仓库,然后逐步发展并出现了功能更强大的数据湖、数据中台。商务智能(BI,BusinessIntelligence)是一种以提供决策分析性的运营数据为目的而建立的信息系统。是属于在线分析处理:OnLineAnalyticalProcessing(OLAP),将预先计算完成的汇总数据,储存于魔方数据库(Cube)之中,针对复杂的分析查询,提供快速的响应。数据仓 ...
【技术保护点】
1.基于元数据的智能化数据清洗方法,包括:/n利用元数据管理工具从预先设置的质量检查规则模板中匹配出与源库数据相适应的数据质量检查规则模板;/n利用匹配出的数据质量检查规则模板对源库数据进行检查,并生成数据质量报告;/n根据匹配出的数据质量检查规则模板和所述数据质量报告,构建清洗任务脚本和清洗流程;/n利用构建出的清洗任务脚本和清洗流程对源库数据进行清洗。/n
【技术特征摘要】 【专利技术属性】
1.基于元数据的智能化数据清洗方法,包括:
利用元数据管理工具从预先设置的质量检查规则模板中匹配出与源库数据相适应的数据质量检查规则模板;
利用匹配出的数据质量检查规则模板对源库数据进行检查,并生成数据质量报告;
根据匹配出的数据质量检查规则模板和所述数据质量报告,构建清洗任务脚本和清洗流程;
利用构建出的清洗任务脚本和清洗流程对源库数据进行清洗。
2.根据权利要求1所述的方法,其特征在于,所述的利用元数据管理工具从预置的数据质量检查规则模板中匹配出与源库数据相适应的数据质量检查规则模板包括:
根据源库的数据结构、数据字典、以及数据标准,利用挖掘算法识别出业务主键、业务关键字段、以及字段含义;
根据识别出的业务主键、业务关键字段、以及字段含义,匹配内置的质量检查规则模板,自动生成源库数据的数据质量检查规则。
3.根据权利要求1或2所述的方法,其特征在于,所述的数据质量报告包括对质量检查规则的满足情况和对字段数据的值域分析。
4.根据权利要求1或2所述的方法,其特征在于,在利用构建出的清洗任务脚本和清洗流程对源库数据进行清洗之后还包括:
根据清洗情况生成数据清洗报告。
5.根据权利要求1或2所述的方法,其特征在于,在利用构建出的清洗任务脚本和清洗流程对源库数据进行清洗之后还包括:
对于通过清洗无法修正的源库数据以标签的形式记录下来。
技术研发人员:王晓明,
申请(专利权)人:北京天源迪科信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。