一种防止数据二次污染的数据治理方法技术

技术编号:28059400 阅读:33 留言:0更新日期:2021-04-14 13:34
本发明专利技术提供一种防止数据二次污染的数据治理方法,包括以下阶段:第一阶段,建立镜像库,针对每个生产系统建立镜像库;第二阶段,识别数据变化,生产系统采集的数据和镜像库的数据对比;第三阶段,数据融合处理,将第二阶段新增的部份和变化的部份,和数据仓库中的主题数据进行对比;第四阶段,发布数据仓库数据变动事件,将数据仓库的主题数据的变动部份,以数据事件方式发布到事件总线,采取数据一致性处理或丢弃处理。仅针对数据清理过程中,思路同样放在仅处理生产系统数据变化部份,对脏数据二次污染的过程进行治理,具有简单、易行、通用的特点,有效提升数据治理效率,降低数据融合成本。成本。成本。

【技术实现步骤摘要】
一种防止数据二次污染的数据治理方法


[0001]本专利技术涉及信息技术
,尤其涉及一种防止数据二次污染的数据治理方法。
[0002]
技术介绍

[0003]数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。
[0004]数据仓库主要用途包括:整合公司所有业务数据,建立统一的数据中心;产生业务报表,用于作出决策;为网站运营提供运营上的数据支持;可以作为各个业务的数据源,形成业务数据互相反馈的良性循环;分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果;开发数据产品,直接或间接地为公司盈利等。数据仓库建设中,很重要的一个工作单元就是ETL,ETL是英文Extract

Transform

Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
[0005]数据转换(Transform)包含数据清洗,数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种防止数据二次污染的数据治理方法,其特征在于,包括以下阶段:第一阶段,建立镜像库,针对每个生产系统建立镜像库,生产系统每次提交的数据,都会保存在镜像库中;第二阶段,识别数据变化,生产系统采集的数据和镜像库的数据对比,识别该次采集的数据在镜像库为新增项目内容还是已有项目内容,若为已有项目内容,则和镜像库的记录进行比对,比对是否存在变化的部份,发现变化的部份,将新增的部份和变化的部份,交付给第三阶段进行处理,并将该次采集的数据覆写镜像库的数据;第三阶段,数据融合处理,将第二阶段新增的部份和变化的部...

【专利技术属性】
技术研发人员:黄远新余宗伟黄开辉
申请(专利权)人:广州晟能软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1