【技术实现步骤摘要】
一种防止数据二次污染的数据治理方法
[0001]本专利技术涉及信息技术
,尤其涉及一种防止数据二次污染的数据治理方法。
[0002]
技术介绍
[0003]数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。
[0004]数据仓库主要用途包括:整合公司所有业务数据,建立统一的数据中心;产生业务报表,用于作出决策;为网站运营提供运营上的数据支持;可以作为各个业务的数据源,形成业务数据互相反馈的良性循环;分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果;开发数据产品,直接或间接地为公司盈利等。数据仓库建设中,很重要的一个工作单元就是ETL,ETL是英文Extract
‑
Transform
‑
Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
[0005]数据转换(Transform)包含数据清洗,数据清洗的任务是过滤那些不符合要求的数据, ...
【技术保护点】
【技术特征摘要】
1.一种防止数据二次污染的数据治理方法,其特征在于,包括以下阶段:第一阶段,建立镜像库,针对每个生产系统建立镜像库,生产系统每次提交的数据,都会保存在镜像库中;第二阶段,识别数据变化,生产系统采集的数据和镜像库的数据对比,识别该次采集的数据在镜像库为新增项目内容还是已有项目内容,若为已有项目内容,则和镜像库的记录进行比对,比对是否存在变化的部份,发现变化的部份,将新增的部份和变化的部份,交付给第三阶段进行处理,并将该次采集的数据覆写镜像库的数据;第三阶段,数据融合处理,将第二阶段新增的部份和变化的部...
【专利技术属性】
技术研发人员:黄远新,余宗伟,黄开辉,
申请(专利权)人:广州晟能软件科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。