提高目标数据准确性的数据清洗方法及清洗系统技术方案

技术编号:4225339 阅读:566 留言:0更新日期:2012-04-11 18:40
一种提高目标数据准确性的数据清洗方法,包括:(1)从数据源中找到与所述目标数据相关的若干原始字段项A1,A2...An;(2)建立逻辑处理模型:目标数据量=f(M1(q1,G1(A1)),M2(q2,G2(A2)),...Mn(qn,Gn(An)))其中,A1,A2...An分别为原始字段项,G1(A1)、G2(A2)...Gn(An)分别为反映每一原始字段项中数据属性的属性函数,q1,q2...qn为每一原始字段项的权重值;M1(q1,G1(A1),M2(q2,G2(A2))..Mn(qn,Gn(An))为影响目标数据值的每一原始字段分值的影响函数,f()为根据每一影响函数确定目标数据值的确定函数;(3)在每一次数据清洗时,找到所有的原始字段项,根据逻辑处理模型确定目标数据的数值。本发明专利技术能够提高从数据源中清洗出来的目标数据的准确性。

【技术实现步骤摘要】

本专利技术涉及数据库领域,特别是涉及对数据仓库中目标数据进行清洗的 数据清洗方法及数据清洗系统。
技术介绍
数据仓库是在企业管理和决策中面向主题、集成的、与时间相关的、不可修改的数据集合。也就是说,对所有的应用系统,例如客户关系管理(CRM, Customer Relationship Management)系统、财务系统等,按主题进行集成,并 记录整个历史变化情况。随着企业信息化程度的不断提高,企业内部积累了 大量的业务数据,数据仓库用于对这些相互独立、分散的数据进行统一处理, 以满足企业高层决策与分析需要。参照图1,其为数据仓库系统的体系结构框图。整个数据仓库系统是一个 包含四个层次的体系结构,包括数据源101、数据仓库102、联机分析处理 (OLAP, on-line analytical processing)系统103及前端工具104,其中数据源101,是数据仓库系统的基础,通常包括企业内部信息和外部信息。 内部信息包括各种业务处理数据和各类文档数据,外部信息包括各类法律法 规、市场信息和竟争对手的信息等。例如,CRM系统,财务系统。数据仓库102,是以数据表的结构存储所述数据源101的数据,每个数据 表对应 一个数据对象, 一个数据源可以对应多个数据对像。OLAP系统103,用于对分析需要的数据进行有效集成,按多维模型予以 组织,以便进行多角度、多层次的分析,并发现趋势。前端工具104,主要包括各种报表工具,查询工具、数据分析工具、数据 挖掘工具以及各种基于数据仓库的应用开发工具,实现对数据仓库102的访 问。其中,数据分析工具主要针对OLAP服务器,才艮表工具、数据挖掘工具 主要针对数据仓库。数据仓库的ETL模块是对数据抽取(extract)、转换(Transform )、清洗 (Cleansing)、装载(Load)的过程,是对OLAP系统开发的过程。其中,所述数据抽取是指从源系统中提取数据;所述数据转换是指开发者将提取的数据 进行转换,lt据清洗是指将提取的数据按照业务需要转换为目标数据结构, 并实现汇总;所述数据装载是指加载经转换和汇总的数据到目标数据仓库中。 每一ETL模块用于完成对数据的一项处理,如上述提及的数据抽取、转换、 清洗、装载,并对处理结果以数据表的形式保存在数据仓库中,以提供企业 管理和决策中使用。在现有的ETL过程中,数据源101中的数据质量是一个非常令人头疼的 问题,没有良好数据质量的数据源,使得ELT模块处理后的数据表,并不一 定能体现用户的真实信息,很容易误导公司的决策。特别是在互联网上,通 常存在很多用户不能信任服务提供商或者保护自身的隐私的角度不填写真实 信息的情况发生,基于这些不准确或没有填写的资料进行数据清洗时,通常 是通过一个原始数据的简单加工输出至目标数据,这种清选得到的数据准确 性差,容易使得数据准备性偏差,这给后续的分析和模型实践带来一定的误 差,从而一定程度上误导决策者的决策支持作用。
技术实现思路
本专利技术的第一目的在于提供一种提高目标数据准确性的数据清洗方法, 以解决现有技术中从数据源中得到的目标数据质量不好,从而给后续的分析 和模型实践带来一定误差的技术问题。本专利技术的第二目的在于提供一种提高目标数据准确性的数据清洗系统。 为了达到上述目的,本专利技术进一步提供了提高目标数据准确性的数据清 洗方法,用以提高从数据源中清洗出来的目标数据的准确性,包括以下步骤(1) 从数据源中找到与所述目标数据相关的若干原始字段项Al,A2…An;(2) 建立逻辑处理模型(21) 根据每一原始字段项中影响目标数据的因素大小确定每一原始字 段项的权重值ql, q2…qn;(22) 确定该目标数据值的逻辑处理模型目标数据量=f(Ml(ql,Gl(Al)), M2(q2, G2(A2)),…Mn(qn,Gn(An))) 其中,Al,A2…An分别为原始字段项,G1(A1)、 G2(A2)…Gn(An)分别为反映每一原始字段项中lt据属性的属性函数,ql, q2…qn为每一原始字段项 的权重值;Ml(ql,Gl(Al), M2(q2, G2(A2)).. Mn(qn,Gn(An))为影响目标数据 值的每一原始字段分值的影响函数,f()为根据每一影响函数确定目标数据值 的确定函数;(3)在每一次数据清洗时,找到所有的原始字段项,根据逻辑处理模型确 定目标数据的数值。较优地,步骤(2)中所述影响函数为每一原始字段中的变量出现的概率, 所述所有权重值为相同,所述确定函数是指概率最高的变量为目标数据值; 步骤(3)进一步包括,先找到所有的原始字段项,然后统计每一原始字段项中 每一变量出现的概率,随后将不同字段项中相同值的变量的概率值进行相加, 其概率值最大的变量为本次数据清洗的目标数据值。较优地,步骤(2)中所述影响函数为每一原始字段中的变量出现的概率, 所述确定函数是指概率最高的变量为目标数据值;步骤(3)进一步包括,先找 到所有的原始字段项,然后统计每一原始字段项中每一变量出现的概率,每 一原始字段项的影响函数值为该原始字段中概率最高的变量值,随后统计所 有影响函数值,其相同值最多的影响函数值为本次数据清洗时该目标数据的 数据值。较优地,步骤(2)中确定每一原始字段项的权重值中某一字段项的权重为 最大比重值;步骤(3)进一步包括找到该原始字段项,按照预先设定的该原 始字段项的影响函数来确定本次lt据清洗时该目标数据的数据值。本专利技术还包括定期或事件触发式地修改逻辑处理模型,至少删除、增 加或修改原始字段项、修改属性函数、各权重值、影响函数、确定函数的其 中之一操作;当进行数据清洗时,按照修改后的逻辑处理模型进行该目标数 据值的清洗。本专利技术进一步包括定期或事件触发式地修改逻辑处理模型,在该逻辑 处理模型中增加新目标数据清洗的确定函数;当进行数据清洗时,清洗新增 目标数据的数据寸直。一种数据清洗系统,包括数据库和服务器,其中,数据库包括数据源和数据仓库,所述数据源用于实时存储用户进行商务处理的数据,所述数据仓库还用于存储每一 目标数据值的逻辑处理模型目标数据量=f(Ml(ql,Gl(Al)), M2(q2, G2(A2)),…Mn(qn,Gn(An)))其中,Al,A2.,.An分别为原始字段项,G1(A1)、 G2(A2)…Gn(An)分别为 反映每一原始字段项中数据属性的属性函数,ql, q2…qn为每一原始字段项 的权重值;Ml(ql,Gl(Al), M2(q2, G2(A2)).. Mn(qn,Gn(An))为影响目标数据 值的每一原始字段分值的影响函数,f()为根据每一影响函数确定目标数据值 的确定函数;服务器至少包括一智能清洗单元,用于在每一数据清洗过程中找到所有 的原始字段项,根据逻辑处理模型确定目标数据的数值。而本发现,可以在原有的数据基础上,通过更成熟和智能化的算法实现 数据的加工处理,充分利用各个源数据共同服务于目标数据,避免了以前的 那种使用单一某项数据或数据缺失带来的数据偏差,^使得数据清洗不再无序 和单一,使得目标数据表中的数据更加完整,提高了数据质量。 附图说明图1为数据仓库系统的体系结构框图2为本专利技术提供的一种数据清洗系统的结构示意图3为智本文档来自技高网
...

【技术保护点】
一种提高目标数据准确性的数据清洗方法,用以提高从数据源中清洗出来的目标数据的准确性,其特征在于,包括以下步骤:    (1)从数据源中找到与所述目标数据相关的若干原始字段项A1,A2...An;    (2)建立逻辑处理模型:    (21)根据每一原始字段项中影响目标数据的因素大小确定每一原始字段项的权重值q1,q2...qn;    (22)确定该目标数据值的逻辑处理模型:    目标数据量=f(M1(q1,G1(A1)),M2(q2,G2(A2)),...Mn(qn,Gn(An)))    其中,A1,A2...An分别为原始字段项,G1(A1)、G2(A2)...Gn(An)分别为反映每一原始字段项中数据属性的属性函数,q1,q2...qn为每一原始字段项的权重值;M1(q1,G1(A1),M2(q2,G2(A2))..Mn(qn,Gn(An))为影响目标数据值的每一原始字段分值的影响函数,f()为根据每一影响函数确定目标数据值的确定函数;    (3)在每一次数据清洗时,找到所有的原始字段项,根据逻辑处理模型确定目标数据的数值。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐建军向继新
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:KY[开曼群岛]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1