数据清洗流程方法技术

技术编号:38845181 阅读:13 留言:0更新日期:2023-09-17 09:56
本发明专利技术公开了数据清洗流程方法,包括如下步骤;步骤一:进行数据采集;步骤二:全字段统计重复记录数据;步骤三:将数据表存在重复的数据进行数据去重;步骤四:将数据进行格式转换。本发明专利技术通过从多角度、全方位判定数据来源的权威性、可靠性。可靠性。可靠性。

【技术实现步骤摘要】
数据清洗流程方法


[0001]本专利技术涉及数据清洗流程方法的
,特别是数据清洗流程方法的


技术介绍

[0002]在厨具制造工业数据集成过程中,面临工业数据复杂多样,数据集成过程中的数据质量难以保障;现有的ETL(提取

转换

加载)任务脚本调度方案效率低、核心业务数据更新慢,难以适应厨具制造工业大数据环境下的数据集成需求等问题。
[0003]本项目基于SOA架构工业大数据融合、基于TAN网多源异构不精确数据的清洗、ETL的数据仓库管理集成技术构建自主可控智能数据资源管理平台,实现数据资源的自主可控智能化管理。
[0004]为了解决上述问题,实现数据资源的自主可控智能化管理,有必要提出数据清洗流程方法。

技术实现思路

[0005]本专利技术的目的就是解决现有技术中的问题,提出数据清洗流程方法,能够从多角度、全方位判定数据来源的权威性、可靠性。
[0006]为实现上述目的,本专利技术提出了数据清洗流程方法,包括如下步骤;
[0007]步骤一:进行数据采集;
[0008]步骤二:全字段统计重复记录数据;
[0009]步骤三:将数据表存在重复的数据进行数据去重;
[0010]步骤四:将数据进行格式转换;
[0011]步骤五:将转换成功的数据进行缺省值处理;
[0012]步骤六:进行编码标准化处理;
[0013]步骤七:进行黄金数据源判定;
[0014]步骤八:进行数据整合;
[0015]步骤九:数据清洗完成。
[0016]作为优选,所述步骤三中,若数据表不存在重复的数据,则直接进行格式转换。
[0017]作为优选,所述步骤四中,格式转换包含日期格式转换、字符转换数字等。
[0018]作为优选,所述步骤五中,若数据进行格式转换不成功,则对转换不成功的数据赋特殊值,然后再进行缺省值处理。
[0019]作为优选,所述步骤五中,缺省值处理包含日期、金额、长度等。
[0020]作为优选,所述步骤七中,黄金数据源判定的流程如下;
[0021]Step1:判断黄金数据源是否可以专家评定,若黄金数据源可以专家评定,则专家判定黄金源数据后,黄金数据源判定结束;
[0022]Step2:若黄金数据源不可以专家评定,则要进入下述判定流程;
[0023]S1、导入要比较的样品数据;
[0024]S2、统计字段空值率;
[0025]S3、计算数据完整性指标;
[0026]S4、抽样检查数据的准确性;
[0027]S5、计算数据准确性指标;
[0028]S6、统计数据更新的时间点;
[0029]S7、计算数据时效性指标;
[0030]S8、统计可用记录数;
[0031]S9、计算数据可用性指标;
[0032]S10、汇总计算数据质量指标;
[0033]S11、进行数据源指标得分对比;
[0034]A.比分超过2:1后,则确定黄金数据源,黄金数据源判定结束;
[0035]B.比分没有超过2:1后,检验通过源数据统计数据被引用数量;
[0036]B1.若数量比例超过1:1,则确定黄金数据源,黄金数据源判定结束;
[0037]B2.若数量比例没有超过1:1,则无黄金数据源,黄金数据源判定结束。
[0038]作为优选,所述S3中,完整性等于完整记录数除以总记录数后得到的数值再乘以100%。
[0039]作为优选,所述S5中,准确性等于正确记录数除以总记录数后得到的数值再乘以100%。
[0040]作为优选,所述S7中,时效性等于及时更新记录数除以总记录数后得到的数值再乘以100%。
[0041]作为优选,所述S9中,可用性等于可用记录数除以总记录数后得到的数值再乘以100%。
[0042]本专利技术的有益效果:本专利技术通过从多角度、全方位判定数据来源的权威性、可靠性;首先是专家判断,企业内部公认的可信数据源;其次是指标判断,如果没有公认的可信数据源,则通过完整性、准确性、时效性、可用性评判数据的可信度;最后,如果还是不能判定,则通过下游数据的引用情况来判断,通常数据应用方引用更多的数据其可靠度更高。
[0043]本专利技术的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
[0044]图1是本专利技术数据清洗流程方法的流程图;
[0045]图2是本专利技术数据清洗流程方法的黄金数据源判定流程图。
【具体实施方式】
[0046]参阅图1、图2,本专利技术数据清洗流程方法,包括如下步骤;
[0047]步骤一:进行数据采集;
[0048]步骤二:全字段统计重复记录数据;
[0049]步骤三:将数据表存在重复的数据进行数据去重;
[0050]步骤四:将数据进行格式转换;
[0051]步骤五:将转换成功的数据进行缺省值处理;
[0052]步骤六:进行编码标准化处理;
[0053]步骤七:进行黄金数据源判定;
[0054]步骤八:进行数据整合;
[0055]步骤九:数据清洗完成。
[0056]其中,所述步骤三中,若数据表不存在重复的数据,则直接进行格式转换。
[0057]其中,所述步骤四中,格式转换包含日期格式转换、字符转换数字等。
[0058]其中,所述步骤五中,若数据进行格式转换不成功,则对转换不成功的数据赋特殊值,然后再进行缺省值处理。
[0059]其中,所述步骤五中,缺省值处理包含日期、金额、长度等。
[0060]其中,所述步骤七中,黄金数据源判定的流程如下;
[0061]Step1:判断黄金数据源是否可以专家评定,若黄金数据源可以专家评定,则专家判定黄金源数据后,黄金数据源判定结束;
[0062]Step2:若黄金数据源不可以专家评定,则要进入下述判定流程;
[0063]S1、导入要比较的样品数据;
[0064]S2、统计字段空值率;
[0065]S3、计算数据完整性指标;
[0066]S4、抽样检查数据的准确性;
[0067]S5、计算数据准确性指标;
[0068]S6、统计数据更新的时间点;
[0069]S7、计算数据时效性指标;
[0070]S8、统计可用记录数;
[0071]S9、计算数据可用性指标;
[0072]S10、汇总计算数据质量指标;
[0073]S11、进行数据源指标得分对比;
[0074]A.比分超过2:1后,则确定黄金数据源,黄金数据源判定结束;
[0075]B.比分没有超过2:1后,检验通过源数据统计数据被引用数量;
[0076]B1.若数量比例超过1:1,则确定黄金数据源,黄金数据源判定结束;
[0077]B2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.数据清洗流程方法,其特征在于:包括如下步骤;步骤一:进行数据采集;步骤二:全字段统计重复记录数据;步骤三:将数据表存在重复的数据进行数据去重;步骤四:将数据进行格式转换;步骤五:将转换成功的数据进行缺省值处理;步骤六:进行编码标准化处理;步骤七:进行黄金数据源判定;步骤八:进行数据整合;步骤九:数据清洗完成。2.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤三中,若数据表不存在重复的数据,则直接进行格式转换。3.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤四中,格式转换包含日期格式转换、字符转换数字等。4.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤五中,若数据进行格式转换不成功,则对转换不成功的数据赋特殊值,然后再进行缺省值处理。5.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤五中,缺省值处理包含日期、金额、长度等。6.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤七中,黄金数据源判定的流程如下;Step1:判断黄金数据源是否可以专家评定,若黄金数据源可以专家评定,则专家判定黄金源数据后,黄金数据源判定结束;Step2:若黄金数据源不可以专家评定,则要进入下述判定流程;S1、导入要比较...

【专利技术属性】
技术研发人员:梁郁庆陈锡雁袁军蔡德全王力杨子勤
申请(专利权)人:浙江天喜厨电股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1