数据质量检查方法、系统、存储介质及电子设备技术方案

技术编号:31161212 阅读:23 留言:0更新日期:2021-12-04 10:29
本发明专利技术公开了一种数据质量检查方法、系统、存储介质及电子设备,包括:输入被检测数据集和特征类型集;将被检测数据集与特征类型集进行特征匹配,得到被检测数据集的特征类型;基于匹配的特征类型对被检测数据集进行数据质量检测;其中,若特征类型为离散型特征,则使用缺失值比例、最大重复值比例、众数作为评价指标;若特征类型为非离散型特征,则使用缺失值比例、均值、方差、标准差、众数、最大值、最小值作为评价指标。本发明专利技术通过识别不同的数据字段类型,采用不同的数据质量评价指标,通过自动化计算,评估数据质量,具有一定的通用性,从而解决数据质量工作量大、工作效率低的问题。工作效率低的问题。工作效率低的问题。

【技术实现步骤摘要】
数据质量检查方法、系统、存储介质及电子设备


[0001]本专利技术涉及数据质量检查
,具体涉及一种基于自适应自动化技术的数据质量检查方法、系统、存储介质及电子设备。

技术介绍

[0002]数据质量是数据分析的基础和前提,在数据分析以及数据挖掘过程中,经常因为数据质量问题而导致返工,需反复处理数据并反复检查数据质量,而每次修改都可能带来意想不到的其他数据质量变化;因此,其需要投入非常大的精力和工作量来检查数据质量。

技术实现思路

[0003]针对现有技术中存在的上述问题,本专利技术提供一种基于自适应自动化技术的数据质量检查方法、系统、存储介质及电子设备,其将数据质量检查自动化、工具化和自适应化,提高了工作效率。
[0004]本专利技术第一目的在于提供一种数据质量检查方法,包括:
[0005]输入被检测数据集和特征类型集;
[0006]将所述被检测数据集与所述特征类型集进行特征匹配,得到所述被检测数据集的特征类型;
[0007]基于匹配的特征类型对所述被检测数据集进行数据质量检测;其中,若特征类本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据质量检查方法,其特征在于,包括:输入被检测数据集和特征类型集;将所述被检测数据集与所述特征类型集进行特征匹配,得到所述被检测数据集的特征类型;基于匹配的特征类型对所述被检测数据集进行数据质量检测;其中,若特征类型为离散型特征,则使用缺失值比例、最大重复值比例、众数作为评价指标;若特征类型为非离散型特征,则使用缺失值比例、均值、方差、标准差、众数、最大值、最小值作为评价指标。2.如权利要求1所述的数据质量检查方法,其特征在于,还包括:判断所述被检测数据集是否存在表头;若不存在,则添加表头。3.如权利要求2所述的数据质量检查方法,其特征在于,自动判断所述被检测数据集是否存在表头,以及自动对被检测数据集进行特征类型识别。4.如权利要求1所述的数据质量检查方法,其特征在于,所述将所述被检测数据集与所述特征类型集进行特征匹配,包括:对无表头数据集,按先后顺序匹配特征类型;对有表头数据集,按照特征名称匹配特征类型。5.如权利要求1所述的数据质量检查方法,其特征在于,还包括:输入结果保存路径;对检测的结果进行汇总,根据需求和结果保存路径对结果进行保存,输出word文件和csv文件。6.一种数据质量检查系统,其特征在于,包括:输入模块,用于输入被检测数据集、特征类型集和结果保存路径;匹配模块,...

【专利技术属性】
技术研发人员:程艳伟
申请(专利权)人:北京思特奇信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1