【技术实现步骤摘要】
数据质量检查方法、系统、存储介质及电子设备
[0001]本专利技术涉及数据质量检查
,具体涉及一种基于自适应自动化技术的数据质量检查方法、系统、存储介质及电子设备。
技术介绍
[0002]数据质量是数据分析的基础和前提,在数据分析以及数据挖掘过程中,经常因为数据质量问题而导致返工,需反复处理数据并反复检查数据质量,而每次修改都可能带来意想不到的其他数据质量变化;因此,其需要投入非常大的精力和工作量来检查数据质量。
技术实现思路
[0003]针对现有技术中存在的上述问题,本专利技术提供一种基于自适应自动化技术的数据质量检查方法、系统、存储介质及电子设备,其将数据质量检查自动化、工具化和自适应化,提高了工作效率。
[0004]本专利技术第一目的在于提供一种数据质量检查方法,包括:
[0005]输入被检测数据集和特征类型集;
[0006]将所述被检测数据集与所述特征类型集进行特征匹配,得到所述被检测数据集的特征类型;
[0007]基于匹配的特征类型对所述被检测数据集进行数据质量 ...
【技术保护点】
【技术特征摘要】
1.一种数据质量检查方法,其特征在于,包括:输入被检测数据集和特征类型集;将所述被检测数据集与所述特征类型集进行特征匹配,得到所述被检测数据集的特征类型;基于匹配的特征类型对所述被检测数据集进行数据质量检测;其中,若特征类型为离散型特征,则使用缺失值比例、最大重复值比例、众数作为评价指标;若特征类型为非离散型特征,则使用缺失值比例、均值、方差、标准差、众数、最大值、最小值作为评价指标。2.如权利要求1所述的数据质量检查方法,其特征在于,还包括:判断所述被检测数据集是否存在表头;若不存在,则添加表头。3.如权利要求2所述的数据质量检查方法,其特征在于,自动判断所述被检测数据集是否存在表头,以及自动对被检测数据集进行特征类型识别。4.如权利要求1所述的数据质量检查方法,其特征在于,所述将所述被检测数据集与所述特征类型集进行特征匹配,包括:对无表头数据集,按先后顺序匹配特征类型;对有表头数据集,按照特征名称匹配特征类型。5.如权利要求1所述的数据质量检查方法,其特征在于,还包括:输入结果保存路径;对检测的结果进行汇总,根据需求和结果保存路径对结果进行保存,输出word文件和csv文件。6.一种数据质量检查系统,其特征在于,包括:输入模块,用于输入被检测数据集、特征类型集和结果保存路径;匹配模块,...
【专利技术属性】
技术研发人员:程艳伟,
申请(专利权)人:北京思特奇信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。