一种数据质量检测方法及其系统技术方案

技术编号:27462385 阅读:23 留言:0更新日期:2021-02-25 05:26
本申请公开了一种数据质量检测方法及其系统,其中,数据质量检测系统包括:获取装置:向处理器发送模型选取指令;用于获取多个初始样本数据或多个新样本数据,并将初始样本数据或新样本数据传入处理器;处理器:用于执行如下方法:接收模型选取指令,根据模型选取指令选择初始预测算模型;获取多个初始样本数据,并对每个初始样本数据进行处理,获得测试集数据;将测试集数据传入至初始预测算模型,获得预判断结果;判断预判断结果是否符合预先设定的判断标准;若符合,则对初始预测算模型进行优化,得到优化后测算模型并保存;调用优化后测算模型对需要识别的新样本数据进行处理,生成数据波动报告并保存。本申请具有提高数据质量的技术效果。量的技术效果。量的技术效果。

【技术实现步骤摘要】
一种数据质量检测方法及其系统


[0001]本申请涉及计算机
,尤其涉及一种数据质量检测方法及其系统。

技术介绍

[0002]在对数据进行分析和管理的过程中,异常数据的出现会直接导致分析结果发生显著的变化,造成得到的结果超出预期,从而使管理者对整个项目过程的推断、控制和预测不准确,出现错误的判断将给整个项目带来巨大的风险,因此有效的检测、排查、防治数据异常有着很重要的作用。
[0003]目前通常采用传统的描述性分析(描述性分析:主要用于对已经发生的事实用数据做出准确的描述,熟悉数据集并识别数据问题。)和探索性分析(探索性分析:用于诊断性分析数据元素之间的关系,一般侧重于变量之间的相关性。)对数据进行分析,但传统的描述性分析以及探索性分析不能满足对导致结果的特征定量的分析,以及对新样本预测结果的高精准度要求。

技术实现思路

[0004]本申请的目的在于提供一种数据质量检测方法及其系统,具有提前识别数据质量波动情况,从而事先采取措施调整,提高数据质量的技术效果。
[0005]为达到上述目的,本申请提供一种数据质量检测系统,包括获取装置和处理器;其中,获取装置:向处理器发送模型选取指令;用于获取多个初始样本数据或多个新样本数据,并将初始样本数据或新样本数据传入处理器进行处理;处理器:用于执行如下方法:接收模型选取指令,根据模型选取指令选择初始预测算模型;其中,模型选取指令包括:至少一个数据特征;获取多个初始样本数据,并对每个初始样本数据进行处理,获得测试集数据;将测试集数据传入至初始预测算模型,获得预判断结果;判断预判断结果是否符合预先设定的判断标准;若符合,则对初始预测算模型进行优化,得到优化后测算模型,并保存;若不符合,则输入特征无效;调用优化后测算模型对需要识别的新样本数据进行处理,生成数据波动报告,并保存。
[0006]如上的,其中,处理器包括:数据接收单元、数据处理单元和模型单元;其中,数据接收单元:用于接收初始样本数据或新样本数据,并将初始样本数据或新样本数据发送至数据处理单元;数据处理单元:对初始样本数据或新样本数据进行处理,获得测试集数据,并将测试集数据发送至模型单元;模型单元:用于设置数据特征,并根据数据特征选择初始预测算模型;对初始预测算模型进行优化获得优化后测算模型。
[0007]如上的,其中,数据处理单元包括:损伤分析单元、完整性分析单元、故障分析单元和贴标单元;其中,损伤分析单元:对初始样本数据进行损伤检测,获得无损样本数据,并将无损样本数据发送至完整性分析单元;完整性分析单元:对无损样本数据进行完整性检测,获得完整样本数据,并将完整样本数据发送至故障分析单元;故障分析单元:对完整样本数据进行故障分析,获得预测数据,并将预测数据发送至贴标单元;贴标单元:对预测数据贴
标签,获得测试集数据。
[0008]本申请还提供一种数据质量检测方法,包括如下步骤:接收模型选取指令,根据数据特征选择初始预测算模型;其中,模型选取指令包括:至少一个数据特征;获取多个初始样本数据,并对每个初始样本数据进行处理,获得测试集数据;将测试集数据传入至初始预测算模型,获得预判断结果;判断预判断结果是否符合预先设定的判断标准;若符合,则对初始预测算模型进行优化,得到优化后测算模型,并保存;若不符合,则输入特征无效;调用优化后测算模型对需要识别的新样本数据进行处理,生成数据波动报告,并保存。
[0009]如上的,其中,获取多个初始样本数据,对每个初始样本数据进行处理,获得测试集数据的子步骤如下:对接收到的每个初始样本数据进行损伤检测,获得无损样本数据;对无损样本数据进行完整性检测,获得完整样本数据;对完整样本数据进行故障分析,获得预测数据;对预测数据贴标签,获得测试集数据。
[0010]如上的,其中,对无损样本数据进行完整性检测,获得完整样本数据的子步骤如下:对无损样本数据进行完整性检测,并生成完整性结果;对完整性结果进行分析,获得完整样本数据。
[0011]如上的,其中,完整性分析单元根据预先设定的个数据特征生成用于判断无损样本数据完整性的完整样本数据结构,完整性分析单元接收到无损样本数据后,对无损样本数据进行分析,生成无损样本数据的数据结构,利用完整样本数据结构对无损样本数据的数据结构进行比对,若无损样本数据的数据结构与完整样本数据结构相同,则生成的完整性结果为完整;若无损样本数据的数据结构与完整样本数据结构不相同,则生成的完整性结果为不完整。
[0012]如上的,其中,完整样本数据结构具体如下:;其中,为完整样本数据结构;为第个数据特征的第个特征值;完整样本数据结构中的每一行元素表示一个数据特征;每一列元素代表一个特征属性。
[0013]如上的,其中,对完整样本数据进行故障分析,获得预测数据的子步骤如下:对完整样本数据进行故障分析,获得故障结果;分析故障结果,获得预测数据。
[0014]如上的,其中,对完整样本数据进行故障分析,获得故障结果的子步骤如下:对完整样本数据的特征值进行计算,确定特征值概率分布;根据预先设置的阈值对完整样本数据的特征值概率分布进行故障判断,并生成故障结果。
[0015]本申请的数据质量检测方法及其系统根据原有整合历史数据建立数据模型,同时对新样本数据进行预测识别获得数据质量波动情况,从而能够事先采取调整措施以及针对性的进行数据质量治理。
附图说明
[0016]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0017]图1为数据质量检测系统一种实施例的结构示意图;图2为数据质量检测方法一种实施例的结构流程图。
具体实施方式
[0018]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]如图1所示,本申请提供一种数据质量检测系统,包括获取装置和处理器。
[0020]其中,获取装置110:向处理器发送模型选取指令;用于获取多个初始样本数据或多个新样本数据,并将初始样本数据或新样本数据传入处理器进行处理。
[0021]处理器120:用于执行如下方法:获取模型选取指令,根据模型选取指令选择初始预测算模型;其中,模型选取指令包括:至少一个数据特征;获取多个初始样本数据,并对每个初始样本数据进行处理,获得测试集数据;将测试集数据传入至初始预测算模型,获得预判断结果;判断预判断结果是否符合预先设定的判断标准;若符合,则对初始预测算模型进行优化,得到优化后测算模型,并保存;若不符合,则输入特征无效;调用优化后测算模型对需要识别的新样本数据进行处理,生成数据波动报告,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据质量检测系统,其特征在于,包括获取装置和处理器;其中,获取装置:向处理器发送模型选取指令;用于获取多个初始样本数据或多个新样本数据,并将初始样本数据或新样本数据传入处理器进行处理;处理器:用于执行如下方法:接收模型选取指令,根据模型选取指令选择初始预测算模型;其中,模型选取指令包括:至少一个数据特征;获取多个初始样本数据,并对每个初始样本数据进行处理,获得测试集数据;将测试集数据传入至初始预测算模型,获得预判断结果;判断预判断结果是否符合预先设定的判断标准;若符合,则对初始预测算模型进行优化,得到优化后测算模型,并保存;若不符合,则输入特征无效;调用优化后测算模型对需要识别的新样本数据进行处理,生成数据波动报告,并保存。2.根据权利要求1所述的数据质量检测系统,其特征在于,所述处理器包括:数据接收单元、数据处理单元和模型单元;其中,数据接收单元:用于接收初始样本数据或新样本数据,并将初始样本数据或新样本数据发送至数据处理单元;数据处理单元:对初始样本数据或新样本数据进行处理,获得测试集数据,并将测试集数据发送至模型单元;模型单元:用于设置数据特征,并根据数据特征选择初始预测算模型;对初始预测算模型进行优化获得优化后测算模型。3.根据权利要求2所述的数据质量检测系统,其特征在于,所述数据处理单元包括:损伤分析单元、完整性分析单元、故障分析单元和贴标单元;其中,损伤分析单元:对初始样本数据进行损伤检测,获得无损样本数据,并将无损样本数据发送至完整性分析单元;完整性分析单元:对无损样本数据进行完整性检测,获得完整样本数据,并将完整样本数据发送至故障分析单元;故障分析单元:对完整样本数据进行故障分析,获得预测数据,并将预测数据发送至贴标单元;贴标单元:对预测数据贴标签,获得测试集数据。4.一种数据质量检测方法,其特征在于,包括如下步骤:接收模型选取指令,根据数据特征选择初始预测算模型;其中,模型选取指令包括:至少一个数据特征;获取多个初始样本数据,并对每个初始样本数据进行处理,获得测试集数据;将测试集数据传入至初始预测算模型,获得预判断结果;判断预判断结果是否符...

【专利技术属性】
技术研发人员:宋成平
申请(专利权)人:睿至科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1