本发明专利技术提供一种基于四分位图的数据质量检测方法,该方法包括:定义数据格Gx,并对多种趋势线进行拟合;扫描数据源并进行存储,根据数据的实际趋势选择趋势线进行数据展示;根据确定好的趋势线类型和参数生成数据质量规则;选取适当的数据质量规则,根据阀值进行数据质量检测。本发明专利技术通过定义数据格Gx来存储数据,并利用四分位图来展示数据,并根据已确定的趋势线来生成数据质量规则,进而根据该规则设定阀值进行数据质量检测,实现了数据量巨大情况下对数据的展示和异常数据分析、数据纠错等应用。另外,本发明专利技术另一个实施例提供一种基于四分位图的数据质量检测系统。
【技术实现步骤摘要】
一种基于四分位图的数据质量检测方法及系统
本专利技术涉及数据领域,尤其涉及一种基于四分位图的数据质量检测方法及系统。
技术介绍
四分位图是一种展示一维数据分布情况的图形,能直观表现出数据的分布形态,包括五个数据点:最低位、四分之一位、中值位、四分之三位、最高位。其中最低位、最高位分别对应最小值、最大值,四分之一位含义为所有数据中有25%的数据小于该值,同理中值位为所有数据中有50%小于该值,四分之三位为所有数据中有75%小于该值。四分位图只是个展示工具,且只能用来展示一维数据分布情况。因而缺少一种利用四分图的基本特性来展示、分析二维数据的分布情况,并具有数据纠错功能的方法。
技术实现思路
因此,本专利技术为了解决上述缺陷之一。因而,本专利技术提供一种基于四分位图的数据质量检测方法及系统,本专利技术通过定义数据格Gx来存储数据,并利用四分位图来展示数据,并根据已确定的趋势线来生成数据质量规则,进而根据该规则设定阀值进行数据质量检测,实现了数据量巨大情况下对数据的展示和异常数据分析、数据纠错等应用。所以,本专利技术一个实施例提供一种基于四分位图的数据质量检测方法,该方法包括:定义数据格Gx,并对多种趋势线进行拟合;扫描数据源并进行存储,根据数据的实际趋势选择趋势线进行数据展示;根据确定好的趋势线类型和参数生成数据质量规则;选取适当的数据质量规则,根据阀值进行数据质量检测。在本专利技术一个实施例中,在四分位图上选择趋势线和进行数据展示。在本专利技术一个实施例中,在数据扫描前定义数据格Gx,所述扫描数据源并进行存储包括:扫描数据源,读取每条记录的X和Y值:x和y;根据X轴的展示刻度,计算x和y对应的数据格Gx,将对应数据存储到Gx中。优选地,所述计算x和y对应的数据格Gx包括:最低位、四分之一位、中值位、四分之三位和最高位。所述四分位图展示的数据为所述存储在Gx中的数据。在本专利技术一个实施例中,对多种趋势线进行拟合包括:根据所有有效数据格Gx的总记录数和总和计算X、Y平均值;计算所述Gx的X的总平均值和所有Gy总的平均值,并根据所述总平均值对每种趋势线进行拟合。优选地,所述多种趋势线以列表的形式在四分位图上显示。优选地,所述选择趋势线可进行手工调整。优选地,所述手工调整方式为在四分位图中直接修改趋势线公式。优选地,所述手工调整方式为在四分位图中进行鼠标拖动实时展示趋势线变化。在本专利技术一个实施例中,所述生成数据质量规则根据趋势线计算出目标值,并给目标值设定一个浮动范围。优选地,所述浮动范围为一个绝对值。优选地,所述浮动范围为百分比。在本专利技术一个实施例中,所述数据质量检测根据选取的数据质量规则和阀值来判断;所述阀值即为所述浮动范围。本专利技术另一个实施例提供一种基于四分位图的数据质量检测系统,该系统包括:趋势线拟合单元,用于定义定义数据格Gx,并对多种趋势线进行拟合;数据源读取单元,用于扫描数据源并进行存储,根据数据的实际趋势选择趋势线进行数据展示;数据质量规则生成单元,用于根据确定好的趋势线类型和参数生成数据质量规则;数据质量检测单元,用于选取适当的数据质量规则,根据阀值进行数据质量检测;该系统包含一个数据展示单元,用于在四分位图上选择趋势线和进行数据展示。本专利技术通过定义数据格Gx来存储数据,并利用四分位图来展示数据,并根据已确定的趋势线来生成数据质量规则,进而根据该规则设定阀值进行数据质量检测,实现了数据量巨大情况下对数据的展示和异常数据分析、数据纠错等应用。附图说明图1是本专利技术一个实施例提供的一种基于四分位图的数据质量检测方法的具体流程示意图。图2是本专利技术一个实施例中定义的数据格Gx的示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本专利技术,并不用于限定本专利技术。本专利技术提供一种基于四分位图的数据质量检测方法及系统,本专利技术通过定义数据格Gx来存储数据,并利用四分位图来展示数据,并根据已确定的趋势线来生成数据质量规则,进而根据该规则设定阀值进行数据质量检测,实现了数据量巨大情况下对数据的展示和异常数据分析、数据纠错等应用。如图1是本专利技术一个实施例提供的一种基于四分位图的数据质量检测方法的具体流程示意图,该方法具体步骤如下:步骤S110:定义数据格Gx,并对多种趋势线进行拟合。在本专利技术一个实施例中,为了采用四分位图来展示和分析二维数据,应先定义Gx,假设需要展示自变量X和因变量Y间的分布情况,需要将自变量X进行离散化,为了便于展示,还需要对X的最大值和最小值进行调整,并将X取值范围等分成一系列Gx,据此,如图2所示,Gx定义如下:定义Gx{x1,x2}为G{(x,y)|x1<=x<x2},简称Gx,即所有满足x1<=x<x2的点(x,y)。所述Gx展示刻度包括4种,4种展示刻度间支持相互切换。步骤S120:扫描数据源并进行存储,根据数据的实际趋势选择趋势线进行数据展示。在本专利技术一个实施例中,所述定义数据格Gx在数据源扫描前进行,所述扫描数据源并进行存储包括:扫描数据源,读取每条记录的X和Y值:x和y。在扫描数据源前,本专利技术将依据X轴取值区间对X的最大值和最小值进行调整,使得最大值和最小值均为10的n次方(n为整数)的倍数,即Xmin(或Xmax)=m*10^n。如X的实际取值区间为[0.1,983.7],进行修整后X的最小值为0,最大值为1000,即取值区间变为:[0,1000]。然后扫描数据源,取出每条记录的X和Y的值x和y,进而根据X轴的展示刻度,计算x和y对应的数据格Gx,将对应数据存储到Gx中。如x=155.3且X轴刻度为“10”时,155.3/10=15.53,则Gx为Gx{150,160},当刻度为1时则属于Gx{155,156}。所述计算x和y对应的数据格Gx包括:最低位、四分之一位、中值位、四分之三位和最高位。步骤S120:根据数据的实际趋势选择趋势线进行数据展示。在本专利技术一个实施例中,在四分位图上选择趋势线和进行数据展示,所述四分位图展示的数据为所述存储在Gx中的数据。本专利技术实现了采用四分位图展示二维数据,所述趋势线拟合根据每一个展示刻度级别内的所有x和y的平均值进行,所述选择趋势线种类包括以下几种:直线:y=a+b*x;对数曲线:y=a+b*ln(x+1);指数曲线:y=k+a*b^x;二次曲线:y=a+b*x+c*x^2;龚柏兹曲线:y=k*a^(b^x);逻辑曲线:y=1/(k+a*b^x);周期曲线:y=a*x+b*sin(c*x+d)。在本专利技术一个实施例中,所述多种趋势线以列表的形式在四分位图上显示,所述选择趋势线根据数据实际情况进行,如趋势线改为对数曲线。当在四分位图上显示的拟合趋势线参数满足显示需求时,本专利技术可进行手工调整趋势线,所述调整方法优选地为两种:在四分位位图上直接修改趋势线公式和在四分位图中进行鼠标拖动实时展示趋势线变化。步骤S130:根据确定好的趋势线类型和参数生成数据质量规则。在本专利技术一个实施例中,生成数据质量规则包括:假设趋势线为y=f(x),即对某个x值,根据趋势线可计算出目标值y;给目标值设定一个浮动范围生成数据质量规则;其中,浮动范围可为绝对值或者百本文档来自技高网...

【技术保护点】
一种基于四分位图的数据质量检测方法,包括:定义数据格Gx,并对多种趋势线进行拟合;扫描数据源并进行存储,根据数据的实际趋势选择趋势线进行数据展示;根据确定好的趋势线类型和参数生成数据质量规则;选取适当的数据质量规则,根据阀值进行数据质量检测,其特征在于,在四分位图上选择趋势线和进行数据展示。
【技术特征摘要】
1.一种基于四分位图的数据质量检测方法,包括:定义数据格Gx,并对多种趋势线进行拟合;扫描数据源并进行存储,根据数据的实际趋势选择趋势线进行数据展示,其中,所述扫描数据源并进行存储包括:扫描数据源,读取每条记录的X和Y值:x和y;根据X轴的展示刻度,计算x和y对应的数据格Gx,将对应数据存储到Gx中;根据确定好的趋势线类型和参数生成数据质量规则,所述数据质量规则包括,获取目标值,根据目标值设置浮动范围构成数据质量规则,其中所述浮动范围包括根据目标值预设的上限值和下限值;选取适当的数据质量规则,根据阈值进行数据质量检测,其特征在于,在四分位图上选择趋势线和进行数据展示;所述数据质量检测包括:根据四分位图中数据展示的实际情况选取适当的数据质量规则,针对每个输入数据x和y,根据规则的趋势线技术计算出x对应的目标值y’;根据预设的阈值,若目标值y’未超过预设的阈值,则为合理数据,若目标值y’超过预设的阈值,则为异常数据。2.根据权利要求1所述的方法,其特征在于,在数据源扫描前定义数据格Gx。3.根据权利要求1到2任一所述的方法,其特征在于,所述四分位图展示的数据为所述存储在Gx中的数据。4.根据权利要求1或2所述的方法,其特征在于,所述计算x和y对应的数据格Gx包括:最低位、四分之一位、中值位、四分之三位和最高位。5.根据权利要求1所述的方法,其特征在于,对多种趋势线进行拟合包括:根据所有有效数据格Gx的总记录数和总和计算X、Y平均值;计算所述Gx的X的总平均值和所有Gx总的平均值,并根据所述总平均值对每种趋势线进行拟合。6.根据权利要求1或2所述的方法,其特征在于,所述多种趋势线以列表的形式在四分位图上显示。7.根据权利要求1所述的方法,其特征在于,所述选择趋势线可进行手工调整。8.根据权利要求...
【专利技术属性】
技术研发人员:王明兴,樊文飞,贾西贝,
申请(专利权)人:深圳市华傲数据技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。