一种异常数据的剔除方法技术

技术编号:9143261 阅读:533 留言:0更新日期:2013-09-12 04:49
本发明专利技术公开了一种异常数据的剔除方法,包括:获取单个分析对象的数据异常规则;针对单个分析对象应用数据异常规则并作标识;剔除打上标识的分析对象。在本发明专利技术提供的方案中,通过数据异常规则和整体异常规则来对异常数据进行处理,允许用户定制数据异常规则,并循环利用整体异常规则来剔除异常数据。在数据分析应用中异常数据的存在是很普遍的,本发明专利技术能剔除掉所有的异常数据,从而保障分析结果的准确性。

【技术实现步骤摘要】
一种异常数据的剔除方法
本专利技术涉及计算机
,更具体的说,涉及异常数据的剔除方法。
技术介绍
在数据分析应用系统中,根据数据的整体分布情况来筛选存在问题的分析对象是一种很常用的方法。整体分布情况一般是使用平均值及标准差来表示。因此平均值及标准差的计算对分析结果影响很大。在实际使用时,往往存在着异常数据(值过大或过小的数据),会造成平均值及标准差的计算很不合理。因此在计算平均值及标准差时需要把异常数据剔除掉。在现有的解决方案中,一般使用3西格玛的方式来剔除异常数据,即先计算平均值及标准差,然后把大于平均值+3*标准差或者小于平均值-3*标准差的数据剔除掉,最后再计算一遍标准差。在对现有技术的研究和实践过程中,本专利技术的专利技术人发现现有技术存在以下问题:在实际的应用过程中,当数据量比较大时,只进行一次3西格玛的过滤无法剔除掉所有的异常数据,平均值及标准差的计算依然是不合理的。另外,只对最终的数据应用3西格玛过滤,而不考虑数据的来源构成也会导致平均值及标准差计算不合理。例如,最终的数据C=A/B,仅仅对C应用3西格玛过滤,而不考虑A及B的值,会导致C的平均值及标准差计算不合理。在某些应用场景中,A和B同时都是很小的数应该被视为异常数据因此,如何合理的剔除异常数据,成为目前最需要解决的问题。
技术实现思路
有鉴于此,本专利技术的设计目的在于,一种异常数据的剔除方法,剔除掉所有的异常数据,以保证计算过程的合理性。本专利技术实施例是这样实现的:一种异常数据的剔除方法,包括:获取单个分析对象的数据异常规则;针对单个分析对象应用数据异常规则并作标识;剔除打上标识的分析对象。优选地,在剔除打上标识的分析对象的步骤之后,还包括:当存在未处理分析对象时,则返回针对单个分析对象应用数据异常规则并作标识的步骤。优选地,在剔除打上标识的分析对象的步骤之后,还包括:获取整体异常规则;计算整体的平均值及标准差;针对单个分析对象应用整体异常规则并作标识;剔除打上标识的分析对象。优选地,在剔除打上标识的分析对象的步骤之后,还包括:当存在未处理的分析对象时,则返回针对单个分析对象应用整体异常规则并作标识的步骤。优选地,在剔除打上标识的分析对象的步骤之后,还包括:当存在本次未剔除的分析对象时,则返回计算整体的平均值及标准差的步骤。与现有技术相比,本实施例提供的技术方案具有以下优点和特点:在本专利技术提供的方案中,通过数据异常规则和整体异常规则来对异常数据进行处理,允许用户定制数据异常规则,并循环利用整体异常规则来剔除异常数据。在数据分析应用中异常数据的存在是很普遍的,本专利技术能剔除掉所有的异常数据,从而保障分析结果的准确性。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术所提供的一种异常数据的剔除方法的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种异常数据的剔除方法,剔除掉所有的异常数据,以保证计算过程的合理性。由于上述异常数据的剔除方法的具体实现存在多种方式,下面通过具体实施例进行详细说明:请参见图1所示,图1所示的为一种异常数据的剔除方法,该方法包括:步骤1:获取单个分析对象的数据异常规则获取预先设置好的数据异常规则,这里的异常规则可以根据数据及其构成来设置。例如,最终的数据C=A/B,可以设置数据异常规则为C>10,也可以设置异常规则为A<0.1且B<0.1。步骤2:针对单个分析对象应用数据异常规则并作标识针对单个分析对象,遍历上一步骤获取到所有的数据异常规则,如果有某一条规则是符合的,则给该分析对象打上标识,表示它是异常数据。步骤3:剔除打上标识的分析对象针对上一步骤中被标识为异常数据的分析对象,把它从整个运算中剔除掉。步骤4:是否有未处理的分析对象判断是否已经处理了所有的分析对象。如果还有未处理的分析对象,则循环调用步骤2、3进行处理。步骤5:获取整体异常规则获取预先设置好的整体异常规则,这里的异常规则一般都会使用到平均值及标准差。常用的规则就是前面提到的3西格玛。步骤6:计算整体的平均值及标准差遍历数据计算整体的平均值及标准差。步骤7:针对单个分析对象应用整体异常规则并作标识针对单个分析对象,遍历步骤5获取到的所有的整体异常规则,同时利用上一步骤计算的到平均值及标准差,如果有某一条规则是符合的,则给该分析对象打上标识,表示它是异常数据。步骤8:剔除打上标识的分析对象针对上一步骤中被标识为异常数据的分析对象,把它从整个运算中剔除掉。步骤9:是否有未处理的分析对象判断是否已经处理了所有的分析对象。如果还有未处理的分析对象,则循环调用步骤7、8进行处理。步骤10:是否存在本次剔除的分析对象判断步骤8是否有剔除分析对象,如果有,返回步骤6继续处理。如果没有,说明当前所有的分析对象中已经没有异常数据了,则步骤6的结果可作为最终的结果使用。在图1所示的实施例中,通过数据异常规则和整体异常规则来对异常数据进行处理,允许用户定制数据异常规则,并循环利用整体异常规则来剔除异常数据。在数据分析应用中异常数据的存在是很普遍的,本专利技术能剔除掉所有的异常数据,从而保障分析结果的准确性。下面通过实际的案例来说明本专利技术的方案:请参见表1所示,表1为企业税负表。企业税额收入税负=税额/收入*100企业111001企业2100100001企业3110110001企业4110110001企业5120120001企业6120120001企业7120120001企业8120120001企业9200100002企业10400200002企业11100100100企业12100110000在表1中,如果利用现有技术的方法来剔除异常数据,针对最后一列的税负,平均值=842.66,标准差=2761.14,利用三西格玛方法剔除掉最后一行数据后,平均值=10.18,标准差=28.40。而大部分企业的税负都在1左右,最后的平均值10.18不够合理。在表1中,如果采用本专利技术的方案,针对上方的表格数据。一开始可以把税额<10的第一行数据剔除掉,因为一般的企业税额都在100以上,企业1只有1,不太正常。这里判断的依据是业务常识,本系统允许用户根据业务常识定制剔除的规则,同时在剔除了这些数据后后续的运算量会降低,即提高了效率。然后计算出平均值=919.18,标准差=2871.74。利用三西格玛剔除掉最后一行数据,再计算出平均值=11.1,标准差=29.63。利用3西格玛再剔除掉最后一行数据,再计算出平均值=1.22,标准差=0.41。这样得到的平均值、标准差比较符合实际的情况。需要说明的是,图1所示的实施例只是本专利技术所介绍的优选实施例,本领域技术人员在此基础上,完全可以设计出更多的实施例,因此不在此处本文档来自技高网...
一种异常数据的剔除方法

【技术保护点】
一种异常数据的剔除方法,其特征在于,包括:获取单个分析对象的数据异常规则;针对单个分析对象应用数据异常规则并作标识;剔除打上标识的分析对象。

【技术特征摘要】
1.一种异常数据的剔除方法,其特征在于,包括:获取单个分析对象的数据异常规则;其中,所述数据异常规则根据数据及数据构成设置;针对单个分析对象应用数据异常规则并作标识;剔除打上标识的分析对象;其中,所述剔除打上标识的分析对象具体为:剔除标识的单个分析对象,并剔除与所标识的单个分析对象数据相对应的其他数据;其中,所述针对单个分析对象应用数据异常规则并作标识具体为:针对单个分析对象,遍历获取到的所有的所述数据异常规则,如果有一个所述数据异常规则符合,则给当前单个分析对象作标识;其中,在剔除打上标识的分析对象的步骤之后,还包括:获取整体异常规则;计算整体的平均值及标准差;针对单个分...

【专利技术属性】
技术研发人员:陈宏仁
申请(专利权)人:税友软件集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1