一种异常数据的剔除方法技术

技术编号：9143261 阅读：533 留言：0更新日期：2013-09-12 04:49

本发明专利技术公开了一种异常数据的剔除方法，包括：获取单个分析对象的数据异常规则；针对单个分析对象应用数据异常规则并作标识；剔除打上标识的分析对象。在本发明专利技术提供的方案中，通过数据异常规则和整体异常规则来对异常数据进行处理，允许用户定制数据异常规则，并循环利用整体异常规则来剔除异常数据。在数据分析应用中异常数据的存在是很普遍的，本发明专利技术能剔除掉所有的异常数据，从而保障分析结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种异常数据的剔除方法
本专利技术涉及计算机
，更具体的说，涉及异常数据的剔除方法。
技术介绍
在数据分析应用系统中，根据数据的整体分布情况来筛选存在问题的分析对象是一种很常用的方法。整体分布情况一般是使用平均值及标准差来表示。因此平均值及标准差的计算对分析结果影响很大。在实际使用时，往往存在着异常数据（值过大或过小的数据），会造成平均值及标准差的计算很不合理。因此在计算平均值及标准差时需要把异常数据剔除掉。在现有的解决方案中，一般使用3西格玛的方式来剔除异常数据，即先计算平均值及标准差，然后把大于平均值+3*标准差或者小于平均值-3*标准差的数据剔除掉，最后再计算一遍标准差。在对现有技术的研究和实践过程中，本专利技术的专利技术人发现现有技术存在以下问题：在实际的应用过程中，当数据量比较大时，只进行一次3西格玛的过滤无法剔除掉所有的异常数据，平均值及标准差的计算依然是不合理的。另外，只对最终的数据应用3西格玛过滤，而不考虑数据的来源构成也会导致平均值及标准差计算不合理。例如，最终的数据C=A/B，仅仅对C应用3西格玛过滤，而不考虑A及B的值，会导致C的平均值及标准差计算不合理。在某些应用场景中，A和B同时都是很小的数应该被视为异常数据因此，如何合理的剔除异常数据，成为目前最需要解决的问题。
技术实现思路
有鉴于此，本专利技术的设计目的在于，一种异常数据的剔除方法，剔除掉所有的异常数据，以保证计算过程的合理性。本专利技术实施例是这样实现的：一种异常数据的剔除方法，包括：获取单个分析对象的数据异常规则；针对单个分析对象应用数据异常规则并作标识；剔除打上标识的...

【技术保护点】
一种异常数据的剔除方法，其特征在于，包括：获取单个分析对象的数据异常规则；针对单个分析对象应用数据异常规则并作标识；剔除打上标识的分析对象。

【技术特征摘要】
1.一种异常数据的剔除方法，其特征在于，包括：获取单个分析对象的数据异常规则；其中，所述数据异常规则根据数据及数据构成设置；针对单个分析对象应用数据异常规则并作标识；剔除打上标识的分析对象；其中，所述剔除打上标识的分析对象具体为：剔除标识的单个分析对象，并剔除与所标识的单个分析对象数据相对应的其他数据；其中，所述针对单个分析对象应用数据异常规则并作标识具体为：针对单个分析对象，遍历获取到的所有的所述数据异常规则，如果有一个所述数据异常规则符合，则给当前单个分析对象作标识；其中，在剔除打上标识的分析对象的步骤之后，还包括：获取整体异常规则；计算整体的平均值及标准差；针对单个分...

【专利技术属性】
技术研发人员：陈宏仁，
申请(专利权)人：税友软件集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人