一种基于概率分布的异常数据处理方法及装置制造方法及图纸

技术编号:20329181 阅读:15 留言:0更新日期:2019-02-13 05:46
本发明专利技术提供一种基于概率分布的异常数据处理方法及装置,所述方法包括:对目标数据集合中的正常数据进行分组;根据所述正常数据和分组结果,获取所述目标数据集合的概率分布;根据所述概率分布和所述目标数据集合中异常数据的个数,生成随机数,并使用所述随机数替换所述异常数据。本发明专利技术实现根据正常值的概率分布对异常数据进行处理,从而保持目标数据集合的整体分布特性,更改后的异常数据更接近实际数据,提高了数据的准确性,增强了数据的有效性,从而提高模型训练的准确性。

【技术实现步骤摘要】
一种基于概率分布的异常数据处理方法及装置
本专利技术属于数据预处理
,更具体地,涉及一种基于概率分布的异常数据处理方法及装置。
技术介绍
异常数据是指超出标准及超出趋势以外的数据或异常测试过程中产生的数据。例如,仪器设备停机、人为差错、装置适应性不合格,以及样品或样品溶液异常等很容易导致异常数据的产生。异常数据处理是一种数据预处理方法。在进行模型训练之前,通常对用于模型训练的数据集合进行预处理,合理的预处理可以去除数据集合中较大的噪声,从而提高模型训练的准确性。现有技术中,在找出数据集合中的异常数据后,对异常数据进行处理的方法有手动修正、将异常数据直接删除,以及使用最小值、最大值或平均值的方法对异常值进行赋值。例如,在逻辑回归算法的指标离散分组划分中,首先对筛选出的样本数据进行分组划分,完成指标分组划分后,将异常数据用样本数据中的最大值、最小值或平均值对异常值进行赋值。当异常数据在数据集合中的比例较大时,现有的异常数据处理方法破坏了数据的整体分布,从而影响模型训练的准确性。
技术实现思路
为克服上述现有的异常数据处理方法破坏数据的整体分布,从而影响模型训练的准确性的问题或者至少部分地解决上述问题,本专利技术提供一种基于概率分布的异常数据处理方法及装置。根据本专利技术的第一方面,提供一种基于概率分布的异常数据处理方法,包括:对目标数据集合中的正常数据进行分组;根据所述正常数据和分组结果,获取所述目标数据集合的概率分布;根据所述概率分布和所述目标数据集合中异常数据的个数,生成随机数,并使用所述随机数替换所述异常数据。根据本专利技术第二方面提供一种基于概率分布的异常数据处理装置,包括:分组模块,用于对目标数据集合中的正常数据进行分组;获取模块,用于根据所述正常数据和分组结果,获取所述目标数据集合的概率分布;生成模块,用于根据所述概率分布和所述目标数据集合中异常数据的个数,生成随机数,并使用所述随机数替换所述异常数据。根据本专利技术的第三方面,提供一种电子设备,包括:至少一个处理器、至少一个存储器和总线;其中,所述处理器和存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如前所述的方法。根据本专利技术的第四方面,提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如前所述的方法。本专利技术提供一种基于概率分布的异常数据处理方法及装置,该方法通过对目标数据集合中的正常数据进行分组,根据分组结果和正常数据获取数据的整体概率分布,根据概率分布和异常数据的个数生成随机数,用随机数对异常值进行赋值,实现根据正常值的概率分布对异常数据进行处理,从而保持目标数据集合的整体分布特性,更改后的异常数据更接近实际数据,提高了数据的准确性,增强了数据的有效性,从而提高模型训练的准确性。附图说明图1为本专利技术实施例提供的基于概率分布的异常数据处理方法整体流程示意图;图2为本专利技术实施例提供的基于概率分布的异常数据处理方法中连续性数据的区间概率分布示意图;图3为本专利技术实施例提供的基于概率分布的异常数据处理方法中离散型数据的区间概率分布示意图;图4为本专利技术实施例提供的基于概率分布的异常数据处理装置整体结构示意图;图5为本专利技术实施例提供的电子设备整体结构示意图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。在本专利技术的一个实施例中提供一种基于概率分布的异常数据处理方法,图1为本专利技术实施例提供的基于概率分布的异常数据处理方法整体流程示意图,该方法包括:S101,对目标数据集合中的正常数据进行分组;其中,目标数据集合为需要进行异常数据处理的数据集合。本实施例不限于分组的方法。S102,根据所述正常数据和分组结果,获取所述目标数据集合的概率分布;其中,正常数据为目标数据集合中在标准及趋势以内的数据。目标数据集合的概率分布为目标数据集合中各数据属于每个分组的概率。S103,根据所述概率分布和所述目标数据集合中异常数据的个数,生成随机数,并使用所述随机数替换所述异常数据。具体地,在异常数据处理中,先生成随机数,随机数的概率分布与正常数据的概率分布相同,使得在对异常数据进行随机数赋值后,目标数据集合的概率分布保持不变。本实施例通过对目标数据集合中的正常数据进行分组,根据分组结果和正常数据获取数据的整体概率分布,根据概率分布和异常数据的个数生成随机数,用随机数对异常值进行赋值,实现根据正常值的概率分布对异常数据进行处理,从而保持目标数据集合的整体分布特性,更改后的异常数据更接近实际数据,提高了数据的准确性,增强了数据的有效性,从而提高模型训练的准确性。在上述实施例的基础上,本实施例中对目标数据集合中的正常数据进行分组的步骤具体包括:基于组距分组方法、分位数分组方法、单变量分组方法或基于信息熵的分组方法,对目标数据集合中的正常数据进行分组。其中,组距分组方法是数据分组最基本的方法,包括等距分组和非等距分组。其中,等距分组中各组别的上限和下限之差是相等的,非等距分组中各组别的上限和下限之差不相等。分位数分组方法也称等频分组,是把观察点均匀分为n等份,每份内包含的观察点数相同。单变量分组也称为秩分组,将所有变量按降序或者升序排序,排序名次即为分组结果,即将变量值相同的归为同一组内。该方法适用于变量的取值范围较小的情况。基于信息熵的分组方法理论依据为如果分组后的输入变量对输出变量取值的解释能力低于分组之前,那么这样的分组是没有意义的。度量指标为信息熵和信息增益。信息熵是平均信息量的测量指标。信息增益通过指定输入变量组限值,帮助输出变量的分类预测,信息增益值越高,则输出变量的分类越准确,误差越小。在上述实施例的基础上,本实施例中对目标数据集合中的正常数据进行分组的步骤具体包括:当所述目标数据集合中的数据为连续型数据时,将所述目标数据集合中的数据划分为多个区间;当所述目标数据集合中的数据为离散型数据时,将所述目标数据集合中的数据划分为多个类别。具体地,当所述目标数据集合中的数据为连续型数据时,将目标数据集合中的数据划分为多个区间。如图2所示,图中的虚线将目标数据集合中的连续性数据划分为4个区间1、2、3和4,目标数据集合中的数据落在每个4个区间的概率分别为P1、P2、P3和P4。当所述目标数据集合中的数据为离散型数据时,将所述目标数据集合中的数据划分为多个类别。如图3所示,当所述目标数据集合中的数据为离散型数据时,将所述目标数据集合中的离散型数据划分为2个类别,即类别1和类别2。目标数据集合中的离散型数据归属2个类别的概率分别为P5和P6。P1、P2、P3、P4、P5和P6的值大于0小于1。在上述实施例的基础上,本实施例中根据所述正常数据和分组结果,获取所述目标数据集合的概率分布的步骤具体包括:统计所述目标数据集合中各所述区间或各所述类别的正常数据的个数;使用各所述区间或各所述类别的正常数据的个数除以所述正常数据的总个数,获取所述目标数据集合中数据属于各所述区间或各所述类别的概率。在上述实施例的基础上,本实施例中所述随机数的个数与所述异常数据的个数相同,所述随机数按照所述概率进行分布本文档来自技高网...

【技术保护点】
1.一种基于概率分布的异常数据处理方法,其特征在于,包括:对目标数据集合中的正常数据进行分组;根据所述正常数据和分组结果,获取所述目标数据集合的概率分布;根据所述概率分布和所述目标数据集合中异常数据的个数,生成随机数,并使用所述随机数替换所述异常数据。

【技术特征摘要】
1.一种基于概率分布的异常数据处理方法,其特征在于,包括:对目标数据集合中的正常数据进行分组;根据所述正常数据和分组结果,获取所述目标数据集合的概率分布;根据所述概率分布和所述目标数据集合中异常数据的个数,生成随机数,并使用所述随机数替换所述异常数据。2.根据权利要求1所述的方法,其特征在于,对目标数据集合中的正常数据进行分组的步骤具体包括:基于组距分组方法、分位数分组方法、单变量分组方法或基于信息熵的分组方法,对目标数据集合中的正常数据进行分组。3.根据权利要求1所述的方法,其特征在于,对目标数据集合中的正常数据进行分组的步骤具体包括:当所述目标数据集合中的数据为连续型数据时,将所述目标数据集合中的数据划分为多个区间;当所述目标数据集合中的数据为离散型数据时,将所述目标数据集合中的数据划分为多个类别。4.根据权利要求3所述的方法,其特征在于,根据所述正常数据和分组结果,获取所述目标数据集合的概率分布的步骤具体包括:统计所述目标数据集合中各所述区间或各所述类别的正常数据的个数;使用各所述区间或各所述类别的正常数据的个数除以所述正常数据的总个数,获取所述目标数据集合中数据属于各所述区间或各所述类别的概率。5.根据权利要求4所述的方法,其特征在于,所述随机数的个数与所述异常数据的个数相同,所述随机数...

【专利技术属性】
技术研发人员:马小波侯桂星
申请(专利权)人:北京天元创新科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1