异常数据处理方法及装置制造方法及图纸

技术编号:21059981 阅读:36 留言:0更新日期:2019-05-08 06:51
本发明专利技术提供了一种异常数据处理方法及装置,该方法应用于数据处理技术领域,所述方法包括:获取待处理数据;根据所述待处理数据的分布状态确定异常值检测方法;根据所述异常值检测方法检测所述待处理数据中的异常值;根据预设修正方法对所述异常值进行修正。本发明专利技术提供的异常数据处理方法及装置能够快速检测并修正异常值。

【技术实现步骤摘要】
异常数据处理方法及装置
本专利技术属于数据处理
,更具体地说,是涉及一种异常数据处理方法及装置。
技术介绍
在现实中,由于人为错误或自然错误会导致产生数据异常值,在多数据源的环境下,出现数据异常并产生数据冲突的概率大大增加。如何处理这些异常值便是数据清洗所面临的一个重要课题。在数据处理中,尤其在作函数拟合时,异常点的出现不仅会很大程度的改变函数拟合的效果,而且有时还会使得函数的梯度出现奇异梯度,很容易导致算法的终止,从而影响研究变量之间的函数关系。为了有效的避免这些异常点造成的损失,我们需要采取一定的方法对其进行处理。但在多数据源、大数据量的情况下,现有技术中缺少一种检测异常值并对异常值进行快速处理的方法。
技术实现思路
本专利技术的目的在于提供一种异常数据处理方法及装置,以解决现有技术中存在的无法快速进行异常数据处理的技术问题。本专利技术实施例的第一方面,提供了一种异常数据处理方法,所述方法包括:获取待处理数据;根据所述待处理数据的分布状态确定异常值检测方法;根据所述异常值检测方法检测所述待处理数据中的异常值;根据预设修正方法对所述异常值进行修正。本专利技术实施例的第二方面,提供了一种异常数据处理装置,所述装置包括:数据获取模块,用于获取待处理数据;判断模块,用于根据所述待处理数据的分布状态确定异常值检测方法;检测模块,用于根据所述异常值检测方法检测所述待处理数据中的异常值;修正模块,用于根据预设修正方法对所述异常值进行修正。本专利技术实施例的第三方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的异常数据处理方法的步骤。本专利技术实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的异常数据处理方法的步骤。本专利技术提供的异常数据处理方法及装置的有益效果在于:本专利技术提供的异常数据处理方法及装置根据不同的数据分布状态设置了不同的待处理数据异常值检测方法和异常值修正方法,实现简单,数据计算时间成本低,能够实现异常数据的快速检测和修正。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的异常数据处理方法的流程示意图;图2为本专利技术另一实施例提供的异常数据处理方法的流程示意图;图3为本专利技术再一实施例提供的异常数据处理方法的流程示意图;图4为本专利技术又一实施例提供的异常数据处理方法的流程示意图;图5为本专利技术又一实施例提供的异常数据处理方法的流程示意图;图6为本专利技术一实施例提供的异常数据处理装置的结构框图;图7为本专利技术一实施例提供的终端设备的示意框图。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。请参考图1,为本专利技术一实施例提供的异常数据处理方法的流程示意图。该方法包括:S101:获取待处理数据。在本实施例中,可设置定时获取任务,对待处理数据进行分批,设置定时获取任务分批循环获取待处理数据。S102:根据待处理数据的分布状态确定异常值检测方法。在本实施例中,待处理数据的分布状态包括正态分布和非正态分布,若待处理数据全部符合正态分布,则采用正态分布异常检测方法确定待处理数据中的异常值。若待处理数据中不存在某一数据集使得该数据集符合正态分布,则采用非正态分布异常检测方法确定待处理数据的异常值。若待处理数据中存在部分数据集符合正态分布,则符合正态分布的数据集采用正态分布异常检测方法,不符合正态分布的数据集采用非正态分布异常检测方法。S103:根据异常值检测方法检测待处理数据中的异常值。在本实施例中,正态分布异常检测方法可以为根据数据集的平均值和标准差检测异常值,非正态分布异常检测方法可以根据箱形图检测异常值。S104:根据预设修正方法对异常值进行修正。在本实施例中,对应于待处理数据的分布状态,本实施例可使用两种修正方法进行异常值的修正。其中两种检测方法为:正态分布修正方法和非正态分布修正方法。从上述描述可知,本专利技术实施例提供的异常数据处理方法根据不同的数据分布状态设置了不同的待处理数据异常值检测方法和异常值修正方法,实现简单,数据计算时间成本低,能够实现异常数据的快速检测和修正。请一并参考图1及图2,图2为本申请另一实施例提供的异常数据处理方法的流程示意图。在上述实施例的基础上,步骤S102可以详述为:S201:若待处理数据为正态分布,则根据待处理数据的平均值和标准差进行异常值检测。在本实施例中,正态分布检测方法为:根据待处理数据的平均值和标准差得到待处理数据中数据点的偏离值,可根据某一数据点偏离值的偏离程度确定该数据点是否为异常值。S202:若待处理数据为非正态分布,则根据箱形图进行异常值检测。在本实施例中,非正态分布检测方法为:根据箱形图的截断范围对待处理数据的数据点进行检测,若待处理数据中某一数据点在箱形图的截断范围之外,则确定该数据点为异常值。请一并参考图1及图2,作为本专利技术实施例提供的异常数据处理方法的一种具体实施方式。在上述实施例的基础上,步骤S102还可以包括:S203:根据K-S检验法确定待处理数据的分布状态。在本实施例中,可先获取标准数据,再分别计算待处理数据和标准数据的累计分布函数,计算两者累计分布函数差值的最大值,若该最大值在预设置信区间内,则确定待处理数据为正态分布,若该最大值未在预设置信区间内,则确定待处理数据为非正态分布。请一并参考图1及图3,图3为本专利技术再一实施例提供的异常数据处理方法的流程示意图,在上述实施例的基础上,根据待处理数据的平均值和标准差进行异常值检测可以包括:S301:计算待处理数据的平均值和标准差。S302:若待处理数据中的某一数据点与平均值的差值大于标准差的3倍,则确定该数据点为异常值。在本实施例中,可根据待处理数据的平均值和标准差检测异常值,也可根据以下方法检测异常值:首先将待处理数据进行分组,每100个数据为一组。再计算每一组分组数据的平均值和标准差,计算分组数据中各个数据点与平均值的差值作为各个数据点的偏离值,若某一数据点的偏离值与标准差的比值大于临界值,则确定该数据点为异常值。其中,临界值可根据预设的检出水平和测量次数查找格拉布斯表确定,此处测量次数为100。请一并参考图1及图4,图4为本申请又一实施例提供的异常数据处理方法的流程示意图。在上述实施例的基础上,根据箱形图进行异常值检测可以包括:S401:根据待处理数据建立箱形图。在本实施例中,可根据待处理数据确定箱形图的上四分位数、下四分位数和四分位数间距,再根据上四分位数、下四分位数和四分位数间距确定箱形图的截断范围。例如,若上四分位数为QU,下四分位数为QL,四分位数间距为IQR,则截断范围为[QL-1.5IQR,QU+1.5IQR]。S402:若待处理数据中某一数据点未在箱形图的截断范围之本文档来自技高网...

【技术保护点】
1.一种异常数据处理方法,其特征在于,包括:获取待处理数据;根据所述待处理数据的分布状态确定异常值检测方法;根据所述异常值检测方法检测所述待处理数据中的异常值;根据预设修正方法对所述异常值进行修正。

【技术特征摘要】
1.一种异常数据处理方法,其特征在于,包括:获取待处理数据;根据所述待处理数据的分布状态确定异常值检测方法;根据所述异常值检测方法检测所述待处理数据中的异常值;根据预设修正方法对所述异常值进行修正。2.如权利要求1所述的异常数据处理方法,其特征在于,所述根据所述待处理数据的分布状态确定异常值检测方法,包括:若所述待处理数据为正态分布,则根据所述待处理数据的平均值和标准差进行异常值检测;若所述待处理数据为非正态分布,则根据箱形图进行异常值检测。3.如权利要求2所述的异常数据处理方法,其特征在于,所述根据所述待处理数据的分布状态确定异常值检测方法还包括:根据K-S检验法确定所述待处理数据的分布状态。4.如权利要求2所述的异常数据处理方法,其特征在于,所述根据所述待处理数据的平均值和标准差进行异常值检测包括:计算所述待处理数据的平均值和标准差;若所述待处理数据中的某一数据点与所述平均值的差值大于所述标准差的3倍,则确定该数据点为异常值。5.如权利要求4所述的异常数据处理方法,其特征在于,所述根据箱形图进行异常值检测包括:根据所述待处理数据建立箱形图;若所述待处理数据中某一数据点未在所述箱形图的截断范围之内,则确定该数据点为异常值。6.如权利要求...

【专利技术属性】
技术研发人员:钟秋发高庆吴又奎
申请(专利权)人:中科恒运股份有限公司
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1