一种异常数据检测方法及装置制造方法及图纸

技术编号:32228003 阅读:28 留言:0更新日期:2022-02-09 17:32
本发明专利技术提供了一种异常数据检测方法及装置,其中,该方法包括:获取待测业务数据的特征数据;根据该特征数据输入预先拟合的多元线性回归模型中,得到该多元线性回归模型输出的该特征数据的目标标签;根据该特征数据的目标标签与该特征数据的实际标签确定该特征数据的稳健标准化残差,并确定该特征数据的稳健马氏距离;根据该稳健标准化残差与该稳健马氏距离确定该待测业务数据的异常检测结果,可以解决相关技术中基于OLS的异常值诊断方法,当数据集中存在多个异常值未能识别出真正的异常值,且可能将正常数据误判为异常值的问题,拟合的残差能够更好地识别异常值,有效避免多个异常值的掩盖现象。值的掩盖现象。值的掩盖现象。

【技术实现步骤摘要】
一种异常数据检测方法及装置


[0001]本专利技术涉及数据处理领域,具体而言,涉及一种异常数据检测方法及装置。

技术介绍

[0002]在金融数据采集加工过程中,过失误差经常出现,Hampel指出实际数据中含有10%左右的异常值是很正常的。异常值严重影响数据分析建模的效果,如何有效识别和处理异常值在金融领域尤为重要。
[0003]相关技中提出基于普通最小二乘法(Ordinary Least Squares,简称为OLS)的异常值诊断方法:在确定自变量和因变量Y后,可拟合最小二乘回归,然后使用回归诊断方法来判断异常值与强影响点。基于OLS的异常值诊断方法,OLS损失函数使用平方损失并不稳健,容易受到数据集中异常值的影响,导致多变量参数估计得不到准确的结果。此外根据拟合结果得到的残差不能检测出所有的异常值。基于OLS的异常值诊断方法对单个异常值相当有效,当数据集中存在多个异常值,使用该方案可能导致两种不良后果:一种为未能识别出真正的异常值,即掩盖现象;一种为将正常数据误判为异常值,即淹没现象。
[0004]针对相关技术中基于OLS的异本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种异常数据检测方法,其特征在于,包括:获取待测业务数据的特征数据;根据所述特征数据输入预先拟合的多元线性回归模型中,得到所述多元线性回归模型输出的所述特征数据的目标标签;根据所述特征数据的目标标签与所述特征数据的实际标签确定所述特征数据的稳健标准化残差,并确定所述特征数据的稳健马氏距离;根据所述稳健标准化残差与所述稳健马氏距离确定所述待测业务数据的异常检测结果。2.根据权利要求1所述的方法,其特征在于,根据所述稳健标准化残差与所述稳健马氏距离确定所述待测业务数据的异常检测结果包括:将所述稳健马氏距离与预先确定的横轴临界值进行对比,得到第一对比结果;将所述稳健标准化残差与预先确定的纵轴临界值进行对比,得到第二对比结果;根据所述第一对比结果与所述第二对比结果确定所述异常检测结果。3.根据权利要求2所述的方法,其特征在于,根据所述第一对比结果与所述第二对比结果确定所述异常检测结果包括:若所述第一对比结果为所述稳健马氏距离小于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值小于所述纵轴临界值,确定所述异常检测结果为正常;若所述第一对比结果为所述稳健马氏距离小于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值大于所述纵轴临界值,确定所述异常检测结果为回归异常值;若所述第一对比结果为所述稳健马氏距离大于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值大于所述纵轴临界值,确定所述异常检测结果为坏的杠杆点;若所述第一对比结果为所述稳健马氏距离大于所述横轴临界值,所述第二对比结果为所述稳健标准化残差的绝对值小于所述纵轴临界值,确定所述异常检测结果为好的杠杆点。4.根据权利要求1所述的方法,其特征在于,根据所述特征数据的目标标签与所述特征数据的实际标签确定所述特征数据的稳健标准化残差包括:采用稳健的估计方法,得到多元线性回归模型回归系数向量的MM估计和回归标准误差;根据所述MM估计与所述回归标准误差确定所述特征数据的稳健标准化残差。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:确定预定数量的业务数据的自变量与因变量;对所述自变量进行变量筛选,得到筛选后的自变量;根据所述筛选后的自变量与对应的因变量拟合所述多元线性回归模型。6.根据权利要求5所述的方法,其特征在于,根据所述筛选后的自变量与对应的因变量拟合所述多元线性回归模型包括:通过以下方式根据所述筛选后的自变量拟合所述多元线性回归模型:Y
i
=β1X
i1
+
…...

【专利技术属性】
技术研发人员:凌立王鹏王继成田江向小佳丁永建李璠
申请(专利权)人:光大科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1