基于惩罚回归的快速异常点检测方法技术

技术编号:13467522 阅读:60 留言:0更新日期:2016-08-04 23:35
本发明专利技术涉及一种基于惩罚回归的快速异常点检测方法,首先判断线性回归模型中是否存在内生解释变量,当不存在内生解释变量时,依据数据点的方差规律,构建标准方差的惩罚加权最小二乘目标函数,对标准方差进行选择和估计,根据标准方差的选择和估计结果检验异方差,从而进行异常点的检测,当存在内生解释变量时,依据数据点的均值规律,构造均值漂移模型,根据均值漂移模型构建惩罚融合广义矩目标函数,进行均值漂移参数的选择和估计,根据均值漂移参数的估计结果进行异常点的检测。本发明专利技术不需要构造检验统计量并求其分布,避免了比如最大似然估计等复杂的运算,能够一步给出所有数据的异常点情况,解决多个异常点时传统方法在掩盖和淹没这两种现象下可能失效的问题,节省检测的运行时间,提高数据处理的效率。

【技术实现步骤摘要】

本专利技术属于数据挖掘与机器学习领域,涉及数据挖掘和数据处理的方法,具体地说,涉及一种基于惩罚回归的快速异常点检测方法
技术介绍
对数据进行分析处理的过程中,人们经常会遇到异常数据。异常数据在统计数据分析中是一个很常见的问题。在理论上,异常值是影响统计数据质量的一个非常重要的因素,它们将对估计、推断和模型选择有严重的影响。在应用上,对异常数据的处理在某些领域很有价值,例如在网络完全领域,可以利用异常数据挖据来分析网络中的异常行为;在金融领域异常数据挖掘可以识别信用卡的欺诈交易、股市的操纵行为、会计信息的虚假报价、欺诈贷款等。因此,近年来有关异常值的理论探讨一直是个热点问题。对于通常的线性回归模型,传统的基于数据删除模型与均值漂移模型的经典诊断量的异常点检测方法,当仅有一个异常点时是简单而且有效的,而且在某些特殊的情况下,它们也产生了一些令人信服的经验结果。然而,它们也存在一些不足之处:(1)有多个异常点时,传统方法都是逐个数据点检测,当数据点很大时计算量将会变得特别大。(2)当有多个异常点时,掩盖和淹没这两个现象的存在使得传统方法在某些情况下是失效的。(3)模型中未知参数的个数超过了样本容量的个数,这使得参数估计和假设检验变得异常复杂,甚至是“不可识别的”。(4)大多数传统方法都需要构造检验统计量和计算其分布函数,而检验统计量的分布函数是很难求的,有的甚至根本求不出其分布函数。大数据背景下,在数据的处理过程中,为了提高统计数据的质量,需要利用某种有效的方法来剔除统计数据中的伪数据,达到去伪存真的目的。变量选择就是一类常用方法。变量选择是一种从大量特征或变量中挑选出所有相关特征或变量的技术,从而建立一个稳健的模型。在大量的变量选择方法中,尤为受到重视的是基于惩罚思想的变量选择方法,比如Lasso,SCAD,elasticnet,adaptiveLasso以及Dantzigselector。上述变量选择方法一般需要假设模型具有稀疏性和外生性。在高维回归模型里大量的解释变量难免会出现内生解释变量。内生解释变量的存在使得通常的惩罚最小二乘方法是不相合的,进而得到错误决策。鉴于传统异常点探测方法的缺点和变量选择在数据处理中的优势,提出一种基于惩罚技术而且并不需要构造检验统计量就可以同时给出所有数据的异常点情况的探测方法就显得尤为必要。基于惩罚方法的异常点检测是一个崭新的研究领域并有着重要的实用价值,但目前仍然缺乏一个成熟的技术方案,因此需要提供能够在有和无内生解释变量下都能实用的快速的异常点检测方法,在保证检测结果精度的前提下能够通过近似方法处理大数据系统中的海量数据。
技术实现思路
本专利技术的目的在于针对现有传统的异常点检测方法需要构造检验统计量且只能逐步检测各个数据点、计算量大等上述不足,提供了一种基于惩罚回归的快速异常点检测方法,该方法结合高维数据分析和惩罚回归的方法,降低了计算量,减少运行时间,进而大幅提高异常点检测效率的目标。根据本专利技术一实施例,提供了一种基于惩罚回归的快速异常点检测方法,含有以下步骤:(一)利用数据采集工具采集待检测数据点画出待检测数据点的散点图,散点图中90%-95%的数据点在同一直线附近的数据点用线性回归模型Y=Xβ+ε表示,其中Y为响应变量所构成的向量,X为解释变量构成的矩阵,ε为随机误差,满足E(ε)=0,判断线性回归模型Y=Xβ+ε中是否存在内生解释变量。(二)当线性回归模型中不存在内生解释变量时,依据采集的数据点的方差规律,构造稀疏参数向量γ=I-σ-1,构造加权最小二乘损失函数,由稀疏参数向量γ中分量的惩罚函数结合加权最小二乘损失函数构造惩罚加权最小二乘目标函数,优化关于稀疏参数向量γ的惩罚加权最小二乘目标函数,进行稀疏参数向量γ的选择和估计,稀疏参数向量γ的估计中不等于零的分量所对应的方差分量为异方差,异方差所对应的待检测数据为异常点,通过异方差检验完成异常点的检测。由于异方差是非常态的,方差向量σ2中90%-95%的分量相同,5%-10%的分量不同,把待检测数据进行标准化,这样对应的方差向量σ2中90%-95%的分量为1,只有5%-10%的分量不为1,因此标准差向量σ=(σ1,…,σn)T中90%-95%的分量为1,只有5%-10%的分量不为1,故稀疏参数向量γ=1-σ-1中90%-95%的分量为0,只有5%-10%的分量不为0。(三)当线性回归模型中存在内生解释变量时,依据采集的数据点的均值规律,构造均值漂移模型y=Xβ+η+ε,其中误差项ε~N(0,σ2I),均值漂移参数向量η=(η1,…,ηn)T;根据均值漂移参数向量η构造融合广义矩损失函数,由融合广义矩损失函数结合均值漂移参数向量η的分量的惩罚函数构造惩罚融合广义矩目标函数,优化关于均值漂移参数向量η的惩罚融合广义矩目标函数,进行均值漂移参数向量η的选择和估计,均值漂移参数向量η的估计中非零的分量所对应的待检测数据点为异常点,通过检验均值漂移参数向量η的估计中非零的分量完成异常点的检测。如果均值漂移参数向量η的第i个分量ηi显著不等于零,则说明第i个待检测数据点的均值确实有漂移,因而数据点(xi,yi)不符合既定的线性回归方程则第i个点为异常点;由于异常点是非常态的,既待检测数据点中只有5%-10%的数据点为异常点,因此均值漂移参数向量η中只有5%-10%的分量不为零,而90%-95%的分量为零,这说明均值漂移参数向量η是稀疏的。在根据本专利技术实施例的学习方法中,步骤(一)中,判断线性回归模型中是否存在内生解释变量的具体步骤为:(1)给定解释变量X,由线性回归模型计算条件期望E(ε|X);(2)判断条件期望E(ε|X)是否为零,若条件期望E(ε|X)为零,则线性回归模型中不存在内生解释变量,若条件期望E(ε|X)不为零,则线性回归模型中存在内生解释变量。在根据本专利技术实施例的检测方法中,步骤(二)中,当不存在内生解释变量时,检测异常点的具体步骤为:(1)定义标准方差向量为σ=(σ1,…,σn)T,标准差向量中90%-95%的分量为1,只有5%-10%的分量不为1;(2)记I=(1,…,1)T,σ-1=(1/σ1,…,1/σn)T,利用变换构造稀疏参数向量γ=I-σ-1,稀疏参数向量γ=1-σ-1中90%-95%的分量为0,只有5%-10%的分量不为0;(3)构造加权最小二乘损失函数(4)引入稀疏参数向量γ中分量的惩罚函数(5)由加权最小二乘损失函数结合稀疏参数向量γ中分量的惩罚函数构造惩罚加权最小二乘目本文档来自技高网
...

【技术保护点】
一种基于惩罚回归的快速异常点检测方法,其特征在于:含有以下步骤:(一)利用数据采集工具采集待检测数据点画出待检测数据点的散点图,散点图中90%‑95%的数据点在同一直线附近的数据点用线性回归模型Y=Xβ+ε表示,其中Y为响应变量所构成的向量,X为解释变量构成的矩阵,ε为随机误差,满足E(ε)=0,判断线性回归模型Y=Xβ+ε中是否存在内生解释变量;(二)当线性回归模型中不存在内生解释变量时,依据采集的数据点的方差规律,构造稀疏参数向量γ=I‑σ‑1,构造加权最小二乘损失函数,由稀疏参数向量γ中分量的惩罚函数结合加权最小二乘损失函数构造惩罚加权最小二乘目标函数,优化关于稀疏参数向量γ的惩罚加权最小二乘目标函数,进行稀疏参数向量γ的选择和估计,稀疏参数向量γ的估计中不等于零的分量所对应的方差分量为异方差,异方差所对应的待检测数据为异常点,通过检验异方差,完成异常点的检测;(三)当线性回归模型中存在内生解释变量时,依据采集的数据点的均值规律,构造均值漂移模型y=Xβ+η+ε,其中误差项ε~N(0,σ2I),均值漂移参数向量η=(η1,…,ηn)T;根据均值漂移参数向量η构造融合广义矩损失函数,由融合广义矩损失函数结合均值漂移参数向量η的分量的惩罚函数构造惩罚融合广义矩目标函数,优化关于均值漂移参数向量η的惩罚融合广义矩目标函数,进行均值漂移参数向量η的选择和估计,均值漂移参数向量η的估计中非零的分量所对应的待检测数据点为异常点,通过检验均值漂移参数向量η的估计中非零的分量,完成异常点的检测。...

【技术特征摘要】
1.一种基于惩罚回归的快速异常点检测方法,其特征在于:含有以下步骤:
(一)利用数据采集工具采集待检测数据点画出待检测数据点的散点图,散点
图中90%-95%的数据点在同一直线附近的数据点用线性回归模型Y=Xβ+ε表示,其中Y为
响应变量所构成的向量,X为解释变量构成的矩阵,ε为随机误差,满足E(ε)=0,
判断线性回归模型Y=Xβ+ε中是否存在内生解释变量;
(二)当线性回归模型中不存在内生解释变量时,依据采集的数据点的方差规律,构造
稀疏参数向量γ=I-σ-1,构造加权最小二乘损失函数,由稀疏参数向量γ中分量的惩罚函
数结合加权最小二乘损失函数构造惩罚加权最小二乘目标函数,优化关于稀疏参数向量γ
的惩罚加权最小二乘目标函数,进行稀疏参数向量γ的选择和估计,稀疏参数向量γ的估
计中不等于零的分量所对应的方差分量为异方差,异方差所对应的待检测数据为异常点,
通过检验异方差,完成异常点的检测;
(三)当线性回归模型中存在内生解释变量时,依据采集的数据点的均值规律,构造均
值漂移模型y=Xβ+η+ε,其中误差项ε~N(0,σ2I),均值漂移参数向量η=(η1,…,ηn)T;根据
均值漂移参数向量η构造融合广义矩损失函数,由融合广义矩损失函数结合均值漂移参数
向量η的分量的惩罚函数构造惩罚融合广义矩目标函数,优化关于均值漂移参数向量η的惩
罚融合广义矩目标函数,进行均值漂移参数向量η的选择和估计,均值漂移参数向量η的估
计中非零的分量所对应的待检测数据点为异常点,通过检验均值漂移参数向量η的估计中非零的分量,完成异常点的检测。
2.根据权利要求1所述的基于惩罚回归的快速异常点检测方法,其特征在于:步骤(一)
中,判断线性回归模型中是否存在内生解释变量的具体步骤为:
(1)给定解释变量X,由线性回归模型计算条件期望E(ε|X);
(2)判断条件期望E(ε|X)是否为零,若条件期望E(ε|X)为零,则线性回归模型中不存在
内生解释变量,若条件期望E(ε|X)不为零,则线性回归模型中存在内生解释变量。
3.根据权利要求1所述的基于惩罚回归的快速异常点检测方法,其特征在于:步骤(二)
中,当不存在内生解释变量时,检测异常点的具体步骤为:
(1)定义标准方差向量为σ=(σ1,…,σn)T,标准差向量σ=(σ1,…,σn)T中90%-95%的分
量为1,只有5%-10%的分量不为1;
(2)记I=(1,…,1)T,σ-1=(1/σ1,…,1/σn)T,利用变换i=1,…,n构造稀疏参数向
量γ=I-σ-1,稀疏参数向量γ=1-σ-1中90%-95%的分量为0,只有5%-10%的分量不为0;
(3)构造加权最小二乘损失函数(4)引入稀疏参数向量γ中分量的惩罚函数(5)由加权最小二乘损失函数结合稀疏参数向量γ中分量的惩罚函数构造惩罚加权最
小二乘目标函数Q(β,σ;λ):
Q ( β , σ ; λ ) = 1 2 n Σ i = 1 n ( y i - x i T β σ i ) 2 + Σ j = 1 n P λ ( | 1 - 1 σ j | ) - - - ( 1 ) ]]>式中,β为讨厌参数,讨厌参数β用其加权最小二乘估计代替;λ表示调整参数;
(6)引入变换:i=1,…,n,γ=(γ1,…,γn)T,并引入记号:
惩罚加权最小二乘目标函数Q(β,σ;λ)简化为:
Q ( β ^ , γ ; λ ) = 1 2 n | | Y ^ * - X ^ * γ | | ...

【专利技术属性】
技术研发人员:宋允全张青华渐令
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1