基于惩罚回归的快速异常点检测方法技术

技术编号：13467522 阅读：60 留言：0更新日期：2016-08-04 23:35

本发明专利技术涉及一种基于惩罚回归的快速异常点检测方法，首先判断线性回归模型中是否存在内生解释变量，当不存在内生解释变量时，依据数据点的方差规律，构建标准方差的惩罚加权最小二乘目标函数，对标准方差进行选择和估计，根据标准方差的选择和估计结果检验异方差，从而进行异常点的检测，当存在内生解释变量时，依据数据点的均值规律，构造均值漂移模型，根据均值漂移模型构建惩罚融合广义矩目标函数，进行均值漂移参数的选择和估计，根据均值漂移参数的估计结果进行异常点的检测。本发明专利技术不需要构造检验统计量并求其分布，避免了比如最大似然估计等复杂的运算，能够一步给出所有数据的异常点情况，解决多个异常点时传统方法在掩盖和淹没这两种现象下可能失效的问题，节省检测的运行时间，提高数据处理的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据挖掘与机器学习领域，涉及数据挖掘和数据处理的方法，具体地说，涉及一种基于惩罚回归的快速异常点检测方法。
技术介绍
对数据进行分析处理的过程中，人们经常会遇到异常数据。异常数据在统计数据分析中是一个很常见的问题。在理论上，异常值是影响统计数据质量的一个非常重要的因素，它们将对估计、推断和模型选择有严重的影响。在应用上，对异常数据的处理在某些领域很有价值，例如在网络完全领域，可以利用异常数据挖据来分析网络中的异常行为；在金融领域异常数据挖掘可以识别信用卡的欺诈交易、股市的操纵行为、会计信息的虚假报价、欺诈贷款等。因此，近年来有关异常值的理论探讨一直是个热点问题。对于通常的线性回归模型，传统的基于数据删除模型与均值漂移模型的经典诊断量的异常点检测方法，当仅有一个异常点时是简单而且有效的，而且在某些特殊的情况下，它们也产生了一些令人信服的经验结果。然而，它们也存在一些不足之处：(1)有多个异常点时，传统方法都是逐个数据点检测，当数据点很大时计算量将会变得特别大。(2)当有多个异常点时，掩盖和淹没这两个现象的存在使得传统方法在某些情况下是失效的。(3)模型中未知参数的个数超过了样本容量的个数，这使得参数估计和假设检验变得异常复杂，甚至是“不可识别的”。(4)大多数传统方法都需要构造检验统计量和计算其分布函数，而检验统计量的分布函数是很难求的，有的甚至根本求不出其分布函数。大数据背景下，在数据的处理过程中，...

【技术保护点】
一种基于惩罚回归的快速异常点检测方法，其特征在于：含有以下步骤：(一)利用数据采集工具采集待检测数据点画出待检测数据点的散点图，散点图中90％‑95％的数据点在同一直线附近的数据点用线性回归模型Y＝Xβ+ε表示，其中Y为响应变量所构成的向量，X为解释变量构成的矩阵，ε为随机误差，满足E(ε)＝0,判断线性回归模型Y＝Xβ+ε中是否存在内生解释变量；(二)当线性回归模型中不存在内生解释变量时，依据采集的数据点的方差规律，构造稀疏参数向量γ＝I‑σ‑1，构造加权最小二乘损失函数，由稀疏参数向量γ中分量的惩罚函数结合加权最小二乘损失函数构造惩罚加权最小二乘目标函数，优化关于稀疏参数向量γ的惩罚加权最小二乘目标函数，进行稀疏参数向量γ的选择和估计，稀疏参数向量γ的估计中不等于零的分量所对应的方差分量为异方差，异方差所对应的待检测数据为异常点，通过检验异方差，完成异常点的检测；(三)当线性回归模型中存在内生解释变量时，依据采集的数据点的均值规律，构造均值漂移模型y＝Xβ+η+ε，其中误差项ε～N(0,σ2I)，均值漂移参数向量η＝(η1,…,ηn)T；根据均值漂移参数向量η构造融合广义矩损失函数...

【技术特征摘要】
1.一种基于惩罚回归的快速异常点检测方法，其特征在于：含有以下步骤：
(一)利用数据采集工具采集待检测数据点画出待检测数据点的散点图，散点
图中90％-95％的数据点在同一直线附近的数据点用线性回归模型Y＝Xβ+ε表示，其中Y为
响应变量所构成的向量，X为解释变量构成的矩阵，ε为随机误差，满足E(ε)＝0,
判断线性回归模型Y＝Xβ+ε中是否存在内生解释变量；
(二)当线性回归模型中不存在内生解释变量时，依据采集的数据点的方差规律，构造
稀疏参数向量γ＝I-σ-1，构造加权最小二乘损失函数，由稀疏参数向量γ中分量的惩罚函
数结合加权最小二乘损失函数构造惩罚加权最小二乘目标函数，优化关于稀疏参数向量γ
的惩罚加权最小二乘目标函数，进行稀疏参数向量γ的选择和估计，稀疏参数向量γ的估
计中不等于零的分量所对应的方差分量为异方差，异方差所对应的待检测数据为异常点，
通过检验异方差，完成异常点的检测；
(三)当线性回归模型中存在内生解释变量时，依据采集的数据点的均值规律，构造均
值漂移模型y＝Xβ+η+ε，其中误差项ε～N(0,σ2I)，均值漂移参数向量η＝(η1,…,ηn)T；根据
均值漂移参数向量η构造融合广义矩损失函数，由融合广义矩损失函数结合均值漂移参数
向量η的分量的惩罚函数构造惩罚融合广义矩目标函数，优化关于均值漂移参数向量η的惩
罚融合广义矩目标函数，进行均值漂移参数向量η的选择和估计，均值漂移参数向量η的估
计中非零的分量所对应的待检测数据点为异常点，通过检验均值漂移参数向量η的估计中非零的分量，完成异常点的检测。
2.根据权利要求1所述的基于惩罚回归的快速异常点检测方法，其特征在于：步骤(一)
中，判断线性回归模型中是否存在内生解释变量的具体步骤为：
(1)给定解释变量X，由线性回归模型计算条件期望E(ε|X)；
(2)判断条件期望E(ε|X)是否为零，若条件期望E(ε|X)为零，则线性回归模型中不存在
内生解释变量，若条件期望E(ε|X)不为零，则线性回归模型中存在内生解释变量。
3.根据权利要求1所述的基于惩罚回归的快速异常点检测方法，其特征在于：步骤(二)
中，当不存在内生解释变量时，检测异常点的具体步骤为：
(1)定义标准方差向量为σ＝(σ1,…,σn)T，标准差向量σ＝(σ1,…,σn)T中90％-95％的分
量为1，只有5％-10％的分量不为1；
(2)记I＝(1,…,1)T，σ-1＝(1/σ1,…,1/σn)T，利用变换i＝1,…,n构造稀疏参数向
量γ＝I-σ-1，稀疏参数向量γ＝1-σ-1中90％-95％的分量为0，只有5％-10％的分量不为0；
(3)构造加权最小二乘损失函数(4)引入稀疏参数向量γ中分量的惩罚函数(5)由加权最小二乘损失函数结合稀疏参数向量γ中分量的惩罚函数构造惩罚加权最
小二乘目标函数Q(β,σ；λ)：
Q ( β , σ ; λ ) = 1 2 n Σ i = 1 n ( y i - x i T β σ i ) 2 + Σ j = 1 n P λ ( | 1 - 1 σ j | ) - - - ( 1 ) ]]>式中，β为讨厌参数，讨厌参数β用其加权最小二乘估计代替；λ表示调整参数；
(6)引入变换：i＝1,…,n，γ＝(γ1,…,γn)T，并引入记号：
惩罚加权最小二乘目标函数Q(β,σ；λ)简化为：
Q ( β ^ , γ ; λ ) = 1 2 n | | Y ^ * - X ^ * γ | | ...

【专利技术属性】
技术研发人员：宋允全，张青华，渐令，
申请(专利权)人：中国石油大学华东，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人