【技术实现步骤摘要】
一种针对截面数据的分布规律及其离群值的挖掘方法
[0001]本专利技术涉及数据挖掘
,具体为一种针对截面数据的分布规律及其离群值的挖掘方法。
技术介绍
[0002]随着云时代的来临,大数据吸引了越来越多的关注,企业日渐需要对海量的数据进行数据挖掘。通过挖掘这些数据的一些特征,比如离群值,能够将大量复杂的数据转化为精简可解读的洞察结论。针对单维数据,现有的主流离群值挖掘方法为2σ准则。
[0003]2σ准则先计算单维数据的标准偏差,按一定的概率确定一个区间,认为超过这个区间的值为离群值。此判别方法局限于对正态分布或近似正态分布的数据处理,在正态分布中σ代表标准差,μ代表均值,2σ准则为:数值分布在(μ
‑
2σ,μ+2σ)中的概率为0.9545。但若数据本身不服从正态分布规律,则可能会得出不符合预期的结果。
技术实现思路
[0004]本专利技术的目的在于提供一种针对截面数据的分布规律及其离群值的挖掘方法,可以用来代替人工进行数据分布规律和离群值的探索,节省分析人员的时间和精力,突破 ...
【技术保护点】
【技术特征摘要】
1.一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于,包括以下步骤:S1、接收多维截面数据集;S2、枚举维度度量两两组合;S3、对单维数据依次拟合模型;S4、依据选择的拟合模型分布的方法计算数据的离群值界线值;S5、输出离群值界线值,高于该界线值的数据被定义为该分布下的离群值。2.根据权利要求1所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于,所述S2中枚举维度度量两两组合具体为:对每个维度匹配度量,将原始数据划分为多个包含单维数据的子空间。3.根据权利要求2所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于,将原始数据划分为多个包含单维数据的子空间后,还对每个子空间中的单维数据依次降序排列。4.根据权利要求3所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于,所述S3中对单维数据依次拟合模型具体为:用幂律分布、指数分布、对数分布、线性分布、多项式分布、正态分布依次对每个子空间中的单维数据进行模型拟合,计算每种分布对应的拟合优度,选取拟合优度值最大的分布模型。5.根据权利要求4所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于,当拟合优度最大值≥s时,认为分布模型服从该分布,围绕该分布特征展开演算;其中,在当前的实现中,s=0.95。6.根据权利要求5所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于:所述幂律分布计算单维数据的离群值界线值具体为:给定一组非负数值{X},对照{X}服从幂律分布的假设,离群值界线值将如下计算:A1、假设排序后数据形状服从幂律分布,使用幂函数对{X}\{Xmax}中的值进行回归分析;A2、假设回归残差服从高斯分布,第二步回归分析中的残差被用于训练高斯模型H;A3、使用回归模型预测Xmax并获得对应的残差;A4、根据2σ原则获得Xmax的离群值界线值。7.根据权利要求5所述的一种针对截面数据的分布规律及其离群值的挖掘方法,其特征在于:所述指数分布计算单维数据的离群值界线值具体为:给定一组非负数值{X},对照{X}服从指数分布的假设,离群值界线值将如下计算:B1、假设排序后数据形状服从幂律分布,使用指数函数对{X}\{Xmax}中的值进行回归分析;...
【专利技术属性】
技术研发人员:汪忠康,
申请(专利权)人:数预智能科技上海有限公司杭州分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。