【技术实现步骤摘要】
一种高维数据异常检测方法
[0001]本专利技术属于数据处理
,主要涉及一种数据集中异常数据检测方法,该方法根据数据集本身的特点,检测出数据集中异常的数据记录。异常检测可应用于银行欺诈检测、结构缺陷检测、系统健康检测、文本错误检测等很多领域。
技术介绍
[0002]目前,异常检测方法主要包括:通过概率分布进行异常检测,通过聚类进行异常检测,通过深度学习进行异常检测。
[0003]通过概率分布进行检测的理论基础是正常的数据分布是具有一定特点的,如果某个数据与正常的分布偏离较大,我们认为该数据很可能是不正常的,很可能就是异常值。这种方法能够很好利用数据的统计特性,在一定的领域表现较好,但该类方法需要对数据集进行统计分析,获取正常数据的分布特征,这个过程往往较困难,特别是对于数据量较大,数据维度较高的情况下,其运算代价较大。
[0004]通过聚类进行异常检测,首先对原始数据集进行聚类,然后根据每条记录距离聚类中心的距离来判断哪些数据是异常值,一般认为距离聚类中心较远的记录就是异常值。这种方法需要进行聚类,聚类 ...
【技术保护点】
【技术特征摘要】
1.一种高维数据异常点检测方法公布了一种适用于高维数据的异常点检测的方法,其特征在于,基于一定的规则在高维数据上随机选择单个或多个属性,选择的单个属性或多个属性的组合作为异常点检测的特征,在每个特征上运行异常检测方法,得到每个数据点的异常值打分,运用各个数据点的异常值打分的和作为判断异常数据的标准;具体包括:随机在高维数据集上选择一个或多个属性(列),作为原始数据集的一次抽样,第i次抽样记为s
i
,每个s
i
称为原始数据集的一个样本,每个样本中可以包含原始数据集中的一个属性或多个属性的组合;在每个样本上进行异常检测:若样本s
i
抽取的数值属性,则对该样本中的数据进行排序,求得s
i
中记录2范数的最大值max
i
和最小值min
i
,把区间[min
i
,max
i
]平均分成kn个子区间,kn是随机从区间[|s
i
|/20,|s
i
|/10]随机选择的整数,|s
i
|表示样本中记录的个数。统计2范数落在kn个子区间的记录数做为该区间内包含记录的异常值打分;若样本s
i
抽取的非数值属性,则首先随机选择一个记录作为基准记录r0,计算所有记录到该基准记录的距离,d
max
表示距离样本s
i
中记录距离r0的最大距离,kc是从区间[|s
i
|/20,|s
i
|/10]随机选择的整数,把区间[0,d
max
]平均分成kc个子区间,根据记录与r0的距离所在的子区间,把样本s
i
划分成kc个子类,计算每个子类的信息熵,作为该子类中包含元素的异常值打分;由不同的样本,得数据集中每条记录的多个异常值打分,求解异常值打分的加权和,作为判定数据集中每条记录是不是异常值的依据;进一步,在高维数据上随机选择属性,具体包括:输入:原始数据集r是数据集D中记录,r包含a1,a2,
…
,a
m
个属性输出:抽样样本集算法:(1)S为空集(2)for i=1 to N
s
其中N
s
表示需要产生的样本数(3)对数据集D中每记录r,随机选择a1,a2,
…
,a
m
中一个或多个属性作为该记录的抽样记录(4)把所有抽样记录放入s
i
(5)把s
i
放入S(6)Endfor(7)返回S进一步,样本s
i
抽取的数值属性,在每个样本上进行异常检测,具体包括:输入:样本s
i...
【专利技术属性】
技术研发人员:请求不公布姓名,陈传杰,花小朋,许贺洋,吴国民,周琦,
申请(专利权)人:盐城工学院技术转移中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。