基于K-means算法的异常数据识别方法技术

技术编号:43896525 阅读:14 留言:0更新日期:2025-01-03 13:09
本发明专利技术涉及基于K‑means算法的异常数据识别方法,所述的异常识别方法包括:通过K‑means聚类算法识别出众多小簇,然后统计各簇中数据对象数量的分布概率,生成概率分布图,并作为决策图。从决策图中,清晰观察到哪些簇中的数据对象数量明显小于其他簇,从而将它们识别为异常簇,其中的数据对象识别为异常。本发明专利技术的异常数据对象识别方法不需输入外部参数,通过决策图提供的可视信息得到异常识别结果。

【技术实现步骤摘要】

本专利技术属于计算机数据处理领域,特别是涉及基于k-means算法的异常数据识别方法。


技术介绍

1、异常识别在当今社会中具有重要意义,在提高安全性、优化效率、预测未来、改善数据质量以及支持决策,在各个领域中推动进步和发展。随着技术的不断发展和应用范围的扩大,异常识别将继续发挥重要作用,并为人类社会带来更多的益处。

2、当前,已有上千种异常识别算法被陆续提出。它们大致可以被划分为基于统计、基于距离、基于深度学习、基于集成的算法。具体地,基于统计的算法使用数据的统计特性来识别异常值,常见的统计信息包括均值、标准差、中位数、百分位数等。基于距离的算法通过计算对象之间的相似度或距离来识别异常值;基于集成的算法结合多个基本异常检测模型的输出,以提高整体的性能和鲁棒性;基于深度学习的算法利用多层神经网络来学习数据的复杂特征,并在此基础上进行异常检测。

3、密度峰值聚类算法(density peak clustering,dpc)是一种无监督的聚类算法,由alex rodriguez和alessandro laio于2014年提出。该算法主要依本文档来自技高网...

【技术保护点】

1.一种基于K-means算法的异常数据识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于K-means算法的异常数据识别方法,其特征在于,步骤S1中,将数据集X划分为K个数据簇:, ,…,其中,表示第j个数据簇,K为数据簇的数量。

3.根据权利要求2所述的基于K-means算法的异常数据识别方法,其特征在于,步骤S2具体包含以下子步骤:

4.根据权利要求3所述的基于K-means算法的异常数据识别方法,其特征在于,所述步骤S2还包括:利用优化损失函数最小化数据簇内数据对象与其对应聚类中心之间的平方距离之和,计算公式为:

5...

【技术特征摘要】

1.一种基于k-means算法的异常数据识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于k-means算法的异常数据识别方法,其特征在于,步骤s1中,将数据集x划分为k个数据簇:, ,…,其中,表示第j个数据簇,k为数据簇的数量。

3.根据权利要求2所述的基于k-means算法的异常数据识别方法,其特征在于,步骤s2具体包含以下子步骤:

4.根据权利要求3所述的基于k-means算法的异常数据识别方法,其特征在于,所述步骤s2还包括:利用优化损失函数最小化数据簇内数据对象与其对应聚...

【专利技术属性】
技术研发人员:刘道君赵昌明张玉松刘帅洪福鑫欧思程杨锦辉唐润
申请(专利权)人:中国长江电力股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1