基于改进K均值算法的异常项目筛选方法技术

技术编号:34440880 阅读:19 留言:0更新日期:2022-08-06 16:30
本申请实施例提出了基于改进K均值算法的异常项目筛选方法,包括获取全部项目对应的待处理的项目数据,剔除项目数据中的异常值,对剩余的项目数据进行归一化处理;计算归一化后项目数据的基准值,获取待处理的项目数据与基准值之间的偏差值,对基准值和偏差值分别进行聚类分析,基于两个聚类分析后的结果进行加权得到结果;根据得到的结果筛选得到异常数据。在对项目数据进行依托于K均值聚类算法时,还对每类项目数据的偏差值进行同类型的聚类处理。由于引入了基于偏差值的聚类处理过程,相对于现有技术中的单一K均值聚类算法能够更为精准的进行数据聚类,缩小单一K均值聚类的范围,从而提升了项目数据异常筛选的精度。从而提升了项目数据异常筛选的精度。从而提升了项目数据异常筛选的精度。

【技术实现步骤摘要】
基于改进K均值算法的异常项目筛选方法


[0001]本申请涉及数据处理领域,尤其涉及基于改进K均值算法的异常项目筛选方法。

技术介绍

[0002]企业经营过程中产生的项目数据较多,且由于人为因素、市场政策变动以及不可抗力等因素影响会导致项目数据产生波动甚至异常。项目数据存在一定的波动范围,并且绝大部分数据分布在该波动范围之内,当某一数据出现在该波动范围之外时,则认为该数据为异常数据。但工程方法往往阈值设置单一机械,无法准确区分正常波动和异常偏差,造成较大的识别误差。
[0003]当前引入k均值算法可以实现对多个数据的聚类处理,继而找出异常项目。现有的k均值算法的应用中,大多针对一维数据进行聚类分析,同时,都针对定量的数字语言进行直接处理,而在处理项目数据时,多维数据占多数,且含有定性的文字语言表示的字段,因此需要同时对多维数据进行处理并对文字语言进行恰当的定性

定量转换。
[0004]由于k均值算法存在一定的局限性,部分专利对其进行了改进,如对算法初始聚类点设定的优化,数据间距离的计算的优化等,或是利用层次分析等方法与其融合进行使用。

技术实现思路

[0005]本申请实施例提出了基于改进K均值算法的异常项目筛选方法,通过分别对项目数据和偏差距离进行聚类,基于聚类后的偏差距离对项目数据的聚类结果进行过滤,从而提升基于K均值聚类算法进行异常项目筛选的准确性。
[0006]具体的,本申请实施例提出的基于改进K均值算法的异常项目筛选方法,包括:
[0007]S1,获取全部项目对应的待处理的项目数据,剔除项目数据中的异常值,对剩余的项目数据进行归一化处理;
[0008]S2,确定聚类簇数,基于融合蝴蝶

粒子群算法对传统K均值算法进行改进;
[0009]S3,利用改进的K均值算法对归一化后的项目数据进行自适应聚类处理,得到稳定簇中心对应的中心项目数据;
[0010]S4,计算归一化后项目数据的基准值,获取待处理的项目数据与基准值之间的偏差值,对基准值和偏差值分别进行聚类分析,基于两个聚类分析后的结果进行加权得到结果;
[0011]S5,根据得到的结果筛选得到异常数据。
[0012]可选的,所述S1包括:
[0013]S11,从当前全部项目表格中以列为单位对数据进行分组抽取;
[0014]S12,剔除不具有聚类价值的项目数据;
[0015]S13,按预设转换关系将剔除后剩余数据中的非数字字段转换为数字字段;
[0016]S14,对以数字字段表示的项目数据进行归一化处理。
[0017]可选的,所述S12包括:
[0018]S121,计算隶属于同一列中项目数据之间的相关性;
[0019]S122,剔除相关性低于预设阈值的项目数据。
[0020]可选的,所述S2包括:
[0021]S21,根据项目类别的数量确定聚类簇数上限、下限;
[0022]S22,利用融合蝴蝶

粒子群算法对现有的K均值算法进行改进;
[0023]S23,迭代计算,直到簇中心在不同的迭代之间变化量处于接受区间内,得到每类项目数据的聚类中心;
[0024]S24,运用肘方法,分析聚类算法的效率与效果,输出聚类簇数和结果。
[0025]可选的,所述S22包括:
[0026]S221,构建蝴蝶优化算法的目标函数为f(x)=cI
α

[0027]式中,f(x)表示香味强度函数,I表示刺激强度,即函数适应度值,a表示强度系数,取值范围为[0,1],c表示感官形态系数,取值范围为[0,∞)内任意值;
[0028][0029]式中,T
max
为算法的最大迭代次数,BOA根据切换概率p决定算法的全局搜索和局部搜索,位置更新公式为:
[0030][0031]式中,表示第t次迭代第i只蝴蝶的空间位置,g
*
为当前迭代中所有蝴蝶个体的最佳位置,分别表示第t次迭代第j只蝴蝶和第k只蝴蝶的空间位置,r的取值为[0,1]之间的随机数,f
i
为第i只蝴蝶的适应度值;
[0032]S222,确定粒子群优化算法的两个重要特征:粒子的位置p和速度v,
[0033]其中个体被称为粒子,每个粒子在搜索空间的初始位置和速度采用随机初始化;
[0034]粒子的速度和位置更新为:
[0035][0036][0037]式中,分别表示第i个粒子在第t次迭代时的速度和位置,p
best
和g
best
表示粒子的初始全局最佳位置,通常rand1和rand2为(0,1)中的随机数,w表示惯性权重系数;
[0038]S223,采用混合算法进行数据处理;
[0039]设D维搜索空间中,随机生成初始解的表达式为:
[0040]X
i
=L
b
+(U
b

L
b
)
·
o i=1,2,

,D,
[0041]式中,X
i
表示蝴蝶群体中第i只蝴蝶空间位置,D表示初始解的个数;L
b
,U
b
分别表示搜索空间的上界和下界,o表示(0,1)之间的随机数;
[0042]混合算法PSOBOA的全局搜索阶段可表示为:
[0043][0044][0045]式中,
ω
表示自适应调节参数,表示粒子i在t时刻的速度,r1、r2为(0,1)中的随机数;
[0046]混合算法PSOBOA的局部搜索阶段可表示为:
[0047][0048][0049]式中,和分别是从解空间中随机选取的第j和第k只蝴蝶,ω表示自适应调节参数;
[0050]PSOBOA中控制参数c的表达式为:
[0051]c(t)=4
·
c(1

c),
[0052]惯性权重系数ω对PSO算法的粒子飞行速度有着直接的影响,采用自适应的调整策略为:
[0053]ω=0.9

0.7
·
T
i
/T
max

[0054]式中,T
max
为算法的最大迭代次数。
[0055]可选的,所述S221包括:
[0056]构建函数适应度值I为k均值算法的目标函数:
[0057][0058]式中,m表示聚类簇数,n表示样本数x
i
表示样本i,u
k
表示簇中心k。
[0059]可选的,所述S4包括:
[0060]S41,根据项目属于隶属企业同类项目的历史平均数据,结合参考权重得到基准值;
[0061]S42,计算当前列中每个项目数据与基准值的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于改进K均值算法的异常项目筛选方法,其特征在于,所述方法包括:S1,获取全部项目对应的待处理的项目数据,剔除项目数据中的异常值,对剩余的项目数据进行归一化处理;S2,确定聚类簇数,基于融合蝴蝶

粒子群算法对传统K均值算法进行改进;S3,利用改进的K均值算法对归一化后的项目数据进行自适应聚类处理,得到稳定簇中心对应的中心项目数据;S4,计算归一化后项目数据的基准值,获取待处理的项目数据与基准值之间的偏差值,对基准值和偏差值分别进行聚类分析,基于两个聚类分析后的结果进行加权得到结果;S5,根据得到的结果筛选得到异常数据。2.根据权利要求1所述的基于改进K均值算法的异常项目筛选方法,其特征在于,所述S1包括:S11,从当前全部项目表格中以列为单位对数据进行分组抽取;S12,剔除不具有聚类价值的项目数据;S13,按预设转换关系将剔除后剩余数据中的非数字字段转换为数字字段;S14,对以数字字段表示的项目数据进行归一化处理。3.根据权利要求2所述的基于改进K均值算法的异常项目筛选方法,其特征在于,所述S12包括:S121,计算隶属于同一列中项目数据之间的相关性;S122,剔除相关性低于预设阈值的项目数据。4.根据权利要求1所述的基于改进K均值算法的异常项目筛选方法,其特征在于,所述S2包括:S21,根据项目类别的数量确定聚类簇数上限、下限;S22,利用融合蝴蝶

粒子群算法对现有的K均值算法进行改进;S23,迭代计算,直到簇中心在不同的迭代之间变化量处于接受区间内,得到每类项目数据的聚类中心;S24,运用肘方法,分析聚类算法的效率与效果,输出聚类簇数和结果。5.根据权利要求4所述的基于改进K均值算法的异常项目筛选方法,其特征在于,所述S22包括:S221,构建蝴蝶优化算法的目标函数为f(x)=cI
α
,式中,f(x)表示香味强度函数,I表示刺激强度,即函数适应度值,a表示强度系数,取值范围为[0,1],c表示感官形态系数,取值范围为[0,∞)内任意值;c0=0.01,t=1,2,

T
max
,式中,T
max
为算法的最大迭代次数,BOA根据切换概率p决定算法的全局搜索和局部搜索,位置更新公式为:
式中,表示第t次迭代第i只蝴蝶的空间位置,g
*
为当前迭代中所有蝴蝶个体的最佳位置,分别表示第t次迭代第j只蝴蝶和第k只蝴蝶的空间位置,r的取值为[0,1]之间的随机数,f
i
为第i只蝴蝶的适应度值;S222,确定粒子群优化算法的两个重要特征:粒子的位置p和速度v,其中个体被称为粒子,每个粒子在搜索空间的初始位置和速度采用随机初始化;粒子的速度和位置更新为:式中,分别表示第i个粒子在第t次迭代时的速度和位置,p
be...

【专利技术属性】
技术研发人员:高旭潘华颜静汝朱慧敏刘榕李彦基姚正方静
申请(专利权)人:上海电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1