【技术实现步骤摘要】
基于改进K均值算法的异常项目筛选方法
[0001]本申请涉及数据处理领域,尤其涉及基于改进K均值算法的异常项目筛选方法。
技术介绍
[0002]企业经营过程中产生的项目数据较多,且由于人为因素、市场政策变动以及不可抗力等因素影响会导致项目数据产生波动甚至异常。项目数据存在一定的波动范围,并且绝大部分数据分布在该波动范围之内,当某一数据出现在该波动范围之外时,则认为该数据为异常数据。但工程方法往往阈值设置单一机械,无法准确区分正常波动和异常偏差,造成较大的识别误差。
[0003]当前引入k均值算法可以实现对多个数据的聚类处理,继而找出异常项目。现有的k均值算法的应用中,大多针对一维数据进行聚类分析,同时,都针对定量的数字语言进行直接处理,而在处理项目数据时,多维数据占多数,且含有定性的文字语言表示的字段,因此需要同时对多维数据进行处理并对文字语言进行恰当的定性
‑
定量转换。
[0004]由于k均值算法存在一定的局限性,部分专利对其进行了改进,如对算法初始聚类点设定的优化,数据间距离的计算的优化等,或是利用层次分析等方法与其融合进行使用。
技术实现思路
[0005]本申请实施例提出了基于改进K均值算法的异常项目筛选方法,通过分别对项目数据和偏差距离进行聚类,基于聚类后的偏差距离对项目数据的聚类结果进行过滤,从而提升基于K均值聚类算法进行异常项目筛选的准确性。
[0006]具体的,本申请实施例提出的基于改进K均值算法的异常项目筛选方法,包括:
[0007]S ...
【技术保护点】
【技术特征摘要】
1.基于改进K均值算法的异常项目筛选方法,其特征在于,所述方法包括:S1,获取全部项目对应的待处理的项目数据,剔除项目数据中的异常值,对剩余的项目数据进行归一化处理;S2,确定聚类簇数,基于融合蝴蝶
‑
粒子群算法对传统K均值算法进行改进;S3,利用改进的K均值算法对归一化后的项目数据进行自适应聚类处理,得到稳定簇中心对应的中心项目数据;S4,计算归一化后项目数据的基准值,获取待处理的项目数据与基准值之间的偏差值,对基准值和偏差值分别进行聚类分析,基于两个聚类分析后的结果进行加权得到结果;S5,根据得到的结果筛选得到异常数据。2.根据权利要求1所述的基于改进K均值算法的异常项目筛选方法,其特征在于,所述S1包括:S11,从当前全部项目表格中以列为单位对数据进行分组抽取;S12,剔除不具有聚类价值的项目数据;S13,按预设转换关系将剔除后剩余数据中的非数字字段转换为数字字段;S14,对以数字字段表示的项目数据进行归一化处理。3.根据权利要求2所述的基于改进K均值算法的异常项目筛选方法,其特征在于,所述S12包括:S121,计算隶属于同一列中项目数据之间的相关性;S122,剔除相关性低于预设阈值的项目数据。4.根据权利要求1所述的基于改进K均值算法的异常项目筛选方法,其特征在于,所述S2包括:S21,根据项目类别的数量确定聚类簇数上限、下限;S22,利用融合蝴蝶
‑
粒子群算法对现有的K均值算法进行改进;S23,迭代计算,直到簇中心在不同的迭代之间变化量处于接受区间内,得到每类项目数据的聚类中心;S24,运用肘方法,分析聚类算法的效率与效果,输出聚类簇数和结果。5.根据权利要求4所述的基于改进K均值算法的异常项目筛选方法,其特征在于,所述S22包括:S221,构建蝴蝶优化算法的目标函数为f(x)=cI
α
,式中,f(x)表示香味强度函数,I表示刺激强度,即函数适应度值,a表示强度系数,取值范围为[0,1],c表示感官形态系数,取值范围为[0,∞)内任意值;c0=0.01,t=1,2,
…
T
max
,式中,T
max
为算法的最大迭代次数,BOA根据切换概率p决定算法的全局搜索和局部搜索,位置更新公式为:
式中,表示第t次迭代第i只蝴蝶的空间位置,g
*
为当前迭代中所有蝴蝶个体的最佳位置,分别表示第t次迭代第j只蝴蝶和第k只蝴蝶的空间位置,r的取值为[0,1]之间的随机数,f
i
为第i只蝴蝶的适应度值;S222,确定粒子群优化算法的两个重要特征:粒子的位置p和速度v,其中个体被称为粒子,每个粒子在搜索空间的初始位置和速度采用随机初始化;粒子的速度和位置更新为:式中,分别表示第i个粒子在第t次迭代时的速度和位置,p
be...
【专利技术属性】
技术研发人员:高旭,潘华,颜静汝,朱慧敏,刘榕,李彦基,姚正,方静,
申请(专利权)人:上海电力大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。