一种基于改进K-means聚类算法的缺失数据填充方法技术

技术编号:19512219 阅读:27 留言:0更新日期:2018-11-21 08:20
本发明专利技术属于数据处理领域,更具体地,涉及一种基于改进K‑means聚类算法的缺失数据填充方法,采用改进的K‑means聚类算法对数据进行分类,再采用期望最大值法对缺失数据进行填充。具体步骤:S1.提出一种人工鱼群算法,确定K‑means聚类算法的K值;S2.提出一种改进的K‑means聚类算法;S3.设计了K‑means聚类算法的目标函数f(x);S4.提出一种改进的期望最大值法,对数据集中的缺失数据进行填充。本发明专利技术提出的一种基于改进K‑means聚类算法的缺失数据填充方法以较高的速度和精度对缺失数据进行填充,填充缺失数据效果良好。

【技术实现步骤摘要】
一种基于改进K-means聚类算法的缺失数据填充方法
本专利技术属于数据处理领域,更具体地,涉及一种基于改进K-means聚类算法的缺失数据填充方法。
技术介绍
缺失数据是指数据采集或传输过程中由于人为操作失误或机械方面原因,造成空值或者不符合要求的数值混杂在数据集合中的数据值。缺失数据的情况在远程健康监护系统中比较常见,由于格式不规范或者数据传输等原因,导致数据缺失。常用的缺失数据填充算法有多重填补法、多元回归填充法、期望最大值填充法等等。
技术实现思路
本专利技术为克服上述现有技术所述的至少一种缺陷,提供一种基于改进K-means聚类算法的缺失数据填充方法,有效提高了填充缺失数据的效果。为解决上述技术问题,本专利技术采用的技术方案是:一种基于改进K-means聚类算法的缺失数据填充方法,包括以下步骤:S1.利用人工鱼群算法,确定K-means聚类算法的K值;S2.提出一种改进的K-means聚类算法,包括:S21.提出一种目标函数f(x)作为K-means聚类算法的终止条件,确定目标函数f(x)的公式为:式中,x表示数据对象,K表示聚类中心个数,ci表示第i个聚类中心,dist表示欧几里得距离;S22.从数据集中确定K个数据对象当成K-means聚类算法的初始聚类中心;S23.计算所有的数据对象到K个初始聚类中心的欧氏距离,按照距离的远近将每个数据对象划分至距离其最近的聚类中心中;S24.针对每一个聚类重新计算它们的聚类中心,得到新的K个数据聚类中心点;S25.判断目标函数f(x)是否收敛,若目标函数f(x)收敛,则结束算法,输出聚类结果;若目标函数f(x)不收敛,即新的聚类中心与上一次迭代得到的K个聚类中心不相符,则重复执行步骤S23至步骤S25;S3.选择改进的K-means聚类算法对缺失数据进行分类,判断出缺失数据的类型,按照缺失数据的类型确定填充缺失数据的参考数据集,再采用期望最大值法对数据集中的缺失数据进行填充。进一步地,所述的S3步骤具体包括:S31.初始化分布参数;S32.确定期望最大值法的初始值θ(0),初始值为当前观察数据集Xobs的平均值;S33.按下式计算填充数据的最大期望步,即E步:E(Xfill|Xobs,θ(k))=θ(k-1)式中,k表示迭代次数,Xfill表示填充值,E(Xfill|Xobs,θ(k))表示填充数据期望值,θ(k)表示第k步的评价参量;S34.按下式计算最大期望值的最大似然估计参数值,即最大化步,即M步:式中,p表示观察数据集Xobs的个数,n表示总体数据的个数;Xi为当前人工鱼的位置,j为观察数据集Xobs的个数加1;S35.判断是不是达到收敛条件,如果满足则进行下一步S36;反之,跳转至步骤S33;其中,按照下式计算收敛条件:|E(Xfill|Xobs,θ(k))-E(Xfill|Xobs,θ(k-1))|<ε式中,ε表示收敛参数;S36.输出预测值Xfill,根据这个预测值来对数据集中的缺失数据进行填充。进一步地,所述的S22步骤具体包括:选择人工鱼群算法的极值点个数的2倍当作K-means算法的聚类个数K,把每个极值点的位置当作K-means算法的初始聚类中心。与现有技术相比,有益效果是:本专利技术提供的一种基于改进K-means聚类算法的缺失数据填充方法,使得填充缺失数据的时间更短,有效提高了缺失数据填充的效果。附图说明图1是本专利技术方法流程图。图2是传统K-means聚类算法和本专利技术提供的基于改进的K-means聚类算法的分类精度对比图。图3是传统K-means聚类算法和本专利技术提供的基于改进的K-means聚类算法的缺失数据填充平均耗时对比图。具体实施方式附图仅用于示例性说明,不能理解为对本专利技术的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利技术的限制。实施例1:如图1所示,一种基于改进K-means聚类算法的缺失数据填充方法,包括以下步骤:步骤1.利用人工鱼群算法,确定K-means聚类算法的K值;具体包括:S11.人工鱼群算法初始化,产生初始鱼群。确定人工鱼的规模N=30、迭代次数Nc、最大试探次数Trynum=10、最大迭代次数Nc_max=100、人工鱼最大移动步长Step=0.3、拥挤度因子δ=10、人工鱼的视野范围Visual=0.75。在要求范围里面,任意产生30条人工鱼,形成初始的人工鱼群。S12.对公告板进行初始化。计算每一个初始人工鱼现在的位置,利用公告板记录计算所得的最优值。S13.选择行为。每一条人工鱼都执行聚群行为和追尾行为,选择两种行为计算得到的相对较好的值,默认的行为为觅食行为。当人工鱼个体执行完所有行为之后,每一次都要将它现在位置的计算值和公告板的记录作对比。假如它的值比公告板的记录要好,就用它现在的位置代替公告板之前的记录。人工鱼的行为过程进一步包括:S131.觅食行为。假设当前人工鱼的位置为Xi,任意选取它视野范围里面的一个新位置Xj,如果它俩的群体相似度Yi<Yj,就往这个方向按照式(1)行进一步;否则,重新选取另一个位置Xj,推测是否满足条件。迭代Trynum次后,假如依旧没有满足条件,则人工鱼按式(2)任意转移一步;Xi|next=Xi+Rand()·Step(2)式中,Rand()服从分布U(0,1);S132.聚群行为。假设当前人工鱼的位置为Xi,在它的视野范围内(dij<Visual)搜寻它的伙伴的数量nf和中心位置向量Xc,如果Yc/nf>δYi,表示Xc周围是一个最优解,这时,往中心位置Xc方向按式(3)往前行进一步,否则,实施觅食行为;S133.追尾行为。假设当前人工鱼状态为Xi,在其视野范围内(dij<Visual)探索Yj为最大的伙伴位置为Xmax,若Yj/nf>δYi,表示伙伴Xmax处具有较高的群体相似度且不太拥挤,则可以向Xmax方向按照式(4)往前进一步,否则,实施觅食行为;S14.判断Nc是否等于Nc。若是,结束算法,输出最优值。若不是,返回S13,且Nc+1。步骤2.提出一种改进的K-means聚类算法,包括:S21.提出一种目标函数f(x)作为K-means聚类算法的终止条件,确定目标函数f(x)的公式为:式中,x表示数据对象,K表示聚类中心个数,ci表示第i个聚类中心,dist表示欧几里得距离;S22.从数据集中确定K个数据对象当成K-means聚类算法的初始聚类中心;即选择人工鱼群算法的极值点个数的2倍当作K-means算法的聚类个数K,把每个极值点的位置当作K-means算法的初始聚类中心;S23.计算所有的数据对象到K个初始聚类中心的欧氏距离,按照距离的远近将每个数据对象划分至距离其最近的聚类中心中;S24.针对每一个聚类重新计算它们的聚类中心,得到新的K个数据聚类中心点;S25.判断目标函数f(x)是否收敛,若目标函数f(x)收敛,则结束算法,输出聚类结果;若目标函数f(x)不收敛,即新的聚类中心与上一次迭代得到的K个聚类中心不相符,则重复执行步骤S23至步骤S25。步骤3.提出一种改进的期望最大值法,对数本文档来自技高网...

【技术保护点】
1.一种基于改进K‑means聚类算法的缺失数据填充方法,其特征在于,包括以下步骤:S1.利用人工鱼群算法,确定K‑means聚类算法的K值;S2.提出一种改进的K‑means聚类算法,包括:S21.提出一种目标函数f(x)作为K‑means聚类算法的终止条件,确定目标函数f(x)的公式为:

【技术特征摘要】
1.一种基于改进K-means聚类算法的缺失数据填充方法,其特征在于,包括以下步骤:S1.利用人工鱼群算法,确定K-means聚类算法的K值;S2.提出一种改进的K-means聚类算法,包括:S21.提出一种目标函数f(x)作为K-means聚类算法的终止条件,确定目标函数f(x)的公式为:式中,x表示数据对象,K表示聚类中心个数,ci表示第i个聚类中心,dist表示欧几里得距离;S22.从数据集中确定K个数据对象当成K-means聚类算法的初始聚类中心;S23.计算所有的数据对象到K个初始聚类中心的欧氏距离,按照距离的远近将每个数据对象划分至距离其最近的聚类中心中;S24.针对每一个聚类重新计算它们的聚类中心,得到新的K个数据聚类中心点;S25.判断目标函数f(x)是否收敛,若目标函数f(x)收敛,则结束算法,输出聚类结果;若目标函数f(x)不收敛,即新的聚类中心与上一次迭代得到的K个聚类中心不相符,则重复执行步骤S23至步骤S25;S3.选择改进的K-means聚类算法对缺失数据进行分类,判断出缺失数据的类型,按照缺失数据的类型确定填充缺失数据的参考数据集,再采用期望最大值法对数据集中的缺失数据进行填充。2.根据权利要求1所述的一种基于改进K-means聚类算法的缺失数据填充方...

【专利技术属性】
技术研发人员:蔡延光陈东蔡颢
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1