一种基于改进K-means聚类算法的缺失数据填充方法技术

技术编号：19512219 阅读：27 留言：0更新日期：2018-11-21 08:20

本发明专利技术属于数据处理领域，更具体地，涉及一种基于改进K‑means聚类算法的缺失数据填充方法，采用改进的K‑means聚类算法对数据进行分类，再采用期望最大值法对缺失数据进行填充。具体步骤：S1.提出一种人工鱼群算法，确定K‑means聚类算法的K值；S2.提出一种改进的K‑means聚类算法；S3.设计了K‑means聚类算法的目标函数f(x)；S4.提出一种改进的期望最大值法，对数据集中的缺失数据进行填充。本发明专利技术提出的一种基于改进K‑means聚类算法的缺失数据填充方法以较高的速度和精度对缺失数据进行填充，填充缺失数据效果良好。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进K-means聚类算法的缺失数据填充方法
本专利技术属于数据处理领域，更具体地，涉及一种基于改进K-means聚类算法的缺失数据填充方法。
技术介绍
缺失数据是指数据采集或传输过程中由于人为操作失误或机械方面原因，造成空值或者不符合要求的数值混杂在数据集合中的数据值。缺失数据的情况在远程健康监护系统中比较常见，由于格式不规范或者数据传输等原因，导致数据缺失。常用的缺失数据填充算法有多重填补法、多元回归填充法、期望最大值填充法等等。
技术实现思路
本专利技术为克服上述现有技术所述的至少一种缺陷，提供一种基于改进K-means聚类算法的缺失数据填充方法，有效提高了填充缺失数据的效果。为解决上述技术问题，本专利技术采用的技术方案是：一种基于改进K-means聚类算法的缺失数据填充方法，包括以下步骤：S1.利用人工鱼群算法，确定K-means聚类算法的K值；S2.提出一种改进的K-means聚类算法，包括：S21.提出一种目标函数f(x)作为K-means聚类算法的终止条件，确定目标函数f(x)的公式为：式中，x表示数据对象，K表示聚类中心个数，ci表示第i个聚类中心，dist表示欧几里得距离；S22.从数据集中确定K个数据对象当成K-means聚类算法的初始聚类中心；S23.计算所有的数据对象到K个初始聚类中心的欧氏距离，按照距离的远近将每个数据对象划分至距离其最近的聚类中心中；S24.针对每一个聚类重新计算它们的聚类中心，得到新的K个数据聚类中心点；S25.判断目标函数f(x)是否收敛，若目标函数f(x)收敛，则结束算法，输出聚类结果；若目标函数f(x...

【技术保护点】
1.一种基于改进K‑means聚类算法的缺失数据填充方法，其特征在于，包括以下步骤：S1.利用人工鱼群算法，确定K‑means聚类算法的K值；S2.提出一种改进的K‑means聚类算法，包括：S21.提出一种目标函数f(x)作为K‑means聚类算法的终止条件，确定目标函数f(x)的公式为：

【技术特征摘要】
1.一种基于改进K-means聚类算法的缺失数据填充方法，其特征在于，包括以下步骤：S1.利用人工鱼群算法，确定K-means聚类算法的K值；S2.提出一种改进的K-means聚类算法，包括：S21.提出一种目标函数f(x)作为K-means聚类算法的终止条件，确定目标函数f(x)的公式为：式中，x表示数据对象，K表示聚类中心个数，ci表示第i个聚类中心，dist表示欧几里得距离；S22.从数据集中确定K个数据对象当成K-means聚类算法的初始聚类中心；S23.计算所有的数据对象到K个初始聚类中心的欧氏距离，按照距离的远近将每个数据对象划分至距离其最近的聚类中心中；S24.针对每一个聚类重新计算它们的聚类中心，得到新的K个数据聚类中心点；S25.判断目标函数f(x)是否收敛，若目标函数f(x)收敛，则结束算法，输出聚类结果；若目标函数f(x)不收敛，即新的聚类中心与上一次迭代得到的K个聚类中心不相符，则重复执行步骤S23至步骤S25；S3.选择改进的K-means聚类算法对缺失数据进行分类，判断出缺失数据的类型，按照缺失数据的类型确定填充缺失数据的参考数据集，再采用期望最大值法对数据集中的缺失数据进行填充。2.根据权利要求1所述的一种基于改进K-means聚类算法的缺失数据填充方...

【专利技术属性】
技术研发人员：蔡延光，陈东，蔡颢，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人