一种k-means聚类糖尿病预警模型的改进方法技术

技术编号:21774721 阅读:43 留言:0更新日期:2019-08-03 22:25
本发明专利技术涉及一种k‑means聚类糖尿病预警模型的改进方法,具体包括以下步骤:步骤1,定义聚类簇数k、领域半径ε,选择样本点xi与样本之间距离之和最大的点作为第一个聚类中心点;步骤2,计算每个样本点与其最近聚类中心的距离之和Sum(D(x)),在Sum(D(x))内取一个随机值Random,计算Random‑=D(x),直到Random≤0,选择得到新的聚类中心;步骤3,重复上一步骤直至得到所需k个聚类中心点;步骤4,计算每个样本与聚类中心的距离,依据距离最近来选择相应的簇;步骤5,更新所有聚类中心点;步骤6,得到稳定的各簇中心,代入糖尿病分段函数,得到糖尿病的预警模型,本发明专利技术改进了聚类中心方法,建立了糖尿病分段函数预警模型,提高了糖尿病预警能力,为糖尿病不同阶段的诊断和治疗提供依据。

An improved k-means clustering diabetes early warning model

【技术实现步骤摘要】
一种k-means聚类糖尿病预警模型的改进方法
本专利技术涉及医疗信息化
,一种糖尿病预警模型建立方法,从糖尿病患病预警的需求出发,改进k-means聚类方法,建立糖尿病分段函数,具体涉及一种k-means聚类糖尿病预警模型的改进方法。
技术介绍
随着糖尿病患者数量逐年增加、糖尿病并发症越来越多样化,这给糖尿病患者的诊断和治疗带来了巨大挑战。现有的医院信息系统虽有大量糖尿病诊断病例样本,却也只是单纯地做病例存储和简单的统计分析,并没有进一步挖掘其中的规律和知识,因此糖尿病诊断样本利用率较低;同时,已有糖尿病数据集仅有双标签,没有对未患病数据进行标记,难以实现健康人群的预警。因此,迫切需要开展糖尿病预警模型研究,提高糖尿病的预防和治疗效果,提升人们的健康水平。现有技术:非专利文献[1]:刘荣凯,孙忠林.针对K-means初始聚类中心优化的PCA-TDKM算法[J].软件导刊,2018,17(09):85-87.提出了PCATDKM算法在传统的Kmeans算法中增加了PCA、TD与最大最小距离算法。PCA算法能够对数据对象集合进行降维,加速聚类过程。TD算法能够在选择初始聚类中心时根据数据对象的实际分布情况进行动态选择,使得通过聚类算法得到的初始k个聚类中心与实际聚类相对应。非专利文献[2]:YuanQL,ShiHB,ZhouXF.AnoptimizedinitializationcenterK-meansclusteringalgorithmbasedondensity[C]//IEEEInternationalConferenceonCyberTechnologyinAutomation,Control,andIntelligentSystems(CYBER),Shenyang,IEEE,2015:790-794.提出了一种优化K均值初始中心点的方法.该算法利用密度敏感的相似性度量来计算物体的密度.通过计算该点与其他密度较高的点之间的最小距离,选出候选点。然后,结合平均密度,筛选出离群点。最后筛选出K-均值算法的初始中心.实验结果表明,该算法获得的初始中心点精度高,能够有效地滤除异常。
技术实现思路
本专利技术的目的是在于提供一种k-means聚类糖尿病预警模型的改进方法,针对k-means聚类算法随机选择初始聚类中心导致聚类结果不稳定的问题,提出初始聚类中心优化的改进k-means算法,并结合糖尿病分段函数,提出k-means聚类糖尿病预警模型的改进方法。为实现上述专利技术的目的,本专利技术采取的技术方案如下:一种k-means聚类糖尿病预警模型的改进方法,包括如下步骤:步骤1,第一个聚类中心点选择,选定数据集,定义聚类簇数k、领域半径ε,选择样本点xi与样本之间距离之和最大的点作为第一个聚类中心点;步骤2,选择新的聚类中心,计算每个样本点与其最近聚类中心的距离之和Sum(D(x)),在Sum(D(x))内取一个随机值Random,计算Random-=D(x),直到Random≤0,选择得到新的聚类中心;步骤3,遍历操作,重复上一步骤直至得到所需k个中心点,记为{μj,j=1,...,k};步骤4,簇标记,计算每个样本与聚类中心的距离,根据其距离最近确定样本的簇标记,并将样本划入相应的簇;步骤5,更新操作,更新所有聚类中心点;步骤6,糖尿病预警模型,得到稳定的各簇中心,代入糖尿病分段函数,得到糖尿病的预警模型。进一步的,所述步骤1中第一个聚类中心点的选择,因为现有k-means算法采用随机选取初始聚类中心,易导致聚类结果不稳定,因此需对初始聚类中心的选择进行改进,使其尽可能地落在各簇类的中心部位,这里定义聚类簇数k、领域半径ε,计算每一个点与第一个聚类中心点的距离dist(x),选取dist(x)较大的点作为新的聚类中心,即对每一个dist(x)求和得到:sumi=sumi+disti式中,i是聚类中心个数。最大的Sum(dist(x))为的第一个聚类中心点,即:sum_max=max(sumi)。进一步的,所述步骤2、步骤3中选择得到新的聚类中心,所述计算每一个点与第一个聚类中心点的距离为dist(x),选取dist(x)较大的点作为新的聚类中心,即对每一个dist(x)求和得到Sum(dist(x)),取一个在Sum(dist(x))内的随机值Random,重复通过公式计算,所述公式为:Random=Random-dist(x)直至Random≤0,则该点为下一个聚类中心点,保证距离较大的dist(x)被较大概率选中,并将所需k个中心点,记为{μj,j=1,...,k}。进一步的,所述步骤4中标记样本簇,是计算每个样本xi与聚类中心{μj,j=1,...,k}的距离distod,根据其距离最近确定样本xi的簇标记λi,并将样本xi划入相应的簇:进一步的,所述步骤5更新所有聚类中心点,是计算所有新的聚类中心,其公式为:进一步的,所述步骤5构建糖尿病预警模型,是根据步骤1到步骤5得到稳定的各簇中心,代入糖尿病分段函数,得到糖尿病的预警模型,糖尿病预警分段函数为:其中,μi(i=1,2,3)为第i个聚类中心,这里0、1、2分别代表健康、I级预警和II级预警,可以利用该预警模型来预测是否患糖尿病及糖尿病所处阶段。本专利技术相对于现有技术的有益效果是:采用改进k-means聚类算法有效克服了聚类结果不稳定的问题,结合改进k-means聚类算法和糖尿病分段函数相结合,建立了k-means聚类糖尿病预警模型的改进方法,提高了糖尿病预警能力,为糖尿病不同阶段的诊断和治疗提供了依据。本专利技术附加技术特征所具有的有益效果将在本说明书具体实施方式部分进行说明。附图说明图1是本专利技术实施例中k-means聚类糖尿病预警模型的改进方法算法流程图;图2是本专利技术实施例中不同算法在新糖尿病数据集上平均收敛速度对比的线型图;图3是本专利技术实施例中不同算法在新糖尿病数据集上多次聚类结果平均ARI对比的线型图。具体实施方式结合图1,首先采用Pima糖尿病数据集,因为现有k-means算法采用随机选取初始聚类中心,易导致聚类结果不稳定,因此需对初始聚类中心的选择进行改进,使其尽可能地落在各簇类的中心部位,这里定义聚类簇数k、领域半径ε,计算每一个点与第一个聚类中心点的距离dist(x),选取dist(x)较大的点作为新的聚类中心,即对每一个dist(x)求和得到:sumi=sumi+distii为聚类中心个数。最大的Sum(dist(x))为的第一个聚类中心点,即:sum_max=max(sumi)选择新的聚类中心,计算每一个点与第一个聚类中心点的距离为dist(x),选取dist(x)较大的点作为新的聚类中心,即对每一个dist(x)求和得到Sum(dist(x)),取一个在Sum(dist(x))内的随机值Random,重复通过公式计算,所述公式为:Random=Random-dist(x)直至Random≤0,则该点为下一个聚类中心点,保证距离较大的dist(x)被较大概率选中,并将所需k个中心点,记为{μj,j=1,...,k}。标记样本簇,是计算每个样本xi与聚类中心{μj,j=1,...,k}的距离distod,根据其距离最近确定样本文档来自技高网
...

【技术保护点】
1.一种k‑means聚类糖尿病预警模型的改进方法,其特征在于,包括如下步骤:步骤1,第一个聚类中心点的选择;步骤2,选择得到新的聚类中心;步骤3,遍历操作,重复上步骤2直至得到所需k个中心点;步骤4,簇标记;步骤5,更新操作,更新所有聚类中心点;步骤6,得到稳定的各簇中心,代入糖尿病分段函数,得到糖尿病的预警模型。

【技术特征摘要】
1.一种k-means聚类糖尿病预警模型的改进方法,其特征在于,包括如下步骤:步骤1,第一个聚类中心点的选择;步骤2,选择得到新的聚类中心;步骤3,遍历操作,重复上步骤2直至得到所需k个中心点;步骤4,簇标记;步骤5,更新操作,更新所有聚类中心点;步骤6,得到稳定的各簇中心,代入糖尿病分段函数,得到糖尿病的预警模型。2.根据权利要求1所述k-means聚类糖尿病预警模型的改进方法,其特征在于,所述步骤1中第一个聚类中心点的选择,是对初始聚类中心的选择进行改进,使其落在各簇类的中心部位,定义聚类簇数为k、领域半径为ε,计算每一个点与第一个聚类中心点的距离dist(x),选取dist(x)较大的点作为新的聚类中心,对每一个dist(x)求和得到:sumi=sumi+disti式中,i为聚类中心个数;最大的Sum(dist(x))为第一个聚类中心点,即:sum_max=max(sumi)。3.根据权利要求2所述k-means聚类糖尿病预警模型的改进方法,其特征在于,所述步骤2、步骤3中选择得到新的聚类中心,所述计算每一个点与第一个聚类中心点的距离为dist(x),选取dist(x)较大的点作为新的聚类中心,即对每...

【专利技术属性】
技术研发人员:高秀娥陈波桑海涛陈世峰胡玲艳
申请(专利权)人:岭南师范学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1