一种基于糖尿病数据的无监督聚类方法技术

技术编号:37193122 阅读:20 留言:0更新日期:2023-04-20 22:53
本发明专利技术公开了一种基于糖尿病数据的无监督聚类方法,包括以下步骤:S1、获取糖尿病数据集,对糖尿病数据集依次进行预处理和降维处理,得到第一数据集;S2、通过改进的FCM聚类算法对第一数据集进行无监督聚类,得到最优聚类数据集,完成基于糖尿病数据的无监督聚类。本发明专利技术采用改进的FCM模糊聚类算法,其不仅能克服初始簇中心和离群值的影响,而且其加入的隶属度这一概念能够更好的处理数据重叠部分,且本发明专利技术对隶属度因子m进行了改进,因此表现出更佳的聚类效果,这也能通过有监督的分类算法验证。验证。验证。

【技术实现步骤摘要】
一种基于糖尿病数据的无监督聚类方法


[0001]本专利技术属于疾病聚类领域,具体涉及一种基于糖尿病数据的无监督聚类方法。

技术介绍

[0002]糖尿病是一种以高血糖为特征的代谢性疾病。高血糖则是由于胰岛素分泌缺陷或其生物作用受损,或两者兼有引起。长期存在的高血糖,导致各种组织,特别是眼、肾、心脏、血管、神经的慢性损害、功能障碍。据IDF糖尿病地图最新数据显示:2021年,全球成年人糖耐量受损(IGT)患病率为9.1%,人数高达4.64亿,预计到2045年,这一比例将增加到10.0%,波及6.4亿成年人。因此所有人都应对糖尿病提高警惕,对糖尿病的研究也变得刻不容缓。
[0003]由于现实中糖尿病检测数据大多来自医院或者社区调查,它们几乎都是无标签的,因此利用无监督的聚类方法来分析糖尿病是至关重要的。本专利技术就是首先利用无监督的聚类将相似的数据聚类到同一个簇中,然后将错误聚类的样本视为异常值进行剔除,最后再利用有监督的分类检验聚类效果。但当前用于糖尿病数据的聚类方法基本都是简单的K

means,首先用K
...

【技术保护点】

【技术特征摘要】
1.一种基于糖尿病数据的无监督聚类方法,其特征在于,包括以下步骤:S1、获取糖尿病数据集,对糖尿病数据集依次进行预处理和降维处理,得到第一数据集;S2、通过改进的FCM聚类算法对第一数据集进行无监督聚类,得到最优聚类数据集,完成基于糖尿病数据的无监督聚类。2.根据权利要求1所述的基于糖尿病数据的无监督聚类方法,其特征在于,所述S1包括以下分步骤:S11、获取糖尿病数据集,对糖尿病数据进行预处理,得到预处理后的糖尿病数据集;S12、通过主成分分析PCA算法对预处理后的糖尿病数据集进行降维处理,得到第一数据集。3.根据权利要求2所述的基于糖尿病数据的无监督聚类方法,其特征在于,所述S11具体为:获取糖尿病数据集,将糖尿病数据集中的数据进行特殊字符替换、名义替换和缺失数据中位数填充处理,进而将处理后糖尿病数据集中的数据进行归一化,得到预处理后的糖尿病数据集;其中,所述糖尿病数据集中的数据包括标签类和若干特征。4.根据权利要求2所述的基于糖尿病数据的无监督聚类方法,其特征在于,所述S12具体为:计算预处理后的糖尿病数据集中的数据协方差,得到协方差的特征值和特征向量,将特征值降序排列,选择前N个特征值作为行向量,并将选择的特征值对应的特征向量作为所述特征值的列向量,得到特征向量矩阵,将特征向量矩阵作为第一数据集。5.根据权利要求1所述的基于糖尿病数据的无监督聚类方法,其特征在于,所述S2包括以下分步骤:S21、将当前的隶属度矩阵初始化,得到满足约束条件的隶属度矩阵;S22、根据满足约束条件的隶属度矩阵计算当前的类中心矩阵;S23、根据当前的类中心矩阵更新隶属度矩阵,得到更新后的隶属度矩阵;S24、根据当前的类中心矩阵与更新后的隶属度矩阵计算当前的目标函数;S25、判断当前的目标函数与设定的目标函数的改变量是否小于变量阈值;若否,则将当前的目标函数作为设定的目标函数,并返回步骤S21;若是,则根据当前的目标函数与约束条件对第一数据集进行聚类,得到第二数据集,进入S26;S26、计算第二数据集中样本占第一数据集中样本的比例,判断第二数据集中样本占第一数据集中样本的比例是否大于设置的聚类效果比例阈值;若...

【专利技术属性】
技术研发人员:李才正刘俊宏彭博
申请(专利权)人:四川大学华西医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1