一种基于改进K均值聚类的疾病危险因素提取方法技术

技术编号：21515857 阅读：22 留言：0更新日期：2019-07-03 09:33

本发明专利技术公开了一种基于改进K均值聚类的疾病危险因素提取方法，该方法包括以下步骤：首先根据疾病的用户调查问卷，构建用户信息矩阵与标签向量；其次对用户信息矩阵进行标准化；然后对标准化用户信息矩阵进行特征选择，采取卡方检验与去除方差最小的方法取交集，得到相关特征，构建问题特征数据矩阵；之后结合改进的Canopy算法与K均值算法，对问题特征数据矩阵中的特征属性进行聚类分析，获得不同的类簇；最后对每个类簇进行相关系数分析，取相关指数最大的特征作为该类簇代表特征，加入危险因素集合。本发明专利技术的方法相对于目前医学领域中危险因素提取方法中的频率论方法，能够更高效、准确地提取疾病危险因素。

A Method for Extracting Disease Risk Factors Based on Improved K-means Clustering

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进K均值聚类的疾病危险因素提取方法
本专利技术涉及大数据技术与医学领域，特别是一种基于改进K均值聚类的疾病危险因素提取方法。
技术介绍
胃食管反流疾病是指胃反流物反流入食管，引起不适症状和并发症的一种疾病，作为一种消化系统临床常见病，普遍存在于亚洲和西方各个国家，且发病率呈逐年升高的趋势。据研究发现，胃食管反流疾病与个人生活、饮食习惯、精神状况等多方面因素相关，且病情容易发生变化。因此，通过大数据技术探究引起胃食管反流疾病发病的危险因素对于该疾病的治疗与预防有重要意义。目前针对引起胃食管反流等疾病的危险因素，各医学杂志根据临床经验以及理论知识总结出了可能引发该疾病的危险因素，但是这些方法往往存在一些弊端，一方面，大多数分析与研究往往存在样本量少，分析因素少，使得最终结果不具有泛化能力，人为分析需要大量的经验知识积累，缺乏权威性与科学性；另一方面，分析方法单一，大多基于统计学方法以及临床研究与医学经验相结合，当面临样本数足够多，疾病涉及因素广的情况时，此类方法往往导致效率低下，分析出的结果对于疾病的预防与诊治没有太大的帮助。目前所存在的危险因素提取方法大多是基于传统统计学的统计推断方法，从对人群医学数据的分析中生成关于总体参数即致病因素的可能命题，估计由该因素引起患病的结果为偶然引发的概率。该类方法往往受到计算资源匮乏的限制，且计算方法单一，大多是基于t检验或卡方检验等方法对数据集进行验证。在大数据分析技术中，聚类分析是处理复杂数据集的数值分类技术，是在缺乏划分标准或外在基准的情况下，根据事物本身的特性对所研究的对象进行分类。当前对于疾病危险因素的...

【技术保护点】
1.一种基于改进K均值聚类的疾病危险因素提取方法，其特征在于，包括以下步骤：步骤1、根据疾病的用户调查问卷，构建用户信息矩阵与标签向量；步骤2、对所述用户信息矩阵进行标准化处理，获得标准化用户信息矩阵；步骤3、结合特征选择方法，根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合；步骤4、根据步骤3获得的特征集合中的元素，对所述标准化用户信息矩阵进行特征选择，并对特征选择后的标准化用户信息矩阵进行转置，获得问题特征数据矩阵；步骤5、对所述问题特征数据矩阵进行Canopy聚类，获得聚类数目K与聚类中心集合C；步骤6、对所述问题特征数据矩阵进行K均值聚类，以所述聚类数目K作为聚类数目，聚类中心集合C作为K均值聚类的初始聚类中心，获得K个类簇；步骤7、对每个类簇进行相关系数分析，计算每个类簇中所有特征的相关指数，并将该类簇中相关指数最大的特征作为代表因素，加入危险因素集合，该危险因素集合中的每一个元素即为疾病危险因素。

【技术特征摘要】
1.一种基于改进K均值聚类的疾病危险因素提取方法，其特征在于，包括以下步骤：步骤1、根据疾病的用户调查问卷，构建用户信息矩阵与标签向量；步骤2、对所述用户信息矩阵进行标准化处理，获得标准化用户信息矩阵；步骤3、结合特征选择方法，根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合；步骤4、根据步骤3获得的特征集合中的元素，对所述标准化用户信息矩阵进行特征选择，并对特征选择后的标准化用户信息矩阵进行转置，获得问题特征数据矩阵；步骤5、对所述问题特征数据矩阵进行Canopy聚类，获得聚类数目K与聚类中心集合C；步骤6、对所述问题特征数据矩阵进行K均值聚类，以所述聚类数目K作为聚类数目，聚类中心集合C作为K均值聚类的初始聚类中心，获得K个类簇；步骤7、对每个类簇进行相关系数分析，计算每个类簇中所有特征的相关指数，并将该类簇中相关指数最大的特征作为代表因素，加入危险因素集合，该危险因素集合中的每一个元素即为疾病危险因素。2.根据权利要求1所述的基于改进K均值聚类的疾病危险因素提取方法，其特征在于，步骤1所述根据某种疾病用户调查问卷，构建用户信息矩阵与标签向量，具体为：步骤1-1、收集若干份针对某种疾病的用户调查问卷，该问卷包括用户问卷ID号、若干问题及对应的选项，由所有用户调查问卷构建用户信息矩阵I，矩阵I的维度为N*(M+1)，N为参与调查的用户数目，M为调查问卷问题数目；所述用户信息矩阵I中，第i行第1列的特征为用户问卷ID号；所述用户信息矩阵I中，第i行第j列为第i个用户问卷对第j个问题的答案，其中1≤i≤N，2≤j≤M+1；步骤1-2、构建N*1的标签向量target，标签向量target中的第i个值表示第i个用户是否患病，其中0表示用户未患病，1表示用户患病。3.根据权利要求1或2所述的基于改进K均值聚类的疾病危险因素提取方法，其特征在于，步骤2中所述对用户信息矩阵进行标准化处理，具体为：采用Z-score标准化算法对用户信息矩阵进行标准化处理以使每个维度的数据服从均值为0、方差为1的分布，由此获得N*(M+1)的标准化用户信息矩阵。4.根据权利要求1或2所述的基于改进K均值聚类的疾病危险因素提取方法，其特征在于，步骤3所述结合特征选择方法，根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合，具体为：步骤3-1、结合标签向量对所述标准化用户信息矩阵进行卡方检验，获得卡方检验对应的调查问卷问题特征集合；步骤3-2、结合标签向量对所述标准化用户信息矩阵进行去除方差最小的特征选择，获得去除方差最小对应的调查问卷问题特征集合；步骤3-3、对步骤3-1和步骤3-2中两个调查问卷问题特征集合取交集，获得最终的特征集合。5.根据权利要求4所述的基于改进K均值聚类的疾病危险因素提取方法，其特征在于，步骤3所述结合特征选择方法，根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合，具体为：步骤3-1’、结合标签向量对所述标准化用户信息矩阵进行卡方检验，保留与标签向量相关的q个问题特征，获得卡方检验对应的调查问卷问题特征集合，其中q＝p％*全部问题特征数量；步骤3-2’、结合标签向量对所述标准化信息矩阵结合标签向量进行去除...

【专利技术属性】
技术研发人员：徐雷，姚澜，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人