一种基于改进K均值聚类的疾病危险因素提取方法技术

技术编号:21515857 阅读:22 留言:0更新日期:2019-07-03 09:33
本发明专利技术公开了一种基于改进K均值聚类的疾病危险因素提取方法,该方法包括以下步骤:首先根据疾病的用户调查问卷,构建用户信息矩阵与标签向量;其次对用户信息矩阵进行标准化;然后对标准化用户信息矩阵进行特征选择,采取卡方检验与去除方差最小的方法取交集,得到相关特征,构建问题特征数据矩阵;之后结合改进的Canopy算法与K均值算法,对问题特征数据矩阵中的特征属性进行聚类分析,获得不同的类簇;最后对每个类簇进行相关系数分析,取相关指数最大的特征作为该类簇代表特征,加入危险因素集合。本发明专利技术的方法相对于目前医学领域中危险因素提取方法中的频率论方法,能够更高效、准确地提取疾病危险因素。

A Method for Extracting Disease Risk Factors Based on Improved K-means Clustering

【技术实现步骤摘要】
一种基于改进K均值聚类的疾病危险因素提取方法
本专利技术涉及大数据技术与医学领域,特别是一种基于改进K均值聚类的疾病危险因素提取方法。
技术介绍
胃食管反流疾病是指胃反流物反流入食管,引起不适症状和并发症的一种疾病,作为一种消化系统临床常见病,普遍存在于亚洲和西方各个国家,且发病率呈逐年升高的趋势。据研究发现,胃食管反流疾病与个人生活、饮食习惯、精神状况等多方面因素相关,且病情容易发生变化。因此,通过大数据技术探究引起胃食管反流疾病发病的危险因素对于该疾病的治疗与预防有重要意义。目前针对引起胃食管反流等疾病的危险因素,各医学杂志根据临床经验以及理论知识总结出了可能引发该疾病的危险因素,但是这些方法往往存在一些弊端,一方面,大多数分析与研究往往存在样本量少,分析因素少,使得最终结果不具有泛化能力,人为分析需要大量的经验知识积累,缺乏权威性与科学性;另一方面,分析方法单一,大多基于统计学方法以及临床研究与医学经验相结合,当面临样本数足够多,疾病涉及因素广的情况时,此类方法往往导致效率低下,分析出的结果对于疾病的预防与诊治没有太大的帮助。目前所存在的危险因素提取方法大多是基于传统统计学的统计推断方法,从对人群医学数据的分析中生成关于总体参数即致病因素的可能命题,估计由该因素引起患病的结果为偶然引发的概率。该类方法往往受到计算资源匮乏的限制,且计算方法单一,大多是基于t检验或卡方检验等方法对数据集进行验证。在大数据分析技术中,聚类分析是处理复杂数据集的数值分类技术,是在缺乏划分标准或外在基准的情况下,根据事物本身的特性对所研究的对象进行分类。当前对于疾病危险因素的提取采用的聚类方法大多是层次聚类,在划分类簇时往往需要专业的医学知识对类簇特征进行确定,且计算量大。在目前的聚类方法中,传统K均值算法存在两个缺点:1)初始点的选取问题,初始点的选取问题,目前已有多种解决方法,但还是不可避免的存在随机化的问题;2)聚类数目的确定,在对数据没有深刻理解之前,选取聚类数目无疑是个较大的难题,目前所存在的方法大多是基于评分机制给出,但此种方法一旦涉及到大数据时,会有较大的计算量。Canopy算法存在以下几个缺点:1)聚类精度较低,该算法形成若干个相互交叉包含的canopy,存在较大误差;2)存在随机化部分,即每次选取canopy中心点时是随机选取的;3)需要人为确定距离阈值T1,T2,该距离的确定存在一定难度。
技术实现思路
本专利技术所要解决的技术问题在于提供一种从疾病数据中更准确、高效率的提取关键致病因素的方法。实现本专利技术目的的技术解决方案为:一种基于改进K均值聚类的疾病危险因素提取方法,包括以下步骤:步骤1、根据疾病的用户调查问卷,构建用户信息矩阵与标签向量;步骤2、对所述用户信息矩阵进行标准化处理,获得标准化用户信息矩阵;步骤3、结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合;步骤4、根据步骤3获得的特征集合中的元素,对所述标准化用户信息矩阵进行特征选择,并对特征选择后的标准化用户信息矩阵进行转置,获得问题特征数据矩阵;步骤5、对所述问题特征数据矩阵进行Canopy聚类,获得聚类数目K与聚类中心集合C;步骤6、对所述问题特征数据矩阵进行K均值聚类,以所述聚类数目K作为聚类数目,聚类中心集合C作为K均值聚类的初始聚类中心,获得K个类簇;步骤7、对每个类簇进行相关系数分析,计算每个类簇中所有特征的相关指数,并将该类簇中相关指数最大的特征作为代表因素,加入危险因素集合,该危险因素集合中的每一个元素即为疾病危险因素。本专利技术与现有技术相比,其显著优点为:1)本专利技术利用特征选择取交集的方法解决了处理医学数据大样本、高维度的难题,同时提高了特征提取的准确率;2)本专利技术提出了一种Canopy聚类结合K均值聚类方法,通过交叉验证的方式解决了距离阈值难以确定的问题;3)本专利技术通过最小最大原则选取Canopy中心,解决了Canopy聚类精度低的问题;4)本专利技术将Canopy聚类同K均值聚类相结合,解决了K均值聚类所存在聚类数目与初始聚类中心难以确定的问题;5)本专利技术相对于目前医学领域中危险因素提取方法中的频率论方法,效率、准确率更高。下面结合附图对本专利技术作进一步详细描述。附图说明图1为本专利技术基于改进K均值聚类的疾病危险因素提取方法流程图。图2为本专利技术中Canopy聚类方法流程图。图3为本专利技术中K均值聚类方法流程图。具体实施方式结合图1,本专利技术一种基于改进K均值聚类的疾病危险因素提取方法,包括以下步骤:步骤1、根据疾病的用户调查问卷,构建用户信息矩阵与标签向量;步骤2、对所述用户信息矩阵进行标准化处理,获得标准化用户信息矩阵;步骤3、结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合;步骤4、根据步骤3获得的特征集合中的元素,对所述标准化用户信息矩阵进行特征选择,并对特征选择后的标准化用户信息矩阵进行转置,获得问题特征数据矩阵;步骤5、对所述问题特征数据矩阵进行Canopy聚类,获得聚类数目K与聚类中心集合C;步骤6、对所述问题特征数据矩阵进行K均值聚类,以所述聚类数目K作为聚类数目,聚类中心集合C作为K均值聚类的初始聚类中心,获得K个类簇;步骤7、对每个类簇进行相关系数分析,计算每个类簇中所有特征的相关指数,并将该类簇中相关指数最大的特征作为代表因素,加入危险因素集合,该危险因素集合中的每一个元素即为疾病危险因素。进一步地,步骤1中根据某种疾病用户调查问卷,构建用户信息矩阵与标签向量,具体为:步骤1-1、收集若干份针对某种疾病的用户调查问卷,该问卷包括用户问卷ID号、若干问题及对应的选项,由所有用户调查问卷构建用户信息矩阵I,矩阵I的维度为N*(M+1),N为参与调查的用户数目,M为调查问卷问题数目;所述用户信息矩阵I中,第i行第1列的特征为用户问卷ID号;所述用户信息矩阵I中,第i行第j列为第i个用户问卷对第j个问题的答案,其中1≤i≤N,2≤j≤M+1;步骤1-2、构建N*1的标签向量target,标签向量target中的第i个值表示第i个用户是否患病,其中0表示用户未患病,1表示用户患病。进一步地,步骤2中对用户信息矩阵进行标准化处理,具体为:采用Z-score标准化算法对用户信息矩阵进行标准化处理以使每个维度的数据服从均值为0、方差为1的分布,由此获得N*(M+1)的标准化用户信息矩阵。进一步地,步骤3中结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合,具体为:步骤3-1、结合标签向量对所述标准化用户信息矩阵进行卡方检验,获得卡方检验对应的调查问卷问题特征集合;步骤3-2、结合标签向量对所述标准化用户信息矩阵进行去除方差最小的特征选择,获得去除方差最小对应的调查问卷问题特征集合;步骤3-3、对步骤3-1和步骤3-2中两个调查问卷问题特征集合取交集,获得最终的特征集合。优选地,步骤3中结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合,具体为:步骤3-1’、结合标签向量对所述标准化用户信息矩阵进行卡方检验,保留与标签向量相关的q个问题特征,获得卡方检验对应的调查问卷问题特征集合,其中q=p%*全部问题特征数量;步骤3-2’、结合本文档来自技高网
...

【技术保护点】
1.一种基于改进K均值聚类的疾病危险因素提取方法,其特征在于,包括以下步骤:步骤1、根据疾病的用户调查问卷,构建用户信息矩阵与标签向量;步骤2、对所述用户信息矩阵进行标准化处理,获得标准化用户信息矩阵;步骤3、结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合;步骤4、根据步骤3获得的特征集合中的元素,对所述标准化用户信息矩阵进行特征选择,并对特征选择后的标准化用户信息矩阵进行转置,获得问题特征数据矩阵;步骤5、对所述问题特征数据矩阵进行Canopy聚类,获得聚类数目K与聚类中心集合C;步骤6、对所述问题特征数据矩阵进行K均值聚类,以所述聚类数目K作为聚类数目,聚类中心集合C作为K均值聚类的初始聚类中心,获得K个类簇;步骤7、对每个类簇进行相关系数分析,计算每个类簇中所有特征的相关指数,并将该类簇中相关指数最大的特征作为代表因素,加入危险因素集合,该危险因素集合中的每一个元素即为疾病危险因素。

【技术特征摘要】
1.一种基于改进K均值聚类的疾病危险因素提取方法,其特征在于,包括以下步骤:步骤1、根据疾病的用户调查问卷,构建用户信息矩阵与标签向量;步骤2、对所述用户信息矩阵进行标准化处理,获得标准化用户信息矩阵;步骤3、结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合;步骤4、根据步骤3获得的特征集合中的元素,对所述标准化用户信息矩阵进行特征选择,并对特征选择后的标准化用户信息矩阵进行转置,获得问题特征数据矩阵;步骤5、对所述问题特征数据矩阵进行Canopy聚类,获得聚类数目K与聚类中心集合C;步骤6、对所述问题特征数据矩阵进行K均值聚类,以所述聚类数目K作为聚类数目,聚类中心集合C作为K均值聚类的初始聚类中心,获得K个类簇;步骤7、对每个类簇进行相关系数分析,计算每个类簇中所有特征的相关指数,并将该类簇中相关指数最大的特征作为代表因素,加入危险因素集合,该危险因素集合中的每一个元素即为疾病危险因素。2.根据权利要求1所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤1所述根据某种疾病用户调查问卷,构建用户信息矩阵与标签向量,具体为:步骤1-1、收集若干份针对某种疾病的用户调查问卷,该问卷包括用户问卷ID号、若干问题及对应的选项,由所有用户调查问卷构建用户信息矩阵I,矩阵I的维度为N*(M+1),N为参与调查的用户数目,M为调查问卷问题数目;所述用户信息矩阵I中,第i行第1列的特征为用户问卷ID号;所述用户信息矩阵I中,第i行第j列为第i个用户问卷对第j个问题的答案,其中1≤i≤N,2≤j≤M+1;步骤1-2、构建N*1的标签向量target,标签向量target中的第i个值表示第i个用户是否患病,其中0表示用户未患病,1表示用户患病。3.根据权利要求1或2所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤2中所述对用户信息矩阵进行标准化处理,具体为:采用Z-score标准化算法对用户信息矩阵进行标准化处理以使每个维度的数据服从均值为0、方差为1的分布,由此获得N*(M+1)的标准化用户信息矩阵。4.根据权利要求1或2所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤3所述结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合,具体为:步骤3-1、结合标签向量对所述标准化用户信息矩阵进行卡方检验,获得卡方检验对应的调查问卷问题特征集合;步骤3-2、结合标签向量对所述标准化用户信息矩阵进行去除方差最小的特征选择,获得去除方差最小对应的调查问卷问题特征集合;步骤3-3、对步骤3-1和步骤3-2中两个调查问卷问题特征集合取交集,获得最终的特征集合。5.根据权利要求4所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤3所述结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合,具体为:步骤3-1’、结合标签向量对所述标准化用户信息矩阵进行卡方检验,保留与标签向量相关的q个问题特征,获得卡方检验对应的调查问卷问题特征集合,其中q=p%*全部问题特征数量;步骤3-2’、结合标签向量对所述标准化信息矩阵结合标签向量进行去除...

【专利技术属性】
技术研发人员:徐雷姚澜
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1