The invention discloses a method and system for extracting risk factors of gastroesophageal reflux disease based on accurate clustering. Firstly, the initial patient information set containing risk factors of gastroesophageal reflux disease is constructed; secondly, the factors of the initial patient information set are quantified to obtain the quantitative data matrix; secondly, the hierarchical clustering algorithm is used to cluster each sample point in the quantitative data matrix, and the hierarchical clustering tree graph is obtained; thirdly, the number of clusters is determined according to the hierarchical clustering tree graph. The number of clusters and K Means clustering algorithm are combined to cluster the elements in the quantitative data matrix to get multiple clusters. Finally, the correlation index of each element in each cluster is calculated, and the element with the largest correlation index is identified as the risk factor of gastroesophageal reflux disease. The invention combines two clustering methods to efficiently screen out the risk factors causing gastroesophageal reflux disease and reduce the incidence.
【技术实现步骤摘要】
基于精准聚类的胃食管反流疾病危险因素提取方法及系统
本专利技术涉及聚类与医学
,特别是涉及一种基于精准聚类的胃食管反流疾病危险因素提取方法及系统。
技术介绍
胃食管反流疾病作为一种世界范围内普遍存在的消化系统疾病,其发病率呈现出逐年上升的趋势。因此,胃食管反流疾病的治疗应当引起我们的足够重视。由于胃食管反流疾病的发生与生活方式、情绪变化、饮食习惯等密切相关,病情极易发生变化,因此通过采集大量数据并分析数据特征对研究该疾病及预防有重要作用。目前在胃食管反流疾病诊断技术中主要是采用聚类算法提取危险因素,但是其聚类数目和聚类中心的选取比较困难,往往因为聚类数目和聚类中心选择错误导致危险因素提取精确率较低。
技术实现思路
本专利技术的目的是提供一种基于精准聚类的胃食管反流疾病危险因素提取方法及系统,以解决现有技术中因聚类数目和聚类中心选择错误导致危险因素提取精确率较低的问题。为实现上述目的,本专利技术提供了如下方案:一种基于精准聚类的胃食管反流疾病危险因素提取方法,所述方法包括:构建初始患者信息集;所述初始患者信息集为M行N列的数据集;所述初始患者信息集中的第i行第1列的因素为患者问卷ID号,且不同行中第1列的因素表示为不同的患者问卷ID号;所述初始患者信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述初始患者信息集中的第i行第j列的因素为第i患者问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N;对所述初始患者信息集中的答案进行数据量化处理,得到量化数据矩阵;所述量化数据矩阵为M行N列的矩阵;所述量化数据矩阵中的第 ...
【技术保护点】
1.一种基于精准聚类的胃食管反流疾病危险因素提取方法,其特征在于,所述方法包括:构建初始患者信息集;所述初始患者信息集为M行N列的数据集;所述初始患者信息集中的第i行第1列的因素为患者问卷ID号,且不同行中第1列的因素表示为不同的患者问卷ID号;所述初始患者信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述初始患者信息集中的第i行第j列的因素为第i患者问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N;对所述初始患者信息集中的答案进行数据量化处理,得到量化数据矩阵;所述量化数据矩阵为M行N列的矩阵;所述量化数据矩阵中的第i行第1列的元素为患者问卷ID号,且不同行中第1列的元素表示为不同的患者问卷ID号;所述量化数据矩阵中的第1行第j列的元素为调查问卷的问题,且不同列中第1行的元素表示为不同的问题;所述量化数据矩阵中的第i行第j列的元素为第i患者问卷ID号第j问题答案的数据量化结果果;其中,2≤i≤M,2≤j≤N;采用层次聚类算法对所述量化数据矩阵中的每个样本点进行聚类处理,得到层次聚类树状图;第z个所述样本点代表所述量化数据矩阵中的第z行数 ...
【技术特征摘要】
1.一种基于精准聚类的胃食管反流疾病危险因素提取方法,其特征在于,所述方法包括:构建初始患者信息集;所述初始患者信息集为M行N列的数据集;所述初始患者信息集中的第i行第1列的因素为患者问卷ID号,且不同行中第1列的因素表示为不同的患者问卷ID号;所述初始患者信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述初始患者信息集中的第i行第j列的因素为第i患者问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N;对所述初始患者信息集中的答案进行数据量化处理,得到量化数据矩阵;所述量化数据矩阵为M行N列的矩阵;所述量化数据矩阵中的第i行第1列的元素为患者问卷ID号,且不同行中第1列的元素表示为不同的患者问卷ID号;所述量化数据矩阵中的第1行第j列的元素为调查问卷的问题,且不同列中第1行的元素表示为不同的问题;所述量化数据矩阵中的第i行第j列的元素为第i患者问卷ID号第j问题答案的数据量化结果果;其中,2≤i≤M,2≤j≤N;采用层次聚类算法对所述量化数据矩阵中的每个样本点进行聚类处理,得到层次聚类树状图;第z个所述样本点代表所述量化数据矩阵中的第z行数据;所述样本点的个数与所述量化数据矩阵的列数相同,其中,2≤z≤M;根据所述层次聚类树状图确定聚类数目;根据所述聚类数目和K-Means聚类算法,对所述量化数据矩阵中的元素进行聚类,得到多个类簇;计算每个所述类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素;所述相关指数为相关系数平方的平均数。2.根据权利要求1所述的胃食管反流疾病危险因素提取方法,其特征在于,所述采用层次聚类算法对所述量化数据矩阵中的每个样本点进行聚类处理,得到层次聚类树状图,具体包括:采用凝聚层次聚类算法对所述量化数据矩阵中的每个样本点进行聚类处理,得到层次聚类树状图。3.根据权利要求2所述的胃食管反流疾病危险因素提取方法,其特征在于,所述采用凝聚层次聚类算法对所述量化数据矩阵中的每个样本点进行聚类处理,得到层次聚类树状图,具体包括:步骤1,计算两两样本点之间的距离;步骤2,选择距离最小的两个样本点合成一个类;步骤3,重复步骤1和步骤2,直到所有样本点聚为一类,得到层次聚类树状图。4.根据权利要求3所述的胃食管反流疾病危险因素提取方法,其特征在于,所述计算两两样本点之间的距离,具体包括:采用平均距离算法,计算两两样本点之间的距离。5.根据权利要求1所述的胃食管反流疾病危险因素提取方法,其特征在于,在执行根据所述聚类数目和K-Means聚类算法,对所述量化数据矩阵中的元素进行聚类,得到多个类簇之前,所述方法还包括:采用K-Means++算法确定初始聚类中心。6.根据权利要求5所述的胃食管反流疾病危险因素提取方法,其特征在于,所述根据所述聚类数目...
【专利技术属性】
技术研发人员:刘万里,徐雷,黄玉珍,姚澜,李荣臻,夏吉安,
申请(专利权)人:刘万里,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。