当前位置: 首页 > 专利查询>刘万里专利>正文

基于机器学习的胃食管反流疾病危险因素确定方法及系统技术方案

技术编号:20972596 阅读:40 留言:0更新日期:2019-04-29 17:49
本发明专利技术公开了一种基于机器学习的胃食管反流疾病危险因素确定方法及系统,解决现有技术中采用统计学确定胃食管反流疾病危险因素时精确率低的问题。首先构建包含胃食管反流疾病危险因素的用户信息集,并对用户信息集中的因素进行量化处理,得到量化数据矩阵;其次对量化数据矩阵进行标准化,采用主成分分析算法对标准化后的矩阵进行降维处理;然后采用层次聚类算法对处理后的数据集中的数据聚类,得到层次聚类树状图;再者根据层次聚类树状图确定的聚类数目,并根据聚类数目对处理后的数据集中的数据进行聚类划分,得到多个类簇;最后计算每个类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素。

Method and System for Determining Risk Factors of Gastroesophageal Reflux Disease Based on Machine Learning

The invention discloses a method and system for determining the risk factors of gastroesophageal reflux disease based on machine learning, which solves the problem of low accuracy in determining the risk factors of gastroesophageal reflux disease by statistics in the prior art. Firstly, the user information set containing the risk factors of gastroesophageal reflux disease is constructed, and the factors of the user information set are quantified to obtain the quantified data matrix; secondly, the quantized data matrix is standardized, and the dimensionality of the standardized matrix is reduced by using principal component analysis algorithm; secondly, the hierarchical clustering algorithm is used to cluster the data set after processing, and the quantified data matrix is obtained. Secondly, according to the number of clusters determined by the hierarchical clustering tree graph, and according to the number of clusters, the data in the processed data set are clustered and divided into several clusters. Finally, the correlation index among the elements in each cluster is calculated, and the element with the largest correlation index is determined as the risk factor of gastroesophageal reflux disease.

【技术实现步骤摘要】
基于机器学习的胃食管反流疾病危险因素确定方法及系统
本专利技术涉及机器学习与医学
,特别是涉及一种基于机器学习的胃食管反流疾病危险因素确定方法及系统。
技术介绍
胃食管反流疾病作为一种世界范围内普遍存在的消化系统疾病,其发病率呈现出逐年上升的趋势。因此,胃食管反流疾病的治疗应当引起我们的足够重视。由于胃食管反流疾病的发生与生活方式、情绪变化、饮食习惯等密切相关,病情极易发生变化,因此通过采集大量数据并分析数据特征对研究该疾病及预防有重要作用。目前在胃食管反流疾病诊断技术中采用机器学习方法提取危险因素并不多见,大多数在医学领域对于危险因素的提取采取的是统计学方法,而统计学方法计算量大,同时与机器学习相比精确率较低。
技术实现思路
本专利技术的目的是提供一种基于机器学习的胃食管反流疾病危险因素确定方法及系统,以解决现有技术中采用统计学确定胃食管反流疾病危险因素时精确率低的问题。为实现上述目的,本专利技术提供了如下方案:一种基于机器学习的胃食管反流疾病危险因素确定方法,包括:构建用户信息集;所述用户信息集为M行N列的数据集;所述用户信息集中的第i行第1列的因素为用户问卷ID号,且不同行中第1列的因素表示为不同的用户问卷ID号;所述用户信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述用户信息集中的第i行第j列的因素为第i用户问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N;对所述用户信息集中的答案进行数据量化处理,得到量化数据矩阵;所述量化数据矩阵为M行N列的矩阵;所述量化数据矩阵中的第i行第1列的元素为用户问卷ID号,且不同行中第1列的元素表示为不同的用户问卷ID号;所述量化数据矩阵中的第1行第j列的元素为调查问卷的问题,且不同列中第1行的元素表示为不同的问题;所述量化数据矩阵中的第i行第j列的元素为第i用户问卷ID号第j问题答案的数据量化结果;其中,2≤i≤M,2≤j≤N;对所述量化数据矩阵进行标准化处理,得到标准化数据矩阵;采用主成分分析算法对所述标准化数据矩阵进行降维处理,并对降维后的数据矩阵进行重构处理,得到重构数据矩阵;采用层次聚类算法,对所述重构数据矩阵中的每个样本点进行处理,得到层次聚类树状图;第z个所述样本点代表所述重构数据矩阵中的第z行数据;其中,2≤z≤M;根据所述层次聚类树状图确定聚类数目,并根据所述聚类数目,采用聚类算法对所述重构数据矩阵中的元素进行聚类,得到多个类簇;计算每个所述类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素;所述相关指数为相关系数平方的平均数。可选的,所述对所述量化数据矩阵进行标准化处理,得到标准化数据矩阵,具体包括:采用Z-Score标准化算法,对所述量化数据矩阵进行标准化处理;所述标准化数据矩阵中每个维度的数据均服从均值为0、方差为1的正态分布。可选的,所述采用主成分分析算法对所述标准化数据矩阵进行降维处理,具体包括:计算所述标准化数据矩阵的相关矩阵;根据所述相关矩阵,计算特征值以及所述特征值对应的特征向量;将所述特征值按照降序顺序排列,选择前N个所述特征值对应的特征向量组成降维后的数据集。可选的,所述采用层次聚类算法,对所述重构数据矩阵中的每个样本点进行处理,得到层次聚类树状图,具体包括:步骤1,采用平均距离算法,计算两两样本点之间的距离;步骤2,选择距离最小的两个样本点合成一个类;步骤3,重复步骤1和步骤2,直到所有样本点聚为一类,得到层次聚类树状图。可选的,所述计算每个所述类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素,具体包括:计算每个所述类簇中各个元素间的相关指数;将所有所述相关指数按照从大到小的顺序排列,选择最大的相关指数对应的元素确定为胃食管反流疾病危险因素。一种基于机器学习的胃食管反流疾病危险因素确定系统,包括:用户信息集构建模块,用于构建用户信息集;所述用户信息集为M行N列的数据集;所述用户信息集中的第i行第1列的因素为用户问卷ID号,且不同行中第1列的因素表示为不同的用户问卷ID号;所述用户信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述用户信息集中的第i行第j列的因素为第i用户问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N;量化处理模块,用于对所述用户信息集中的答案进行数据量化处理,得到量化数据矩阵;所述量化数据矩阵为M行N列的矩阵;所述量化数据矩阵中的第i行第1列的元素为用户问卷ID号,且不同行中第1列的元素表示为不同的用户问卷ID号;所述量化数据矩阵中的第1行第j列的元素为调查问卷的问题,且不同列中第1行的元素表示为不同的问题;所述量化数据矩阵中的第i行第j列的元素为第i用户问卷ID号第j问题答案的数据量化结果;其中,2≤i≤M,2≤j≤N;标准化处理模块,用于对所述量化数据矩阵进行标准化处理,得到标准化数据矩阵;降维重构模块,用于采用主成分分析算法对所述标准化数据矩阵进行降维处理,并对降维后的数据矩阵进行重构处理,得到重构数据矩阵;层次聚类树状图得到模块,用于采用层次聚类算法,对所述重构数据矩阵中的每个样本点进行处理,得到层次聚类树状图;第z个所述样本点代表所述重构数据矩阵中的第z行数据;其中,2≤z≤M;类簇划分模块,用于根据所述层次聚类树状图确定聚类数目,并根据所述聚类数目,采用聚类算法对所述重构数据矩阵中的元素进行聚类,得到多个类簇;胃食管反流疾病危险因素确定模块,用于计算每个所述类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素;所述相关指数为相关系数平方的平均数。可选的,所述标准化处理模块,具体包括:标准化处理单元,用于采用Z-Score标准化算法,对所述量化数据矩阵进行标准化处理;所述标准化数据矩阵中每个维度的数据均服从均值为0、方差为1的正态分布。可选的,所述胃食管反流疾病危险因素确定模块,具体包括:相关指数计算单元,用于计算每个所述类簇中各个元素间的相关指数;胃食管反流疾病危险因素确定单元,用于将所有所述相关指数按照从大到小的顺序排列,选择最大的相关指数对应的元素确定为胃食管反流疾病危险因素。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术主要是基于机器学习提出的一种胃食管反流疾病危险因素确定方法及系统。本专利技术先用特征工程中的主成分分析法进行特征提取,降低数据维度,再对高质量的数据进行聚类分析,在每一类簇中选择出最关键的危险因素。本专利技术结合了聚类方法与特征工程,筛选出引发胃食管反流疾病的危险因素,为日后医学研究及疾病诊断提供科学依据,对胃食管反流病进行指导,降低发病率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例基于机器学习的胃食管反流疾病危险因素确定方法的流程示意图;图2为本专利技术实施例基于机器学习的胃食管反流疾病危险因素确定系统的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本文档来自技高网...

【技术保护点】
1.一种基于机器学习的胃食管反流疾病危险因素确定方法,其特征在于,所述方法,包括:构建用户信息集;所述用户信息集为M行N列的数据集;所述用户信息集中的第i行第1列的因素为用户问卷ID号,且不同行中第1列的因素表示为不同的用户问卷ID号;所述用户信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述用户信息集中的第i行第j列的因素为第i用户问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N;对所述用户信息集中的答案进行数据量化处理,得到量化数据矩阵;所述量化数据矩阵为M行N列的矩阵;所述量化数据矩阵中的第i行第1列的元素为用户问卷ID号,且不同行中第1列的元素表示为不同的用户问卷ID号;所述量化数据矩阵中的第1行第j列的元素为调查问卷的问题,且不同列中第1行的元素表示为不同的问题;所述量化数据矩阵中的第i行第j列的元素为第i用户问卷ID号第j问题答案的数据量化结果;其中,2≤i≤M,2≤j≤N;对所述量化数据矩阵进行标准化处理,得到标准化数据矩阵;采用主成分分析算法对所述标准化数据矩阵进行降维处理,并对降维后的数据矩阵进行重构处理,得到重构数据矩阵;采用层次聚类算法,对所述重构数据矩阵中的每个样本点进行处理,得到层次聚类树状图;第z个所述样本点代表所述重构数据矩阵中的第z行数据;其中,2≤z≤M;根据所述层次聚类树状图确定聚类数目,并根据所述聚类数目,采用聚类算法对所述重构数据矩阵中的元素进行聚类,得到多个类簇;计算每个所述类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素;所述相关指数为相关系数平方的平均数。...

【技术特征摘要】
1.一种基于机器学习的胃食管反流疾病危险因素确定方法,其特征在于,所述方法,包括:构建用户信息集;所述用户信息集为M行N列的数据集;所述用户信息集中的第i行第1列的因素为用户问卷ID号,且不同行中第1列的因素表示为不同的用户问卷ID号;所述用户信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述用户信息集中的第i行第j列的因素为第i用户问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N;对所述用户信息集中的答案进行数据量化处理,得到量化数据矩阵;所述量化数据矩阵为M行N列的矩阵;所述量化数据矩阵中的第i行第1列的元素为用户问卷ID号,且不同行中第1列的元素表示为不同的用户问卷ID号;所述量化数据矩阵中的第1行第j列的元素为调查问卷的问题,且不同列中第1行的元素表示为不同的问题;所述量化数据矩阵中的第i行第j列的元素为第i用户问卷ID号第j问题答案的数据量化结果;其中,2≤i≤M,2≤j≤N;对所述量化数据矩阵进行标准化处理,得到标准化数据矩阵;采用主成分分析算法对所述标准化数据矩阵进行降维处理,并对降维后的数据矩阵进行重构处理,得到重构数据矩阵;采用层次聚类算法,对所述重构数据矩阵中的每个样本点进行处理,得到层次聚类树状图;第z个所述样本点代表所述重构数据矩阵中的第z行数据;其中,2≤z≤M;根据所述层次聚类树状图确定聚类数目,并根据所述聚类数目,采用聚类算法对所述重构数据矩阵中的元素进行聚类,得到多个类簇;计算每个所述类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素;所述相关指数为相关系数平方的平均数。2.根据权利要求1所述的胃食管反流疾病危险因素确定方法,其特征在于,所述对所述量化数据矩阵进行标准化处理,得到标准化数据矩阵,具体包括:采用Z-Score标准化算法,对所述量化数据矩阵进行标准化处理;所述标准化数据矩阵中每个维度的数据均服从均值为0、方差为1的正态分布。3.根据权利要求1所述的胃食管反流疾病危险因素确定方法,其特征在于,所述采用主成分分析算法对所述标准化数据矩阵进行降维处理,具体包括:计算所述标准化数据矩阵的相关矩阵;根据所述相关矩阵,计算特征值以及所述特征值对应的特征向量;将所述特征值按照降序顺序排列,选择前N个所述特征值对应的特征向量组成降维后的数据集。4.根据权利要求1所述的胃食管反流疾病危险因素确定方法,其特征在于,所述采用层次聚类算法,对所述重构数据矩阵中的每个样本点进行处理,得到层次聚类树状图,具体包括:步骤1,采用平均距离算法,计算两两样本点之间的距离;步骤2,选择距离最小的两个样本点合成一个类;步骤3,重复步骤1和步骤2,直到所有样本点聚为一类,得到层次聚类树状图。5.根据权利要求1所述的胃食管反流疾病危险因素确定方法,其特征在...

【专利技术属性】
技术研发人员:刘万里徐雷黄玉珍姚澜李荣臻夏吉安
申请(专利权)人:刘万里
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1