The invention discloses a method and system for determining the risk factors of gastroesophageal reflux disease based on machine learning, which solves the problem of low accuracy in determining the risk factors of gastroesophageal reflux disease by statistics in the prior art. Firstly, the user information set containing the risk factors of gastroesophageal reflux disease is constructed, and the factors of the user information set are quantified to obtain the quantified data matrix; secondly, the quantized data matrix is standardized, and the dimensionality of the standardized matrix is reduced by using principal component analysis algorithm; secondly, the hierarchical clustering algorithm is used to cluster the data set after processing, and the quantified data matrix is obtained. Secondly, according to the number of clusters determined by the hierarchical clustering tree graph, and according to the number of clusters, the data in the processed data set are clustered and divided into several clusters. Finally, the correlation index among the elements in each cluster is calculated, and the element with the largest correlation index is determined as the risk factor of gastroesophageal reflux disease.
【技术实现步骤摘要】
基于机器学习的胃食管反流疾病危险因素确定方法及系统
本专利技术涉及机器学习与医学
,特别是涉及一种基于机器学习的胃食管反流疾病危险因素确定方法及系统。
技术介绍
胃食管反流疾病作为一种世界范围内普遍存在的消化系统疾病,其发病率呈现出逐年上升的趋势。因此,胃食管反流疾病的治疗应当引起我们的足够重视。由于胃食管反流疾病的发生与生活方式、情绪变化、饮食习惯等密切相关,病情极易发生变化,因此通过采集大量数据并分析数据特征对研究该疾病及预防有重要作用。目前在胃食管反流疾病诊断技术中采用机器学习方法提取危险因素并不多见,大多数在医学领域对于危险因素的提取采取的是统计学方法,而统计学方法计算量大,同时与机器学习相比精确率较低。
技术实现思路
本专利技术的目的是提供一种基于机器学习的胃食管反流疾病危险因素确定方法及系统,以解决现有技术中采用统计学确定胃食管反流疾病危险因素时精确率低的问题。为实现上述目的,本专利技术提供了如下方案:一种基于机器学习的胃食管反流疾病危险因素确定方法,包括:构建用户信息集;所述用户信息集为M行N列的数据集;所述用户信息集中的第i行第1列的因素为用户问卷ID号,且不同行中第1列的因素表示为不同的用户问卷ID号;所述用户信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述用户信息集中的第i行第j列的因素为第i用户问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N;对所述用户信息集中的答案进行数据量化处理,得到量化数据矩阵;所述量化数据矩阵为M行N列的矩阵;所述量化数据矩阵中的第i行第1列的元素为用户问卷 ...
【技术保护点】
1.一种基于机器学习的胃食管反流疾病危险因素确定方法,其特征在于,所述方法,包括:构建用户信息集;所述用户信息集为M行N列的数据集;所述用户信息集中的第i行第1列的因素为用户问卷ID号,且不同行中第1列的因素表示为不同的用户问卷ID号;所述用户信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述用户信息集中的第i行第j列的因素为第i用户问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N;对所述用户信息集中的答案进行数据量化处理,得到量化数据矩阵;所述量化数据矩阵为M行N列的矩阵;所述量化数据矩阵中的第i行第1列的元素为用户问卷ID号,且不同行中第1列的元素表示为不同的用户问卷ID号;所述量化数据矩阵中的第1行第j列的元素为调查问卷的问题,且不同列中第1行的元素表示为不同的问题;所述量化数据矩阵中的第i行第j列的元素为第i用户问卷ID号第j问题答案的数据量化结果;其中,2≤i≤M,2≤j≤N;对所述量化数据矩阵进行标准化处理,得到标准化数据矩阵;采用主成分分析算法对所述标准化数据矩阵进行降维处理,并对降维后的数据矩阵进行重构处理,得到重构数据矩 ...
【技术特征摘要】
1.一种基于机器学习的胃食管反流疾病危险因素确定方法,其特征在于,所述方法,包括:构建用户信息集;所述用户信息集为M行N列的数据集;所述用户信息集中的第i行第1列的因素为用户问卷ID号,且不同行中第1列的因素表示为不同的用户问卷ID号;所述用户信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述用户信息集中的第i行第j列的因素为第i用户问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N;对所述用户信息集中的答案进行数据量化处理,得到量化数据矩阵;所述量化数据矩阵为M行N列的矩阵;所述量化数据矩阵中的第i行第1列的元素为用户问卷ID号,且不同行中第1列的元素表示为不同的用户问卷ID号;所述量化数据矩阵中的第1行第j列的元素为调查问卷的问题,且不同列中第1行的元素表示为不同的问题;所述量化数据矩阵中的第i行第j列的元素为第i用户问卷ID号第j问题答案的数据量化结果;其中,2≤i≤M,2≤j≤N;对所述量化数据矩阵进行标准化处理,得到标准化数据矩阵;采用主成分分析算法对所述标准化数据矩阵进行降维处理,并对降维后的数据矩阵进行重构处理,得到重构数据矩阵;采用层次聚类算法,对所述重构数据矩阵中的每个样本点进行处理,得到层次聚类树状图;第z个所述样本点代表所述重构数据矩阵中的第z行数据;其中,2≤z≤M;根据所述层次聚类树状图确定聚类数目,并根据所述聚类数目,采用聚类算法对所述重构数据矩阵中的元素进行聚类,得到多个类簇;计算每个所述类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素;所述相关指数为相关系数平方的平均数。2.根据权利要求1所述的胃食管反流疾病危险因素确定方法,其特征在于,所述对所述量化数据矩阵进行标准化处理,得到标准化数据矩阵,具体包括:采用Z-Score标准化算法,对所述量化数据矩阵进行标准化处理;所述标准化数据矩阵中每个维度的数据均服从均值为0、方差为1的正态分布。3.根据权利要求1所述的胃食管反流疾病危险因素确定方法,其特征在于,所述采用主成分分析算法对所述标准化数据矩阵进行降维处理,具体包括:计算所述标准化数据矩阵的相关矩阵;根据所述相关矩阵,计算特征值以及所述特征值对应的特征向量;将所述特征值按照降序顺序排列,选择前N个所述特征值对应的特征向量组成降维后的数据集。4.根据权利要求1所述的胃食管反流疾病危险因素确定方法,其特征在于,所述采用层次聚类算法,对所述重构数据矩阵中的每个样本点进行处理,得到层次聚类树状图,具体包括:步骤1,采用平均距离算法,计算两两样本点之间的距离;步骤2,选择距离最小的两个样本点合成一个类;步骤3,重复步骤1和步骤2,直到所有样本点聚为一类,得到层次聚类树状图。5.根据权利要求1所述的胃食管反流疾病危险因素确定方法,其特征在...
【专利技术属性】
技术研发人员:刘万里,徐雷,黄玉珍,姚澜,李荣臻,夏吉安,
申请(专利权)人:刘万里,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。