当前位置: 首页 > 专利查询>刘万里专利>正文

基于分布聚类的胃食管反流疾病危险因素提取方法及系统技术方案

技术编号:20656121 阅读:37 留言:0更新日期:2019-03-23 07:38
本发明专利技术公开了一种基于分布聚类的胃食管反流疾病危险因素提取方法及系统。首先构建包含胃食管反流疾病危险因素的用户信息集;其次对用户信息集量化处理得到量化数据集,并将量化后的数据存放在Hadoop大数据分析平台的HDFS分布式文件系统中,形成序列文件;接着利用Hadoop大数据分析平台的MapReduce计算框架,采用K均值聚类算法和Canopy聚类算法对存储的数据进行聚类得到多个类簇;最后计算每个类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素。本发明专利技术利用分布式框架和改进的K均值聚类算法高效精准的筛选出引发胃食管反流疾病的危险因素,降低发病率。

Distribution Clustering Based Risk Factor Extraction Method and System for Gastroesophageal Reflux Disease

The invention discloses a method and system for extracting risk factors of gastroesophageal reflux disease based on distributed clustering. Firstly, a user information set containing risk factors of gastroesophageal reflux disease is constructed; secondly, a quantitative data set is obtained by quantifying the user information set, and the quantified data is stored in the HDFS distributed file system of Hadoop large data analysis platform to form a sequence file; secondly, the MapReduce computing framework of Hadoop large data analysis platform is used, K-means clustering algorithm and Canopy clustering algorithm are used. Clustering algorithm clustered the stored data into several clusters. Finally, the correlation index of each element in each cluster was calculated, and the element with the largest correlation index was identified as the risk factor of gastroesophageal reflux disease. The invention utilizes the distributed framework and improved K-means clustering algorithm to efficiently and accurately screen out the risk factors causing gastroesophageal reflux disease and reduce the incidence.

【技术实现步骤摘要】
基于分布聚类的胃食管反流疾病危险因素提取方法及系统
本专利技术涉及聚类与医学
,特别是涉及一种基于分布聚类的胃食管反流疾病危险因素提取方法及系统。
技术介绍
胃食管反流疾病作为一种世界范围内普遍存在的消化系统疾病,其发病率呈现出逐年上升的趋势。因此,胃食管反流疾病的治疗应当引起我们的足够重视。由于胃食管反流疾病的发生与生活方式、情绪变化、饮食习惯等密切相关,病情极易发生变化,因此通过采集大量数据并分析数据特征对研究该疾病及预防有重要作用。目前在胃食管反流疾病诊断技术中主要是采用聚类算法提取危险因素,但是其聚类数目和聚类中心的选取比较困难,往往因为聚类数目和聚类中心选择错误导致危险因素提取精确率较低。
技术实现思路
本专利技术的目的是提供一种基于分布聚类的胃食管反流疾病危险因素提取方法及系统,以解决现有技术中因聚类数目和聚类中心选择错误导致危险因素提取精确率较低的问题。为实现上述目的,本专利技术提供了如下方案:一种基于分布聚类的胃食管反流疾病危险因素提取方法,包括:构建用户信息集;所述用户信息集为M行N列的数据集;所述用户信息集中的第i行第1列的因素为用户问卷ID号,且不同行中第1列的因素表示为不同的用户问卷ID号;所述用户信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述用户信息集中的第i行第j列的因素为第i用户问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N,i,j为正整数;对所述用户信息集中的答案进行数据量化处理,得到量化数据集;所述量化数据集为M行N列的数据集;所述量化数据集中的第i行第1列的元素为用户问卷ID号,且不同行中第1列的元素表示为不同的用户问卷ID号;所述量化数据集中的第1行第j列的元素为调查问卷的问题,且不同列中第1行的元素表示为不同的问题;所述量化数据集中的第i行第j列的元素为第i用户问卷ID号第j问题答案的数据量化结果;其中,2≤i≤M,2≤j≤N,即所述量化数据集为关键危险因素的初始集;将所述量化数据集中的所有数据存放在Hadoop大数据分析平台的HDFS分布式文件系统中,形成序列文件;所述序列文件包括多条形式为<key,value>数据;每条所述<key,value>数据代表所述量化数据集中的一行数据;其中,key代表所述用户问卷ID号,value代表用户所有问题的答案;利用Hadoop大数据分析平台的MapReduce计算框架,采用K均值聚类算法和Canopy聚类算法,对所述序列文件中的数据进行聚类,得到多个类簇;计算每个所述类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素。可选的,所述利用Hadoop大数据分析平台的MapReduce计算框架,采用K均值聚类算法和Canopy聚类算法,对所述序列文件中的数据进行聚类,得到多个类簇,具体包括:利用Hadoop大数据分析平台的MapReduce计算框架,结合K均值聚类算法和Canopy聚类算法,对所述序列文件中的数据进行处理,确定聚类数目和聚类中心;根据所述聚类数目和所述聚类中心,对所述序列文件中的数据进行聚类,得到多个类簇。可选的,所述计算每个所述类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素,具体包括:计算每个所述类簇中各个元素间的相关系数;结合相关指数计算公式和计算得到的所述相关系数,计算每个所述类簇中各个元素间的相关指数;将所有所述相关指数降序排列,选择相关指数最大的元素确定为胃食管反流疾病危险因素。可选的,所述计算每个所述类簇中各个元素间的相关系数,具体包括:采用以下公式计算每个所述类簇中各个元素间的相关系数;所述公式为其中,Var(X)为X的方差,Var(Y)为Y的方差,Cov(X,Y)为X,Y之间的协方差,X,Y为每类簇中的元素。可选的,所述相关指数计算公式为其中,R2为相关指数,i为特征编号,n为特征总数。一种基于分布聚类的胃食管反流疾病危险因素提取系统,包括:用户信息集构建模块,用于构建用户信息集;所述用户信息集为M行N列的数据集;所述用户信息集中的第i行第1列的因素为用户问卷ID号,且不同行中第1列的因素表示为不同的用户问卷ID号;所述用户信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述用户信息集中的第i行第j列的因素为第i用户问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N,i,j为正整数;量化数据集得到模块,用于对所述用户信息集中的答案进行数据量化处理,得到量化数据集;所述量化数据集为M行N列的数据集;所述量化数据集中的第i行第1列的元素为用户问卷ID号,且不同行中第1列的元素表示为不同的用户问卷ID号;所述量化数据集中的第1行第j列的元素为调查问卷的问题,且不同列中第1行的元素表示为不同的问题;所述量化数据集中的第i行第j列的元素为第i用户问卷ID号第j问题答案的数据量化结果;其中,2≤i≤M,2≤j≤N,即所述量化数据集为关键危险因素的初始集;序列文件形成模块,用于将所述量化数据集中的所有数据存放在Hadoop大数据分析平台的HDFS分布式文件系统中,形成序列文件;所述序列文件包括多条形式为<key,value>数据;每条所述<key,value>数据代表所述量化数据集中的一行数据;其中,key代表所述用户问卷ID号,value代表用户所有问题的答案;类簇划分模块,用于利用Hadoop大数据分析平台的MapReduce计算框架,采用K均值聚类算法和Canopy聚类算法,对所述序列文件中的数据进行聚类,得到多个类簇;胃食管反流疾病危险因素确定模块,用于计算每个所述类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素。可选的,所述类簇划分模块,具体包括:聚类数目和聚类中心确定单元,用于利用Hadoop大数据分析平台的MapReduce计算框架,结合K均值聚类算法和Canopy聚类算法,对所述序列文件中的数据进行处理,确定聚类数目和聚类中心;类簇划分单元,用于根据所述聚类数目和所述聚类中心,对所述序列文件中的数据进行聚类,得到多个类簇。可选的,所述胃食管反流疾病危险因素确定模块,具体包括:相关系数计算单元,用于计算每个所述类簇中各个元素间的相关系数;相关指数计算单元,用于结合相关指数计算公式和计算得到的所述相关系数,计算每个所述类簇中各个元素间的相关指数;胃食管反流疾病危险因素确定单元,用于将所有所述相关指数降序排列,选择相关指数最大的元素确定为胃食管反流疾病危险因素。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术主要是基于Hadoop大数据分析平台的MapReduce计算框架提出的一种提取胃食管反流疾病危险因素的方法及系统。本专利技术利用了分布式计算框架对医学数据处理,针对K均值聚类算法存在的缺点,本专利技术结合Canopy聚类算法进行改进,将改进的K均值聚类算法应用于人群聚类,按照人群健康体征将人群分为不同类簇,最后结合统计学方法分析出引发每一类人群的胃食管反流疾病的危险因素。本专利技术利用了分布式框架来处理高维度大数据,利用了改进的K均值聚类算法高效的筛选出引发本文档来自技高网...

【技术保护点】
1.一种基于分布聚类的胃食管反流疾病危险因素提取方法,其特征在于,所述方法包括:构建用户信息集;所述用户信息集为M行N列的数据集;所述用户信息集中的第i行第1列的因素为用户问卷ID号,且不同行中第1列的因素表示为不同的用户问卷ID号;所述用户信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述用户信息集中的第i行第j列的因素为第i用户问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N,i,j为正整数;对所述用户信息集中的答案进行数据量化处理,得到量化数据集;所述量化数据集为M行N列的数据集;所述量化数据集中的第i行第1列的元素为用户问卷ID号,且不同行中第1列的元素表示为不同的用户问卷ID号;所述量化数据集中的第1行第j列的元素为调查问卷的问题,且不同列中第1行的元素表示为不同的问题;所述量化数据集中的第i行第j列的元素为第i用户问卷ID号第j问题答案的数据量化结果;其中,2≤i≤M,2≤j≤N,即所述量化数据集为关键危险因素的初始集;将所述量化数据集中的所有数据存放在Hadoop大数据分析平台的HDFS分布式文件系统中,形成序列文件;所述序列文件包括多条形式为...

【技术特征摘要】
1.一种基于分布聚类的胃食管反流疾病危险因素提取方法,其特征在于,所述方法包括:构建用户信息集;所述用户信息集为M行N列的数据集;所述用户信息集中的第i行第1列的因素为用户问卷ID号,且不同行中第1列的因素表示为不同的用户问卷ID号;所述用户信息集中的第1行第j列的因素为调查问卷的问题,且不同列中第1行的因素表示为不同的问题;所述用户信息集中的第i行第j列的因素为第i用户问卷ID号对第j问题的答案;其中,2≤i≤M,2≤j≤N,i,j为正整数;对所述用户信息集中的答案进行数据量化处理,得到量化数据集;所述量化数据集为M行N列的数据集;所述量化数据集中的第i行第1列的元素为用户问卷ID号,且不同行中第1列的元素表示为不同的用户问卷ID号;所述量化数据集中的第1行第j列的元素为调查问卷的问题,且不同列中第1行的元素表示为不同的问题;所述量化数据集中的第i行第j列的元素为第i用户问卷ID号第j问题答案的数据量化结果;其中,2≤i≤M,2≤j≤N,即所述量化数据集为关键危险因素的初始集;将所述量化数据集中的所有数据存放在Hadoop大数据分析平台的HDFS分布式文件系统中,形成序列文件;所述序列文件包括多条形式为<key,value>数据;每条所述<key,value>数据代表所述量化数据集中的一行数据;其中,key代表所述用户问卷ID号,value代表用户所有问题的答案;利用Hadoop大数据分析平台的MapReduce计算框架,采用K均值聚类算法和Canopy聚类算法,对所述序列文件中的数据进行聚类,得到多个类簇;计算每个所述类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素。2.根据权利要求1所述的胃食管反流疾病危险因素提取方法,其特征在于,所述利用Hadoop大数据分析平台的MapReduce计算框架,采用K均值聚类算法和Canopy聚类算法,对所述序列文件中的数据进行聚类,得到多个类簇,具体包括:利用Hadoop大数据分析平台的MapReduce计算框架,结合K均值聚类算法和Canopy聚类算法,对所述序列文件中的数据进行处理,确定聚类数目和聚类中心;根据所述聚类数目和所述聚类中心,对所述序列文件中的数据进行聚类,得到多个类簇。3.根据权利要求1所述的胃食管反流疾病危险因素提取方法,其特征在于,所述计算每个所述类簇中各个元素间的相关指数,并将相关指数最大的元素确定为胃食管反流疾病危险因素,具体包括:计算每个所述类簇中各个元素间的相关系数;结合相关指数计算公式和计算得到的所述相关系数,计算每个所述类簇中各个元素间的相关指数;将所有所述相关指数降序排列,选择相关指数最大的元素确定为胃食管反流疾病危险因素。4.根据权利要求3所述的胃食管反流疾病危险因素提取方法,其特征在于,所述计算每个所述类簇中各个元素间的相关系数,具体包括:采用以下公式计算每个所述类簇中各个元素间的相关系数;所述公式为其中,Var(X)为X的方差,Var(Y)为Y的方差,Cov(X,...

【专利技术属性】
技术研发人员:刘万里徐雷黄玉珍姚澜李荣臻夏吉安
申请(专利权)人:刘万里
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1