一种基于机器学习的2型糖尿病预测预警方法技术

技术编号:16663079 阅读:130 留言:0更新日期:2017-11-30 12:03
本发明专利技术公开了一种基于机器学习的2型糖尿病预测预警方法,通过K‑means算法和Logistic Regression算法建立先聚类再分类的糖尿病双层预测分析模型,对非糖尿病的分类结果通过C4.5算法和K‑means算法分析出的规则进行预警分级,对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型。本方法包括数据收集模块、数据预处理模块、预测分析模块、预警分级模块和日常管理模块等五大模块。主要应用在糖尿病早期预测分析、高危人群预警分级以及糖尿病日常健康管理等三大方面。本方法在实际应用中具有更高的预测准确性,更加专注每个实例的健康参数,同时针对非糖尿病实例进行预警分级,能起到更好的防范作用,做到疾病的提早预防。

【技术实现步骤摘要】
一种基于机器学习的2型糖尿病预测预警方法
本专利技术属于机器学习预测分析与医疗健康
,具体涉及一种基于机器学习的2型糖尿病预测预警方法。
技术介绍
糖尿病是一种以高血糖为特征的慢性疾病,且具有明显的家族遗传特性,接近一半的糖尿病患者有家族遗传病史。国际糖尿病联盟在DiabetesAtlas(SeventhEdition)中的最新数据表明,2015年全世界范围内DM患病人群的数量将近4.15亿。根据近年的增长率预测到2040年,全球糖尿病患者将达到6.42亿,这意味着未来每十个成年人中间就有一个人患有糖尿病。这一惊人的数字毫无疑问需要引起高度重视。近年来,中国已成世界糖尿病患者第一大国,目前患病人数已高达1.1亿人,且患者数量还在不断上升当中。然而我国糖尿病患者知晓率仅为30.1%,其中仅有25.8%的患者得到治疗,而在进行治疗的患者中,血糖得到良好控制的仅有39.7%,据此测算,糖尿病患者中,血糖得到控制的患者比例仅为3.08%。在城市和乡村,上述数据存在显著差异,且不同性别之间差异也较大,经济不发达地区的女性糖尿病的控制情况非常低。在这样的情况下,通过先进的技术手段做好糖尿病患病的前期预防和日常管理就显得格外重要。随着人工智能机器学习等技术的快速发展,大量机器学习算法被运用在医疗健康的方方面面。机器学习是研究如何使用机器来模拟人类学习活动的学科。一种更为严格的定义是:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。机器学习主要研究的是让机器从过去的经历中学习经验,对数据的不确定性进行建模,并在未来进行预测。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。糖尿病预测预警是机器学习算法的应用领域之一,主要在如下三个方面展开:1)重要糖尿病参数分析。通过主成分分析方法和关联算法对多种糖尿病数据集的基本属性值进行分析筛选,得出引发糖尿病的重要因素;2)预测模型分析。通过多种分类算法对糖尿病数据集进行有监督的预测分析来判断糖尿病风险参数在一定时间之后引发糖尿病的可能性,主要应用的算法有决策树算法、随机森林算法、神经网络算法以及逻辑回归算法等;3)预警分级分析。针对多种糖尿病数据集,通过无监督的聚类算法,优化现有糖尿病预警分级标准。
技术实现思路
本专利技术的目的是针对现有糖尿病预测方法准确性的不足,以及对潜在人群进行风险提示的欠缺,提供了一种基于K-means算法、LogisticRegression算法和C4.5算法结合应用的2型糖尿病预测预警方法。本方法对糖尿病参数进行持续的数据收集、数据分析、数据管理等工作,在此基础之上形成预测分析、预警分级和日常管理等功能。为达到上述目的,本专利技术采用的技术方案为:一种基于机器学习的2型糖尿病预测预警方法,该方法通过K-means算法和LogisticRegression算法建立先聚类再分类的糖尿病双层预测分析模型,对非糖尿病的分类结果通过C4.5算法和K-means算法分析出的规则进行预警分级,对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型。本方法包括数据收集模块、数据预处理模块、预测分析模块、预警分级模块和日常管理模块,数据收集模块与数据预处理模块连接,数据预处理模块与预测分析模块连接,预测分析模块与预警分级模块连接,预警分级模块和日常管理模块连接。本方法包括以下步骤:(1)基于现有的健康大数据,获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,健康数据包括年龄、身高、体重、腰围、臀围、收缩压、舒张压、心率、血糖、血氧、睡眠质量和饮食习惯等。首先对每一个实例以糖尿病和非糖尿病进行标记。(2)对糖尿病参数数据库中的原始数据做数据预处理。预处理包括确定统一的数据项以及每一项的具体格式,具体格式为枚举型或数值型等,然后通过数据清洗和数据标准化提高原始数据的质量。(3)使用K-means算法和LogisticRegression算法的双层预测分析模型分析处理过的数据集,对每个实例属于糖尿病或是非糖尿病进行预测分类。(4)使用C4.5算法和K-means算法结合的分析模型结合现有高危人群划分标准对非糖尿病进行预警分级,提出无风险、低风险和高风险三类标识。(5)通过引入最新的糖尿病参数数据,对所有糖尿病参数数据以统一规范的数据格式进行存储并及时反馈至数据收集模块以进行进一步优化。在丰富数据集的基础上,反复步骤(2)、(3)、(4)进行训练以优化本方法的实际应用效果。所述的数据收集模块是基于现有的健康大数据,通过获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,对每一个实例以糖尿病和非糖尿病进行标记。所述的数据预处理模块分为两个基本步骤,分别是数据清洗和数据标准化。数据清洗包括一致性检查和缺失值处理,一致性检查是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。缺失值处理即将数据集中缺少的值使用平均值进行替代。数据标准化是在数据清洗完成后,为避免计算过程中数值复杂度,以及避免大数值区间的属性过分支配小数值区间的属性,将所有糖尿病参数中的属性进行Normalize,规范到数值区间[0,1],使用公式:其中x'表示糖尿病参数属性的平均值,s表示糖尿病参数属性的标准偏差,Value即糖尿病参数原属性值value进行标准化计算得到的结果。所述的预测分析模块分为两部分,分别是K-means聚类处理和LogisticRegression模型处理。使用K-means聚类算法对剔除了分类标签结果的数据集进行一级处理,设定聚类数目为2,将结果与原始数据集进行对比,剔除聚类错误的数据项,以提供更加准确的数据集进入下一阶段的处理。使用LogisticRegression模型对上述处理过的数据集进行有监督的分类处理,分析结果可得预测准确性。预警分级模块针对糖尿病数据集中的参数,根据C4.5算法和K-means算法基于现有数据分析糖尿病风险层级的规则并与糖尿病分级标准进行对比,以制定更加直接有效的预警分级标准。在此基础上,针对新数据的录入通过新的分级标准进行风险层级判断。所述的日常管理模块包含血糖记录和体征记录。血糖记录针对糖尿病用户,通过引入最新的血糖记录针记录血糖参数数据以更新糖尿病数据库。体征记录针对所有用户,管理的糖尿病参数包括心率、血压、血氧、身高体重和腰臀比等数据。所有参数均以统一规范的数据格式进行存储并及时反馈至数据收集模块进行优化。本专利技术相对于现有技术,具有以下有益效果:本方法所述数据预处理模块和预测分析模块中使用的混合算法(K-means算法和LogisticRegression算法)在实际应用中相对于现有技术数据处理更清晰、预测准确性更高。针对糖尿病是遗传性疾病的属性,本方法更加专注每个实例的健康参数,包括参数的统一建库管理及更新优化,通过不断引入新的实例数据来优化算法模型的预测准确性。本方法在预测糖尿病与否的基础上,针对非糖尿病实例进行预警分级,能起到更好的防范作用,做到疾病的提早预防。附图说明图1是本专利技术方法结构示意图。图2是本专利技术方法预测分析模块示意图。图3是本专利技术方本文档来自技高网
...
一种基于机器学习的2型糖尿病预测预警方法

【技术保护点】
一种基于机器学习的2型糖尿病预测预警方法,该方法通过K‑means算法和Logistic Regression算法建立先聚类再分类的糖尿病双层预测分析模型,对非糖尿病的分类结果通过C4.5算法和K‑means算法分析出的规则进行预警分级,对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型;本方法包括数据收集模块、数据预处理模块、预测分析模块、预警分级模块和日常管理模块,数据收集模块与数据预处理模块连接,数据预处理模块与预测分析模块连接,预测分析模块与预警分级模块连接,预警分级模块和日常管理模块连接;其特征在于:本方法包括以下步骤:(1)基于现有的健康大数据,获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,健康数据包括年龄、身高、体重、腰围、臀围、收缩压、舒张压、心率、血糖、血氧、睡眠质量和饮食习惯等;首先对每一个实例以糖尿病和非糖尿病进行标记;(2)对糖尿病参数数据库中的原始数据做数据预处理;预处理包括确定统一的数据项以及每一项的具体格式,具体格式为枚举型或数值型等,然后通过数据清洗和数据标准化提高原始数据的质量;(3)使用K‑means算法和Logistic Regression算法的双层预测分析模型分析处理过的数据集,对每个实例属于糖尿病或是非糖尿病进行预测分类;(4)使用C4.5算法和K‑means算法结合的分析模型结合现有高危人群划分标准对非糖尿病进行预警分级,提出无风险、低风险和高风险三类标识;(5)通过引入最新的糖尿病参数数据,对所有糖尿病参数数据以统一规范的数据格式进行存储并及时反馈至数据收集模块以进行进一步优化;在丰富数据集的基础上,反复步骤(2)、(3)、(4)进行训练以优化本方法的实际应用效果;所述的数据收集模块是基于现有的健康大数据,通过获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,对每一个实例以糖尿病和非糖尿病进行标记;所述的数据预处理模块分为两个基本步骤,分别是数据清洗和数据标准化;数据清洗包括一致性检查和缺失值处理,一致性检查是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据;缺失值处理即将数据集中缺少的值使用平均值进行替代;数据标准化是在数据清洗完成后,为避免计算过程中数值复杂度,以及避免大数值区间的属性过分支配小数值区间的属性,将所有糖尿病参数中的属性进行Normalize,规范到数值区间[0,1],使用公式:...

【技术特征摘要】
1.一种基于机器学习的2型糖尿病预测预警方法,该方法通过K-means算法和LogisticRegression算法建立先聚类再分类的糖尿病双层预测分析模型,对非糖尿病的分类结果通过C4.5算法和K-means算法分析出的规则进行预警分级,对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型;本方法包括数据收集模块、数据预处理模块、预测分析模块、预警分级模块和日常管理模块,数据收集模块与数据预处理模块连接,数据预处理模块与预测分析模块连接,预测分析模块与预警分级模块连接,预警分级模块和日常管理模块连接;其特征在于:本方法包括以下步骤:(1)基于现有的健康大数据,获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,健康数据包括年龄、身高、体重、腰围、臀围、收缩压、舒张压、心率、血糖、血氧、睡眠质量和饮食习惯等;首先对每一个实例以糖尿病和非糖尿病进行标记;(2)对糖尿病参数数据库中的原始数据做数据预处理;预处理包括确定统一的数据项以及每一项的具体格式,具体格式为枚举型或数值型等,然后通过数据清洗和数据标准化提高原始数据的质量;(3)使用K-means算法和LogisticRegression算法的双层预测分析模型分析处理过的数据集,对每个实例属于糖尿病或是非糖尿病进行预测分类;(4)使用C4.5算法和K-means算法结合的分析模型结合现有高危人群划分标准对非糖尿病进行预警分级,提出无风险、低风险和高风险三类标识;(5)通过引入最新的糖尿病参数数据,对所有糖尿病参数数据以统一规范的数据格式进行存储并及时反馈至数据收集模块以进行进一步优化;在丰富数据集的基础上,反复步骤(2)、(3)、(4)进行训练以优化本方法的实际应用效果;所述的数据收集模块是基于现有的健康大数据,通过获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,对每一个实例以糖尿病和非糖尿病进行标记;所述的数据预处理模块分为两个基本步骤,分别是数据清洗和数据标准化;数据清洗包括一致性检查和缺失值处理,一致性检查是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据;缺失值处理即将数据集中缺少的值使用平均值进行替代;数据标准化是在数据清洗完成后,为避免计算过程中数值复杂度,以及避免大数值区间的属性过分支配小数值区间的属性,将所有糖尿病参数中的属性进行Normalize,规范到数值区间[0,1],使用公式:其中x'表示糖尿病参数属性的平均值,s表示糖尿病参数属性的标准偏差,Value即糖尿病参数原属性值value进行标准化计算得到的结果;所述的预测分析模块分为两部分,分别是K-means聚类处理和LogisticRegression模型处理;使用K-means聚类算法对剔除了分类标签结果的数据集进行一级处理,设定聚类数目为2,将结果与原始数据集进行对比,剔除聚类错误的数据项,以提供更加准确的数据集进入下一阶段的处理;使用LogisticRegression模型对上述处理过的数据集进行有监督的分类处理,分析结果可得预测准确性;预警分级模块针对糖尿病数据集中的参数,根据C4.5算法和K-means算法基于现有数据分析糖尿病风险层级的规则并与糖尿病分级标准进行对比,以制定更加直接有效的预警分级标准;在此基础上,针对新数据的录入通过新的分级标准进行风险层级判断;所述的日常管理模块包含血糖记录和体征记录;血糖记录针对糖尿病用户,通过引入最新的血糖记录针记录血糖参数数据以更新糖尿病数据库;体征记录针对所有用户,管理的糖尿病参数包括心率、血压、血氧、身高体重和腰臀比数据;所有参数均以统一规范的数据格式进行存储并及时反馈至数据收集模块进行优化。2.根据权利要求1所述的一种基于机器学习的2型糖尿病预测预警方法,其特征在于:预测分析模块和预警分级模块是本方法的两大核心模块;所述的预测分析模块由K-means算法和LogisticRegression算法组成;K-means算法是典型的基于距离的聚类算法,采用距离作为相似度的度量指标,即规定对象间的距离值越小,其相似度越大;K-means算法所产生的簇都是由距离相近的对象组成,故其最终目标是找到这些紧凑且独立的簇;在K-means算法中,K值代表的是初始聚类中心的个数,聚类中心即簇,故K值的选取对聚类结果影响大;针对包含n个糖尿病实例的初始数据集,n为糖尿病实例的个数且取正整数,对应的算...

【专利技术属性】
技术研发人员:杨胜齐吴寒丁梦王冰笛
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1