一种基于机器学习的2型糖尿病预测预警方法技术

技术编号：16663079 阅读：130 留言：0更新日期：2017-11-30 12:03

本发明专利技术公开了一种基于机器学习的2型糖尿病预测预警方法，通过K‑means算法和Logistic Regression算法建立先聚类再分类的糖尿病双层预测分析模型，对非糖尿病的分类结果通过C4.5算法和K‑means算法分析出的规则进行预警分级，对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型。本方法包括数据收集模块、数据预处理模块、预测分析模块、预警分级模块和日常管理模块等五大模块。主要应用在糖尿病早期预测分析、高危人群预警分级以及糖尿病日常健康管理等三大方面。本方法在实际应用中具有更高的预测准确性，更加专注每个实例的健康参数，同时针对非糖尿病实例进行预警分级，能起到更好的防范作用，做到疾病的提早预防。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的2型糖尿病预测预警方法
本专利技术属于机器学习预测分析与医疗健康
，具体涉及一种基于机器学习的2型糖尿病预测预警方法。
技术介绍
糖尿病是一种以高血糖为特征的慢性疾病，且具有明显的家族遗传特性，接近一半的糖尿病患者有家族遗传病史。国际糖尿病联盟在DiabetesAtlas(SeventhEdition)中的最新数据表明，2015年全世界范围内DM患病人群的数量将近4.15亿。根据近年的增长率预测到2040年，全球糖尿病患者将达到6.42亿，这意味着未来每十个成年人中间就有一个人患有糖尿病。这一惊人的数字毫无疑问需要引起高度重视。近年来，中国已成世界糖尿病患者第一大国，目前患病人数已高达1.1亿人，且患者数量还在不断上升当中。然而我国糖尿病患者知晓率仅为30.1％，其中仅有25.8％的患者得到治疗，而在进行治疗的患者中，血糖得到良好控制的仅有39.7％，据此测算，糖尿病患者中，血糖得到控制的患者比例仅为3.08％。在城市和乡村，上述数据存在显著差异，且不同性别之间差异也较大，经济不发达地区的女性糖尿病的控制情况非常低。在这样的情况下，通过先进的技术手段做好糖尿病患病的前期预防和日常管理就显得格外重要。随着人工智能机器学习等技术的快速发展，大量机器学习算法被运用在医疗健康的方方面面。机器学习是研究如何使用机器来模拟人类学习活动的学科。一种更为严格的定义是：机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学问。机器学习主要研究的是让机器从过去的经历中学习经验，对数据的不确定性进行建模，并在未来进行预测。它是人工智能的核心，是使计...
一种基于机器学习的2型糖尿病预测预警方法

【技术保护点】
一种基于机器学习的2型糖尿病预测预警方法，该方法通过K‑means算法和Logistic Regression算法建立先聚类再分类的糖尿病双层预测分析模型，对非糖尿病的分类结果通过C4.5算法和K‑means算法分析出的规则进行预警分级，对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型；本方法包括数据收集模块、数据预处理模块、预测分析模块、预警分级模块和日常管理模块，数据收集模块与数据预处理模块连接，数据预处理模块与预测分析模块连接，预测分析模块与预警分级模块连接，预警分级模块和日常管理模块连接；其特征在于：本方法包括以下步骤：(1)基于现有的健康大数据，获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库，健康数据包括年龄、身高、体重、腰围、臀围、收缩压、舒张压、心率、血糖、血氧、睡眠质量和饮食习惯等；首先对每一个实例以糖尿病和非糖尿病进行标记；(2)对糖尿病参数数据库中的原始数据做数据预处理；预处理包括确定统一的数据项以及每一项的具体格式，具体格式为枚举型或数值型等，然后通过数据清洗和数据标准化提高原始数据的质量；(3)...

【技术特征摘要】
1.一种基于机器学习的2型糖尿病预测预警方法，该方法通过K-means算法和LogisticRegression算法建立先聚类再分类的糖尿病双层预测分析模型，对非糖尿病的分类结果通过C4.5算法和K-means算法分析出的规则进行预警分级，对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型；本方法包括数据收集模块、数据预处理模块、预测分析模块、预警分级模块和日常管理模块，数据收集模块与数据预处理模块连接，数据预处理模块与预测分析模块连接，预测分析模块与预警分级模块连接，预警分级模块和日常管理模块连接；其特征在于：本方法包括以下步骤：(1)基于现有的健康大数据，获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库，健康数据包括年龄、身高、体重、腰围、臀围、收缩压、舒张压、心率、血糖、血氧、睡眠质量和饮食习惯等；首先对每一个实例以糖尿病和非糖尿病进行标记；(2)对糖尿病参数数据库中的原始数据做数据预处理；预处理包括确定统一的数据项以及每一项的具体格式，具体格式为枚举型或数值型等，然后通过数据清洗和数据标准化提高原始数据的质量；(3)使用K-means算法和LogisticRegression算法的双层预测分析模型分析处理过的数据集，对每个实例属于糖尿病或是非糖尿病进行预测分类；(4)使用C4.5算法和K-means算法结合的分析模型结合现有高危人群划分标准对非糖尿病进行预警分级，提出无风险、低风险和高风险三类标识；(5)通过引入最新的糖尿病参数数据，对所有糖尿病参数数据以统一规范的数据格式进行存储并及时反馈至数据收集模块以进行进一步优化；在丰富数据集的基础上，反复步骤(2)、(3)、(4)进行训练以优化本方法的实际应用效果；所述的数据收集模块是基于现有的健康大数据，通过获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库，对每一个实例以糖尿病和非糖尿病进行标记；所述的数据预处理模块分为两个基本步骤，分别是数据清洗和数据标准化；数据清洗包括一致性检查和缺失值处理，一致性检查是根据每个变量的合理取值范围和相互关系，检查数据是否合乎要求，发现超出正常范围、逻辑上不合理或者相互矛盾的数据；缺失值处理即将数据集中缺少的值使用平均值进行替代；数据标准化是在数据清洗完成后，为避免计算过程中数值复杂度，以及避免大数值区间的属性过分支配小数值区间的属性，将所有糖尿病参数中的属性进行Normalize，规范到数值区间[0,1]，使用公式：其中x'表示糖尿病参数属性的平均值，s表示糖尿病参数属性的标准偏差，Value即糖尿病参数原属性值value进行标准化计算得到的结果；所述的预测分析模块分为两部分，分别是K-means聚类处理和LogisticRegression模型处理；使用K-means聚类算法对剔除了分类标签结果的数据集进行一级处理，设定聚类数目为2，将结果与原始数据集进行对比，剔除聚类错误的数据项，以提供更加准确的数据集进入下一阶段的处理；使用LogisticRegression模型对上述处理过的数据集进行有监督的分类处理，分析结果可得预测准确性；预警分级模块针对糖尿病数据集中的参数，根据C4.5算法和K-means算法基于现有数据分析糖尿病风险层级的规则并与糖尿病分级标准进行对比，以制定更加直接有效的预警分级标准；在此基础上，针对新数据的录入通过新的分级标准进行风险层级判断；所述的日常管理模块包含血糖记录和体征记录；血糖记录针对糖尿病用户，通过引入最新的血糖记录针记录血糖参数数据以更新糖尿病数据库；体征记录针对所有用户，管理的糖尿病参数包括心率、血压、血氧、身高体重和腰臀比数据；所有参数均以统一规范的数据格式进行存储并及时反馈至数据收集模块进行优化。2.根据权利要求1所述的一种基于机器学习的2型糖尿病预测预警方法，其特征在于：预测分析模块和预警分级模块是本方法的两大核心模块；所述的预测分析模块由K-means算法和LogisticRegression算法组成；K-means算法是典型的基于距离的聚类算法，采用距离作为相似度的度量指标，即规定对象间的距离值越小，其相似度越大；K-means算法所产生的簇都是由距离相近的对象组成，故其最终目标是找到这些紧凑且独立的簇；在K-means算法中，K值代表的是初始聚类中心的个数，聚类中心即簇，故K值的选取对聚类结果影响大；针对包含n个糖尿病实例的初始数据集，n为糖尿病实例的个数且取正整数，对应的算...

【专利技术属性】
技术研发人员：杨胜齐，吴寒，丁梦，王冰笛，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人