当前位置: 首页 > 专利查询>周凡专利>正文

一种基于体检报告聚类分析的疾病预测方法技术

技术编号:21895925 阅读:45 留言:0更新日期:2019-08-17 16:06
本发明专利技术公开了一种基于体检报告聚类分析的疾病预测方法。本发明专利技术首先在体检报告上应用聚类算法分类,之后再统计每个类别中老体检报告后续诊断结果所反映的疾病种类及数量,估算同一类中新体检报告体检者患各种疾病的概率,进而进行疾病预测。本发明专利技术使用机器学习中的聚类算法,与传统概率统计处理方法比效果更佳,减轻了人力财力,且充分挖掘了海量体检数据以及数据间的深度联系信息;拓展了疾病预测的方案,使得体检者可以第一时间根据体检数据获得可能患病的信息,给出就诊或健康建议。

A Method of Disease Prediction Based on Cluster Analysis of Physical Examination Report

【技术实现步骤摘要】
一种基于体检报告聚类分析的疾病预测方法
本专利技术涉及机器学习及数据分析
,具体涉及一种基于体检报告聚类分析的疾病预测方法。
技术介绍
大数据时代已经到来,智慧医疗产业也在加速试水,体检报告智能化使健康体检有了更加优质、便捷、高效的体验。大数据的利用可对海量数据进行深度加工和挖掘,精细、动态和智慧的管理体检者的健康。健康大数据还提供具备实时知识产出能力的持续学习型基础设施,开发具有预防性、预测性和可参与性的医疗系统。体检报告智能化将能够提供全程健康医疗服务和管理,预测体检者健康隐患,对可能发生的疾病做到提前预警,给予干预和早期特异性治疗,降低患病风险。实现疾病预防诊疗的科学化管理。大数据中包含的信息具有很高的价值。聚类分析将特征相近的空间实体划分为不同的组,使不同组间的差别尽可能大,同一组内的差别尽可能小。聚类分析在心理学研究中、生物学研究中和模式识别以及数据挖掘等领域中都起着重要的作用。K-Medoids是常用的空间聚类算法,利用中心点(Medoids)作为聚类中心,有效排除了K-Means算法中异常值的影响。Kaufman和Rousseeuw在1990年提出的PAM(PartitioningAroundMedoids)被认为是最有效K-Medoids算法之一。k-medoids聚类算法的基本策略是:首先为每个簇随意选择选择一个代表对象;剩余的对象根据其与代表对象的距离分配给近的一个簇。然后反复地用非代表对象来替代代表对象,以改进聚类的质量。PAM利用了贪婪搜索,不一定可以找到最优解,但是比穷尽搜索更快。PAM算法的优势在于:PAM算法比K-平均算法更健壮,对“噪声”和孤立点数据不敏感;它能够处理不同类型的数据点;它对小的数据集非常有效。现有的技术有医院有关部门使用Excel软件利用传统概率统计知识进行体检报告的数据分析方法,具体步骤如下:1.人为挖掘体检报告样本中各项指标的生化含义,找到不同体检项目间、体检项目与病理间的联系,挖掘统计学问题;2.针对问题,使用简单的数学运算、统计、快速傅里叶变换、平滑和滤波、基线和峰值分析等对各项指标数据进行分析;3.将分析的结果转化为信息,通常用方法有:各种图表工具,即排列图、因果图、直方图、分层图、调查表、散步图、控制图关联图、系统图、矩阵图等等。这种方法的缺点在于:1.只能做简单的概率统计学运算。不能较为全面地挖掘体检数据之间的联系及深层潜在的信息,如:无法实现每份体检报告基于各项指标相似性远近的自动分类。2.只能处理较小的、数值型数据构成的数据集,不能处理海量、多维、混合数据类型的数据集。3.传统方法分析海量数据费时费力,效率低下,效果不佳。
技术实现思路
本专利技术的目的是克服现有方法的不足,提出了一种基于体检报告聚类分析的疾病预测方法。本专利技术解决的问题主要有两个:一是如何利用聚类算法训练一个分类模型,可以使得海量的新老体检报告按照各自特征(主要是各体检项目指标数据)进行自动分类,其中主要的技术难点是体检各项指标的构成是混合型数据,以及如何评判聚类效果的好坏以矫正聚类算法的参数,从而达体检报告分类的最佳效果;二是如何根据聚类的结果进行疾病预测。为了解决上述问题,本专利技术提出了一种基于体检报告聚类分析的疾病预测方法,所述方法包括:步骤一,从医院数据库中获取体检报告,以及这些报告所有者的后续诊断结果,组成体检报告数据库。并将数据集划分训练集和测试集;步骤二,运用统计学方法将体检报告依据后续诊断疾病类型分为K类,也即为聚类簇中心数K,可以有多个K值备选;步骤三,针对体检项目的不同数据类型及数量单位,对数据集体检报告各项目数据进行标准化处理,最终得到标准化后的数据矩阵,之后初始化权重参数W;步骤四,用权重参数W和运用欧氏距离公式计算标准化后的数据矩阵间的相异性矩阵D;步骤五,利用聚类算法根据相异性矩阵D进行体检报告的聚类,使得数据集体检报告被分到K个簇;步骤六,根据测试集里面被错误分类的体检报告的数量来计算测试集数据的损失值Ltest大小;步骤七,调整权重参数W后重复步骤四~六,直至损失值Ltest最小,即得到当前K值下的最优聚类模型;步骤八,更换K值,重复步骤五~七,将体检报告聚到K个不同的类别;步骤九,计算每一个K值下的轮廓系数,以及考虑损失值Ltest大小,来确定最佳的聚类个数K,选出最优聚类模型;步骤十,拿需要被分类的没有诊断结果的体检报告,用训练好的模型进行聚类,针对聚类结果进行疾病预测;步骤十一,对疾病进行智能建议。本专利技术提出的一种基于体检报告聚类分析的疾病预测方法,使用机器学习中的聚类算法,与传统概率统计处理方法比效果更佳,减轻了人力财力,且充分挖掘了海量体检数据以及数据间的深度联系信息;拓展了疾病预测的方案,使得体检者可以第一时间根据体检数据获得可能患病的信息,给出就诊或健康建议。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术实施例的基于体检报告聚类分析的疾病预测方法流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1是本专利技术实施例的基于体检报告聚类分析的疾病预测方法流程图,如图1所示,该方法包括:S1,从医院数据库中获取体检报告,以及这些报告所有者的后续诊断结果,组成体检报告数据库。并将数据集划分训练集和测试集;S2,运用统计学方法将体检报告依据后续诊断疾病类型分为K类,也即为聚类簇中心数K,可以有多个K值备选;S3,针对体检项目的不同数据类型及数量单位,对数据集体检报告各项目数据进行标准化处理,最终得到标准化后的数据矩阵,之后初始化权重参数W;S4,用权重参数W和运用欧氏距离公式计算标准化后的数据矩阵间的相异性矩阵D;S5,利用聚类算法根据相异性矩阵D进行体检报告的聚类,使得数据集体检报告被分到K个簇;S6,根据测试集里面被错误分类的体检报告的数量来计算测试集数据的损失值Ltest大小;S7,调整权重参数W后重复S4~S6,直至损失值Ltest最小,即得到当前K值下的最优聚类模型;S8,更换K值,重复S5~S7,将体检报告聚到K个不同的类别;S9,计算每一个K值下的轮廓系数,以及考虑损失值Ltest大小,来确定最佳的聚类个数K,选出最优聚类模型;S10,拿需要被分类的没有诊断结果的体检报告,用训练好的模型进行聚类,针对聚类结果进行疾病预测;S11,对疾病进行智能建议。步骤S1,具体如下:S1-1:从医院患者就医信息管理系统获取近三年的体检报告,以及每份报告拥有者的后续诊断结果,作为它们的标签。标签一般为疾病类型,如:1-急性胰腺炎、2-维生素缺乏症、3-糖尿病、4-…、5-…,等等。另外为防止这些报告缺失后续诊断结果,需剔除近三个月体检报告;S1-2:从体检报告库中随机选取80%的体本文档来自技高网
...

【技术保护点】
1.一种基于体检报告聚类分析的疾病预测方法,其特征在于,所述方法包括:步骤一,从医院数据库中获取体检报告,以及这些报告所有者的后续诊断结果,组成体检报告数据库。并将数据集划分训练集和测试集;步骤二,运用统计学方法将体检报告依据后续诊断疾病类型分为K类,也即为聚类簇中心数K,可以有多个K值备选;步骤三,针对体检项目的不同数据类型及数量单位,对数据集体检报告各项目数据进行标准化处理,最终得到标准化后的数据矩阵,之后初始化权重参数W;步骤四,用权重参数W和运用欧氏距离公式计算标准化后的数据矩阵间的相异性矩阵D;步骤五,利用聚类算法根据相异性矩阵D进行体检报告的聚类,使得数据集体检报告被分到K个簇;步骤六,根据测试集里面被错误分类的体检报告的数量来计算测试集数据的损失值Ltest大小;步骤七,调整权重参数W后重复步骤四~六,直至损失值Ltest最小,即得到当前K值下的最优聚类模型;步骤八,更换K值,重复步骤五~七,将体检报告聚到K个不同的类别;步骤九,计算每一个K值下的轮廓系数,以及考虑损失值Ltest大小,来确定最佳的聚类个数K,选出最优聚类模型;步骤十,拿需要被分类的没有诊断结果的体检报告,用训练好的模型进行聚类,针对聚类结果进行疾病预测;步骤十一,对疾病进行智能建议。...

【技术特征摘要】
1.一种基于体检报告聚类分析的疾病预测方法,其特征在于,所述方法包括:步骤一,从医院数据库中获取体检报告,以及这些报告所有者的后续诊断结果,组成体检报告数据库。并将数据集划分训练集和测试集;步骤二,运用统计学方法将体检报告依据后续诊断疾病类型分为K类,也即为聚类簇中心数K,可以有多个K值备选;步骤三,针对体检项目的不同数据类型及数量单位,对数据集体检报告各项目数据进行标准化处理,最终得到标准化后的数据矩阵,之后初始化权重参数W;步骤四,用权重参数W和运用欧氏距离公式计算标准化后的数据矩阵间的相异性矩阵D;步骤五,利用聚类算法根据相异性...

【专利技术属性】
技术研发人员:周凡
申请(专利权)人:周凡
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1