一种多疾病风险预测模型训练方法技术

技术编号:36601366 阅读:20 留言:0更新日期:2023-02-04 18:16
本发明专利技术公开了一种多疾病风险预测模型训练方法,通过数据采集模块进行原始数据进行获取,然后进行数据转换,并通过SparkStreaming实时流处理系统,进行数据规则过滤及数据清洗,并进行数据标准化结构化处理;将处理好的数据进行分为训练集和验证集两部分;通过Spark分析、挖掘数据,通过神经网络进行模型训练,得到疾病训练的的模型,再对模型进行评估;具体通过验证集对模型进行评估验证;并通过验证集的数据对模型进行参数优化;输出预测模型,并通过预测数据输入预测模型中;输出预测结果。本发明专利技术基于历史数据的真理和模型训练,并通过训练模型进行预测疾病数据,能帮助医生进行病情评估和诊断疗程的进行预判,帮助病人了解病情发展情况。了解病情发展情况。了解病情发展情况。

【技术实现步骤摘要】
一种多疾病风险预测模型训练方法


[0001]本专利技术涉及疾病预测
,具体为一种多疾病风险预测模型训练方法。

技术介绍

[0002]医学发展的重点任务从防病治病转向健康维护,医学模式从单纯的疾病治疗模式转向预防(prevention)、预测(prediction)、个体化 (personal-ization)和患者参与(participation)为主的4P医学模式,面对医学复杂性的挑战,临床研究方法学体系也在不断发展。近年来,真实世界研究(RWS)日益被广泛接受。RWS遵照循证医学的理念,在积累足够数量观察数据的基础上,应用流行病学、卫生统计学、信息科学等方法和技术,探索干预措施在现实状况下的疾病风险、临床终点事件、生活质量、卫生经济学等指标,已成为临床评价领域不可或缺的重要组成。对基于真实世界数据的疾病风险预测模型进行研究,旨在为疾病的风险预测提供帮助,所以就需要一种多疾病风险预测模型训练方法。

技术实现思路

[0003]本专利技术的目的在于提供一种多疾病风险预测模型训练方法;基于历史数据的真理和模型训练,并通过训练模型进行预测疾病数据,能帮助医生进行病情评估和诊断疗程的进行预判,帮助病人了解病情发展情况。
[0004]本专利技术是这样实现的:
[0005]一种多疾病风险预测模型训练方法,包括数据采集模块和与数据采集模块相连接的服务器平台,所述数据采集模块包括原始疾病数据获取模块、数据转换模块、数据清洗模块和数据标准化、结构化模块,与数据采集模块连接有模型训练模块,通过模型训练完毕后通过输出预测结果模块进行输出模型训练结果。所述服务器平台为PaaS平台。
[0006]进一步、本专利技术提供一种多疾病风险预测模型训练方法,其特征在于,具体按以下步骤执行:
[0007]S1:通过数据采集模块进行原始数据进行获取,然后进行数据转换,并通过SparkStreaming实时流处理系统,进行数据规则过滤及数据清洗,并进行数据标准化结构化处理;
[0008]S2:将处理好的数据进行分为训练集和验证集两部分;其中训练集和验证集的数据比例为7:3。
[0009]S3:通过Spark分析、挖掘数据,通过神经网络进行模型训练,得到疾病训练的的模型,再对模型进行评估;
[0010]S4:具体通过验证集对模型进行评估验证;
[0011]S5:并通过验证集的数据对模型进行参数优化;
[0012]S6:输出预测模型,并通过预测数据输入预测模型中;
[0013]S7:输出预测结果。
[0014]进一步,在步骤S3中,采用Catboost、LightGBM、XGBoost、 GBDT、Adaboost、SVM、
MLP中的一种或多种机器学习算法挖掘电子病历数据中的信息进行临床终点预测,具体包括疾病诊断、死亡率、住院时长、无计划再入院的临床终点事件的预测。
[0015]进一步、本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被主控制器执行时实现如上述中任一项所述的方法。
[0016]与现有技术相比,本专利技术的有益效果是:
[0017]1、通过扩大早期预防和筛查的覆盖减少老龄化趋势下的诊疗压力,解决复杂医疗临床、科研及管理问题。
[0018]2、基于历史数据的真理和模型训练,并通过训练模型进行预测疾病数据,能帮助医生进行病情评估和诊断疗程的进行预判,帮助病人了解病情发展情况。
附图说明
[0019]为了更清楚地说明本专利技术实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0020]图1是本专利技术的系统图。
具体实施方式
[0021]为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结合本专利技术实施方式中的附图,对本专利技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本专利技术一部分实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。因此,以下对在附图中提供的本专利技术的实施方式的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。
[0022]请参阅图1,一种多疾病风险预测模型训练方法,包括数据采集模块和与数据采集模块相连接的服务器平台,所述数据采集模块包括原始疾病数据获取模块、数据转换模块、数据清洗模块和数据标准化、结构化模块,与数据采集模块连接有模型训练模块,通过模型训练完毕后通过输出预测结果模块进行输出模型训练结果。所述服务器平台为PaaS平台。
[0023]本实施例中、本专利技术提供一种多疾病风险预测模型训练方法,其特征在于,具体按以下步骤执行:
[0024]S1:通过数据采集模块进行原始数据进行获取,然后进行数据转换,并通过SparkStreaming实时流处理系统,进行数据规则过滤及数据清洗,并进行数据标准化结构化处理;
[0025]S2:将处理好的数据进行分为训练集和验证集两部分;其中训练集和验证集的数据比例为7:3。
[0026]S3:通过Spark分析、挖掘数据,通过神经网络进行模型训练,得到疾病训练的的模型,再对模型进行评估;
[0027]S4:具体通过验证集对模型进行评估验证;
[0028]S5:并通过验证集的数据对模型进行参数优化;
[0029]S6:输出预测模型,并通过预测数据输入预测模型中;
[0030]S7:输出预测结果。
[0031]本实施例中,在步骤S3中,采用Catboost、LightGBM、 XGBoost、GBDT、Adaboost、SVM、MLP中的一种或多种机器学习算法挖掘电子病历数据中的信息进行临床终点预测,具体包括疾病诊断、死亡率、住院时长、无计划再入院的临床终点事件的预测。
[0032]本实施例中、本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被主控制器执行时实现如上述中任一项所述的方法。
[0033]以上所述仅为本专利技术的优选实施方式而已,并不用于限制本专利技术,对于本领域的技术人员来说,本专利技术可以有各种更改和变化。凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多疾病风险预测模型训练系统,其特征在于,包括数据采集模块和与数据采集模块相连接的服务器平台,所述数据采集模块包括原始疾病数据获取模块、数据转换模块、数据清洗模块和数据标准化、结构化模块,与数据采集模块连接有模型训练模块,通过模型训练完毕后通过输出预测结果模块进行输出模型训练结果。2.根据权利要求1所述的一种多疾病风险预测模型训练系统,其特征在于,所述服务器平台为PaaS平台。3.一种多疾病风险预测模型训练方法,其特征在于,具体按以下步骤执行:S1:通过数据采集模块进行原始数据进行获取,然后进行数据转换,并通过SparkStreaming实时流处理系统,进行数据规则过滤及数据清洗,并进行数据标准化结构化处理;S2:将处理好的数据进行分为训练集和验证集两部分;S3:通过Spark分析、挖掘数据,通过神经网络进行模型训练,得到疾病训练的的模型,再对...

【专利技术属性】
技术研发人员:陈鄞杰林继浦绍将杨光明赵亚霖
申请(专利权)人:云南达远软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1