基于集成模型的脓毒症死亡率预测系统技术方案

技术编号:19967488 阅读:30 留言:0更新日期:2019-01-03 14:32
本发明专利技术公开了基于集成模型的脓毒症死亡率预测系统,包括:输入器,用于获取被测者脓毒症相关检测项目的测量值;处理器,与输入器相连,所述处理器用于对输入器获取的数据进行处理,输出脓毒症死亡率的预测值;所述处理器,包括:数据预处理模块、多维特征选择模块、集成模型构建模块和集成模型预测模块;数据预处理门口对数据进行预处理,多维特征选择模块对预处理后的特征进行特征选择,筛选出重要的特征,将重要的特征输入到集成模型构建模块构建的集成模型中,对集成模型进行训练,利用训练好的集成模型对预测及进行脓毒症死亡率的预测;本发明专利技术使得脓毒症病患的各项生理指标与死亡率建立联系,测试准确度高。

Sepsis mortality prediction system based on integrated model

The present invention discloses a sepsis mortality prediction system based on integrated model, which includes: an input device for acquiring the measured values of the sepsis-related detection items of the tested person; a processor connected with an input device, which is used to process the data acquired by the input device and output the predicted values of sepsis mortality; and a processor which includes a data preprocessing module and a multi-dimensional module. Feature selection module, integrated model building module and integrated model prediction module; data preprocessing doorway preprocessing data, multi-dimensional feature selection module for feature selection after preprocessing, screening out important features, importing important features into the integrated model of integrated model building module, training the integrated model, using the trained set. The model is used to predict and predict the mortality rate of sepsis, and the present invention makes the physiological indexes of sepsis patients relate to the mortality rate and has high test accuracy.

【技术实现步骤摘要】
基于集成模型的脓毒症死亡率预测系统
本专利技术涉及医疗数据挖掘领域,特别是涉及基于集成模型的脓毒症死亡率预测系统。
技术介绍
脓毒症是机体对感染的反应失调而导致的危及生命的器官功能障碍,是重症监护室的常见疾病及其患者死亡的主要原因之一,而且发病率和死亡率仍呈上升趋势。据统计,每年全球新增数百万脓毒症患者,其中超过四分之一的患者死亡。虽然全世界范围内的医学人士和专家都在积极进行临床研究,但是对于脓毒症临床指标的选取以及死亡率预测仍然缺乏有效的手段。选取合适的特征并进行死亡率预测是该疾病预后的一项重要工作,预测准确性越高,越有利于医生做出精准的临床决策,从而可以提高诊疗的效率。目前,基于数据挖掘和机器学习相关理论,探索基于脓毒症多维临床指标的死亡率预测系统尚未出现。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供了基于集成模型的脓毒症死亡率预测系统,基于加权投票的随机森林、GBDT和逻辑回归的集成模型,使得脓毒症病患的各项生理指标与死亡率建立联系,具有测试准确度高的有益效果。本专利技术所采用的技术方案是:基于集成模型的脓毒症死亡率预测系统,包括:输入器,用于获取被测者脓毒症相关检测项目的测量值;处理器,与输入器相连,所述处理器用于对输入器获取的数据进行处理,输出脓毒症死亡率的预测值;所述处理器,包括:数据预处理模块、多维特征选择模块、集成模型构建模块和集成模型预测模块;所述数据预处理模块,用于对被测者脓毒症相关检测项目测量值的噪声数据或缺失数据进行清洗,对清洗后的数据进行数据转换和归一化处理;所述多维特征选择模块,用于建立与被测者脓毒症相关检测项目测量值相对应特征项,将特征项作为第一样本,通过基于改进的随机森林算法对所述第一样本进行特征选择,得到被测者脓毒症相关检测项目测量值的若干个主特征子集,将若干个主特征子集构成的样本集合作为第二样本;所述集成模型构建模块,对随机森林、梯度提升树GBDT和逻辑回归三个基分类器,采用加权投票融合的方法,构建集成模型;所述集成模型预测模块,将第二样本随机分为训练集和预测集,利用训练集对集成模型进行训练,然后利用预测集对训练好的集成模型进行测试,输出脓毒症死亡率预测值。本专利技术基于加权投票的随机森林、GBDT和逻辑回归的集成模型,使得脓毒症病患的各项生理指标与死亡率建立联系,具有测试准确度高、可靠性强且较稳定的有益效果。进一步的,所述脓毒症相关检测项目,包括:ICU停留ID、患者ID、住院ID、性别、入院时间、出院时间、年龄、种族、首次ICU类型、是否在入院时死亡、是否在入院30天内死亡、吸入氧气浓度、血氧饱和度、序贯器官衰竭评分、全身炎症反应综合评分、脓毒症确诊时间、乳酸清除率、用药时间、是否进行机械通气、治疗开始时间或治疗结束时间。进一步的,所述数据预处理模块,包括:数据筛选单元,用于对被测者脓毒症相关检测项目测量值进行筛选,对乳酸清除率测量缺失值进行填充,对测量噪音值进行剔除,测量噪音值主要包括记录错误的测量指标、单位不统一的测量指标、ICU停留ID、患者ID或住院ID。数据转换单元,用于对经筛选、填充和剔除后的被测者脓毒症相关检测项目测量值进行格式转换;数据归一化单元,用于采用被测者脓毒症相关检测项目测量值的最大值和最小值对格式转换后的被测者脓毒症相关检测项目测量值进行归一化处理。进一步的,所述多维特征选择模块包括:所述欠采样单元,在n条记录的脓毒症数据集中,引入区间参数m和n,在区间之间产生变量a,以有放回的形式随机从大类样本训练集中抽取n×a个大类实例,从小类样本训练集中抽取n×(1-a)个小类实例,所述大类实例是指存活样本;所述小类实例是指死亡样本;并将抽取的大类实例与小类实例随机组合获得多个平衡数据集。所述随机森林特征选择单元,使用改进的随机森林算法,对平衡数据集中的特征进行特征选择,筛选出最重要的若干个特征作为最终分类的主特征子集。进一步的,改进的随机森林算法的具体步骤为:步骤(1):采用10折交叉验证的方法,计算欠采样后得到的平衡数据集中每个特征的重要性;步骤(2):根据决策树所做的贡献来决定权重,基于多棵决策树的判定结果对一致性高的决策树分配高的权重;步骤(3):用每个特征重要性乘以每个决策树的权重,再将乘积结果求平均即获得最终的特征重要性度量值;对最终的特征重要性度量值从高到低进行排序,获取排序靠前的设定个特征作为最终分类的主特征子集。进一步的,所述步骤(1)的具体步骤为:每个特征重要性度量值FIij的计算公式如下:其中,i代表第i个平衡数据集,j代表第j个特征,k代表第k层数据,第j个特征的特征重要性度量是由ACC和ACCFj的差值决定的,ACC代表扰动属性值前的分类准确率,ACCFj代表扰动第j个属性值后的分类准确率;ACCik表示第i个平衡数据集第k层数据扰动属性值前的分类准确率,ACCFijk表示第i个平衡数据集第k层数据扰动第j个属性值前的分类准确率。进一步的,所述步骤(2)的具体步骤为:在S条记录的测试数据集中,第i棵树的权重Wi:其中Tij表示第i棵树对第j个实例的预测结果,Ej表示对第j个实例的集成预测结果,ACCE表示集成预测的准确率。进一步的,所述步骤(3)的具体步骤为:通过每棵决策树确定所有特征的重要性度量值以后,乘以各树的权重,求平均即获得最终的特征重要性度量值FinalFIj,对最终的特征重要性度量值从高到低进行排序,获取排序靠前的设定个特征作为最终分类的特征子集。进一步的,所述集成模型构建模块,包括:基模型选取单元和集成单元;基模型选取单元,选取随机森林、GBDT以及逻辑回归三个模型;集成单元,按照加权融合的方法将三个模型构建集成预测模型;加权融合公式为:其中,wt(x)是模型ht(x)的权重,wt(x)≥0,权重由交叉验证得到的准确率决定。与现有技术相比,本专利技术的有益效果是:本专利技术提出的基于集成模型的脓毒症死亡率预测系统提出了多维特征预测方法;其次,提出了一种改进的随机森林算法实现对原始的多维特征提取,通过改进的随机森林算法提取特征子集作为主特征,提高了利用经验学习进行特征提取的弊端,使可以对特征子集进行交叉验证获取最优的特征组;最后,提出基于加权投票的随机森林、GBDT和逻辑回归的集成模型,实现了基于多维特征脓毒症死亡率预测模型,可以在不破坏原始数据结构的前提下,充分挖掘患者电子病例的原有信息,提高模式分类精度,可以极大地降低治疗成本,并有效地保证了疾病诊断的实时性。本专利技术可用于脓毒症预后预测,帮助医生做出更加精准的临床决策。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为本专利技术基于集成模型的脓毒症死亡率预测系统结构图;图2为本专利技术早晚期液体输注的死亡率对比图;图3为本专利技术早晚期液体输注的乳酸清除率对比图;图4为本专利技术特征重要性排序;图5为本专利技术不同分类器准确率对比图;图6为本专利技术ROC对比图;图7为本专利技术准确率对比图;具体实施方式应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使本文档来自技高网
...

【技术保护点】
1.基于集成模型的脓毒症死亡率预测系统,其特征是,包括:输入器,用于获取被测者脓毒症相关检测项目的测量值;处理器,与输入器相连,所述处理器用于对输入器获取的数据进行处理,输出脓毒症死亡率的预测值;所述处理器,包括:数据预处理模块、多维特征选择模块、集成模型构建模块和集成模型预测模块;所述数据预处理模块,用于对被测者脓毒症相关检测项目测量值的噪声数据或缺失数据进行清洗,对清洗后的数据进行数据转换和归一化处理;所述多维特征选择模块,用于建立与被测者脓毒症相关检测项目测量值相对应特征项,将特征项作为第一样本,通过基于改进的随机森林算法对所述第一样本进行特征选择,得到被测者脓毒症相关检测项目测量值的若干个主特征子集,将若干个主特征子集构成的样本集合作为第二样本;所述集成模型构建模块,对随机森林、梯度提升树GBDT和逻辑回归三个基分类器,采用加权投票融合的方法,构建集成模型;所述集成模型预测模块,将第二样本随机分为训练集和预测集,利用训练集对集成模型进行训练,然后利用预测集对训练好的集成模型进行测试,输出脓毒症死亡率预测值。

【技术特征摘要】
1.基于集成模型的脓毒症死亡率预测系统,其特征是,包括:输入器,用于获取被测者脓毒症相关检测项目的测量值;处理器,与输入器相连,所述处理器用于对输入器获取的数据进行处理,输出脓毒症死亡率的预测值;所述处理器,包括:数据预处理模块、多维特征选择模块、集成模型构建模块和集成模型预测模块;所述数据预处理模块,用于对被测者脓毒症相关检测项目测量值的噪声数据或缺失数据进行清洗,对清洗后的数据进行数据转换和归一化处理;所述多维特征选择模块,用于建立与被测者脓毒症相关检测项目测量值相对应特征项,将特征项作为第一样本,通过基于改进的随机森林算法对所述第一样本进行特征选择,得到被测者脓毒症相关检测项目测量值的若干个主特征子集,将若干个主特征子集构成的样本集合作为第二样本;所述集成模型构建模块,对随机森林、梯度提升树GBDT和逻辑回归三个基分类器,采用加权投票融合的方法,构建集成模型;所述集成模型预测模块,将第二样本随机分为训练集和预测集,利用训练集对集成模型进行训练,然后利用预测集对训练好的集成模型进行测试,输出脓毒症死亡率预测值。2.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统,其特征是,所述脓毒症相关检测项目,包括:ICU停留ID、患者ID、住院ID、性别、入院时间、出院时间、年龄、种族、首次ICU类型、是否在入院时死亡、是否在入院30天内死亡、吸入氧气浓度、血氧饱和度、序贯器官衰竭评分、全身炎症反应综合评分、脓毒症确诊时间、乳酸清除率、用药时间、是否进行机械通气、治疗开始时间或治疗结束时间。3.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统,其特征是,所述数据预处理模块,包括:数据筛选单元,用于对被测者脓毒症相关检测项目测量值进行筛选,对乳酸清除率测量缺失值进行填充,对测量噪音值进行剔除,测量噪音值主要包括记录错误的测量指标、单位不统一的测量指标、ICU停留ID、患者ID或住院ID;数据转换单元,用于对经筛选、填充和剔除后的被测者脓毒症相关检测项目测量值进行格式转换;数据归一化单元,用于采用被测者脓毒症相关检测项目测量值的最大值和最小值对格式转换后的被测者脓毒症相关检测项目测量值进行归一化处理。4.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统,其特征是,所述多维特征选择模块包括:所述欠采样单元,在n条记录的脓毒症数据集中,引入区间参数m和n,在区间之间产生变量a,以有放回的形式随机从大类样本训练集中抽取n×a个大类实例,从小类样本训练集中抽取n×(1-a)个小类实例,所述大类实例是指存活样本;所述...

【专利技术属性】
技术研发人员:王红刘海燕王露潼房有丽狄瑞彤周莹王倩宋永强张伟胡斌
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1