一种新冠肺炎轻重症预测模型的构建方法及其应用技术

技术编号:32456968 阅读:17 留言:0更新日期:2022-02-26 08:37
一种新冠肺炎轻重症预测模型的构建方法及其应用,属于医学疾病预测技术领域。为了解决新冠肺炎轻重症患者预测技术中存在的问题,提供了新冠肺炎轻重症预测模型的构建方法,包括对缺失值和极端值进行处理,构建一组能反映患者轻重症发展风险的特征集FS,构建集成模型EM来将多个基线模型优势互补,根据功能关联特征扩展缺失特征四个步骤。结果表明本发明专利技术所述的构建方法能够很好的处理缺失值和极端值,提升预测模型的多个预测性能,多个预测指标上表现很好,能取得稳定的表现。利用本发明专利技术所述的构建方法获得的新冠肺炎轻重症预测模型能够在新冠肺炎患者感染的早期阶段较为准确地预测轻重症患者,有利于对重症患者提前进行重点护理和治疗。护理和治疗。护理和治疗。

【技术实现步骤摘要】
一种新冠肺炎轻重症预测模型的构建方法及其应用


[0001]本专利技术属于医学疾病预测
,具体涉及一种新冠肺炎轻重症预测模型的构建方法及其应用。

技术介绍

[0002]在新冠肺炎患者感染的早期阶段,精准预测轻重症患者有利于分级护理措施的实施, 有利于对重症患者提前进行重点护理和治疗,从而有效提高新冠肺炎患者的治愈率,减轻 医疗系统的负担。
[0003]然而,新冠肺炎轻重症患者预测技术的性能以及应用受到多方面因素的影响,其中比较重要的有这几点:1)缺失值的处理。用于构建预测模型的数据集中常含有异常值(以缺失值为主),这些异常值往往与真实值相差甚远,从而导致预测结果产生偏差。合理的处理这些异常值有助于提高预测技术的性能;2)能够反映患者轻重症发展风险的特征集合的构建。在众多临床特征中,只有部分特征能够反映病人病情发展情况,冗余的特征甚至会降低预测方法的性能。因此,正确的构建一组特征集对提升预测技术的性能尤为重要; 3)高性能预测模型的构建。不同的预测模型在预测时往往有不同的判断方式,从而导致在不同的预测对象上的预测表现参差不齐。采取合理方式将这些模型进行优势互补,克服单一模型的缺点,可以取得更好更稳定的预测性能;4)缺失特征的处理。在预测方法的应用上,受到检测技术、医疗资源储备的影响,在对一些未知的病人预测时,可能会面临缺少所需临床特征的困难。对这些缺失特征进行扩展,有助于帮助拓宽预测方法的应用范围。

技术实现思路

[0004]为了解决上述技术问题,本专利技术提供了一种新冠肺炎轻重症预测模型的构建方法,该方法包括如下步骤:
[0005]S1、将患者特征根据功能进行分组,对缺失值和极端值进行处理:根据患者存活情况将患者分成轻症组和重症组,求出各个特征中的95百分位数值,对于极端值,使用95 百分位数值进行替换,排除极端值干扰;再根据临床特征的功能相似性,将轻症组与重症组的特征分别按照特征功能分成独立特征组、心血管组、肝肾功能组以及炎症组来分别对各组内缺失值进行填充;
[0006]S2、构建一组能反映患者轻重症发展风险的特征集FS:基于遗传算法,首先编码一组二进制位串,所述二进制位串的长度与原数据集中包含的特征数目相等,二进制位串上的每个位对应一个特征是否被选择,选择5种预测性能较好、但预测结果有差异的基线模型,再对于每个基线模型,分别构建一组特征集,最后将在半数以上基线模型特征集出现的特征进行合并,得到最终的一组特征集FS;
[0007]S3、构建集成模型EM来将多个基线模型优势互补:使用一组系数,将S2获得的5 种预测性能良好、但在预测结果有差异的基线模型进行线性组合,获得集成模型EM;
[0008]S4、根据功能关联特征扩展缺失特征,并验证预测算法:对于在外部验证集中缺失
的FS中的特征,使用功能相关联的特征进行扩展取代,在外部验证集上重复上述S1

S3 三个步骤,来对预测算法进行验证。
[0009]进一步地限定,S1所述缺失值填充的方法如下:对于心血管组、肝肾功能组及炎症组中某组内的某个特征的缺失值,选择根据组内在其他特征取值相近的3个个体在该特征的取值来估计,即某组内某一个体X
k
特征为<x
1k
,x
2k
,

,x
nk
>,其中x
nk
为缺失值,则以该组内与X
k
在其他特征距离d最近的3个个体在特征n的均值来估计x
nk
,任意个体X1与X2距离d定义为:
[0010][0011]进一步地限定,S2所述5种预测性能较好、但预测结果有差异的基线模型分别为梯度提升决策树、极度梯度提升、随机森林、线性回归以及支持向量机。
[0012]进一步地限定,S2所述对于每个基线模型分别构建一组特征集的方法如下:分别以每个基线模型的预测输出的ROC曲线下面积作为优化目标,进行200轮迭代运算,每次迭代时,保留输出的ROC曲线下面积取值在前30%的二进制位串,并通过重组和变异产生新的二进制位串,不断迭代使目标结果最大化。
[0013]进一步地限定,S3所述系数的计算基于遗传算法:首先编码一组二进制位串,每个二进制位串可解码为一个取值范围0到1之间的小数,精度达到小数点后8位,以EM模型预测输出的ROC曲线下面积为优化目标,迭代计算使输出ROC曲线下面积最大的系数,新的二进制位串重组和变异方法与S2相同。
[0014]进一步地限定,S3所述集成模型EM对每个患者的预测得分为prob
em
,等于各基线模型m
i
输出的预测值prob
i
与对应的系数c
i
的加权平均,公式如下:
[0015][0016]本专利技术还提供了一种预测新冠肺炎轻重症的方法,其特征在于,基于权利要求1

6任一一项所述的构建方法获得的新冠肺炎轻重症预测模型,所述预测新冠肺炎轻重症的方法包括如下步骤:
[0017](1)将新冠肺炎患者的临床特征输入所述的新冠肺炎重症预测模型;
[0018](2)根据所述新冠肺炎重症预测模型提供的预测得分prob
em
计算公式,输出被测患者的得分prob
em
,并依据prob
em
将被测患者分为轻型和重型。
[0019]进一步地限定,所述轻型和重型的判断标准为:当0<prob
em
<0.5时,被测患者属于新冠肺炎轻型;当prob
em
≥0.5时,被测患者属于新冠肺炎重型。
[0020]本专利技术的有益效果:
[0021]本专利技术提供了一种新冠肺炎轻重症预测模型的构建方法,先在一个较大的数据集上进 行了训练和测试,并在一个更大的独立验证集上对我们的方法进行了验证,结果表明:a) 我们的数据预处理方法能够很好的处理缺失值和极端值;b)我们构建的特征集能够很好 的帮助提升预测模型的多个预测性能;c)我们的优势互补融合方法生成的集成模型在多 个预测指标上表现很好;d)通过结合关联特征扩展方法,我们的预测算法在独立验证
(GBDT)、极度梯度提升(XGBoost)、随机森林(RF)、线性回归(LR)以及支持向量机(SVM)。
[0031]最终构建的特征集FS包含14种临床特征,分别为:年龄、血氧饱和度、血小板、平均动脉压、白细胞、淋巴细胞、国际标准化比值、D

二聚体、葡萄糖、谷丙转氨酶、白细胞介素

6、C

反应蛋白、降钙素原、肌钙蛋白。
[0032]步骤三、构建集成模型EM来将多个基线模型优势互补
[0033]使用一组系数,将步骤二获得的5个预测性能良好、但在预测结果有差异的基线模型进行线性组合。使用特征集FS中的特征对应的数据集,对各个基线模型进行100轮半对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新冠肺炎轻重症预测模型的构建方法,其特征在于,包括如下步骤:S1、将患者特征根据功能进行分组,对缺失值和极端值进行处理:根据患者存活情况将患者分成轻症组和重症组,求出各个特征中的95百分位数值,对于极端值,使用95百分位数值进行替换,排除极端值干扰;再根据临床特征的功能相似性,将轻症组与重症组的特征分别按照特征功能分成独立特征组、心血管组、肝肾功能组以及炎症组来分别对各组内缺失值进行填充;S2、构建一组能反映患者轻重症发展风险的特征集FS:基于遗传算法,首先编码一组二进制位串,所述二进制位串的长度与原数据集中包含的特征数目相等,二进制位串上的每个位对应一个特征是否被选择,选择5种预测性能较好、但预测结果有差异的基线模型,再对于每个基线模型,分别构建一组特征集,最后将在半数以上基线模型特征集出现的特征进行合并,得到最终的一组特征集FS;S3、构建集成模型EM来将多个基线模型优势互补:使用一组系数,将S2获得的5种预测性能良好、但在预测结果有差异的基线模型进行线性组合,获得集成模型EM;S4、根据功能关联特征扩展缺失特征,并验证预测算法:对于在外部验证集中缺失的FS中的特征,使用功能相关联的特征进行扩展取代,在外部验证集上重复上述S1

S3三个步骤,来对预测算法进行验证。2.根据权利要求1所述的构建方法,其特征在于,S1所述缺失值填充的方法如下:对于心血管组、肝肾功能组及炎症组中某组内的某个特征的缺失值,选择根据组内在其他特征取值相近的3个个体在该特征的取值来估计,即某组内某一个体X
k
特征为<x
1k
,x
2k
,

,x
nk
>,其中x
nk
为缺失值,则以该组内与X
k
在其他特征距离d最近的3个个体在特征n的均值来估计x
nk
,任意个体X1与X2距离d定义为:3.根据权利要求1所述的构建方法,其特征在于,...

【专利技术属性】
技术研发人员:李杰李鑫埃德温
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1