一种用血液检测数据对COVID-19进行诊断和预后的可解释方法技术

技术编号:38876664 阅读:15 留言:0更新日期:2023-09-22 14:09
在这项发明专利技术将使用一个集成学习模型(REGX)中来进行COVID

【技术实现步骤摘要】
一种用血液检测数据对COVID

19进行诊断和预后的可解释方法


[0001]本专利技术涉及生物信息学领域,具体是一种基于集成学习模型的用血液检测数据识别和预后新冠患者的预测方法。

技术介绍

[0002]人们对利用机器学习工具来对抗 COVID

19 大流行有着浓厚的兴趣,比如通过促进疾病诊断和预后、预测、预防、治疗和管理、疾病监测和抗病毒药物。多项临床研究表明 COVID

19 患者的血液参数表现出相当大的变化,这些参数的识别可以在 COVID

19的初步筛查中发挥关键作用。即使是经验丰富的医生也很难完全提取出常规血液检测中包含的一切信息。然而,机器学习算法却可以有效学习和区分在常规血液测试参数中观察到的各种联系。因此,一些初步努力已经开始开发用于从常规血液样本中诊断COVID

19 和死亡率的人工智能方法。
[0003]COVID

19 的临床诊断基于临床表现、RT

PCR(逆转录酶聚合酶链反应)、胸部 X 光或 CT 扫描对病毒基因组进行分子诊断,以及血清学血液检测。有可疑症状和流行病学史的患者通常要接受三项初步的测试:SARS

Cov

2 RNA 确认 SARS

Cov

2 感染、血常规测试和胸部 CT 扫描以初步评估 COVID

19 的严重程度。目前来说,大部分的国家选择的是对呼吸道样本进行逆转录酶聚合酶链反应的检测。突发公共卫生事件需要前所未有的全球努力来提高检测能力。由于病毒在全球范围内传播,对 rRT

PCR 检测(也通常称为鼻咽拭子检测)的大量需求暴露了这种诊断在大规模上的局限性,例如:周转时间长(平均超过2 到 3 小时产生结果);需要经过认证的实验室;经过培训的人员;设备昂贵和对试剂的需求大于供给。此外,全球范围之内缺少 RT

PCR 检测试剂盒。快速抗原检测是一种筛查测试,可在 15 分钟内识别出 COVID 阳性患者,但灵敏度低于 PCR 测试。因此,迫切寻求其他便宜且更容易获取的测试方法或补充方法是必不可少的。
[0004]尽管超过80%的COVID

19 患者为轻度至中度病例,不需要住院就可以康复,但仍有约 14% 的患者为重症病例,5% 的患者为重危病例。重危重症病例往往在感染仅仅后两周内就会发展为急性呼吸窘迫综合征(ARDS)或多器官功能障碍综合征(MODS),消耗大部分医疗资源并导致高病死率(高达 49 %) 。早期预测 COVID

19 有助于快速对患者进行分类(即隔离、住院或 ICU 分配等),优化医疗资源的使用和及时的医疗干预 。
[0005]利用ML框架来进行基于血液测试的COVID

19早期检测和预后将为之前昂贵且麻烦的测试(例如对CT和 RT

PCR的研究)提供更快速更便宜的替代方案。这样的系统将对一些缺乏检测试剂盒、实验室用品和 PCR 相关检查的专业中心的发展中国家和低收入国家产生重大影响。这种快速且廉价的系统的其他主要优势包括加快患者流动和加快诊断潜在感染患者的结果,从而有效遏制大流行。

技术实现思路

[0006]本专利技术提出一种基于集成学习模型的机器学习框架REGX。在血液检测数据识别方面,REGX不需要依靠任何别的生物学特征,相比于最先进的方法具有更高的准确度和更均衡的识别能力。
[0007]以下是实现本专利技术目的的技术方案,包含如下步骤:1)构建血液检测数据集:有18项实验室特征对COVID

19的诊断具有重要的作用,因此擦除了多余的实验室特征;2)数据预处理:使用k近邻和隔离林来对血液测试原数据进行预处理,之后将数据集划分为80%的训练集和20%的测试集,并将训练集使用SMOTE进行处理;3)获得预测结果:在第一层使用四种树结构的机器学习分类器来对训练样本预测,并将预测结果传输给第二层的SVM来对患者进行精确识别(REGX);4)可解释性:使用 SHAP 和 scikit

learn 事后可解释性来报告特征重要性,使得医护人员和AI模型进行交互,以建议一些医生可能忽略的生物标志物;5)堆叠模型的第一级使用了十折交叉验证和数据混洗。每次重复都会随机抽取数据,其中 80% 的数据集为训练数据,20% 的数据集用来测试模型性能;6)模型评估:使用敏感性、特异性、准确率、Recall、AUC、F1

score六个评估指标衡量模型。
附图说明
[0008]图1为用血液检测数据对新冠进行诊断的预测方法的流程图。
具体实施方式
[0009]下面结合附图阐明本专利技术的具体实施方式,附图仅仅是为了说明目的,并不能理解为对本专利技术的限定,附图仅供参考和说明使用,不构成对本专利技术专利保护范围的限制,因为在不脱离本专利技术精神和范围基础上,可以对本专利技术进行许多改变。
[0010]如图1所示,模型使用两级分类器,第一级分类器(ET、RF、GBDT、XGB)的输出被输送至第二级分类器(SVC)来提高整体分类器的性能。第一阶段,首先对数据进行预处理。使用KNN算法处理空值、使用隔离林来处理异常数据、使用过采样SMOTE方法来平衡数据集,处理之后的数据会被用作集成模型的输入。第二阶段,利用集成模型对数据集进行分类,并利用AUC、准确性、敏感性和特异性对模型性能进行评估。本文中的实验结果来自100次重复,每次重复经历了数据混洗,其中80%的数据集为训练集,20%的数据集为测试集。第三阶段,为了解释模型,本文利用Feature_ Importances和SHAP来评估每个特征对于预测的贡献,以此来显示一些医生可能忽略的重要特征标志物。本文所采用的数据集详细信息如表1所示。
[0011]表1. 血液检测数据集信息数据集特征特征数
Dataset1Patientagequantile,Hematocrit,Hemoglobin,Platelets,RedBloodCells,Lymphocytes,Leukocytes,Basophils,Eosinophils,Monocytes,SerumGlucose,Neutrophils,Urea,Creactiveprotein,Creatinine,Potassium,Sodium,AlanineTransaminase,Aspartatetransaminase19Dataset2Gender,Age,Leukocytes(WBC),lymphocytecount(LYNC),lymphocyteratio(LYMPH),neutrophilcount(NEUT),neutrophilratio(NEU),neutrophiltolymphocyteratio(NLR)8
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用血液检测结果对新冠进行诊断和预后的预测方法,其模型含如下步骤:1)构建血液检测数据集:有18项实验室特征对COVID

19的诊断具有重要的作用,因此擦除了多余的实验室特征;2)数据预处理:使用k近邻和隔离林来对血液测试原数据进行预处理,之后将数据集划分为80%的训练集和20%的测试集,并将训练集使用SMOTE进行处理;3)获得预测结果:在第一层使用四种树结构的机器学习分类器来对训练样本预测,并将预测结果传输给第二层的SVM来对患者进行精确识别(REGX);4)可解释性:使用 SHAP 和 scikit

learn 事后可解释性来报告特征重要性,使得医护人员和AI模型进行交互,以建议一些医生可能忽...

【专利技术属性】
技术研发人员:樊永显刘梦孙贵聪卢茜倩潘应捷王晨李雪萍郭智郑梦鑫
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1