一种可解释机器学习模型诊断肝炎患者的预测方法技术

技术编号：39785502 阅读：7 留言：0更新日期：2023-12-22 02:26

本发明专利技术公开了一种根据血液检测结果诊断肝炎患者的可解释机器学习预测方法，其特征在于主要包含以下步骤：获取肝炎患者的血液检测结果以及肝炎诊断状况；对缺失值进行处理，并使用数据均衡策略，获得

全部详细技术资料下载

【技术实现步骤摘要】
一种可解释机器学习模型诊断肝炎患者的预测方法

[0001]本专利技术涉及计算生物学领域，具体是一种基于可解释机器学习模型诊断肝炎患者的预测方法
。

技术介绍

[0002]肝脏在人体中许多基本功能中都起着重要作用，因此，对肝脏的任何损害都有可能对重要的生理功能产生不利影响，影响患者的身体健康状况
。
与此同时，肝病的早期阶段往往难以诊断，因为即使部分感染，也并不影响肝脏的正常工作
。
所以这为医生在早期诊断肝病创造了难题
。
[0003]能够在早期诊断肝炎，对于医生与患者而言，都是十分必要的
。
其中，丙型肝炎是由丙型肝炎病毒（
HCV
）引起的肝脏炎症，是慢性肝炎
、
肝硬变和肝细胞癌的主要全球病因
。
全球估计有
5800
万人感染慢性肝炎病毒，每年约新感染
150
万人
。
世卫组织估计，
2019 年约有 29 万人死于丙型肝炎，主要死于肝硬化和肝细胞癌（原发性肝癌）
。
因此，为了提高肝病患者的存活率，早期发现仍然是最好的选择
。如今，机器学习技术正迅速的应用于不同的医疗应用，例如慢性肾脏疾病，心脏病，和糖尿病等
。
这种技术使用大型数据集
、
统计方法来识别患者医疗属性和结果之间的复杂关系
。
目前利用机器学习使用的两个主要医学领域是诊断和预后
。/>特别是，机器学习对于识别患者是否健康恶化来说是一个非常有价值的工具，已经有很多应用机器学习技术来对患者进行诊断的研究
。
[0004]在过去的几年里，有很多研究都使用了机器学习技术来研究肝炎
。
然而，虽然这些方法在准确率方面都有所提升，但由于其内部设计，它们都是像黑匣子一样工作，也就是说它们形成预测的潜在原因尚不清楚
。
因此，研究一个高精度且具有可解释性的机器学习预测方法是十分必要的
。

技术实现思路

[0005]本专利技术提出一种基于可解释机器学习模型的肝炎诊断预测方法
IHCP。
在肝炎诊断方面，
IHCP
不需要进行侵入性检测同时兼具可解释性，相比于最先进的方法具有更高的准确度和更透明的预测过程
。
[0006]以下是实现本专利技术目的的技术方案，包含如下步骤：1）收集肝炎患者数据集：获取肝炎患者的血液检测结果以及肝炎诊断状况；2）数据预处理：对缺失值进行处理，并使用数据均衡策略，获得
540
条正样本和等数量的负样本；3）预测模型：使用黑盒模型随机森林
、
支持向量机和
AdaBoost
进行预测；4）模型优化：使用贝叶斯优化和网格优化算法对模型进行处理；5）获取预测结果：选择精度最优的模型作为最终预测模型并输出预测结果；6）采用五折交叉验证的评估方式对模型性能进行评估，也即将步骤1）中构建的数据集随机分为5组，4组用来训练，1组用于测试；
7
）模型评估：根据步骤5）中的测试结果，使用
AUC、
准确率
、
精确度
、F1
‑
score、
召回率五个评估指标衡量模型；8）模型解释：使用
SHAP
对步骤5）中选取出的模型进行全局解释，使用
LIME
对预测结果进行局部解释
。
附图说明
[0007]图1为肝炎患者诊断的预测方法的流程图
。
图2为预测器与之前提出方法的性能比较
。
具体实施方式
[0008]下面结合附图阐明本专利技术的具体实施方式，附图仅仅是为了说明目的，并不能理解为对本专利技术的限定，附图仅供参考和说明使用，不构成对本专利技术专利保护范围的限制，因为在不脱离本专利技术精神和范围基础上，可以对本专利技术进行许多改变
。
[0009] 如图1所示，图1展示了这项工作的一般工作流程，首先，收集相关的肝炎数据集
。
其次，对肝炎数据集进行预处理，包括数据清洗
、
缺失值填补
、
数据平衡等过程，数据清洗是清洗与预测无关的变量或特殊离散值，缺失值填补依据数据集的状态选择合适的方法填充数据，数据平衡根据数据类别的对比情况对数据进行过采样或欠采样处理
。
然后，将处理好的数据集分为训练集和测试集，进行训练并评估最佳模型，使用黑盒模型随机森林
、
支持向量机和
AdaBoost
进行预测
。
预测完成后，采用五折交叉验证的评估方式对模型性能进行评估
。
最后，应用
SHAP
和
LIME
来分析得出的实验结果
。
[0010]表
1. 肝炎患者收集信息以及数据缺失情况数据集特征特征缺失情况
Category0Age0Sex0ALB1ALP18ALT1AST0BIL0CHE0CHOL10CREA0GGT0PROT1
[0011]表
2. 所选模型的超参数设置超参数超参数值
n_estimators500max_depth70
max_features2min_samples_splitNonemin_samples_leafNonemax_leaf_nodesNone
[0012]采用五折交叉验证的评估方式对模型性能进行评估，也即将4中构建的数据集随机分为5组，4组用来训练，1组用于测试
。
模型评估：根据测试结果，使用
AUC、
准确率
、
精确度
、F1
‑
score、
召回率五个评估指标衡量模型，如图2所示
。
图2展示了
IHCP
方法和最新先进的方法的实验对比结果
。
结果表明，我们专利技术的方法相比最先进的方法，预测准确率更高，预测过程更透明
。
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种根据血液检测结果诊断肝炎患者的可解释机器学习预测方法，其过程包括如下步骤：1）收集肝炎患者数据集：获取肝炎患者的血液检测结果以及肝炎诊断状况；2）数据预处理：对缺失值进行处理，并使用数据均衡策略，获得
540
条正样本和等数量的负样本；3）预测模型：使用黑盒模型随机森林
、
支持向量机和
AdaBoost
进行预测；4）模型优化：使用贝叶斯优化和网格优化算法对模型进行处理；5）获取预测结果：选择精度最优的模型作为最终预测模型并输出预测结果；6）采用五折交叉验证的评估方式对模型性能进行评估，也即将步骤1）中构建的数据集随机分为5组，4组用来训练，1组用于测试；7）模型评估：根据步骤5）中的测试结果，使用
AUC、
准确率
...

【专利技术属性】
技术研发人员：樊永显，卢茜倩，孙贵聪，刘梦，潘应捷，郑梦鑫，王晨，李雪萍，郭智，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人