一种基于机器学习算法的胆管癌诊断模型及其构建方法和应用技术

技术编号:37060858 阅读:16 留言:0更新日期:2023-03-29 19:38
本发明专利技术涉及人工智能技术领域,具体涉及一种基于机器学习算法的胆管癌诊断模型的构建方法,包括如下步骤:(1)获取样本集;(2)构建随机森林模型;(3)构建LASSO模型获取最优模型;(4)模型验证;通过随机森林和LASSO模型筛选出6项最优参数,最优参数包括簇集蛋白,间接胆红素,低密度脂蛋白胆固醇,γ

【技术实现步骤摘要】
一种基于机器学习算法的胆管癌诊断模型及其构建方法和应用


[0001]本专利技术涉及人工智能
,具体涉及一种基于机器学习算法的胆管癌诊断模型及其构建方法和应用。

技术介绍

[0002]胆管癌(CCA)是一种高度侵袭性的恶性肿瘤,起源于胆管上皮细胞,可发生在从肝内胆管到胆总管末端的任何部位。根据病变的解剖部位,CCA可分为肝内胆管癌(iCCA)和肝外胆管癌(eCCA),肝外胆管癌又可分为肝门部胆管癌(pCCA)和远端胆管癌(dCCA)
[1]。胆管癌是继肝细胞癌后肝胆系统中第二常见的恶性肿瘤,约占所有胃肠道肿瘤的3%
[1]。胆管癌预后不良,其中一个重要原因是诊断困难,胆管癌患者临床确诊时往往已经处于晚期
[2]。由于其临床特征不明显并且解剖位置较深,早期诊断胆管癌比较困难,目前的诊断方法主要包括放射学、内窥镜和实验室分析。胆管癌最常用的诊断方法是影像学检测,如计算机断层扫描、磁共振成像和内窥镜检查,但这些检查的准确性均不高,灵敏度约为60%。血清CA19

9可用于胆管癌诊断,但其敏感性和特异性仅为60%~65%
[3]。此外,细菌性胆管炎或胆总管结石等良性狭窄患者的血清CA19

9水平也会升高。在胆管癌的临床鉴别诊断中,一个巨大的困难是准确的区分胆管癌与良性胆管狭窄,例如胆管结石和胆管炎,他们也会导致胆管壁增厚和胆管扩张。
[0003]胆汁主要由肝细胞和胆管上皮细胞分泌,胆汁成分的变化可以直接反应胆道疾病引起的胆道环境变化。胆管癌源于胆管上皮细胞恶性转化,胆管癌中的肿瘤相关蛋白可分泌到胆汁中,因此胆汁中的这些分泌蛋白具有成为诊断生物标志物的巨大潜力
[4]。近年来,蛋白质组学通过分析生物样品中蛋白质的变化,被广泛用于寻找新的疾病标志物。并且胆汁中的大部分蛋白质都可以通过肽序列鉴定,例如专利技术专利CN114990216A公开了微小RNA分子作为生物标记物在胆管癌预后中的应用,是通过检测胆管癌与非胆管癌患者胆汁外泌体中的has

miR

182

5p的表达水平,可以对胆管癌患者的预后做出判断,准确率达95%以上;专利技术专利CN114717319A公开了用于胆管癌预后评估的基因标志物,包括KRAS、TP53、SMAD4和TERT,可以对胆管癌手术组织样本、活检组织样本、血浆样本、胆汁样本或者腹水样本的进行检测。胆管癌胆汁中异常高表达或低表达的蛋白质可用于鉴别胆管癌与良性疾病。
[0004]机器学习是人工智能的一个子组,可用于通过使用数学算法分析海量数据来学习逻辑模式并制作预测模型
[5]。机器学习已广泛应用于癌症诊断和预后预测模型,并已被证明可以提高癌症复发和生存预测的准确性
[6]。随机森林算法是一类专门为建立分类决策树所设计的信息处理统计技术。多样的在分类器构造中通过引入随机性投票分散来创建分类集。对于有限或没有编程背景的临床医生及患者可提供合适的易用的可靠临床预测模型。机器学习在大数据的处理、统计、计算学习过程的标准化和预测结局的区分度及准确度等方面具有优势,其此前在胸外科肺癌手术领域的诊断及分期识别、手术方案制定及预后预
测等方面均具有重要应用。临床预测模型本质上是借助已有的目标病例少量的、真实的、易于收集的常规的临床检验数据作为预测因子来构建临床统计模型,以用于预测疾病的诊断概率和给予治疗后的预后情况。
[0005]胆汁中差异表达的蛋白质谱主要反映局部变化,血清标志物主要反映胆管癌患者的全身系统性变化,所以我们猜想利用机器学习联合胆汁和血液中的标志物可以提高鉴别胆管癌和良性疾病的准确性。但是,在胆管癌发展过程中,血清中众多的标志物水平也会发生变化,例如碱性磷酸酶和胆红素水平,但它们在良性疾病中也可以发生变化,因此不能单独用于胆管癌诊断
[7],在本专利技术中,专利技术人利用机器学习算法,建立胆管癌预测模型,以便于更好的预测和诊断胆管癌患者。

技术实现思路

[0006]本专利技术的首要目的是提供一种基于机器学习算法的胆管癌诊断模型的构建方法,包括如下步骤:
[0007](1)获取样本集:收集胆管癌和胆道良性狭窄患者的胆汁和血清标志物数据,组成样本集;(2)构建随机森林模型:
[0008]S1.初始模型构建:建立具有所有特征的初始分类模型,根据步骤(1)得到样本集构建决策树,对初始模型进行优化,根据优化后的模型,计算所有特征的重要性排序;
[0009]S2.特征选择及模型二次优化:根据S1得到的所有特征的重要性排序,将用于建模的特征按照重要性从高到低添加到分类器中重新进行随机森林建模,并经由十折交互检验评价获取每个模型的最优参数值,并对每个特征进行排序;
[0010](3)构建LASSO模型获取最优模型:以最少的标志物数量具备最大的诊断效能为准则,利用LASSO模型,随机组合初筛出的特征,按照组合数量递增的方法筛选出不同标志物数量下的最佳组合,当添加的特征不再能够增加模型的AUC评价指标值时,即结束特征添加,当前添加的特征个数为最终选择的特征个数,使用当前特征个数进行机器学习建模,并进行交叉检验参数优化,根据AUC指标评价结果选择最优参数,并在该参数基础上建立最优模型;(4)模型验证:使用交互检验获取的最优模型对外部测试集进行模型验证。
[0011]优选的,步骤(1)所述的胆汁标记物为CLU;所述的血清标志物包括37个血液生化指标、24个常规血液指标和两个肿瘤生物标志物。
[0012]优选的,步骤(2)所述的模型通过Python(3.7.1版)中的sci

kit

learn库(0.19.2版)构建。
[0013]优选的,步骤(2)S1计算所有特征的重要性排序是通过下述方法得到:初始模型依据决策树回归检验结果,确定标志物与结局指标胆管癌相关性,依据相关性排序确定特征重要性排序。
[0014]优选的,所述的初始模型优化超参数的评估标准是十折交叉验证的平均AUC值,优化参数包括树的数量(n_estimators),寻找最佳分割时要考虑决策树的特征数量(max_features),最大深度树的(max_depth)和类的权重(class_weight);
[0015]优选的,所述的最优参数通过下述方法得到:依据决策树回归检验结果,确定特征与结局指标胆管癌相关性,依据相关性排序确定特征排序。
[0016]本专利技术的第二目的是提供一种基于机器学习算法的胆管癌诊断模型的构建系统,
其应用于所述的构建方法,其包括:
[0017]数据采集模块,至少用于数据采集,获取样本数据集;
[0018]数据处理模块,至少用于从样本数据集中提取可用于构建评估模型的有效样本;
[0019]模型构建模块,至少用于将所述有效样本的不完整数据集随机分割为训练集和验证集,并使用随机森林的方法拟合训练集,根据袋外误差,记录最优模型参数;
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习算法的胆管癌诊断模型的构建方法,其特征在于,包括如下步骤:(1)获取样本集:收集胆管癌和胆道良性狭窄患者的胆汁和血清标志物数据,组成样本集;(2)构建随机森林模型:S1.初始模型构建:建立具有所有特征的初始分类模型,根据步骤得到的样本集构建决策树,对初始模型进行优化,根据优化后的模型,计算所有特征的重要性排序;S2.特征选择及模型二次优化:根据S1得到的所有特征的重要性排序,将用于建模的特征按照重要性从高到低添加到分类器中重新进行随机森林建模,并经由十折交互检验评价获取每个模型的最优参数值,并对每个特征进行排序;(3)构建LASSO模型获取最优模型:以最少的标志物数量具备最大的诊断效能为准则,利用LASSO模型,随机组合初筛出的特征,按照组合数量递增的方法筛选出不同标志物数量下的最佳组合,当添加的特征不再能够增加模型的AUC评价指标值时,即结束特征添加,当前添加的特征个数为最终选择的特征个数,使用当前特征个数进行机器学习建模,并进行交叉检验参数优化,根据AUC指标评价结果选择最优参数,并在该参数基础上建立最优模型;(4)模型验证:使用交互检验获取的最优模型对外部测试集进行模型验证。2.如权利要求1所述的构建方法,其特征在于,步骤(1)所述的胆汁标记物为CLU;所述的血清标志物包括37个血液生化指标、24个常规血液指标和两个肿瘤生物标志物。3.如权利要求1所述的构建方法,其特征在于,步骤(2)所述的模型通过Python(3.7.1版)中的sci

kit

learn库(0.19.2版)构建。4.如权利要求1所述的构建方法,其特征在于,步骤(2)S1计算所有特征的重要性排序是通过下述方法得到:初始模型依据决策树回归检验结果,确定标志物与结局指标胆管癌相关性...

【专利技术属性】
技术研发人员:孟文勃高龙林延延李书艳
申请(专利权)人:兰州大学第一医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1