一种基于机器学习算法的胆管癌诊断模型及其构建方法和应用技术

技术编号：37060858 阅读：16 留言：0更新日期：2023-03-29 19:38

本发明专利技术涉及人工智能技术领域，具体涉及一种基于机器学习算法的胆管癌诊断模型的构建方法，包括如下步骤：(1)获取样本集；(2)构建随机森林模型；(3)构建LASSO模型获取最优模型；(4)模型验证；通过随机森林和LASSO模型筛选出6项最优参数，最优参数包括簇集蛋白，间接胆红素，低密度脂蛋白胆固醇，γ

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习算法的胆管癌诊断模型及其构建方法和应用

[0001]本专利技术涉及人工智能
，具体涉及一种基于机器学习算法的胆管癌诊断模型及其构建方法和应用。

技术介绍

[0002]胆管癌(CCA)是一种高度侵袭性的恶性肿瘤，起源于胆管上皮细胞，可发生在从肝内胆管到胆总管末端的任何部位。根据病变的解剖部位，CCA可分为肝内胆管癌(iCCA)和肝外胆管癌(eCCA)，肝外胆管癌又可分为肝门部胆管癌(pCCA)和远端胆管癌(dCCA)
[1]。胆管癌是继肝细胞癌后肝胆系统中第二常见的恶性肿瘤，约占所有胃肠道肿瘤的3％
[1]。胆管癌预后不良，其中一个重要原因是诊断困难，胆管癌患者临床确诊时往往已经处于晚期
[2]。由于其临床特征不明显并且解剖位置较深，早期诊断胆管癌比较困难，目前的诊断方法主要包括放射学、内窥镜和实验室分析。胆管癌最常用的诊断方法是影像学检测，如计算机断层扫描、磁共振成像和内窥镜检查，但这些检查的准确性均不高，灵敏度约为60％。血清CA19
‑
9可用于胆管癌诊断，但其敏感性和特异性仅为60％～65％
[3]。此外，细菌性胆管炎或胆总管结石等良性狭窄患者的血清CA19
‑
9水平也会升高。在胆管癌的临床鉴别诊断中，一个巨大的困难是准确的区分胆管癌与良性胆管狭窄，例如胆管结石和胆管炎，他们也会导致胆管壁增厚和胆管扩张。
[0003]胆汁主要由肝细胞和胆管上皮细胞分泌，胆汁成分的变化可以直接反应胆道疾病引起的胆道环境变化。胆管癌源于...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习算法的胆管癌诊断模型的构建方法，其特征在于，包括如下步骤：(1)获取样本集：收集胆管癌和胆道良性狭窄患者的胆汁和血清标志物数据，组成样本集；(2)构建随机森林模型：S1.初始模型构建：建立具有所有特征的初始分类模型，根据步骤得到的样本集构建决策树，对初始模型进行优化，根据优化后的模型，计算所有特征的重要性排序；S2.特征选择及模型二次优化：根据S1得到的所有特征的重要性排序，将用于建模的特征按照重要性从高到低添加到分类器中重新进行随机森林建模，并经由十折交互检验评价获取每个模型的最优参数值，并对每个特征进行排序；(3)构建LASSO模型获取最优模型：以最少的标志物数量具备最大的诊断效能为准则，利用LASSO模型，随机组合初筛出的特征，按照组合数量递增的方法筛选出不同标志物数量下的最佳组合，当添加的特征不再能够增加模型的AUC评价指标值时，即结束特征添加，当前添加的特征个数为最终选择的特征个数，使用当前特征个数进行机器学习建模，并进行交叉检验参数优化，根据AUC指标评价结果选择最优参数，并在该参数基础上建立最优模型；(4)模型验证：使用交互检验获取的最优模型对外部测试集进行模型验证。2.如权利要求1所述的构建方法，其特征在于，步骤(1)所述的胆汁标记物为CLU；所述的血清标志物包括37个血液生化指标、24个常规血液指标和两个肿瘤生物标志物。3.如权利要求1所述的构建方法，其特征在于，步骤(2)所述的模型通过Python(3.7.1版)中的sci
‑
kit
‑
learn库(0.19.2版)构建。4.如权利要求1所述的构建方法，其特征在于，步骤(2)S1计算所有特征的重要性排序是通过下述方法得到：初始模型依据决策树回归检验结果，确定标志物与结局指标胆管癌相关性...

【专利技术属性】
技术研发人员：孟文勃，高龙，林延延，李书艳，
申请(专利权)人：兰州大学第一医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人