一种用于诊断和/或预测肺癌的标志物、诊断模型及其构建方法技术

技术编号:37465984 阅读:11 留言:0更新日期:2023-05-06 09:40
本发明专利技术涉及人工智能技术领域,具体涉及一种用于诊断和/或预测肺癌的标志物,所述的标志物至少包括CEA、ProGRP、CYFRA21

【技术实现步骤摘要】
一种用于诊断和/或预测肺癌的标志物、诊断模型及其构建方法


[0001]本专利技术涉及人工智能
,具体涉及一种用于诊断和/或预测肺癌的标志物、诊断模型及其构建方法。

技术介绍

[0002]肺癌是全世界癌症死亡率的较高的疾病,5年生存率仅为16.1%,患者通常病程较长,无非典型症状和体征,早期主要表现为肺部磨玻璃结节(ground

glass opacity nodule,GGN)。在肺癌诊断方面,多采用CT检查,但CT对肿瘤状态及分型区别不明显,尤其是小细胞肺癌,且多数肺癌常伴有浸润生长,使得早期诊断极其困难。
[0003]为了尽早的发现肺癌,并介入治疗,疾病的早期筛查相当重要。肺癌的早期筛查方法包括胸部X光、低剂量计算机断层扫描(LDCT)和肿瘤标志物评估。X光检查辐射剂量低,对人体伤害小,而且检查结果一目了然,医师可立刻判读,是最直接快速的检查方法,但胸部X光摄影常因肿瘤太小或被骨骼及心脏屏蔽而未能及时发现;低剂量计算机断层扫描的辐射剂量虽然较高(是X光的三、四倍),但图片分辨率(0.1厘米)更灵敏,可侦测直径0.3厘米的肺部病变,检查又没有死角,无论病灶肿瘤在肺部何处皆无所遁形。目前主要算法依靠CT影像形态学的方法识别预测肺癌,对肺癌的病理诊断预测有限。但是,随着人们对肿瘤标志物的认知不断提升,肿瘤标志物筛查肺癌已经成为主要方法。研究人员在肿瘤标志物的筛选上也花费了众多的人力物力,例如,专利技术专利CN112834748A公开了一种生物标志物组合、含其的试剂盒及其应用,所述生物标志物组合包含PLG、APEX1、PARP1、PGP9.5、TP53和MAGEA1。专利技术专利CN106680511B公开了血清分子标志物组合作为肺癌诊断和疗效监测标志物的应用,通过Luminex蛋白芯片诊断技术对十一种血清中蛋白(OPN,SAA,CRP,CEA,CYFRA21.1,MIF,AGP,HGF,E

selectin,GRO和NSE)进行含量的测定。八种血清蛋白分子标志物为OPN,SAA,CRP,CYFRA21.1,CEA,NSE,AGP和HGF。这八种血清蛋白分子标志物对非小细胞肺癌(NSCLC)和小细胞肺癌(SCLC)的发生有显著的促进作用;由OPN、CEA和另一蛋白(CRP,SAA,CYFAR21.1或NSE)组成的三蛋白检测组合对NSCLC有极好的诊断潜力。
[0004]机器学习(machine learning,ML)是现代信息学科中人工智能发展出的的一个全新分支,可以通过模拟人类大脑思维的学习方式,从大量数据中学习并总结归纳问题并且可推理的相关的概念联系,目前原则上主要方法可分为监督学习和无监督学习两大类。目前常见的医学可用的机器学习算法主要包括支持向量机(support vector machines,SVM),随机森林(random forest,RF),神经卷积网络(artificial neural network,ANN)等。随机森林算法是一类专门为建立分类决策树所设计的信息处理统计技术。多样的在分类器构造中通过引入随机性投票分散来创建分类集。机器学习在大数据的处理、统计、计算学习过程的标准化和预测结局的区分度及准确度等方面具有优势,其此前在胸外科肺癌手术领域的诊断及分期识别、手术方案制定及预后预测等方面均具有重要应用。人工智能模型是从自动结节诊断向前迈出的一步,因为它们通常不需要结节测量或数据输入。目前的
放射性预测模型包括梅奥模型、VA模型、布鲁克大学模型和北京大学人民医院模型(PKUPH)。然而,这些模型主要侧重于肺结节的CT表现,但没有结合常规血液检测数据和结合病理数据的放射性模型来准确预测肺癌。
[0005]针对上述技术问题,本专利技术提供了一种用于诊断和/或预测肺癌的标志物,且所述的标志物来自于临床参数,通过随机森林模型筛选出7项最优参数,最优参数包括CEA、血清ProGRP、CYFRA211、SCC、IBIL、APTT和年龄,预测测试样本患恶性肺癌风险概率,以及预测患者诊断肺癌的风险概率,为临床医生的诊断及治疗提供依据;采用列线图预测工具,操作简单,实现了快速分析,可快速预测样本并输出结果。

技术实现思路

[0006]本专利技术的首要目的是提供一种用于诊断和/或预测肺癌的标志物,所述的标志物至少包括癌胚抗原(CEA)、胃泌素释放肽(ProGRP)、细胞角蛋白19的可溶性片段(CYFRA21

1)、鳞状细胞癌抗原(SCC)、间接胆红素(IBIL)、活化部分凝血酶时间(APTT)和年龄的一种或几种。
[0007]优选的,所述的标志物包括癌胚抗原(CEA)、胃泌素释放肽(ProGRP)、细胞角蛋白19的可溶性片段(CYFRA21

1)、鳞状细胞癌抗原(SCC)、间接胆红素(IBIL)、活化部分凝血酶时间(APTT)和年龄的一种或几种。
[0008]优选的,所述的标志物包括癌胚抗原(CEA)、胃泌素释放肽(ProGRP)、细胞角蛋白19的可溶性片段(CYFRA21

1)、鳞状细胞癌抗原(SCC)、间接胆红素(IBIL)、活化部分凝血酶时间(APTT)和年龄。
[0009]本专利技术的第二目的是提供所述的用于诊断和/或预测肺癌的标志物在制备诊断和/或预测肺癌试剂产品、试剂盒或数据库中的应用。
[0010]本专利技术的第三目的是提供一种试剂产品或者试剂盒,包括所述的用于诊断和/或预测肺癌的标志物的标准品。
[0011]本专利技术的第四目的是提供一种基于随机森林结合Logistic回归的肺癌诊断和/或预测模型的构建方法,包括如下步骤:
[0012](1)获取样本集:收集肺癌患者的临床数据,组成样本集;
[0013](2)随机森林变量筛选:通过机器学习方法识别潜在的血常规数据,选定的变量和患者的基线特征变量被用作模型开发的候选参数;
[0014](3)多变量logistic回归预测建模:应用Logistic回归分析模型探讨各临床资料与肺癌的相关性并选取单因素分析中有意义的变量进行单多因素回归分析,并进行模型预测区分度及准度验证,并使用R语言中“gg

plot2”包建立Nomogram列线图模型。
[0015]优选的,步骤(2)的机器学习方法是通过R(版本4.1.1)实现的,使用包括Lasso回归和RF的机器学习方法来识别重要特征,Lasso回归可处理可用特征的多重共线性问题,RF可根据其对结果预测的影响实施变量选择程序,RF参数在其默认值周围以对数步长优化(使用500棵树和维数等于特征数平方的四舍五入值的随机子空间),采用十倍交叉验证和外部测试集验证来验证模型的可靠性。
[0016]优选的,步骤(2)所述的随机森林变量筛选具体方法如下:
[0017]S1.初始模型构建:建立具有所有特征的初始分类模型,对初始模型进行优化,根
据优化后的模型,计算所有特征的重要性排序;
[0018]S2.特征选择及模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于诊断和/或预测肺癌的标志物,其特征在于,所述的标志物至少包括癌胚抗原(CEA)、胃泌素释放肽(ProGRP)、细胞角蛋白19的可溶性片段(CYFRA21

1)、鳞状细胞癌抗原(SCC)、间接胆红素(IBIL)、活化部分凝血酶时间(APTT)和年龄的一种或几种。2.如权利要求1所述的诊断和/或预测肺癌的标志物,其特征在于,所述的标志物包括癌胚抗原(CEA)、胃泌素释放肽(ProGRP)、细胞角蛋白19的可溶性片段(CYFRA21

1)、鳞状细胞癌抗原(SCC)、间接胆红素(IBIL)、活化部分凝血酶时间(APTT)和年龄的一种或几种。3.如权利要求2所述的诊断和/或预测肺癌的标志物,其特征在于,所述的标志物包括癌胚抗原(CEA)、胃泌素释放肽(ProGRP)、细胞角蛋白19的可溶性片段(CYFRA21

1)、鳞状细胞癌抗原(SCC)、间接胆红素(IBIL)、活化部分凝血酶时间(APTT)和年龄。4.如权利要求1

3任一项所述的用于诊断和/或预测肺癌的标志物在制备诊断和/或预测肺癌试剂产品、试剂盒或数据库中的应用。5.一种试剂产品或者试剂盒,其特征在于,包括权利要求1

3任一项所述的用于诊断和/或预测肺癌的标志物的标准品。6.一种基于随机森林结合Logistic回归的肺癌诊断和/或预测模型的构建方法,其特征在于,包括如下步骤:(1)获取样本集:收集肺癌患者的临床数据,组成样本集;(2)随机森林变量筛选:通过机器学习方法识别潜在的血常规数据,选定的...

【专利技术属性】
技术研发人员:胡文滕蔡谦谦王鸣源马敏杰孟文勃
申请(专利权)人:兰州大学第一医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1