一种用于肺腺癌预后预测的生物标志物、应用及模型构建方法技术

技术编号:37813882 阅读:16 留言:0更新日期:2023-06-09 09:43
本发明专利技术公开了一种肺腺癌预后风险预测的生物标志物,所述生物标志物由ANLN、RHOV、KRT6A、SIGLEC6和KLRG2基因组成。还公开了生物标志物的检测产品在制备肺腺癌预后风险预测的产品中的应用、及在构建肺腺癌预后风险模型中的应用。同时还公开了基于基因组不稳定性的肺腺癌预后风险模型的构建方法。可以作为肺腺癌患者的独立的预后因素,证明了高风险组患者与较差的预后相关,且预后预测的准确度较高;同时还证明了高风险组与低风险组患者之间免疫细胞浸润程度的差异。疫细胞浸润程度的差异。疫细胞浸润程度的差异。

【技术实现步骤摘要】
一种用于肺腺癌预后预测的生物标志物、应用及模型构建方法


[0001]本专利技术属于生物医药
,尤其涉及一种基于基因组不稳定性的预测肺腺癌患者预后模型的建立方法。

技术介绍

[0002]基因组不稳定性可以定义为基因组获得突变的趋势增加,大多数癌症都有基因组不稳定性的特征,而且不稳定性的程度在不同的癌症类型之间是不同的,基因组不稳定性的特征推动了肿瘤的发展(Hanahan D,Weinberg RA.Hallmarks of cancer:the next generation.Cell 144(5):646

74,2011)。高通量测序(HTS)技术的发展使全基因组、核苷酸水平的基因组改变分析成为可能。核苷酸序列的广泛不稳定性是大多数人类癌症所固有的,不同的癌症类型表现出对应不同数量的基因突变与不同的体细胞突变谱,表明组织和细胞特异性的致癌机制(Lee JK,Choi YL,Kwon M,Park PJ.Mechanisms and Consequences of Cancer Genome Instability:Lessons from Genome Sequencing Studies.Annu Rev Pathol 11:283

312,2016)。目前我们衡量体细胞突变总数的方法是肿瘤突变负荷(TMB),TMB已经被证明与免疫治疗的疗效相关,TMB越高从免疫治疗中获得的肿瘤缓解效果和临床益处越好。TMB高的某些类型的癌症,如非小细胞肺癌、结直肠癌等,与较差的预后相关。因此,确定不同癌症中对TMB有贡献的分子特征,并探讨其临床意义至关重要(Anagnostou V,Bardelli A,Chan TA,Turajlic S.The status of tumor mutational burden and immunotherapy.Nat Cancer.3(6):652

656,2022)。
[0003]肺癌作为一种体细胞突变数很高的癌症类型,吸烟、空气污染和辐射暴露等,会潜在地损害DNA,导致基因组高度不稳定。肺癌是全球癌症死亡的主要原因,每年大约有数百万人死于肺癌。临床统计表明,非小细胞肺癌(NSCLC)约占肺癌病例的85%,其中肺腺癌(LUAD)是最常见的类型。尽管目前临床上应用治疗策略和个体化疗法的组合,但LUAD的5年总生存率(OS)仍然只有约16%(Sung H,Ferlay J,Siegel RL,et al.Global Cancer Statistics 2020:GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36Cancers in 185Countries.CA Cancer J Clin 71(3):209

249,2021)。
[0004]目前在肺腺癌中,仍然没有可靠的分子标记准确预测肺腺癌患者的风险和预后,因此,我们需要继续寻找与基因组不稳定性相关的基因,分析其对肺腺癌患者预后和免疫治疗响应情况的影响,以便为LUAD患者的不同子集设计最合适的治疗方案。

技术实现思路

[0005]为了解决没有可靠的分子标记预测肺腺癌患者预后预测的问题,本专利技术提供了一种在肺腺癌患者中构建与基因组不稳定性相关的预后模型的方法和应用,该模型提供了一个可以评估肺腺癌患者预后的生物标志物,并能有效识别对临床免疫治疗敏感的患者,有助于改善患者的预后。
[0006]为了实现以上目的,本专利技术的技术方案如下:
[0007]一种肺腺癌预后风险预测的生物标志物,所述生物标志物由ANLN、RHOV、KRT6A、SIGLEC6和KLRG2基因组成。
[0008]本专利技术的第二个专利技术目的是提供上述生物标志物的检测产品在制备肺腺癌预后风险预测的产品中的应用。
[0009]本专利技术的第三个专利技术目的是提供上述生物标志物在构建肺腺癌预后风险模型中的应用。
[0010]本专利技术的第三个专利技术目的是提供一种基于基因组不稳定性的肺腺癌预后风险模型的构建方法,其包括以下步骤:
[0011]S1、获取肺腺癌患者的基因表达数据、预后信息数据和体细胞突变数据;
[0012]S2、基于获取的数据,筛选与肺腺癌发生和基因组不稳定性相关的差异基因;
[0013]S3、将筛选出的差异基因与预后信息数据进行单因素Cox回归分析,筛选出独立影响肺腺癌患者预后的基因,然后对其进行LASSO逻辑回归,筛选出作为建立预后模型的候选基因,最后对候选基因进行多因素Cox回归分析,确立并构建一个与基因组不稳定性相关的肺腺癌患者的预后模型:风险评分=ANLN表达量
×
(0.1908)+RHOV表达量
×
(0.1204)+KRT6A表达量
×
(0.0596)+SIGLEC6表达量
×
(

0.1522)+KLRG2表达量
×
(

0.1250),式中表达量没有单位;
[0014]S4、根据步骤S3中预后模型,计算出每个样本的风险评分,以每个数据集中风险评分的中位数作为阈值,低于中位数的样本定义为低风险组患者,高于中位数的则定义为高风险组患者。
[0015]在临床上可以通过RNA测序的方式,检测ANLN、RHOV、KRT6A、SIGLEC6和KLRG2这五个基因的表达量,得到对应患者的风险评分。而在临床应用时,具体基因的表达量会因不同的测序数据格式而异,因此没有固定的某个值区分高低风险组的患者,具体的情况需要根据测序数据的格式进行判断。进一步方案,步骤S1中基因表达数据、临床数据和体细胞突变数据均是从TCGA和GEO数据库中获取的;具体的是:从TCGA数据库中获取同时具有体细胞突变数据、基因表达数据和临床数据的样本用于后续分析;从GEO数据库的GSE31210数据集中获取同时具有基因表达数据和临床数据的样本用于后续分析;从GEO数据库的GSE30219数据集中获取同时具有基因表达数据和临床数据的样本用于后续分析。
[0016]所述基因表达数据为各个RNA在每个样本中的表达水平,所述预后信息数据包括患者的生存时间、生存状态。
[0017]进一步方案,步骤S2中筛选与肺腺癌发生和基因组不稳定性相关的差异基因包括以下步骤:
[0018]S2.1、根据TCGA数据库中肺腺癌患者的体细胞突变数据,将同时具有体细胞突变数据、基因表达数据和预后信息数据的肺腺癌患者作为一个样本,计算出每个样本的TMB数值;然后按TMB数值从高到低进行排序,取前25%的样本作为高TMB组,后25%的样本作为低TMB组;
[0019]S2.2、把TCGA数据库中的所有样本分为正常样本组和肿瘤样本组;把GEO数据库中GSE31210数据集中的样本分为正常样本组和肿瘤样本组;即将TCGA数据库中449个样本中的445个肺腺癌样本作为TCG本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种肺腺癌预后风险预测的生物标志物,其特征在于:所述生物标志物由ANLN、RHOV、KRT6A、SIGLEC6和KLRG2基因组成。2.如权利要求1所述的生物标志物的检测产品在制备肺腺癌预后风险预测的产品中的应用。3.如权利要求1所述的生物标志物在构建肺腺癌预后风险模型中的应用。4.一种基于基因组不稳定性的肺腺癌预后风险模型的构建方法,其特征在于:包括以下步骤:S1、获取肺腺癌患者的基因表达数据、预后信息数据和体细胞突变数据;S2、基于获取的数据,筛选与肺腺癌发生和基因组不稳定性相关的差异基因;S3、将筛选出的差异基因与预后信息数据进行单因素Cox回归分析,筛选出独立影响肺腺癌患者预后的基因,然后对其进行LASSO逻辑回归,筛选出作为建立预后模型的候选基因,最后对候选基因进行多因素Cox回归分析,确立并构建一个与基因组不稳定性相关的肺腺癌患者的预后模型:风险评分=ANLN表达量
×
(0.1908)+RHOV表达量
×
(0.1204)+KRT6A表达量
×
(0.0596)+SIGLEC6表达量
×
(

0.1522)+KLRG2表达量
×
(

0.1250),式中表达量没有单位;S4、根据步骤S3中预后模型,计算出每个样本的风险评分,以每个数据集中风险评分的中位数作为阈值,低于中位数的样本定义为低风险组患者,高于中位数的则定义为高风险组患者。5.根据权利要求4所述的构建方法,其特征在于:步骤S1中基因表达数据、临床数据和体细胞突变数据均是从TCGA和GEO数据库中获取的;所述基因表达数据为各个RNA在每个样本中的表达水平,所述预后信息数据包括患者的生存时间、生存状态。6.根据权利要求4所述的构建方法,其特征在于:步骤S2中筛选与肺腺癌发生和基因组不稳定性相关的差异基因包括以下步骤:S2.1、根据TCGA数据库中肺腺癌患者的体细胞突变数据,将同时具有体细胞突变数据、基因表达数据和预后信息数据的肺腺癌患者作为一个样本,计算出每个样本的TMB数值;然后按TMB数值从高到低进行排序,取前25%的样本作为高TMB组,后25%的样本作为低TMB组;S2.2、把TCGA数据库中的所有样本分为正常样本组和肿瘤样本组;把GEO数据库中GSE31210数据集中的样本分为正常样本组和肿瘤样本组;S2.3、筛选条件为:FDR≤0.05且|Log2FC|≥1,其中FDR为伪发现率,FC为差异倍数;首先筛选TCGA数据库中正常样本组和肿瘤样本组之间的差异基因,再筛选GSE...

【专利技术属性】
技术研发人员:陈学冉李抒洋方志友叶芳王宏志
申请(专利权)人:中国科学院合肥肿瘤医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1