预测肺癌病人预后的基因表达分类器及其构建方法技术

技术编号:16456832 阅读:35 留言:0更新日期:2017-10-25 21:05
一种预测肺癌病人预后的基因表达分类器的构建方法,包括:数据训练阶段和验证阶段,所述训练阶段包括第一阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测肺癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方法获得预测肺癌病人预后的基因表达分类器。本发明专利技术运用了有监督的机器学习方法获得了一种基因表达分类器,可以精准地预测非小细胞肺癌病人的预后。该基因表达分类器具有非常强的临床转化价值。通过进行基因群组(panel)的基因表达检测,高风险的基因风险评分的非小细胞肺癌病人应该接受辅助治疗,而低风险的基因风险评分的非小细胞肺癌病人应该接受低剂量或免于辅助治疗。

Gene expression classifier for predicting prognosis of lung cancer patients and its construction method

Including the construction method, the expression of a classifier to predict lung cancer patient prognosis gene: training phase and data validation phase, the training stage includes first and second stages, the first stage of the use of supervised machine learning method to predict lung cancer patients after pre established gene expression classifier prototype, the method of second stage further the use of machine learning for predicting lung cancer prognosis gene expression classifier. The present method uses supervised machine learning method to obtain a gene expression classifier, which can accurately predict the prognosis of patients with non-small cell lung cancer. The gene expression classifier has very strong clinical transformation value. The gene group (panel) detection of gene expression, gene risk high risk score of non-small cell lung cancer patients should receive adjuvant therapy, and genetic risk low risk score of non-small cell lung cancer patients should receive low dose or from adjuvant therapy.

【技术实现步骤摘要】
预测肺癌病人预后的基因表达分类器及其构建方法
本专利技术涉及一种基因表达分类器及其构建方法,更具体地涉及一种预测肺癌病人预后的基因表达分类器及其构建方法,特别是一种预测非小细胞肺癌病人预后的基因表达分类器及其构建方法。
技术介绍
中国最新癌症流行病学调查显示2015年新增肺癌病人73万,死亡病人60万,肺癌已成为中国发病率和死亡率均处于首位的癌症(1)。肺癌死亡例数占总体癌症死亡例数的25%。由于肺癌的高复发风险和低存活率,绝大多数处于IB-IIIA期的肺癌病人都会进行术后化疗(postoperativechemotherapy,POCT)。此外,基于病灶残留程度、淋巴结转移情况、癌症分期等参数,相当一部分的肺癌病人也会进行术后放疗(postoperativeradiotherapy,PORT)(2-4)。人类癌症具有高度异质性,即使临床上被诊断为同一分期的癌症病人对于同样的治疗方案的反应和总体预后也会大不相同(5)。换言之,有相当一部分病人不能从辅助疗法中获得生存益处或者只能获得很少的生存益处,却要忍受不必要的放化疗痛苦(6-8)。近年来,科学家们一直尝试基于癌症的基因表达特征来开发相应的分子标记物和分子分类手段。在基因表达分类器领域,乳腺癌开始最早,进展最大,已有多个分子检测产品问世,如OncotypeDX(9,10)、MammaPrint(11,12)、Prosigna(13,14)、EndoPredict(15)以及BreastCancerIndex(16)。其中,OncotypeDX(又称乳腺癌21基因检测)与MammaPrint这两个检测产品发展最为成熟,接受度最广,OncotypeDX检测作为指导早期浸润性乳腺癌的术后辅助治疗方案选择的重要依据,已经被写入美国国立综合癌症网络(NCCN)指南。到目前为止,也有研究尝试在肺癌领域开发类似的基因表达分类器来预测肺癌病人的复发风险(17-29),这些研究几乎都是针对非小细胞肺癌,但是存在以下几种问题:一是不同人群肺癌的生物异质性,从此人群和彼人群得出的基因表达分类器差异很大;二是缺乏统一的标准,如临床样本的采集、注释、样本处理等;三是统计和机器学习的方法千差万别,这些分类器涉及的基因数目千差万别,没有什么基因重合,且就哪个是最佳基因分类器也没有形成共识,因此未开展有影响力的临床验证研究。在本研究中,我们对TCGA中肺腺癌(lungadenocarcinoma,ADC)病人的RNA-seq数据运用有监督的机器学习的方法设计得到一种基因表达分类器,实现对非小细胞肺癌病人的无复发生存期(relapse-freesurvival,RFS)和总体生存期(overallsurvival,OS)进行精准预测。
技术实现思路
一方面,本专利技术的目的是提供一种预测肺癌病人预后的基因表达分类器的构建方法,包括:数据训练阶段和验证阶段,所述训练阶段包括第一阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测肺癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方法获得预测肺癌病人预后的基因表达分类器。另一方面,本专利技术的目的是提供一种预测肺癌病人预后的基因表达分类器的构建方法,其中所述第一阶段通过使用肺癌病人的基因表达信息和临床信息,采用有监督的机器学习方法挑选与真实预后情况高度相关的基因。另一方面,本专利技术的目的是提供一种预测肺癌病人预后的基因表达分类器的构建方法,其中对所有基因的表达和预后情况的Pearson系数的绝对值由大到小排序,获得与真实一年内复发高度相关的基因。另一方面,本专利技术的目的是提供一种预测肺癌病人预后的基因表达分类器的构建方法,其中使用LOOCV方法获得最佳的基因类别和数目,从而构建所述基因表达分类器雏形。另一方面,本专利技术的目的是提供一种预测肺癌病人预后的基因表达分类器的构建方法,其中使用基因表达分类器雏形计算用于验证的肿瘤样本的风险系数,预测其复发风险,通过比较真实复发风险和预测复发风险的一致性,验证所述基因表达分类器雏形的效能。另一方面,本专利技术的目的是提供一种预测肺癌病人预后的基因表达分类器的构建方法,其中第一阶段的基因表达分类器雏形包含有基因列表。另一方面,本专利技术的目的是提供一种预测肺癌病人预后的基因表达分类器的构建方法,其中所述第二阶段包括特征排序,所述特征排序基于单因素的Cox比例风险回归模型所得p值进行。另一方面,本专利技术的目的是提供一种预测肺癌病人预后的基因表达分类器的构建方法,其中所述第二阶段采用KM生存分析计算高风险组和低风险组之间的时序检验p值,时序检验p值最小的Cox模型所包含的基因种类和数目就是所构建的基因表达分类器。另一方面,本专利技术的目的是提供一种预测肺癌病人预后的基因表达分类器的构建方法的构建方法,其中验证阶段使用芯片数据集验证所获得的基因表达分类器。另一方面,本专利技术的目的是提供一种预测非小细胞肺癌病人预后的基因表达分类器及其构建方法。另一方面,本专利技术的目的是提供一种预测非小细胞肺腺癌病人预后的基因表达分类器及其构建方法。另一方面,本专利技术的目的是提供一种预测非小细胞肺鳞癌病人预后的基因表达分类器及其构建方法。另一方面,本专利技术的目的是提供一种预测非小细胞肺腺癌和肺鳞癌病人预后的基因表达分类器及其构建方法。另一方面,本专利技术的目的是提供一种预测非小细胞肺癌病人预后的基因表达分类器及其构建方法,实现对非小细胞肺癌病人的无复发生存期和总体生存期进行精准预测。另一方面,本专利技术的目的是提供一种预测非小细胞肺癌病人预后的基因表达分类器及其构建方法,将非小细胞肺癌病人分为差预后和预后良好的两个亚群。另一方面,本专利技术的目的是提供一种在多个非小细胞肺癌数据集中预测非小细胞肺癌病人预后的基因表达分类器及其构建方法。另一方面,本专利技术的目的是提供一种在多个非小细胞肺癌数据集中预测非小细胞肺癌病人预后的基因表达分类器及其构建方法,所述多个非小细胞肺癌数据集选自由TCGA、GSE8894、GSE31210、GSE11969、GSE13213、GSE14814或GSE37745。另一方面,本专利技术提供一种预测非小细胞肺癌病人预后的基因表达分类器的构建方法,其包括:数据训练阶段和验证阶段。另一方面,本专利技术提供一种预测非小细胞肺癌病人预后的基因表达分类器的构建方法,其中所述训练阶段包括第一阶段和第二阶段。另一方面,本专利技术提供一种预测非小细胞肺癌病人预后的基因表达分类器的构建方法,其中所述第一阶段包括:使用未接受术后放疗的TCGA肺腺癌病人的基因表达信息和临床信息,使用有监督的机器学习方法建立能预测肺腺癌病人预后的基因表达分类器雏形。另一方面,本专利技术提供一种预测非小细胞肺癌病人预后的基因表达分类器的构建方法,其中有监督的机器学习的方法如下:分组:对满足条件的非小细胞肺腺癌病人的基因表达数据在分组前进行标准化处理,然后分别从临床上差预后和预后良好的病人中随机选取第一数量病人和第二数量作为训练组,剩余病人作为验证组;挑选与真实预后情况高度相关的基因:初始RNA-seq数据经过初步过滤,从多个基因中获得在病人中表达量不为0的基因;在训练病人组内,每个基因的表达量与这些病人的真实预后情况进行Pearson相关分析,并获得回归系数(Coef),|Co本文档来自技高网
...
预测肺癌病人预后的基因表达分类器及其构建方法

【技术保护点】
一种预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,包括:数据训练阶段和验证阶段,所述训练阶段包括第一阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测肺癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方法获得预测肺癌病人预后的基因表达分类器。

【技术特征摘要】
1.一种预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,包括:数据训练阶段和验证阶段,所述训练阶段包括第一阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测肺癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方法获得预测肺癌病人预后的基因表达分类器。2.根据权利要求1所述的预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,所述第一阶段通过使用肺癌病人的基因表达信息和临床信息,采用有监督的机器学习方法挑选与真实预后情况高度相关的基因。3.根据权利要求2所述的预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,对所有基因的表达和预后情况的Pearson系数的绝对值由大到小排序,获得与真实一年内复发高度相关的基因。4.根据权利要求1所述的预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,使用LOOCV方法获得最佳的基因类别和数目,建立所述基因表达分类器雏形。5.根据权利要求4所述的预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,使用基因表达分类器雏形计算用于验证的肿瘤样本的风险系数,预测其复发风险,通过比较真实复发风险和预测复发风险的一致性,验证所述基因表达分类器雏形的效能。6.根据权利要求1所述的预测肺癌病人预后的基因表达分类器的构建方法,其特征在于,第一阶段的基因表达分类器雏形包...

【专利技术属性】
技术研发人员:王俊陆晓顾凯郝文山
申请(专利权)人:南京高新生物医药公共服务平台有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1