预测结肠腺癌预后的12‑基因表达分类器及其构建方法技术

技术编号:16779803 阅读:29 留言:0更新日期:2017-12-13 00:01
本发明专利技术公开了一种预测结肠腺癌病人预后的基因表达分类器及其构建方法,所述构建方法包括:数据训练阶段和验证阶段,所述训练阶段包括第一阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测结肠腺癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方法获得预测结肠腺癌病人预后的基因表达分类器。该基因表达分类器不仅可预测结肠腺癌病人的预后,还可预测肾癌、肺鳞癌、眼底和皮肤黑色素瘤、脑癌以及胰腺癌病人的预后,为癌症病人的术后辅助治疗提供精准判断依据。

12 prediction colon cancer prognosis gene expression classifier and its construction method

The invention discloses a method for prediction of colon cancer prognosis gene expression classifier and its construction method, the construction method of data including: training phase and the verification phase, the training stage includes first and second stages, the first stage of the use of machine learning methods to establish the supervision to predict prognosis of colon cancer patients gene expression classifier method prototype, the second stage further using machine learning to predict the prognosis of colon cancer patients received gene expression classifier. The gene expression classifier can not only predict the prognosis of patients with colonic adenocarcinoma, but also predict the prognosis of patients with renal cell carcinoma, lung squamous cell carcinoma, fundus and skin melanoma, brain cancer and pancreatic cancer, so as to provide accurate judgement basis for postoperative adjuvant treatment of cancer patients.

【技术实现步骤摘要】
预测结肠腺癌预后的12-基因表达分类器及其构建方法
本专利技术涉及一种基因表达分类器及其构建方法,更具体地涉及一种预测结肠腺癌病人预后的基因表达分类器及其构建方法。
技术介绍
结直肠癌是男女性中最为常见的癌症种类之一,几乎所有癌症患者中10%都为结直肠癌患者,死于结直肠癌患者在所有癌种中排第三(StewartBWandWildCP,2014)。结直肠癌可分为三种分子亚型:染色体不稳定型、微卫星不稳定型以及CpG岛甲基化型,这些亚型在形态学、遗传背景、分子特征、临床表征以及对辅助治疗的响应方面都有所不同(DeSousa等,2013)。目前在临床实践中,TNM分期(Tumor-Node-Metastasis)是标准的结直肠癌的诊断模型。然而,由于结直肠癌的高度异质性,临床分期一致的病人在复发风险以及对辅助治疗的响应度方面往往大不相同。因此,临床上需要更好的检测来将结直肠癌患者精细分群,从而指导个性化治疗方案的制定。目前,一些分子标志物已经被用于结直肠癌的预测预后。如:在II期患者中,微卫星不稳定(MSI)状态被用来筛选复发高风险的结肠癌患者(Brychtová等,2017)。KRAS突变状态被用来筛选转移性结直肠癌患者中对EGFR靶向药物产生耐药性的患者(Cunningham等,2010)。然而,由于结直肠癌发生发展过程中多种途径参与的复杂性,单个分子标志物已不足以有效预测结直肠癌患者的预后。后基因组时代的到来带来了转录组检测技术的飞速发展,基因表达芯片以及二代测序技术已被用于深入描述肿瘤的分子特征。人们已经运用基因表达谱分析来开发各种基因分析检测方法,结合其他临床病理学因子,更加精准地预测癌症病人预后。一些商业基因检测产品已经上市,用于结肠癌患者的术后预后预测。其中,影响力最大的是OncotypeDX结肠癌复发评分(ColonRS),这是一个基于12-基因(7个癌症相关基因5个内参基因)表达的评分系统,用来从II期结肠腺癌患者(T3,pMMR)中筛选复发风险高的病人(QuasarCollaborativeGroup等,2007;VenookA等,2011;Meropol等,2011)。然而,结肠癌复发评分的五个内参基因中,编码磷酸甘油酸激酶1(Phosphoglyceratekinase1,PGK1)和谷胱甘肽过氧化物酶1(Glutathioneperoxidase1,GPX1)的两个基因分别是糖酵解(Glycolysis)和胞内氧化应激(CellularOxidativestress)过程中的重要组分,而糖酵解和胞内氧化应激过程的异常调控在肿瘤发展和转移中发挥关键作用(Ebata等,2016;MoloneyandCotter,2017)。因此,运用PGK1和GPX1进行基因表达的标准化处理很可能稀释了肿瘤个体间的异质性。
技术实现思路
在本专利技术中,专利技术人从TCGA公共数据库内结肠腺癌病人的RNA-seq的基因表达数据及其临床预后信息出发,运用两步的有监督的机器学习方法,无偏地从整个转录组中获得一种12-基因表达分类器,准确预测结肠腺癌病人的预后。一方面,本专利技术的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,包括:数据训练阶段和验证阶段,所述训练阶段包括第一阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测结肠腺癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方法获得预测结肠腺癌病人预后的基因表达分类器。另一方面,本专利技术的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中所述第一阶段通过使用结肠腺癌病人的基因表达信息和临床信息,采用有监督的机器学习方法挑选与真实预后情况高度相关的基因。另一方面,本专利技术的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中对所有基因的表达和预后情况的Pearson系数的绝对值由大到小排序,获得与真实三年内复发情况高度相关的基因。另一方面,本专利技术的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中使用留一交叉验证方法获得最佳的基因类别和数目,从而构建所述基因表达分类器雏形。另一方面,本专利技术的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中使用基因表达分类器雏形计算用于验证的肿瘤样本的风险系数,预测其复发风险,通过比较真实复发风险和预测复发风险的一致性,验证所述基因表达分类器雏形的效能。另一方面,本专利技术的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中所述第二阶段包括特征(基因)排序,所述特征(基因)排序基于单因素的Cox比例风险回归模型所得p值进行。另一方面,本专利技术的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中所述第二阶段采用KM生存分析计算高风险组和低风险组之间的时序检验p值,时序检验p值最小的Cox模型所包含的基因种类和数目就是所构建的基因表达分类器。另一方面,本专利技术的目的是提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中验证阶段使用基因表达芯片数据集验证所获得的基因表达分类器。另一方面,本专利技术的目的是提供一种预测结肠腺癌病人预后的基因表达分类器及其构建方法。另一方面,本专利技术的目的是提供一种预测结肠腺癌病人预后的基因表达分类器及其构建方法,实现对结肠腺癌病人的无复发生存期和总体生存期进行精准预测。另一方面,本专利技术的目的是提供一种预测结肠腺癌病人预后的基因表达分类器及其构建方法,将结肠腺癌病人分为差预后和预后良好的两个亚群,为其辅助治疗提供判断依据。另一方面,本专利技术的目的是提供一种在多个结肠腺癌数据集中预测结肠腺癌病人预后的基因表达分类器及其构建方法。另一方面,本专利技术的目的是提供一种在结肠腺癌数据集中预测结肠腺癌病人预后的基因表达分类器及其构建方法,所述多个结肠腺癌数据集选自GSE39582、GSE17538。另一方面,本专利技术提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其包括:数据训练阶段和验证阶段。另一方面,本专利技术提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中所述训练阶段包括第一阶段和第二阶段。另一方面,本专利技术提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中所述第一阶段包括:使用TCGA结肠腺癌病人的基因表达信息和临床信息,使用有监督的机器学习方法建立能预测结肠腺癌病人预后的基因表达分类器雏形。另一方面,本专利技术提供一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其中有监督的机器学习的方法如下:分组:对满足条件的结肠腺癌病人的基因表达数据在分组前进行标准化处理,然后分别从临床上差预后和预后良好的病人中随机选取第一数量病人和第二数量作为训练组,剩余病人作为验证组;筛选与真实预后情况高度相关的基因:从训练组数据着手,差预后的病人真实预后状态赋值1,预后良好的病人真实预后状态赋值0。在训练组队列中,计算每个基因的表达值与真实预后状态的Pearson相关系数,选择绝对Pearson相关系数大于或等于0.3的基因,为了排除获得的回归系数分布是随机概率产生的可能性,运用置换检验方法产生了10,000个Monte-Carlo模拟试验,从而对训练组的病人的基因表达数据和预后分组信息进本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201710651894.html" title="预测结肠腺癌预后的12‑基因表达分类器及其构建方法原文来自X技术">预测结肠腺癌预后的12‑基因表达分类器及其构建方法</a>

【技术保护点】
一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其特征在于,包括:数据训练阶段和验证阶段,所述训练阶段包括第一阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测结肠腺癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方法获得预测结肠腺癌病人预后的基因表达分类器。

【技术特征摘要】
1.一种预测结肠腺癌病人预后的基因表达分类器的构建方法,其特征在于,包括:数据训练阶段和验证阶段,所述训练阶段包括第一阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测结肠腺癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方法获得预测结肠腺癌病人预后的基因表达分类器。2.根据权利要求1所述的预测结肠腺癌病人预后的基因表达分类器的构建方法,其特征在于,所述第一阶段通过使用结肠腺癌病人的基因表达信息和临床信息,采用有监督的机器学习方法挑选与真实预后情况高度相关的基因。3.根据权利要求2所述的预测结肠腺癌病人预后的基因表达分类器的构建方法,其特征在于,对所有基因的表达和预后情况的Pearson系数的绝对值由大到小排序,获得与真实三年内复发状态高度相关的基因。4.根据权利要求1所述的预测结肠腺癌病人预后的基因表达分类器的构建方法,其特征在于,使用留一交叉验证方法获得最佳的基因类别和数目,建立所述基因表达分类器雏形。5.根据权利要求4所述的预测结肠腺癌病人预后的基因表达分类器的构建方法,其特征在于,使用基因表达分类器雏形计算用于验证的肿瘤样本的风险系数,预测其复发风险,通过比较真实复发风险和预测复发风险的一致性,验证所述基因表...

【专利技术属性】
技术研发人员:王俊陆晓顾凯郝文山史其萍
申请(专利权)人:南京高新生物医药公共服务平台有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1