基于Cox回归分析的胰腺癌的预后模型构建方法技术

技术编号:39405908 阅读:9 留言:0更新日期:2023-11-19 15:58
本发明专利技术提出了一种基于Cox回归分析的胰腺癌的预后模型构建方法,包括:从TCGA数据库下载胰腺癌表达谱,进行预处理形成样本数据;按照比例随机分为一个训练数据集和一个验证数据集,使用LASSO Cox回归分析对训练数据集进一步筛选与OS相关的lncRNA,计算每一个患者样本的风险评分;验证数据集和完整数据集中使用训练数据集筛选的lncRNAs建立预测模型,将样本分为高风险组和低风险组;构建列线图并进行一致性试验、校正曲线分析和时间依赖性ROC曲线分析;使用了Pearson相关分析筛选出与预后lncRNAs共表达的蛋白编码基因;使用LASSO Cox回归分析进一步选择并建立预后预测模型。本发明专利技术构建的预后模型的能力优于之前发表的lncRNAs模型和TNM分期系统,可以极大地提高胰腺癌预后预测准确性。腺癌预后预测准确性。腺癌预后预测准确性。

【技术实现步骤摘要】
基于Cox回归分析的胰腺癌的预后模型构建方法


[0001]本专利技术属于医学领域,尤指一种基于Cox回归分析的胰腺癌的预后模型构建方法。

技术介绍

[0002]胰腺癌(cancer of pancreas,pancreatic cancer)是消化道常见的恶性肿瘤之一,多发生于胰头部。腹痛及无痛性黄疸为胰头癌的常见症状。糖尿病患者长期大量吸烟,高脂肪高动物蛋白饮食者,发病率相对增高,本病多发于中老年人,男性患者远较绝经前的妇女多,绝经后妇女发病率与男性相仿。发病原因尚不清楚,发现些环境因素与胰腺癌的发生有关。已定的首要危险因素为吸烟,糖尿病胆石病饮酒(包括啤酒)以及慢性胰腺炎等进食高脂肪高蛋白饮食和精制的面粉食品,胃切除术也是发生胰腺癌的危险因素,其死亡率极高。
[0003]截止到目前,手术是唯一可以治愈胰腺癌的方法,但只有不到20%的确诊患者可以从切除手术中受益,而且根治性切除后复发的风险很高。就生存时间而言,一项研究表明,可以手术切除的胰腺癌患者的5年生存率约为20%。在过去的十几年中,胰腺癌的治疗在研究上取得了一些成就,比如,在辅助治疗和转移性疾病治疗方面有越来越多的方法可供选择。在辅助治疗方面,改良FOLFIRINOX(mFOLFIRINOX)方案和吉西他滨方案均能够提高胰腺癌患者的无病生存率和总生存率,一项研究的结果显示,mFOLFIRINOX组3年无病生存率为39.7%,总生存率为63.4%,吉西他滨组无病生存率为21.4%,总生存率为48.6%。ASCO指南推荐术后辅助治疗首选mFOLFIRINOX,而采用单一疗法时首选吉西他滨。然而,尽管有辅助治疗,复发率仍然很高,有69%到75%的患者在2年内复发。转移性胰腺癌治疗方面,FOLFIRINOX方案是良好ECOG表现状态患者的有效一线治疗选择,较吉西他滨相比,FOLFIRINOX中位生存期增加了4.3个月(11.1月vs 6.8月)。
[0004]尽管治疗上有上述那么多令人欣喜的进展,但胰腺癌的预后仍然很差,需要更多的研究,尤其在个体化治疗方面。

技术实现思路

[0005]本专利技术的目的是提出基于Cox回归分析的胰腺癌的预后模型构建方法,通过使用和LASSOCox回归分析方法构建胰腺癌的预后模型,该模型在胰腺癌的预后中是独立的影响因素,预测能力在训练数据集、验证数据集和完整数据集里都得到了验证,并且比现在已经发表的lncRNAs模型和TNM分期系统有更高的预测准确性。
[0006]为了达到上述目的,在本专利技术的提供基于Cox回归分析的胰腺癌的预后模型构建方法,方法包括:
[0007]步骤一、从TCGA数据库下载胰腺癌表达谱,对所述胰腺癌表达谱进行预处理形成样本数据;
[0008]步骤二、所述样本数据为完整数据集,将所述完整数据集按照比例随机分为一个训练数据集和一个验证数据集,使用LASSOCox回归分析对训练数据集进一步筛选与OS相关
的lncRNA,然后基于lncRNAs回归系数和表达量的风险评分计算公式,计算每一个患者样本的风险评分,再根据预测模型中位风险评分的临界值,将患者分为高危组和低危组;
[0009]步骤三、验证数据集和完整数据集中使用训练数据集筛选的lncRNAs建立预测模型,基于模型中位风险评分的临界值,将验证数据集和完整数据集的样本分为高风险组和低风险组;
[0010]步骤四、基于单变量和多变量Cox回归分析筛选的胰腺癌独立预后影响因子,构建了一个模型与临床病理特征相结合的列线图并进行一致性试验、校正曲线分析和时间依赖性ROC曲线分析;
[0011]步骤五、使用了Pearson相关分析筛选出与预后lncRNAs共表达的蛋白编码基因;
[0012]其中,所述步骤一中预处理的步骤包括:对基因进行了整理和注释,然后用R语言的edgeR软件包对胰腺癌表达谱进行了处理,对比Ensembl ID后,对基因进行分离筛选出平均表达值大于1的lncRNA进行下一步的分析,在胰腺癌表达谱筛选|logFC|>1和p<0.05的差异表达lncRNA,并进行单变量Cox回归分析,筛选出与OS相关的lncRNA,再删除临床信息不完整、生存时间为0、重复的样本数据;
[0013]所述与OS相关的lncRNA为L031658.1,ABCA9

AS1,DNAH17

AS1,AP003086.1,AC018755.4;
[0014]所述风险评分包括:每个样本的风险评分计算公式为:风险评分=

0.23189*AL031658.1的表达量+0.20984*ABCA9

AS1的表达量+0.03709*DNAH17

AS1的表达量+

0.26114*AP003086.1的表达量+0.15556*AC018755.4的表达量,其中所述风险评分公式即为预测模型,以风险评分的中位数为临界值,其中:大于等于临界值的为高危组,小于临界值的为低危组。
[0015]进一步地,步骤六、使用LASSOCox回归分析进一步选择并建立基于lncRNAs的预测模型,用于预测胰腺癌患者3年和5年的生存率。
[0016]进一步地,所述步骤三中,根据所述临界值将测试数据集和完整数据集的患者分为高风险组和低风险组,并进行Kaplan

Meier和对数秩检验。
[0017]进一步地,所述步骤四中,所述临床病理特征包括lncRNAs模型、年龄、性别、饮酒、放疗史、化疗史、家族史、吸烟、肿瘤分化和病理分期。
[0018]进一步地,所述步骤五中,所诉使用了Pearson相关分析筛选出与预后lncRNAs共表达的蛋白编码基因的标准为相关系数绝对值>0.4、p<0.001,选出来的蛋白编码基因使用Cytoscape的ClueGO和CluePedia分别进行KEGG、GO功能富集分析和绘图,用于寻找预后lncRNAs作用的通路。
[0019]进一步地,所述胰腺癌独立预后影响因子为lncRNAs模型、化疗史和病理分期。
[0020]进一步地,基于所述胰腺癌独立预后影响因子构建列线图,每个样本均有胰腺癌患者lncRNAs模型风险评分水平、化疗史和病理分期的得分,将该胰腺癌患者获得的三个得分相加计算列线图的总得分,用于预测该胰腺癌患者3年和5年的生存率;
[0021]绘制列线图预测值和实际观测值进行评估对比该胰腺癌患者3年和5年的生存率的一致性。
[0022]进一步地,所述选出来的蛋白编码基因使用Cytoscape的ClueGO和CluePedia分别进行KEGG、GO功能富集分析和绘图的步骤具体包括:
[0023]从TCGA下载的胰腺癌数据中提取所有的mRNA,筛选出条件满足|logFC|>2,p<0.05的且在胰腺癌和癌旁正常组织中差异表达的mRNA;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Cox回归分析的胰腺癌的预后模型构建方法,其特征在于,所述方法包括:步骤一、从TCGA数据库下载胰腺癌表达谱,对所述胰腺癌表达谱进行预处理形成样本数据;所述样本数据为完整数据集;步骤二、将所述完整数据集按照比例随机分为一个训练数据集和一个验证数据集,使用LASSOCox回归分析对训练数据集进一步筛选与OS相关的lncRNA,然后基于lncRNAs回归系数和表达量的风险评分计算公式,计算每一个患者样本的风险评分,再根据预测模型中位风险评分的临界值,将患者分为高危组和低危组;步骤三、验证数据集和完整数据集中使用训练数据集筛选的lncRNAs建立预测模型,基于模型中位风险评分的临界值,将验证数据集和完整数据集的样本分为高风险组和低风险组;步骤四、基于单变量和多变量Cox回归分析筛选的胰腺癌独立预后影响因子,构建一个模型与临床病理特征相结合的列线图并进行一致性试验、校正曲线分析和时间依赖性ROC曲线分析;步骤五、使用Pearson相关分析筛选出与预后lncRNAs共表达的蛋白编码基因;其中,所述步骤一中预处理的步骤包括:对基因进行整理和注释,然后用R语言的edgeR软件包对胰腺癌表达谱进行了处理,对比Ensembl ID后,对基因进行分离筛选出平均表达值大于1的lncRNA进行下一步的分析,在胰腺癌表达谱筛选|logFC|>1和p<0.05的差异表达lncRNA,并进行单变量Cox回归分析,筛选出与OS相关的lncRNA,再删除临床信息不完整、生存时间为0、重复的样本数据;所述与OS相关的lncRNA为L031658.1,ABCA9

AS1,DNAH17

AS1,AP003086.1,AC018755.4;所述风险评分包括:每个样本的风险评分计算公式为:风险评分=

0.23189*AL031658.1的表达量+0.20984*ABCA9

AS1的表达量+0.03709*DNAH17

AS1的表达量+

0.26114*AP003086.1的表达量+0.15556*AC018755.4的表达量,其中所述风险评分公式为预测模型,以风险评分的中位数为临界值,其中:大于等于临界值的为高危组,小于临界值的为低危组。2.根据权利要求1所述的基于Cox回归分析的胰腺癌的预后模型构建...

【专利技术属性】
技术研发人员:刘建平郑剑锋刘尊龙任飞
申请(专利权)人:中山大学孙逸仙纪念医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1