一种预测糖尿病胰腺癌患者预后风险的模型及建立方法技术

技术编号：40408563 阅读：7 留言：0更新日期：2024-02-20 22:29

本发明专利技术提供一种预测糖尿病胰腺癌患者预后风险的模型及建立方法，该建立方法包括：数据的获取与处理、筛选第一目标基因、筛选第二目标基因、模型构建以及模型验证。本发明专利技术通过针对伴有糖尿病的胰腺癌患者群体，通过筛选出有预后价值的的第二目标基因，采用LASSO‑COX回归分析模型和十折交叉验证从23个第二目标基因中选取出10个第二目标基因进行模型的构建和误差的计算，并选取十折交叉验证误差最小的预测糖尿病胰腺癌患者预后风险的模型作为最终模型，该预测糖尿病胰腺癌患者预后风险的模型的拟合优度较高，并且为验证模型分数的独立预测价值，进行了单因素和多因素COX分析，经单因素和多因素COX分析显示，模型分数是一个独立的预测因素。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及临床肿瘤，尤其涉及一种预测糖尿病胰腺癌患者预后风险的模型及建立方法。

技术介绍

1、胰腺癌（paad）是最致命的肿瘤类型之一。由于paad发病隐匿、异质性强，在早期不易发现，仅在疾病晚期出现，导致paad患者5年生存率极低，仅约10％。有机会接受手术切除的患者比例不到20％。此外，接受完全肿瘤切除的paad患者通常会在2年内出现局部或远处复发。因此，提高paad的诊疗水平，改善其不良预后是医疗界亟需解决的重大问题。

2、近年来随着对dna和rna研究的深入，很多疾病发生发展的遗传学机制和涉及到的信号通路得到了深入的研究。从基因层面挖掘肿瘤特性，可在很大程度上规避肿瘤异质性带来的诸多限制。如：shi等通过分析从癌症基因信息数据库下载的mirna数据，鉴定胰腺癌组织和周围正常胰腺组织中mirna的差异表达模式，最终筛选出5个有预测价值的mirna，并以此为基础构建了预测模型：生存风险分数=（0.2250×hsa-mir-203表达值）+（0.5653×hsa-mir-424表达值）+（0.1771×hsa-mir-1266表达值）+（0.1937×hsa-mir-1293表达值）+（0.1846×hsa-mir-4772表达值）。根据中位风险评分将病人分为高风险组和低风险组。两组病人的kaplan-meier总体生存曲线差异有统计学意义（p≤0.001），高风险和低风险组病人5年生存率分别为10.2%和47.8%，roc曲线显示该模型有较好的预测能力。同样，wu等也通过生信分析的方法筛选了3个有潜在预后价值

3、为此，本专利技术提供了一种预测糖尿病胰腺癌患者预后风险的模型及建立方法。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种预测糖尿病胰腺癌患者预后风险的模型及建立方法。

2、本专利技术提供了一种预测糖尿病胰腺癌患者预后风险的模型，包括：获取糖尿病胰腺癌患者中acaca、atg7、defb123、fstl3、nipsnap3b、rassf1、rbpj、slc35f2、slc37a7、zc3h12d的基因rna表达量。

3、在一种实施方式中，所述预测糖尿病胰腺癌患者预后风险的模型的模型表达式为：模型分数＝0.434×acaca+0.119×atg7+0.373×defb123+0.135×fstl3-0.168×nipsnap3b-0.069×rassf1+0.225×rbpj+0.364×slc35f2-0.168×slc37a7-0.145×zc3h12d。

4、本专利技术提供了一种如上任一所述的预测糖尿病胰腺癌患者预后风险的模型的构建方法，包括：

5、数据的获取与处理，获取胰腺癌患者原始的基因rna表达量以及临床特征信息，其中，胰腺癌患者包括糖尿病胰腺癌患者和非糖尿病胰腺癌患者，并将获取的原始的基因rna表达量进行批次效应处理；

6、筛选第一目标基因，基于秩和检验，得到糖尿病胰腺癌患者和非糖尿病胰腺癌患者之间的差异表达基因作为第一目标基因，并根据benjamini&hochberg法对p值进行调整，获得fdr值；

7、筛选第二目标基因，将糖尿病胰腺癌患者划分成训练队列和验证队列，采用单因素cox回归分析模型在训练队列中进行生存分析，从第一目标基因中筛选出有预后价值的基因作为第二目标基因；

8、模型构建，从第二目标基因中选取出10个第二目标基因，并基于选取的10个第二目标基因，构建预测糖尿病胰腺癌患者预后风险的模型；所述模型用于检测糖尿病胰腺癌患者中acaca、atg7、defb123、fstl3、nipsnap3b、rassf1、rbpj、slc35f2、slc37a7、zc3h12d的基因rna表达量；所述预测糖尿病胰腺癌患者预后风险的模型表达式为：模型分数＝0.434×acaca+0.119×atg7+0.373×defb123+0.135×fstl3-0.168×nipsnap3b-0.069×rassf1+0.225×rbpj+0.364×slc35f2-0.168×slc37a7-0.145×zc3h12d；

9、模型验证，将训练队列和验证队列的10个第二目标基因rna表达量作为输入值分别输入至模型中，得到相应模型分数，采用单因素cox回归分析模型和多因素cox回归分析模型对相应模型分数进行验证，得到分析结果。

10、在一种实施方式中，所述获取胰腺癌患者原始的基因rna表达量以及临床特征信息，并将获取的原始的基因rna表达量进行批次效应处理，具体包括：从tcga数据库和geo数据库获取胰腺癌患者原始的基因rna表达量以及临床特征信息，并采用sva包将获取的原始的基因rna表达量进行批次效应处理。

11、在一种实施方式中，所述基于秩和检验，得到糖尿病胰腺癌患者和非糖尿病胰腺癌患者之间的差异表达基因作为第一目标基因，并根据benjamini&hochberg法对p值进行调整，获得fdr值，具体包括：基于秩和检验，筛选原始p值<0.05且fdr值<0.25的基因作为第一目标基因，得到糖尿病胰腺癌患者和非糖尿病胰腺癌患者之间的第一目标基因，其中，第一目标基因为与是否伴有糖尿病病史相关的585个差异基因。

12、在一种实施方式中，所述将糖尿病胰腺癌患者划分成训练队列和验证队列，采用单因素cox回归分析模型在训练队列中进行生存分析，从第一目标基因中筛选出有预后价值的基因作为第二目标基因，具体包括：将糖尿病胰腺癌患者按照7:3的比例划分成训练队列和验证队列，在训练队列中以总生存时间和生存状态为因变量，以第一目标基因rna表达量为自变量进行单因素cox回归分析，将符合p值<0.05的第一目标基因作为第二目标基因，其中，第二目标基因为与患者总生存时间相关的23个第一目标基因。

13、在一种实施方式中，所述从第二目标基因中选取出10个第二目标基因，并基于选取的10个第二目标基因，构建预测糖尿病胰腺癌患者预后风险的模型，具体包括：采用lasso-cox回归分析模型和十折交叉验证从23个第二目标基因中选取出10个第二目标基因进行模型的构建和误差的计算，并选取十折交叉验证误差最小的预测糖尿病胰腺癌患者预后风险的模型作为最终模型。

14、在一种实施方式中，所述将训练队列和验证队列的10个第二目标基因rna表达量作为输入值分别输入至模型中，得到相应模型本文档来自技高网...

【技术保护点】

1.一种预测糖尿病胰腺癌患者预后风险的模型的建立方法，其特征在于，包括：

2.根据权利要求1所述的一种预测糖尿病胰腺癌患者预后风险的模型的建立方法，其特征在于，所述获取胰腺癌患者原始的基因RNA表达量以及临床特征信息，并将获取的原始的基因RNA表达量进行批次效应处理，具体包括：从TCGA数据库和GEO数据库获取胰腺癌患者原始的基因RNA表达量以及临床特征信息，并采用sva包将获取的原始的基因RNA表达量进行批次效应处理。

3.根据权利要求1所述的一种预测糖尿病胰腺癌患者预后风险的模型的建立方法，其特征在于，所述基于秩和检验，得到糖尿病胰腺癌患者和非糖尿病胰腺癌患者之间的差异表达基因作为第一目标基因，并根据Benjamini&Hochberg法对P值进行调整，获得FDR值，具体包括：基于秩和检验，筛选原始P值<0.05且FDR值<0.25的基因作为第一目标基因，得到糖尿病胰腺癌患者和非糖尿病胰腺癌患者之间的第一目标基因，其中，第一目标基因为与是否伴有糖尿病病史相关的585个差异基因。

4.根据权利要求1所述的一种预测糖尿病胰腺

5.根据权利要求4所述的一种预测糖尿病胰腺癌患者预后风险的模型的建立方法，其特征在于，所述从第二目标基因中选取出10个第二目标基因，并基于选取的10个第二目标基因，构建预测糖尿病胰腺癌患者预后风险的模型，具体包括：采用LASSO-COX回归分析模型和十折交叉验证从23个第二目标基因中选取出10个第二目标基因进行模型的构建和误差的计算，并选取十折交叉验证误差最小的预测糖尿病胰腺癌患者预后风险的模型作为最终模型。

6.根据权利要求1所述的一种预测糖尿病胰腺癌患者预后风险的模型的建立方法，其特征在于，所述将训练队列和验证队列的10个第二目标基因RNA表达量作为输入值分别输入至模型中，得到相应模型分数，采用单因素COX回归分析模型和多因素COX回归分析模型对相应模型分数进行验证，得到分析结果，具体包括：

7.根据权利要求6所述的一种预测糖尿病胰腺癌患者预后风险的模型的建立方法，其特征在于，所述训练队列中相应的临床特征信息和验证队列中相应的临床特征信息均包括糖尿病胰腺癌患者的年龄、性别、T分期和N分期。

8.根据权利要求6所述的一种预测糖尿病胰腺癌患者预后风险的模型的建立方法，其特征在于，选取所述训练队列的风险分数的中位值作为界值，将训练队列和验证队列中的糖尿病胰腺癌患者划分为高风险组和低风险组，并进行生存分析。

9.一种预测糖尿病胰腺癌患者预后风险的模型，所述模型基于权利要求1-8任一项所述的预测糖尿病胰腺癌患者预后风险的模型的构建方法建立，所述模型包括糖尿病胰腺癌患者ACACA、ATG7、DEFB123、FSTL3、NIPSNAP3B、RASSF1、RBPJ、SLC35F2、SLC37A7、ZC3H12D的基因RNA表达量，所述模型的模型表达式为：模型分数＝0.434×ACACA+0.119×ATG7+0.373×DEFB123+0.135×FSTL3-0.168×NIPSNAP3B-0.069×RASSF1+0.225×RBPJ+0.364×SLC35F2-0.168×SLC37A7-0.145×ZC3H12D。

10.一种预测糖尿病胰腺癌患者预后风险的方法，所述方法不用于诊断用途，其特征在于，所述方法包括获取糖尿病胰腺癌患者ACACA、ATG7、DEFB123、FSTL3、NIPSNAP3B、RASSF1、RBPJ、SLC35F2、SLC37A7、ZC3H12D的基因RNA表达量，根据如下公式计算模型分数：模型分数＝0.434×ACACA+0.119×ATG7+0.373×DEFB123+0.135×FSTL3-0.168×NIPSNAP3B-0.069×RASSF1+0.225×RBPJ+0.364×SLC35F2-0.168×SLC37A7-0.145×ZC3H12D，并且通过模型分数判断糖尿病胰腺癌患者预后风险，模型分数大于-0.054为糖尿病胰腺癌患者预后风险高，模型分数小于等于-...

【技术特征摘要】

1.一种预测糖尿病胰腺癌患者预后风险的模型的建立方法，其特征在于，包括：

2.根据权利要求1所述的一种预测糖尿病胰腺癌患者预后风险的模型的建立方法，其特征在于，所述获取胰腺癌患者原始的基因rna表达量以及临床特征信息，并将获取的原始的基因rna表达量进行批次效应处理，具体包括：从tcga数据库和geo数据库获取胰腺癌患者原始的基因rna表达量以及临床特征信息，并采用sva包将获取的原始的基因rna表达量进行批次效应处理。

3.根据权利要求1所述的一种预测糖尿病胰腺癌患者预后风险的模型的建立方法，其特征在于，所述基于秩和检验，得到糖尿病胰腺癌患者和非糖尿病胰腺癌患者之间的差异表达基因作为第一目标基因，并根据benjamini&hochberg法对p值进行调整，获得fdr值，具体包括：基于秩和检验，筛选原始p值<0.05且fdr值<0.25的基因作为第一目标基因，得到糖尿病胰腺癌患者和非糖尿病胰腺癌患者之间的第一目标基因，其中，第一目标基因为与是否伴有糖尿病病史相关的585个差异基因。

4.根据权利要求1所述的一种预测糖尿病胰腺癌患者预后风险的模型的建立方法，其特征在于，所述将糖尿病胰腺癌患者划分成训练队列和验证队列，采用单因素cox回归分析模型在训练队列中进行生存分析，从第一目标基因中筛选出有预后价值的基因作为第二目标基因，具体包括：将糖尿病胰腺癌患者按照7:3的比例划分成训练队列和验证队列，在训练队列中以总生存时间和生存状态为因变量，以第一目标基因rna表达量为自变量进行单因素cox回归分析，将符合p值<0.05的第一目标基因作为第二目标基因，其中，第二目标基因为与患者总生存时间相关的23个第一目标基因。

5.根据权利要求4所述的一种预测糖尿病胰腺癌患者预后风险的模型的建立方法，其特征在于，所述从第二目标基因中选取出10个第二目标基因，并基于选取的10个第二目标基因，构建预测糖尿病胰腺癌患者预后风险的模型，具体包括：采用lasso-cox回归分析模型和十折交叉验证从23个第二目标基因中选取出10个第二目标基因进行模型的构建和误差的计算，并选取十折交叉验证误差最小的预测糖尿病胰腺癌患者预后风险的模型作为最终模型。

6.根据权利要求1所述的一种预测糖尿病胰腺癌患者预后风险的模型的建立方法，其特征在于，所述将训练队列和验证队列的10个第二目标基因r...

【专利技术属性】
技术研发人员：石远凯，唐乐，谢同济，范光裕，朱豪华，姚嘉瑞，
申请(专利权)人：中国医学科学院肿瘤医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人