一种前列腺癌的诊断模型构建方法技术

技术编号:32920689 阅读:113 留言:0更新日期:2022-04-07 12:12
本发明专利技术公开了一种前列腺癌的诊断模型构建方法,包括以下步骤:Step1)获取PCa的基因表达谱数据;Step2)对PCa的基因表达谱数据进行差异表达谱分析,筛选出PCa中的差异基因;Step3)针对PCa中的差异基因通过机器学习方法中的GAE算法筛选关键基因;Step4)对GAE的计算结果,通过PPI分析得到10个高表达基因和6个低表达基因;Step5)通过单因素回归分析和多因素回归分析建立预后模型;Step6)根据预后模型参数构建PCa的诊断模型;Step7)对PCa诊断模型进行验证。本发明专利技术构建并验证了由4个基因构建的PCa诊断模型,这为PCa患者的个性化精准治疗提供了依据。供了依据。供了依据。

【技术实现步骤摘要】
一种前列腺癌的诊断模型构建方法


[0001]本专利技术涉及医学领域,尤其涉及一种前列腺癌的诊断模型构建方法。

技术介绍

[0002]前列腺癌(Porstate Cancer,PCa)是西方国家第二大最常在男性中被诊断为恶性的肿瘤。根据世界卫生组织(World Health Organization,WHO)国际癌症研究机构的数据,截至2012年全世界约有110万男性被诊断出患有前列腺癌,占男性确诊的所有癌症的15%。在我国,根据2019年1月国家癌症中心发布的最新一期全国癌症统计数据,前列腺癌发病率近年来有明显的上升趋势,在男性中排在第6位。PCa被认为是一种异质性疾病,多个基因和细胞通路共同参与了PCa的发生与发展。细胞的表观遗传突变导致的肿瘤可能无法控制地生长和繁殖。

技术实现思路

[0003]有鉴于此,本专利技术的目的之一是提供一种前列腺癌诊断模型,该模型可以实现对前列腺癌的预测。
[0004]本专利技术通过以下技术手段解决上述技术问题:
[0005]一种前列腺癌的诊断模型的构建方法,包括以下步骤:
[0006]Step1)获取PCa(前列腺癌)的基因表达谱数据;
[0007]Step2)对PCa的基因表达谱数据进行差异表达谱分析,筛选出PCa中的差异基因;
[0008]Step3)针对PCa中的差异基因通过机器学习方法中的GAE(Graph Autoencoder)算法筛选关键基因;
[0009]Step4)对GAE的计算结果,通过PPI分析得到关键基因中的10个高表达基因和6个低表达基因;
[0010]Step5)通过单因素回归分析和多因素回归分析建立预后模型;
[0011]Step6)根据预后模型参数构建PCa的诊断模型;
[0012]Step7)对PCa诊断模型进行验证。
[0013]基于PCa差异表达基因,通过机器学习中的GAE的方法进行分析,并筛选出PCa中的高表达基因为:UBE2C、CCNB1、TOP2A、TPX2、CENPM、KIAA0101、F5、APOE、NPY和TRIM36,低表达基因为:MYH11、FLNA、ACTA2、MYL9、TAGLN和ACTG2。
[0014]通过单因素Cox比例风险模型找出与PCa预后相关的关键基因,再通过多因素Cox比例风险模型构建一个基于4个基因的诊断模型。述诊断模型通过以下公式计算:
[0015]预后风险指标=(0.3153
×
TOP2A基因表达水平)+(0.2987
×
UBE2C基因表达水平)+(

0.7064
×
MYL9基因表达水平)+(

0.4628
×
FLNA基因表达水平)
[0016]本专利技术的有益效果:
[0017]本专利技术发现并验证了由4个与PCa预后相关的关键基因构成的诊断模型。另外,通过整合多组学数据库验证构建预测模型的关键基因,本专利技术获得的结果为PCa生物标志物
的研究提供了新方向,同时也为PCa患者的个性化精准治疗提供了新的可能性。
附图说明
[0018]下面结合附图和实施例对本专利技术作进一步的阐述;
[0019]图1为GSE6919和GSE30174两个数据集的表达谱;
[0020]图2为GSE6919和GSE30174数据集差异表达谱分析结果;
[0021]图3为GAE算法筛选出的关键基因;
[0022]图4为通过PPI分析后得到的显著上调和显著下调基因;
[0023]图5为GEO训练集中高低风险基因表达;
[0024]图6为GEO训练集中ROC曲线;
[0025]图7为预测模型的多因素Cox分析;
[0026]图8为预测模型与年龄、病理分期的多因素Cox分析;
[0027]图9为预测模型的ROC曲线;
[0028]图10为通过GEPIA数据库验证关键基因;
[0029]图11为通过Oncomie数据库验证关键基因;
[0030]图12为通过GETx数据库验证关键基因;
[0031]图13为通过Human ProteinAtlas数据库验证关键基因。
具体实施方式
[0032]以下结合具体实验对本专利技术作详细的说明:
[0033]本专利技术的一种前列腺癌的诊断模型构建方法,具体包括以下步骤:
[0034]步骤一:数据收集与分析
[0035]1)收集患者数据
[0036]从Gene Expression Omnibus(GEO)数据库中选择GSE6919和GSE30174两个数据集作为训练数据集。
[0037]GEO数据库是一个公共的基因组数据数据库,其中的数据都是来自于公开发表的论文中的内容。该数据库创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。因此,基于该数据库作为数据来源具有较高的可信度。
[0038]本专利技术选择了GSE6919和GSE30174两个数据集作为机器学习的训练数据源。GSE6919数据集是基于Agilent GPL92、GPL93和GPL8300平台(Affymetrix Human Genome U95 Version 2Array)的,由Federico Alberto Monzon于2018年提交。GSE30174数据集共有504个样本,其中包括233个正常前列腺组织和271个转移性前列腺肿瘤。GSE30174由Jennifer Barb于2019提交。训练集的表达谱数据如图1所示。
[0039]使用GSE16560数据集作为验证数据集。GSE16560数据集包含80个样本,包括10个健康外周血和70个非转移性前列腺肿瘤。GSE16560作为验证数据集基于GPL5474平台(用于DASL的人类6k转录信息基因组),由Andrea Sboner于2013年提交,包含281个样本,包括由不同Gleason Score排序的原发性前列腺肿瘤。
[0040]2)在前列腺癌中筛选差异表达基因
[0041]为了筛选PCa中的差异基因,本专利技术使用R语言中的limma软件包,对GSE6919和GSE30174数据集差异表达谱分析,从中筛选了6269个差异基因。筛选标准为(false discovery rate,FDR)<0.05和|log2|(fold change,FC)|>1.5。
[0042]GSE6919和GSE30174数据集差异表达谱分析结果如图2所示。
[0043]进一步,GO分析结果显示这些差异基因在生物过程(BP)中显着富集,包括信号转导、RNA聚合酶II启动子转录的正调控。细胞组分(CC)分析表明,这些差异基因在细胞质囊泡膜、膜的整体成分和质膜中显着富集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种前列腺癌的诊断模型构建方法,其特征在于,包括以下步骤:Step1)获取PCa(Prostate Cancer,前列腺癌)的基因表达谱数据;Step2)对PCa的基因表达谱数据进行差异表达谱分析,筛选出PCa中的差异基因;Step3)针对PCa中的差异基因通过机器学习方法中的GAE(Graph Autoencoder)算法筛选关键基因;Step4)对GAE的计算结果,通过PPI分析得到关键基因中的10个高表达基因和6个低表达基因;Step5)通过单因素回归分析和多因素回归分析建立预后模型;Step6)根据预后模型参数构建PCa的诊断模型;Step7)对PCa诊断模型进行验证。2.根据权利要求1所述的前列腺癌的诊断模型的构建方法,其特征在于:对步骤2中的PCa差异表达基因,通过机器学习中的GAE的方法进行分析,并筛选出PCa中的高表达基因为:UBE2C、CCNB1、TOP...

【专利技术属性】
技术研发人员:罗艺灵佟延秋
申请(专利权)人:重庆医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1