胰腺癌miRNA预后模型的确立及靶向基因的筛选方法技术

技术编号:27449931 阅读:27 留言:0更新日期:2021-02-25 04:29
胰腺癌miRNA预后模型的确立及靶向基因的筛选方法,包括hsa

【技术实现步骤摘要】
mir-3613和hsa-mir-4772,并鉴定了9个关键基因,包括MMP14、ITGA2、THBS2、 COL1A1、COL3A1、COL11A1、COL6A3、COL12A1和COL5A2。
[0008]另一方面,本专利技术提供胰腺癌miRNA预后模型的确立方法。
[0009]本专利技术利用TCGA和GEO数据库,通过R语言多个安装包对数据进行多步骤分析,与临床信息结合,建立Cox比例风险回归模型寻找预后生物标志物,预测miRNA的靶基因,并利用Cytoscape找出与胰腺癌发生相关的关键基因并且通过KEGG和GO分析预测出这些关键基因的相关分子功能和作用机制,寻找胰腺癌患者的治疗新靶点和预后标志物。
[0010]专利技术详述
[0011]一种胰腺癌miRNA预后模型的确立方法,其包括以下步骤:
[0012]1)检索数据并处理RNA序列数据:从TCGA公共数据中(The Cancer Genome Atlas,https://portal.gdc.cancer.gov/)确认并下载183例PAAD患者的组织样本miRNA-seq 数据(level 3)和相应的临床信息;从GEO公共数据库(Gene Expression Omnibus,https://www.ncbi.nlm.nih.gov/geo/)中确认并下载包涵胰腺癌相关组织与正常组织信息的GSE28735的表达谱,其中包含了肿瘤样本(45个)和正常胰腺组织(45个);
[0013]2)差异miRNAs和基因筛选:采用R语言中的edgeR
[17],gplots和limma
[18]程序包对TCGA 数据库中获得的胰腺癌与正常组织的miRNA表达矩阵进行标准化、数据拟合及差异分析,并根据|log2FC|>1,P
adj
<0.05的筛选标准筛选显著差异miRNA;利用limma程序包对 GEO芯片GSE28735进行分析差异表达的基因并同样根据|log2FC|>1,P
adj
<0.05的筛选标准筛选显著差异基因,分别绘制差异表达miRNA和基因的火山图;
[0014]3)建立Cox比例风险回归模型:运用Cox比例风险回归模型
[19]分析DEMs与病人生存时间的关联性。Survival package辅助用于对DEMs进行单因素Cox分析和多因素Cox分析。对得出的DEMs分析它们与总体生存率的相关性。在单因素Cox分析中视P<0.05 的miRNA是与病人生存时间为相关性强的表现。多因素Cox分析利用逐步回归法筛选并得到与单因素模型功能相近但miRNA数量更少的,更便于临床研究的预后模型。视多因素模型中P<0.05的miRNA为患者的独立预后因子。
[0015]4)建立预后模型:结合多因素Cox分析结果,根据模型公式Risk Score=β1
×
Exp(miRNA1)+β2
×
Exp(miRNA2)+...+βn
×
Exp(miRNAn)计算风险分数,再根据风险分数的中位值将病人分为高风险组和低风险组,并绘制风险分数曲线和表达热图,再进行生存分析绘制患者的生存曲线和生存状态图,由此建立起联合miRNA的预后模型。制作该模型的ROC曲线
[20]判断其预测能力,AUC值>0.7则说明该模型具有一定的预测能力。
[0016]5)靶基因预测:分别使用2个miRNA靶基因预测的在线网站TargetScan (http://www.targetscan.org/),miRDB(http://miRdb.org/)对4个miRNA的靶基因根据碱基序列进行预测。为了减少假阳性,我们对预测出的靶基因取交集。然后,将共同预测的靶基因与显著差异表达基因取交集,得到共有基因。此时,共有基因表示既是 miRNAs的靶基因,又是与胰腺癌相关的显著差异表达基因。
[0017]6)构建互作网络并筛选核心网络:利用在线可视化工具STRING
[23] (http://string-db.org)对共有基因进行分析,获取蛋白-蛋白相互作用数据,选择最小互作分数大于等于0.400构建蛋白-蛋白互作网络(PPI),并隐藏网络中断开的节点。将蛋白互作数据导入Cytoscape(Version 3.7.1,https://cytoscape.org/),先使用 cytohubba中的算法MCC
筛选出排名前15的关键基因,再运用Cytoscape中的MolecularComplex Detection(MCODE)插件对15个基因网络系统进行评分,Degree Cut-off=2, Haircut on,Node Score Cut-off=0.2,k-core=2和Max.Depth=100。计算寻找 MCODE score较高的集簇,从而得到关键基因。接着,将互作网络中基因的logFC值导入Cytoscape得到基因显著差异表达情况。
[0018]7)构建miRNAs-基因-通路可视化网络
[0019]利用Cytoscape将miRNAs与关键基因的关系、共有基因与特殊KEGG通路和GO功能注释的关系进行可视化,呈现出miRNAs与关键基因的调控关系,以及共有基因在P值最小或count值最大的KEGG通路和GO功能注释上的富集情况。
[0020]8)miRNA测序数据、Cox回归模型分析、时间依赖的ROC曲线分析及热图双聚类分析、富集分析、网络分析等均使用R语言软件进行统计分析,所有结果以P<0.05作为差异有统计学意义的标准。
[0021]本专利技术有益效果:
[0022]本专利技术通过对胰腺癌miRNA及基因谱进行生物信息学分析,得到一个与PDAC相关的四miRNA预后模型,包括hsa-mir-424、hsa-mir-126、hsa-mir-3613和hsa-mir-4772,并鉴定了9个关键基因,包括MMP14、ITGA2、THBS2、COL1A1、COL3A1、COL11A1、COL6A3、 COL12A1和COL5A2。其中,hsa-mir-4772、COL12A1和COL5A2需要在PDAC中实验验证。这些miRNAs和基因在成为胰腺癌的治疗靶点和预后标志物方面具有很大潜力。本专利技术的研究可以为未来胰腺癌的诊断和治疗提供新的指导,并可能促进新药的开发。
附图说明
[0023]图1示胰腺癌差异表达的DEMs和DEGs的火山图,(A)绿点表示表达下调的miRNA,红点表示表达上调的miRNA;(B)绿点表示表达下调的基因,红点表示表达上调的基因。横坐标表示样本差异表达倍数的log2转化值,|log2FC|越大表示差异倍数越大。纵坐标表示FDR值的-log10转化值,转化值越大表示差异越显著。
[0024]图2示胰腺癌患者预后模型:(A)从上到下分别是风险分数曲线、生存状态图和热图; (B本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种作为胰腺癌预后的标志物,其特征在于,包括Hsa-mir-424,hsa-mir-126,hsa-mir-3613、hsa-mir-4772、COL12A1或COL5A2。2.权利要求1所述作为胰腺癌预后标志物的确立方法,其包括以下步骤:1)检索数据并处理RNA序列数据:从TCGA公共数据中确认并下载183例PAAD患者的组织样本miRNA-seq数据;从GEO公共数据库中确认并下载包涵胰腺癌相关组织与正常组织信息的GSE28735的表达谱,其中包含了45个肿瘤样本和45个正常胰腺组织;2)差异miRNAs和基因筛选:采用R语言中的edgeR,gplots和limma程序包对TCGA数据库中获得的胰腺癌与正常组织的miRNA表达矩阵进行标准化、数据拟合及差异分析,并根据|log2FC|>1,P
adj
<0.05的筛选标准筛选显著差异miRNA;利用limma程序包对GEO芯片GSE28735进行分析差异表达的基因并同样根据|log2FC|>1,P
adj
<0.05的筛选标准筛选显著差异基因,分别绘制差异表达miRNA和基因的火山图;3)建立Cox比例风险回归模型:运用Cox比例风险回归模型分析DEMs与病人生存时间的关联性;4)建立预后模型:结合多因素Cox分析结果,根据模型公式Risk Score=β1
×
Exp(miRNA1)+β2
×
Exp(miRNA2)+...+βn
×
Exp(miRNAn)计算风险分数,再根据风险分数的中位值将病人分为高风险组和低风险组,并绘制风险分数曲线和表达热图,再进行生存分析绘制患者的生存曲线和生存状态图,由此建立起联合miRNA的预后模型,制作该模型的ROC曲线判断其预测能力,AUC值>0.7则说明该模型具有一定的预测能力;5)靶基因预测:分别使用2个miRNA靶基因预测的在线网站TargetScan,miRDB对4个miRNA的靶基因根据碱基序列进行预测;6)构建互作网络并筛选核心网络:利用在线可视化工具S...

【专利技术属性】
技术研发人员:黄遵楠陈烁玲曲玥阳肖桂山俞天杨高畅
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1