一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用技术

技术编号:21345866 阅读:36 留言:0更新日期:2019-06-13 23:20
本发明专利技术涉及生物医学领域,具体涉及一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用。本发明专利技术采用加权基因共表达网络分析(WGCNA)以及KEGG通路、GO富集分析等分析方法。加权基因共表达网络分析(WGCNA)是一种高效、全面的高维数据分析方法,且其分析基因芯片数据的准确性和有效性已经得到证实。所述的应用本发明专利技术方法筛选出的潜在生物标志物为FERMT2。本发明专利技术为胃癌的诊断、治疗及预后提供了新方向,促进了“个体化治疗”的发展。

【技术实现步骤摘要】
一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
本专利技术涉及生物医学领域,具体涉及一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用。
技术介绍
胃癌(gastriccancer)是最常见的恶性肿瘤之一,发病率及死亡率居高不下,目前中国仍有许多进展期胃癌患者,也是世界上胃癌高发的国家之一。因此早期诊断、合理评估其预后并适时适度干预十分重要。目前研究揭示:胃癌是一种基因病,是由多种癌基因抗癌基因共同参与、多阶段多途径协同,使胃黏膜逐步发展到癌前病变,再发展到胃癌的一个演变过程。正常胃黏膜到癌前变过程及癌前变至胃癌过程皆存在特征性的差异表达基因。分子病理学将分子杂交技术与组织形态学检测相融合,随着免疫组织化学及分子生物学的发展,胃癌的病理与免疫学及分子生物学研究之间越来越密不可分。目前已探索了许多与胃癌相关的基因及其蛋白质产物,早期发现这些基因及标志物为探讨胃癌发病机理开辟了新途径,更加能够揭示肿瘤组织的生长活性在肿瘤生长、浸润和转移方面的作用,从而更加准确地指导临床治疗、判断预后。随着高通量数据集的出现,基因表达谱已被证实是一种有前途的肿瘤分类和预测癌症预后的工具。计算方法的飞速发展,也使得以网络为中心的方法更适合于获取复杂的信息,例如基因共表达网络、基因调控网络,蛋白质-蛋白质相互作用网络、信号转导网络和代谢网络等。其中,加权基因共表达网络分析(WGCNA)是一种高效、全面的高维数据分析方法,已被用于分析脑癌、酵母细胞周期、小鼠遗传学、灵长类动物脑组织、糖尿病、慢性疲劳患者和植物的基因表达数据。目前胃镜检查是胃癌诊断的最有价值的方法,但由于其具有侵入性,限制了受检人数。胃癌的组织学和病理学分期是最终预后的金标准,然而它仅揭示个体患者疾病状态的有限信息。除此之外,它还受限于具有足够统计功能的合适计算方法的有限可用性以及具有相似组织病理学外观的患者之间的异质性。此外,胃癌危险因素复杂,使用单因素诊断胃癌准确性较低。综上所述,积极寻找新型潜在的生物标志物或基因标记,不仅能够提高胃癌诊断的准确性,还能有效预测胃癌的预后;是在科学技术发展的大背景下,胃癌研究的主流方向;在一定程度上推动了“精准化医疗”的发展。
技术实现思路
鉴于现有技术存在的问题,本专利技术的目的在于提供一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用。所述的应用本专利技术方法筛选出的潜在生物标志物为FERMT2。本专利技术为胃癌的诊断、治疗及预后提供了新方向,促进了“个体化治疗”的发展。为了实现上述目的,本专利技术采用以下技术方案。一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法,应用此方法筛选出的潜在生物标志物为FERMT2。一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用,具体包括以下步骤。1)GEO数据下载和预处理:从GEO数据库下载包括癌症样本以及对应的临床随访信息的胃癌芯片数据。数据的预处理如下:下载数据集为log10-transformedRMAsignalintensity,对每个样本进行分位数标准化(Usinganormalizationbaseduponquantiles),进一步对每个样本进行聚类分析,筛选出表达谱较为一致的样本作为训练集样本。2)筛选变化较大的基因:筛选变化较大的基因,如A基因符合筛选规则如下:①A基因在所有样本中的表达水平中位数高于所有基因在各个样本中表达水平的中位数的20%。②A基因在各个样本中表达水平的方差高于所有基因在各个样本中表达水平的方差的20%。3)单因素生存分析:为了进一步观察这些在样本中变化较大的基因与预后的关系,使用R软件包survival对这些基因进行单因素生存分析,筛选出预后显著性p值小于0.01的基因作为种子基因。4)基因与lncRNA共表达网络构建:WGCNA是使用基因表达数据来构建无尺度网络的系统生物学方法。其基本思路如下。首先,构建基因表达相似性矩阵,即计算两两基因之间皮尔森相关系数的绝对值,使用公式1计算基因i和基因j之间的皮尔森相关系数,其中i和j分别是第i个基因和第j个基因的表达量。公式1:然后使用公式2将基因表达相似性矩阵转换成邻接矩阵,网络类型为signed。其中β为软阈值,其实就是将每对基因的皮尔森相关系数β次方。这一步能够从指数级别强化强相关性和减弱弱相关性。公式2:下一步使用公式3将邻接矩阵转换成拓扑矩阵,拓扑重叠(topologicaloverlapmeasure,TOM)用来描述基因之间的关联程度。公式3:1-TOM表示基因i和基因j之间的相异程度。使用1-TOM作为距离对基因进行层次聚类,然后使用动态剪切树的方法进行模块的识别。每个模块中最具有代表性的基因称为特征向量基因,简称ME,它代表了该模块内基因表达的整体水平,它是每个模块中的第一主成分,使用公式4来计算ME,其中i表示模块q中的基因,l表示模块q中的芯片样本。公式4:利用某个基因在所有样本中的表达谱与某个特征向量基因ME表达谱的皮尔森相关性来衡量这个基因在该模块中的身份,即模块身份(modulemembership),简称MM。使用公式5计算MM,其中MEq表示第i个基因的表达谱,表示模块q的特征向量基因(ME),表示了基因i在模块q中的身份,当则说明基因i不在模块q中,越接近+1或-1,则说明基因i与模块q高度相关。正负号表示了基因i与模块q是正相关还是负相关。公式5:基因显著性(genesignificance),简称GS,用来衡量基因与外部信息的关联程度,GS越高表示基因越具有生物学意义,GS=0,说明这个基因不参与所研究的生物学问题。选择在各个样本中有变化同时又有预后显著性差异的基因(种子基因)的表达数据,使用R软件包WGCNA进行构建权重共表达网络,选择软阈值为5,筛选共表达模块。5)共表达模块的富集分析:为观察各个共表达模块的功能,使用R软件包clusterProfiler对各个模块进行KEGG通路、GO富集分析,观察各个模块的功能。6)各模块与癌症样本相关性分析:根据癌症样本的TNMStage分期将晚期癌症样本定义为1,早期癌癌症样本定义为0,将性别男定义为1、女定义为0,以及对应样本的年龄,最终形成一个表型矩阵,计算每个模型与表型矩阵中各个因素的相关性,筛选出与各个因素相关的模块。7)分析各个模块的基因表达谱与预后的关系:根据各个共表达模块中的基因的表达水平进行层次聚类分析,对各个样本进行分类,进一步分析分类后样本的预后差异。8)模块的hubgene筛选:计算每个模块的特征向量基因(ME)与样本特征信息的皮尔森相关系数来确定关键模块。枢纽基因是一个模块中具有高连接度的一系列基因。WGCNA的一个目的就是找出感兴趣模块的枢纽基因。一般来说,相对于全局网络,子模块的枢纽基因更具有生物学意义。目前已经证明模块身份(MM)可以用来衡量一个基因在某个模块中的重要性,并且MM与模块的连接度有着正相关的联系。因此,可根据MM值来选取枢纽基因,若某个基因在一个特定的模块中|MM|值大于0.9,则把这个基因当做枢纽基因(hubgene)。9)hubgene表达分析:通过分析hubgene在早期和晚期癌症样本中的表本文档来自技高网
...

【技术保护点】
1.一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法,其特征在于,应用此方法筛选出的潜在生物标志物为FERMT2。

【技术特征摘要】
1.一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法,其特征在于,应用此方法筛选出的潜在生物标志物为FERMT2。2.一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法,具体包括以下步骤:1)GEO数据下载和预处理:从GEO数据库下载包括癌症样本以及对应的临床随访信息的胃癌芯片数据,数据的预处理如下:下载数据集为log10-transformedRMAsignalintensity,对每个样本进行分位数标准化,进一步对每个样本进行聚类分析,筛选出表达谱较为一致的样本作为训练集样本;2)筛选变化较大的基因:筛选变化较大的基因,如A基因符合筛选规则如下:①A基因在所有样本中的表达水平中位数高于所有基因在各个样本中表达水平的中位数的20%;②A基因在各个样本中表达水平的方差高于所有基因在各个样本中表达水平的方差的20%;3)单因素生存分析:为进一步观察这些在样本中变化较大的基因与预后的关系,使用R软件包survival对这些基因进行单因素生存分析,筛选出预后显著性p值小于0.01的基因作为种子基因;4)基因与lncRNA共表达网络构建:WGCNA是使用基因表达数据来构建无尺度网络的系统生物学方法,首先构建基因表达相似性矩阵,即计算两两基因之间皮尔森相关系数的绝对值,使用公式1计算基因i和基因j之间的皮尔森相关系数,其中i和j分别是第i个基因和第j个基因的表达量,公式1:然后使用公式2将基因表达相似性矩阵转换成邻接矩阵,网络类型为signed,其中β为软阈值,其实就是将每对基因的皮尔森相关系数β次方,这一步能够从指数级别强化强相关性和减弱弱相关性,公式2:下一步使用公式3将邻接矩阵转换成拓扑矩阵,拓扑重叠(topologicaloverlapmeasure,TOM)用来描述基因之间的关联程度,公式3:1-TOM表示基因i和基因j之间的相异程度,使用1-TOM作为距离对基因进行层次聚类,然后使用动态剪切树的方法进行模块的识别,每个模块中最具有代表性的基因称为特征向量基因简称ME,它代表了该模块内基因表达的整体水平,它是每个模块中的第一主成分,使用公式4来计算ME,其中i表示模块q中的基因,l表示模块q中的芯片样本,公式4:利用某个基因在所有样本中的表达谱与某个特征向量基因ME表达谱的皮尔森相关性来衡量这个基因在该模块中的身份,即模块身份简称MM,使用公式5计算MM,其中表示第i个基因的表达谱,表示模块q...

【专利技术属性】
技术研发人员:王哲解夕黎
申请(专利权)人:辽宁省肿瘤医院
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1