基于基因共表达网络分析的癌症转录组数据处理方法,涉及数据处理领域,包括获取原始数据集;原始数据的预处理;识别差异表达基因;构建基因共表达网络;挖掘基因模块;基因模块与临床指标的关联分析;基因模块的富集分析;识别关键基因;探究关键基因的功能;关键基因的生存分析。由富集分析结果可知,使用该方法划分的基因模块具有显著的生物学意义;由Disgenet数据库对于关键基因的验证结果可知,使用该方法识别出的关键基因大部分均与肿瘤疾病有关。该方法在基因模块的挖掘及关键基因的识别方面具有良好的效果。该方法可作为癌症疾病转录组数据的一个重要工具,其应用也为进一步了解癌症疾病的患病机制提供了新的方向。一步了解癌症疾病的患病机制提供了新的方向。一步了解癌症疾病的患病机制提供了新的方向。
【技术实现步骤摘要】
基于基因共表达网络分析的癌症转录组数据处理方法
[0001]本专利技术涉及一种基因数据处理方法,具体涉及一种基于基因共表达网络分析的癌症转录组数据处理方法。
技术介绍
[0002]近年来,癌症疾病的患病率越来越高,但是由于这类疾病治疗困难又极易复发,故对于癌症疾病的研究变得越来越重要。如果能利用生物信息学方法对癌症疾病进行功能基因模块的挖掘,并识别出其中的关键基因,必将能够进一步了解癌症疾病的患病机制,并对其临床治疗具有一定的帮助。
[0003]随着二代测序技术的快速发展,基因表达数据出现了爆炸式的增长,如何从大量数据中挖掘出隐藏的知识成为了后基因组时代的重要任务之一。与此同时,随着研究的深入,人们逐渐发现在细胞环境中,各种生物因子不是单独地行使作用,而是相互合作完成各种复杂的生物功能。故将各类生物数据采用适当的方法转化为生物网络,从而利用图论以及复杂网络理论的相关知识对其进行分析与挖掘,已成为处理海量生物数据的有效方法。生物网络是在生物学领域的科学问题中,利用生物元素构建的网络,网络中的结点代表生物元素,如蛋白质、基因等,而网络中的边则代表生物元素在生化、物理或功能上的相互作用关系。基因共表达网络是一种常用的生物网络,它的出现为基因组学的发展开辟了一个新的方向。
技术实现思路
[0004]为了对癌症转录组数据进行有效处理,本专利技术提供一种基于基因共表达网络分析的癌症转录组数据处理方法。
[0005]本专利技术为解决技术问题所采用的技术方案如下:
[0006]本专利技术的基于基因共表达网络分析的癌症转录组数据处理方法,主要包括以下步骤:
[0007]步骤一、获取原始数据集;
[0008]步骤二、原始数据的预处理;
[0009]步骤三、识别差异表达基因;
[0010]步骤四、构建基因共表达网络;
[0011]步骤五、挖掘基因模块;
[0012]步骤六、基因模块与临床指标的关联分析;
[0013]步骤七、基因模块的富集分析;
[0014]步骤八、识别关键基因;
[0015]步骤九、探究关键基因的功能;
[0016]步骤十、关键基因的生存分析。
[0017]进一步的,步骤一中,所述原始数据集来源于TCGA数据库或GEO数据库;所述原始
数据集包括癌症组织样本中的基因表达数据、癌旁组织样本中的基因表达数据和每个样本对应的临床数据。
[0018]进一步的,步骤二中,首先过滤掉低表达基因,然后对样本进行层次聚类,删除离群样本。
[0019]进一步的,步骤三中,利用FC
‑
t算法识别出满足限定条件的所有差异表达基因。
[0020]进一步的,步骤四中,以差异表达基因在样本中的基因表达数据为基础,进行两两基因的皮尔森相关分析;设置限定条件对得到的所有关系进行筛选,将满足限定条件的两个基因视为存在共表达关系;将所有存在共表达关系的基因及其关系用一张图进行表示,即得到基因共表达网络。
[0021]进一步的,步骤五中,利用4种社团检测算法对基因共表达网络中的结点进行网络聚类,得到由功能相似的基因组成的社团即基因模块;使用“模块度”作为评价标准,选择最优的模块挖掘结果。
[0022]进一步的,步骤六中,对一个基因模块中所有的基因表达数据进行主成分分析,并将第一主成分定义为该基因模块的模块特征基因;将各基因模块的模块特征基因与不同的临床指标进行皮尔森相关分析,得到该基因模块与临床指标的关联矩阵。
[0023]进一步的,步骤七中,将感兴趣的基因模块中的基因与GO数据库提供的生物过程、细胞成分和分子功能进行富集分析,同时将该基因与Reactome数据库提供的信号通路进行富集分析。
[0024]进一步的,步骤八中,利用PageRank算法对基因共表达网络中所有结点的重要性进行打分,打分标准基于拓扑学原理,进而识别出在基因共表达网络中较为重要的结点,这些结点对应的基因即为关键基因。
[0025]进一步的,步骤九中,利用Disgenet数据库检索与关键基因有关的疾病,对关键基因的功能进行探究。
[0026]进一步的,步骤十中,利用在线软件onclnc对关键基因进行生存分析,并绘制生存曲线。
[0027]本专利技术的有益效果是:
[0028]复杂网络理论在许多学科中都发挥着巨大的作用,近年来,其在计算机科学、物理学、社会学等学科中的应用都被广泛研究。生物体是一个高度复杂的体系,它的每一个生物学过程都需要许多物质的共同参与,研究单一的某个基因或蛋白难以从整体上去了解其背后所蕴藏的分子机制。由于癌症疾病的复杂性,现有的生物信息学分析方法难以对其转录组数据进行有效的分析与挖掘,因此,本专利技术将复杂网络理论应用到了生物学研究中,并具体应用到对癌症转录组数据的处理与分析方法中。
[0029]本专利技术提出了一种基于基因共表达网络分析的癌症转录组数据处理方法,主要包括:获取原始数据集;原始数据的预处理;识别差异表达基因;构建基因共表达网络;挖掘基因模块;基因模块与临床指标的关联分析;基因模块的富集分析;识别关键基因;探究关键基因的功能;关键基因的生存分析。由GO/Reactome富集分析结果可知,使用该方法划分的基因模块具有显著的生物学意义;由Disgenet数据库对于关键基因的验证结果可知,使用该方法识别出的关键基因大部分均与肿瘤疾病有关。由此可证明本专利技术提供的一种基于基因共表达网络分析的癌症转录组数据处理方法在基因模块的挖掘及关键基因的识别方面
具有良好的效果。本专利技术的一种基于基因共表达网络分析的癌症转录组数据处理方法可以作为癌症疾病转录组数据的一个重要工具,该方法的应用也为进一步了解癌症疾病的患病机制提供了新的方向。
附图说明
[0030]图1为本专利技术的一种基于基因共表达网络分析的癌症转录组数据处理方法的流程图。
[0031]图2为实施例1中数据获取和预处理流程图。
[0032]图3为实施例1中癌症组织样本层次聚类树。
[0033]图4为实施例1中差异表达基因识别流程图。
[0034]图5为实施例1中差异表达基因火山图。
[0035]图6为实施例1中基因共表达网络构建流程图。
[0036]图7为实施例1中基因共表达网络及若干小网。
[0037]图8为实施例1中基因模块的挖掘流程图。
[0038]图9为实施例1中eigenvector算法的模块挖掘结果。
[0039]图10为实施例1中基因模块与临床指标的关联分析流程图。
[0040]图11为实施例1中基因模块与临床指标的关联矩阵。
[0041]图12为实施例1中基因模块的GO/Reactome富集分析流程图。
[0042]图13为实施例1中基因模块m1的BP富集结果。
[0043]图14为实施例1中基因模块m1的CC富集结果。
[0044]图15为实施例1中基因模块m1的MF富集结果。...
【技术保护点】
【技术特征摘要】
1.基于基因共表达网络分析的癌症转录组数据处理方法,其特征在于,包括以下步骤:步骤一、获取原始数据集;步骤二、原始数据的预处理;步骤三、识别差异表达基因;步骤四、构建基因共表达网络;步骤五、挖掘基因模块;步骤六、基因模块与临床指标的关联分析;步骤七、基因模块的富集分析;步骤八、识别关键基因;步骤九、探究关键基因的功能;步骤十、关键基因的生存分析。2.根据权利要求1所述的基于基因共表达网络分析的癌症转录组数据处理方法,其特征在于,步骤一中,所述原始数据集来源于TCGA数据库或GEO数据库;所述原始数据集包括癌症组织样本中的基因表达数据、癌旁组织样本中的基因表达数据和每个样本对应的临床数据。3.根据权利要求2所述的基于基因共表达网络分析的癌症转录组数据处理方法,其特征在于,步骤二中,首先过滤掉低表达基因,然后对样本进行层次聚类,删除离群样本。4.根据权利要求3所述的基于基因共表达网络分析的癌症转录组数据处理方法,其特征在于,步骤三中,利用FC
‑
t算法识别出满足限定条件的所有差异表达基因。5.根据权利要求4所述的基于基因共表达网络分析的癌症转录组数据处理方法,其特征在于,步骤四中,以差异表达基因在样本中的基因表达数据为基础,进行两两基因的皮尔森相关分析;设置限定条件对得到的所有关系进行筛选,将满足限定条件的两个基因视为存在共表达关系;将所有存在共表达关系的基因及其关系用一张图进行表示,即得到基因共表达网络。6.根据权利要求5所述的基于基因共...
【专利技术属性】
技术研发人员:付聪,梁磊,张彦,易星丞,许彤,
申请(专利权)人:吉林省蒲川生物医药有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。