一种利用全基因组数据挖掘甲基化模式的方法技术

技术编号:16475745 阅读:47 留言:0更新日期:2017-10-29 03:36
本发明专利技术属于生物信息学的数据处理技术领域,公开了一种利用全基因组数据挖掘甲基化模式的方法,包括:在多种数据样本集上使用基因芯片显著性分析SAM方法,分别筛选出全基因组上的差异甲基化位点;将多个样本集的甲基化差异位点取交集,得到共同差异位点集合;计算差异甲基化位点的甲基化水平与相应基因表达水平间的皮尔森相关系数,识别甲基化调控位点;对差异位点集合迭代进行AP聚类,得到甲基化簇,分别对每个甲基化簇进行模式分析,并通过基因注释和KEGG富集分析进行论证。本发明专利技术为针对去甲基化的药物研制提供参考和借鉴;不同类型的疾病在甲基化模式上的确存在共性,从全基因组角度研究甲基化模式与疾病的关系具有现实和临床意义。

【技术实现步骤摘要】
一种利用全基因组数据挖掘甲基化模式的方法
本专利技术属于生物信息学的数据处理
,尤其涉及一种利用全基因组数据挖掘甲基化模式的方法。
技术介绍
随着高通量测序技术以及基因芯片技术的不断发展进步,可以得到高效海量的基因数据,基因数据蕴含着许多错综复杂的生命现象,使全面地探索疾病的遗传和表观遗传基础成为可能,为现代生命科学研究提供了新的方向和思路。然而海量数据并不能直观地揭示生命现象或者反映生物规律,必须使用复杂的统计方法和其他的一些手段和技术来分析探索海量数据蕴含的生物学现象。由此,衍生出了生物信息学科。生物信息学是一门生命科学和计算机科学相结合的新兴学科,研究生物信息的采集、处理、存储、传播、分析和解释等,通过综合利用生物学、计算机科学和信息技术来揭示复杂的生物数据所蕴藏的生物学奥秘。人类基因组实际上包含两类信息:遗传信息和表观遗传信息,由此催生了遗传学和表观遗传学。遗传学(Genetics)研究生物的遗传和变异,包括基因结构、功能变异及表达规律,即由DNA序列发生改变而产生的遗传信息;表观遗传学(Epigenetics)研究在核苷酸序列不发生改变的前提下,基因表达发生改变而导致的遗传。遗传和表观遗传是相对的概念,同时又相互依存共同构成人类的遗传信息。在胚胎形成和发展中DNA甲基化是至关重要的生命过程,也是最常见的表观遗传修饰之一。因此,作为表观遗传修饰重要组成部分的DNA甲基化也成为研究的重点,其在疾病的早期检测、预防、治疗、预后等取得了显著的成效。DNA甲基化是指在DNA甲基转移酶(DNMT)的催化下,以硫代蛋氨酸为甲基供体,在CpG二核苷酸胞嘧啶分子的5’碳原子上添加一个甲基基团的化学修饰。DNA甲基化能够导致某些基因失活以及某些区域DNA构象变化,进而影响DNA与蛋白质的相互作用,控制基因表达。DNA甲基化还可能引起基因组中相应区域染色质结构的改变,导致DNA失去核梅,限制性内切酶的切割位点,以及DNA酶的敏感位点,使染色质高度螺旋,凝缩成团,失去转录活性。通过分析甲基化水平与基因表达的关系发现,甲基化水平与基因表达程负相关,即低甲基化促进基因表达,而高甲基化抑制基因表达。同时大量研究表明,与正常细胞相比,疾病细胞中基因组整体甲基化水平偏低,但启动子局部区域异常高甲基化,这为利用甲基化水平检测疾病的发生提供了理论依据。同时某些基因可能在癌细胞或组织中存在肿瘤特异性甲基化的改变,基于此特性,可以将DNA甲基化作为疾病早期诊断的生物标记,分子标记可以进一步确定疾病的亚型,这对疾病的治疗非常重要;再者由于表观遗传的可逆性,临床上可以将DNA甲基化作为疾病治疗的新靶点,已有研究表明通过去甲基化药物处理体外培养的细胞,可以激活由于DNA甲基化改变而沉默的基因。测序技术和微阵列技术的限制,DNA甲基化数据非正态分布的统计特点以及高异质性的特点,DNA甲基化数据在基因组上的不均匀分布,不同组学数据的不同维度都对甲基化数据分析产生巨大挑战。DNA甲基化数据的来源主要通过芯片和测序技术,使用芯片可以获得多个样本的全基因组甲基化数据,可以统计地研究DNA甲基化在复杂疾病中的作用,但是其在基因组上的覆盖率较低,而且不如测序数据精确;测序数据成本高、耗时多、样本数量少,尽管覆盖率高且结果精确,但对于癌症研究存在一定限制;常用的差异分析方法如T检验,ANOVA等统计方法对数据分布都有一定的要求,并不适用于分析DNA甲基化数据,因此在识别DNA甲基化模式时,需要提出新的统计方法或测度;DNA甲基化和基因表达的维度不同,而且,一个基因包含多个甲基化位点,如何整合二者,也是研究人员面临的一大挑战。正是鉴于以上原因,当前,关于DNA甲基化模式的研究虽多,但大多数研究都是基于一种疾病或者单个基因及较小区域的DNA甲基化,很少是基于多种疾病的全基因组上的DNA甲基化模式的分析,致使多种疾病的DNA甲基化模式并不清晰,目前已发现的甲基化调控位点更是少之又少。综上所述,现有技术存在的问题是:传统统计方法对数据的分布要求较高,即要求数据的分布是确定的,而实际甲基化数据的分布并不明确,所以传统的统计方法存在局限性;不同组学数据其维度不同,所以数据整合也是当前研究面临的挑战。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种利用全基因组数据挖掘甲基化模式的方法。本专利技术是这样实现的,一种利用全基因组数据挖掘甲基化模式的方法,所述利用全基因组数据挖掘甲基化模式的方法包括:在多种数据样本集上使用基因芯片显著性分析SAM方法,分别筛选出全基因组上的差异甲基化位点;将多个样本集的甲基化差异位点取交集,得到共同差异位点集合;计算差异甲基化位点的甲基化水平与相应基因表达水平间的皮尔森相关系数,识别甲基化调控位点;对差异位点集合迭代进行AP聚类,得到甲基化簇,分别对每个甲基化簇进行模式分析,并通过基因注释和KEGG富集分析进行论证。进一步,所述利用全基因组数据挖掘甲基化模式的方法包括以下步骤:步骤一,对多种疾病样本数据的甲基化水平及基因表达水平进行预处理,预处理过程分为甲基化数据预处理和基因表达数据预处理;步骤二,用基因芯片显著性分析SAM方法筛选差异甲基化位点,对每种疾病预处理后的CpG位点甲基化数据,分别采取非配对参数的SAM算法进行差异甲基化位点筛选,每种疾病的正常样本和患病样本进行100次的重复实验以调整SAM的阈值,观察每个阈值对应的假阳性率FDR值,选取FDR值为0时对应的值作为阈值Δ;步骤三,将筛选出来的各个疾病的差异甲基化位点,取交集,得到差异甲基化位点集合;分析差异甲基化位点集合在基因各个位置的分布;步骤四,对得到的差异甲基化位点集合进行AP聚类,得到甲基化簇;步骤五,取出差异甲基化位点集合对应的基因表达水平,计算之间的皮尔森相关系数,根据系数的大小设置阈值,识别甲基化调控位点;步骤六,根据得到的甲基化簇及甲基化调控位点,得到多种疾病全基因组上的甲基化模式。进一步,所述步骤一具体包括:1)甲基化数据预处理:将每个样本的Beta值映射到基因组上而产生的数据;去掉基因名为空的位点,以及包含0的个数达到80%以上的位点;2)基因表达数据预处理:去掉包含0的个数达到80%以上的基因,进行缺失值填充,标准化后取对数归一化;3)按照基因结构将位点分区域:将全基因组的甲基化位点根据基因结构分为如下区域:启动子区域、基因体区域、3'UTR三个区域;启动子区域划分为TSS1500、TSS200、第一外显子、5'UTR四个小区域。进一步,所述步骤四具体包括:1)取出差异甲基化位点集合对应的每种疾病的患病样本的甲基化水平,得到一个行为甲基化位点,列为数据集样本的矩阵,即聚类的数据集;2)计算甲基化数据的相似矩阵,相似性度量采用皮尔森相关系数,得到的相似矩阵为对称矩阵;3)将相似矩阵当做AP聚类的输入,迭代地进行差异甲基化数据的AP聚类,每次迭代都生成一定数目的聚类。进一步,所述3)中迭代的具体包括:设置迭代次数大于等于10或者聚类数目小于等于10时,聚类终止;当迭代次数小于10且当前聚类数目小于10个时,将当前每个聚类中的甲基化位点对应样本的甲基化水平求平均值,得到新的甲基化位点作为该聚类的代表点;AP聚类过程中,有两种信息在各节点间传递并不断本文档来自技高网
...
一种利用全基因组数据挖掘甲基化模式的方法

【技术保护点】
一种利用全基因组数据挖掘甲基化模式的方法,其特征在于,所述利用全基因组数据挖掘甲基化模式的方法包括:在多种数据样本集上使用基因芯片显著性分析SAM方法,分别筛选出全基因组上的差异甲基化位点;将多个样本集的甲基化差异位点取交集,得到共同差异位点集合;计算差异甲基化位点的甲基化水平与相应基因表达水平间的皮尔森相关系数,识别甲基化调控位点;对差异位点集合迭代进行AP聚类,得到甲基化簇,分别对每个甲基化簇进行模式分析,并通过基因注释和KEGG富集分析进行论证。

【技术特征摘要】
1.一种利用全基因组数据挖掘甲基化模式的方法,其特征在于,所述利用全基因组数据挖掘甲基化模式的方法包括:在多种数据样本集上使用基因芯片显著性分析SAM方法,分别筛选出全基因组上的差异甲基化位点;将多个样本集的甲基化差异位点取交集,得到共同差异位点集合;计算差异甲基化位点的甲基化水平与相应基因表达水平间的皮尔森相关系数,识别甲基化调控位点;对差异位点集合迭代进行AP聚类,得到甲基化簇,分别对每个甲基化簇进行模式分析,并通过基因注释和KEGG富集分析进行论证。2.如权利要求1所述的利用全基因组数据挖掘甲基化模式的方法,其特征在于,所述利用全基因组数据挖掘甲基化模式的方法包括以下步骤:步骤一,对多种疾病样本数据的甲基化水平及基因表达水平进行预处理,预处理过程分为甲基化数据预处理和基因表达数据预处理;步骤二,用基因芯片显著性分析SAM方法筛选差异甲基化位点,对每种疾病预处理后的CpG位点甲基化数据,分别采取非配对参数的SAM算法进行差异甲基化位点筛选,每种疾病的正常样本和患病样本进行100次的重复实验以调整SAM的阈值,观察每个阈值对应的假阳性率FDR值,选取FDR值为0时对应的值作为阈值Δ;步骤三,将筛选出来的各个疾病的差异甲基化位点,取交集,得到差异甲基化位点集合;分析差异甲基化位点集合在基因各个位置的分布;步骤四,对得到的差异甲基化位点集合进行AP聚类,得到甲基化簇;步骤五,取出差异甲基化位点集合对应的基因表达水平,计算之间的皮尔森相关系数,根据系数的大小设置阈值,识别甲基化调控位点;步骤六,根据得到的甲基化簇及甲基化调控位点,得到多种疾病全基因组上的甲基化模式。3.如权利要求2所述的利用全基因组数据挖掘甲基化模式的方法,其特征在于,所述步骤一具体包括:1)甲基化数据预处理:将每个样本的Beta值映射到基因组上而产生的数据;去掉基因名为空的位点,以及包含0的个数达到80%以上的位点;2)基因表达数据预处理:去掉包含0的个数达到80%以上的基因,进行缺失值填充,标准化后取对数归一化;3)按照基因结构将位点分区域:将全基因组的甲基化位点根据基因结构分为如下区域:启动子区域、基因体区域、3'UTR三个区域;启动子区域划分为T...

【专利技术属性】
技术研发人员:杨利英杨胜楠
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1