一种联合基因组三维结构差异鉴定和转录组基因表达水平差异分析挖掘功能基因的方法技术

技术编号:27806203 阅读:25 留言:0更新日期:2021-03-30 09:19
本发明专利技术涉及生物信息技术领域,具体涉及一种联合基因组三维结构差异鉴定和转录组基因表达水平差异分析挖掘功能基因的方法。本发明专利技术提供一种基因组三维结构差异的鉴定方法,包括在Hi

【技术实现步骤摘要】
一种联合基因组三维结构差异鉴定和转录组基因表达水平差异分析挖掘功能基因的方法


[0001]本专利技术涉及生物信息
,具体涉及一种基因组三维结构差异的鉴定方法以及联合基因组三维结构差异鉴定和转录组基因表达水平差异分析挖掘功能基因的方法。

技术介绍

[0002]基因组包含一维的DNA序列,目前已经有大量物种完成基因组测序。但是,对于基因组DNA不断缠绕折叠形成的染色体高级结构,目前仅有少数物种的研究。
[0003]基因组的三维结构主要包括从隔室(A/B Compartment)到拓扑相关结构域(TAD),最后再到环(loop)的三级层级结构。隔室主要采用第一主成分进行鉴定,通常规定正的特征值与松散染色质状态相关联,称为A Compartment;负的特征值与压缩染色质状态相关,称为B Compartment。拓扑相关结构域(TAD)是指一个高度自关联的连续区域,并且其通过明显的边界与其相邻区域分离开来,形成一个独立的调控单位。TAD的边界具有重要作用,将边界部分删除后会导致基因调控紊乱,使得原来沉默的基因被转录,而原来应该转录的基因则被沉默。TAD作为一个调控单位,其内部的基因拥有共同的调控元件,因而存在其内部各基因的协同表达特征(为染色体上临近基因的共表达提供了依据)。Loop是指如果一对DNA片段的交互频率高于线性上相邻的片段的交互频率,那么这对片段将会形成一个染色质环。染色质环的一端连接启动子,另一端连接增强子,称为增强子-启动子环,可以实现对基因表达的远端调控。综上所述,基因组的三维结构在影响基因功能方面具有重要作用。
[0004]Hi-C技术是3C(Chromosome Conformation Capture)技术的衍生技术,它实现了全基因组范围内的染色体片段间的相互作用的捕获。Hi-C通过将空间结构临近的DNA片段进行交联,并将交联的DNA片段富集,然后进行高通量测序,对测序数据进行分析,揭示染色体片段间的交互信息,阐述基因组三维结构。
[0005]目前,分析差异三维基因组结构的软件只有juicer一款,但是,该软件只能分析差异Loop,且由于该软件是针对哺乳动物开发的,参数设置极为严格,在其它物种、尤其植物的差异Loop鉴定时差异Loop数量会特别少。目前尚没有一种较为完善的通用的差异三维基因组结构鉴定与功能基因挖掘的方法,因此亟需开发具有较高通用性的、不同层级的三维基因组结构(差异AB Compartment、差异TAD和差异Loop)差异的分析方法,并通过联合三维基因组结构差异与转录组基因表达差异进行基因功能富集分析,实现功能基因的精准挖掘。

技术实现思路

[0006]为解决现有技术中的技术问题,本专利技术的目的在于提供一种基因组三维结构差异的高效鉴定方法以及利用该基因组三维结构差异鉴定方法联合转录组基因表达水平差异分析高效挖掘功能基因的方法。
[0007]为实现上述目的,本专利技术通过对大量动植物和微生物来源的样本进行基因组三维
结构信息的分析比较,开发了一套能够适用于各物种、不同层级的基因组三维结构鉴定(差异AB Compartment、差异TAD和差异Loop)的方法。进一步基于该鉴定方法开发了联合基因组三维结构差异鉴定和转录组基因表达水平差异分析挖掘功能基因的方法。
[0008]具体地,本专利技术的技术方案如下:
[0009]本专利技术提供一种基因组三维结构差异的鉴定方法,包括在Hi-C数据的基础上进行差异AB Compartment的鉴定、差异TAD的鉴定和差异Loop的鉴定。
[0010]优选地,在进行差异AB Compartment的鉴定、差异TAD的鉴定和差异Loop的鉴定之前,利用bwa和HiC-Pro进行Hi-C数据的比对和质控,获得有效的Hi-C数据。
[0011]本专利技术中,所述差异AB Compartment的鉴定为通过获得待比较的2个样本的代表性AB Compartment鉴定结果,比较每个样本的AB Compartment在基因组上的位置,获得差异AB Compartment结果。
[0012]具体地,所述差异AB Compartment的鉴定包括如下步骤:
[0013](1)获取待比较的2个样本的各生物学重复的AB Compartment的鉴定结果;
[0014](2)保留每个样本中各生物学重复一致的鉴定结果,得到每个样本的代表性AB Compartment结果;
[0015](3)通过评估基因和ATAC-seq数据是否显著富集在A Compartment,基因组转座子元件(TE)和5mC甲基化数据是否显著富集在B Compartment,确定A和B Compartment鉴定的准确性;
[0016](4)如果每个样本的A和B Compartment的鉴定结果均准确,则对每个样本的AB Compartment在基因组上的位置进行比较,获得2个样本的AB Compartment差异结果;
[0017]优选地,上述步骤(1)中,使用HiTC获取待比较的2个样本的各生物学重复的AB Compartment的鉴定结果。
[0018]优选地,上述步骤(3)中,所述显著富集的判断标准为p<0.01。具体地,使用bedtools工具统计基因组基因、ATAC-seq数据在A Compartment的分布以及基因组TE密度、5mC甲基化数据在B Compartment的分布。使用Two-sided Wilcoxon rank sum test检测显著性,若基因、ATAC数据显著富集在ACompartment(p<0.01),TE、5mC甲基化显著富集在B Compartment(p<0.01),则判断该样本的A和B Compartment鉴定准确。
[0019]优选地,上述步骤(4)中,若2个待比较样本的A和B Compartment均鉴定准确,则对每个样本的AB Compartment在基因组上的位置进行比较。将2个样本的AB Compartment比较结果划分为AB,BA,AA,BB和
--
五种类型,其中,AA表示两个样本都是A的区域;BB表示两个样本都是B的区域;AB表示一个样本是A,在另一个样本中变为B的区域;BA表示一个样本是B,在另一个样本中变为A的区域;
--
表示任意一个样本由于Hi-C数据覆盖、本身基因组序列是GAP或者是生物学重复之间不一致导致不能够判断A或者B的情况。
[0020]本专利技术中,所述差异TAD的鉴定采用基于DI值的差异TAD的鉴定方法。
[0021]具体地,所述差异TAD的鉴定包括如下步骤:
[0022](1)鉴定每个样本的TAD并计算每个TAD的IR值,保留IR>1的TAD结果;
[0023](2)统计TAD边界富集的基因数量与TAD内部区域富集的基因数量,若TAD边界富集的基因数量明显高于TAD内部区域富集的基因数量,则判断TA本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因组三维结构差异的鉴定方法,其特征在于,包括在Hi-C数据的基础上进行差异AB Compartment的鉴定、差异TAD的鉴定和差异Loop的鉴定。2.根据权利要求1所述的基因组三维结构差异的鉴定方法,其特征在于,所述差异AB Compartment的鉴定为通过获得待比较的2个样本的代表性AB Compartment鉴定结果,比较每个样本的ABCompartment在基因组上的位置,获得差异AB Compartment结果。3.根据权利要求1或2所述的基因组三维结构差异的鉴定方法,其特征在于,所述差异AB Compartment的鉴定包括如下步骤:(1)获取待比较的2个样本的各生物学重复的AB Compartment的鉴定结果;(2)保留每个样本中各生物学重复一致的鉴定结果,得到每个样本的代表性AB Compartment结果;(3)通过评估基因和ATAC-seq数据是否显著富集在ACompartment,基因组转座子元件和5mC甲基化数据是否显著富集在BCompartment,确定A和B Compartment鉴定的准确性;(4)如果每个样本的A和B Compartment的鉴定结果均准确,则对每个样本的AB Compartment在基因组上的位置进行比较,获得2个样本的AB Compartment差异结果;优选地,步骤(3)中,所述显著富集的判断标准为p<0.01。4.根据权利要求1~3任一项所述的基因组三维结构差异的鉴定方法,其特征在于,所述差异TAD的鉴定采用基于DI值的差异TAD的鉴定方法。5.根据权利要求4所述的基因组三维结构差异的鉴定方法,其特征在于,所述差异TAD的鉴定包括如下步骤:(1)鉴定每个样本的TAD并计算每个TAD的IR值,保留IR>1的TAD结果;(2)统计TAD边界富集的基因数量与TAD内部区域富集的基因数量,若TAD边界富集的基因数量明显高于TAD内部区域富集的基因数量,则判断TAD的鉴定准确;(3)计算每个TAD边界在每个样本中的标准化的DI值,同时对于不同样本中有重叠的TAD,按照优先保留高DI值的TAD的原则,得到一套非冗余的TAD结果;(4)对2个样本TAD边界DI值的差异进行显著性评估,计算p值,并使用Benjamini-Hochberg方法进行p值调整;当调整后的p值<0.1,且一个样本的DI≥20、另一个样本小于20,2个样本的DI值差距在2倍以上时,判断为差异的TAD边界;当调整后的p值不满足p值<0.1,但一个样本的DI值超过另外一个样本的4倍时,也判断为差异的TAD边界。6.根据权利要求1~5任一项所述的基因...

【专利技术属性】
技术研发人员:郑洪坤刘福刘敏李绪明王晶梁若冰
申请(专利权)人:北京百迈客生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1