一种基于超图的染色质域识别方法及系统技术方案

技术编号:37433931 阅读:11 留言:0更新日期:2023-05-05 19:48
本发明专利技术提供了一种基于超图的染色质域识别方法及系统,该方法包括:获取表观基因组数据;并对数据进行预处理,按照一定碱基对数量对染色质进行片段切割,将每个片段看作基因组一个节点,获取Hi

【技术实现步骤摘要】
一种基于超图的染色质域识别方法及系统


[0001]本专利技术涉及生物计算领域,特别涉及一种基于超图的染色质域识别方法及装置。

技术介绍

[0002]染色体构象捕获(3C)技术及其衍生技术Hi

C与高通量测序技术相结合,为全基因组上的染色质交互作用数据的产生提供了技术依据。相互作用的数量表示为n*n矩阵,n为染色体被限制性内切酶切割的窗口(bin)的片段数量,bin的大小成为Hi

C的分辨率。随着Hi

C技术的不断发展,我们可以获取到全基因组的接触矩阵即Hi

C数据,用于三维基因组的建模和层级结构的研究。
[0003]真核生物染色体通常由多个层级构成,包括A/B区室、拓扑结构关联域(TADs)、染色质环(loops)。其中,基于对局部空间关系的探索,能够发现调控元件与基因之间是否存在且存在何种潜在关系,以便进行更深层次研究。
[0004]在数学中,超图(Hypergraph)是一种广义上的图,它的一条边可以连接任意数量的顶点。超图结构相对于一般图结构具有较强的数据样本间非线性高阶关联的刻画和挖掘能力。将超图应用于生物信息领域,能较好地表示染色体节点之间的高阶相互作用关系。
[0005]目前染色质域划分算法,一般为尺度比较大的A/B区室划分,或者是MB级别的拓扑相关结构域(TADs)的识别,但是对于在细胞核空间中,还有处于TADs和A/B区室尺度之间的染色质结构,例如A1、B1、A2、B2等区室。目前的算法没有将该类结构进行一个结构与功能的聚类分析。因此,本文提出一种基于超图的染色质域划分算法,先利用识别出的TADs进行超图构建,然后基于该超图进行超图划分,以实现对TADs进行功能型聚类,实现染色质域与细胞核功能的对应研究。

技术实现思路

[0006]本专利技术提供了基于超图的染色质域划分方法及装置,以解决染色质域的识别和研究的技术问题。
[0007]为解决上述技术问题,本专利技术提供了如下技术方案:
[0008]一方面,本专利技术提供了一种染色质域划分方法,包括:
[0009]获取原始Hi

C数据以及与Hi

C数据所在细胞系对应的表观基因组数据;
[0010]按照一定碱基对数量对染色质进行片段切割,将每个片段(bin)看作基因组一个节点,节点碱基对数量即为分辨率,获取特定分辨率的Hi

C交互作用矩阵;
[0011]计算各基因组节点由空间交互作用数据和表观基因组数据表示的特征向量;
[0012]使用Hi

C数据矩阵生成初始的TADS划分方式,将已有的TADS划分表示为域间、域内、域边界节点簇,根据特征向量使用K

均值聚类算法调整簇内节点,获取优化后的TADs划分;
[0013]将优化后的TADs划分表示为超图,将TADS节点集合作为超边,通过对超图划分,将划分后的染色质区域映射到细胞核空间,探索其与细胞核的位置关系,从而进一步研究染
色质域的生物学意义。
[0014]进一步地,所述表观基因组数据为研究发现在TADs边界处显著富集的信号,包括:CTCF、RAD21、H3K36me3、H3K4me3四类信号,及在TADs内部显著富集的信号,包括:H3K9me3、H3K27me3两类信号。
[0015]进一步地,对原始Hi

C数据进行预处理的过程,包括:对Hi

C原始数据使用Juicer工具,获取指定分辨率的Hi

C数据矩阵。
[0016]进一步地,对初始TADs结构的划分过程,包括:将Hi

C矩阵数据作为输入,实施TADtree算法,获取初始TADs边界。
[0017]进一步地,对TADS划分的调整过程,包括:使用K

means算法,基于基因组节点的特征向量表示,迭代更新聚类结果,获取最终TADs划分结果。
[0018]进一步地,对于超图表示和划分过程,包括:将每一个TADs表示为一条超边,通过超图粗化、初始划分、优化等阶段,实现超图划分。
[0019]另一方面,本专利技术还提供了一种基于超图的染色质域划分装置,包括:
[0020]数据获取模块,用于获取原始Hi

C数据和原始Hi

C数据所在细胞系的表观基因组数据;
[0021]数据预处理模块,用于对所述数据获取模块所获取的原始Hi

C数据,按照一定碱基对数量对染色质进行片段切割,将每个片段(bin)看作基因组一个节点,节点碱基对数量即为分辨率,获取特定分辨率的Hi

C交互作用矩阵;
[0022]特征表示模块,用于计算各基因组节点由空间交互作用数据和表观基因组数据表示的特征向量;
[0023]TADS识别模块,用于通过所述数据预处理模块生成的Hi

C数据,使用已有算法生成初始TADs结构划分,并通过特征表示模块生成的节点特征,使用K

means算法更新TADs划分结果。
[0024]超图划分模块,用于通过TADs识别模块得到的TADs划分结果表示为超图,对超图进行划分,得到相应的染色质域。
[0025]本专利技术的上述技术方案的有益效果如下:
[0026]本专利技术通过获取原始Hi

C数据和所在细胞系的表观基因组数据;对原始数据进行预处理,按照一定碱基对数量对染色质进行片段切割,将每个片段(bin)看作基因组一个节点,节点碱基对数量即为分辨率,得到特定分辨率的Hi

C交互作用矩阵;得到各基因组节点由空间交互作用数据和表观基因组数据表示的特征向量;使用预先调研的算法,对Hi

C数据矩阵生成初始TADs划分,并使用K

means算法优化TADs划分结果;将TADs表示为超边,基于超图划分模型,获取划分后的染色质域。从而充分利用了Hi

C数据和表观基因组数据,基于超图技术实现染色质域的识别和研究。
附图说明
[0027]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0028]图1为本专利技术第一实施例提供的基于超图的染色质域识别方法的流程示意图。
[0029]图2为本专利技术第一实施例提供的染色体节点空间交互特征表示的示意图。
[0030]图3为本专利技术第一实施例提供的TAD划分结果表示的示意图。
[0031]图4为本专利技术第一实施例提供的超图划分的流程示意图。
[0032]图5为本专利技术一种基于超图的染色质域识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于超图的染色质域识别方法,其特征在于,该识别方法具体包括以下步骤:S1)获取原始Hi

C数据以及与Hi

C数据所在细胞系对应的表观遗传学数据;S2)按照一定碱基对数量对染色质进行片段切割,将每个片段(bin)看作基因组一个节点,以节点碱基对数量作为分辨率,获取特定分辨率作为Hi

C交互作用矩阵;S3)计算各基因组节点由空间交互作用数据和表观基因组数据表示的特征向量;S4)使用S2)得到的Hi

C交互作用矩阵生成初始的TADs划分方式进行划分,使用K

均值聚类算法优化划分结果,获取优化后的TADs划分;S5)将优化后的TADs划分表示为超图,将每个TADS节点集合作为超边,通过对超图划分识别。2.根据权利要求1所述的识别方法,其特征在于,所述S1)中的表观基因组数据为在TADS边界处明显富集的相关因子。3.根据权利要求1所述的识别方法,其特征在于,所述S1)中的对使用的Hi

C数据进行预处理的过程,包括:使用Juicer工具对原始.hic文件进行提取,生成特定分辨率的Hi

C数据矩阵。4.根据权利要求1所述的识别方法,其特征在于,所述S1)中的对使用的表观基因组数据进行预处理的过程,包括提取与特定分辨率相符的每个基因组节点对应的表观基因组数据。5.根据权利要求4所述的识别方法,其特征在于,所述S2)中的具体步骤为:在特定分辨率下,将基因组划分为n个节点后,为每一个节点提取6种表观基因组数据,同时加上每个系节点的空间交互作用特征,节点与左右1Mb范围内的基因组的空间交互作用,即为Hi

C交互作用矩阵。6.根据权利要求4所述的识别方法,其特征在于,所述S3)中的具体为:先原始数据按染色体编号提取数据,并转换为与所述...

【专利技术属性】
技术研发人员:张晓彤张司臣龚海燕李铭鸿杨伊
申请(专利权)人:北京科技大学顺德创新学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1