当前位置: 首页 > 专利查询>中南大学专利>正文

染色体拓扑关联结构域的预测方法及预测系统技术方案

技术编号:33332181 阅读:59 留言:0更新日期:2022-05-08 09:13
本发明专利技术公开了一种染色体拓扑关联结构域的预测方法,包括获取基因组区块之间互作矩阵中每个基因组区块并识别得到高频互作区;针对每个基因组区块从高频互作区中识别准核:处理每条染色体上识别的准核得到互不重叠的准核;对一条染色体上互不重叠的准核进行合并得到要预测的染色体拓扑关联结构域的核;确定附件候选区中每个基因组区块的从属关系并结合染色体拓扑关联结构域的核得到最终预测的染色体拓扑关联结构域。本发明专利技术还公开了一种实现所述染色体拓扑关联结构域的预测方法的预测系统。本发明专利技术充分利用Hi

【技术实现步骤摘要】
染色体拓扑关联结构域的预测方法及预测系统


[0001]本专利技术属于计算机
,具体涉及一种染色体拓扑关联结构域的预测方法及预测系统。

技术介绍

[0002]近年来,全基因组范围内的染色体构象捕获技术(High

throughput chromosome configuration capture technology,Hi

C)的出现,推动了人们对染色体空间结构层次的认识。相关研究人员将哺乳动物细胞的Hi

C测序数据转化为Hi

C 互作矩阵并进行可视化,从而发现了分辨率低于100kb时的高度自我互作区域,这样的区域就是拓扑关联结构域(Topologically Associationg Domain,TAD)。其中,Hi

C互作矩阵的构建步骤具体为:将一条染色体划分为等长的N个片段,并构建成一个N*N的矩阵M,用于表征一条染色体上两两片段间的互作信号,其中等长的单位长度片段称为一个基因组区块,基因组区块的大小与Hi/>‑
C互本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种染色体拓扑关联结构域的预测方法,其特征在于包括如下步骤:S1. 获取基因组区块之间的互作矩阵中每个基因组区块,并采用聚类算法识别得到对应的高频互作区;S2. 针对每个基因组区块,从对应的高频互作区中判断并识别是否存在以该基因组区块为中心的准核:若高频互作区存在以该基因组区块为中心的准核,则继续进行后续步骤;若高频互作区不存在以该基因组区块为中心的准核,则对该高频互作区进行拆分后再重新判断和识别准核,直至拆分后的区域不包含基因组区块;S3. 对每条染色体上识别的准核,根据两两相邻准核之间的关系进行处理,得到互不重叠的准核;S4. 根据各个准核之间的相关性,对一条染色体上互不重叠的准核进行合并,并将合并后的核作为要预测的染色体拓扑关联结构域的核;S5. 确定附件候选区中每个基因组区块的从属关系,结合步骤S4得到的染色体拓扑关联结构域的核,得到最终预测的染色体拓扑关联结构域。2.根据权利要求1所述的染色体拓扑关联结构域的预测方法,其特征在于所述的步骤S1,具体为采用全基因组构象捕获技术与测序技术,获取基因组区块之间的互作矩阵中每个基因组区块,并采用k=2的K均值聚类算法进行聚类,从而识别得到对应的高频互作区。3.根据权利要求2所述的染色体拓扑关联结构域的预测方法,其特征在于所述的步骤S1,具体包括如下步骤:S1.1. 采用全基因组构象捕获技术与测序技术,获取基因组区块之间的互作矩阵;S1.2. 对步骤S1.1得到的基因组区块之间的互作矩阵的对角线上每个基因组区块与自身的互作值进行赋0处理;S1.3. 对任意基因组区块i,采用k=2的K均值聚类算法对该基因组区块i与其互作值不为0的其他基因组区块进行聚类;采用如下函数作为步骤S1.3中的其他基因组区块的分类函数:式中为基因组区块i与基因组区块j的互作值;为第k个中心的平均值;为取与距离最近的中心所对应的类别号操作的函数;为2

范数;两个类的初始中心值和的设置为非零互作值升序排序后和位置对应的互作值,且对应低频互作类的中心,对应高频互作类的中心;通过求解分类函数,将与中心值最小的距离对应的类赋给基因组区块j;S1.4. 为每一个基因组区块i定义对应的高频互作区;其中,l
i
对应于基因组区块i高互作类中基因组区块的最小区块号,r
i
对应于基因组区块i高互作类中基因组区块的最大区块号。4.根据权利要求3所述的染色体拓扑关联结构域的预测方法,其特征在于所述的步骤
S2,具体包括如下步骤:S2.1. 计算基因组区块i所在的高频互作区在基因组区块之间的互作矩阵中组成的子矩阵的平均互作值;S2.2. 对步骤S2.1得到的平均互作值与邻近5个相同窗口大小的子矩阵的平均互作值进行比较:若步骤S2.1得到的平均互作值大于邻近5个相同窗口大小的子矩阵的平均互作值,则判定高频互作区为算基因组区块i的准核;若步骤S2.1得到的平均互作值不大于邻近5个相同窗口大小的子矩阵的平均互作值,则对高频互作区进行拆分;拆分后再重新进行判断和识别,直至拆分后的区域不包含基因组区块i时停止;所述的邻近5个相同窗口大小的子矩阵,具体为上方3个子矩阵、和,右侧的1个子矩阵,以及下方的一个子矩阵。5.根据权利要求4所述的染色体拓扑关联结构域的预测方法,其特征在于所述的对高频互作区进行拆分;拆分后再重新进行判断和识别,直至拆分后的区域不包含基因组区块i时停止,具体包括如下步骤:首先,以高频互作区中与高频互作区内其他基因组区块互作总和最小的基因组区块m
i
为分割点,将高频互作区分为高频互作区和高频互作区;然后,进行判断:若i = m
i
,则判定不存在以基因组区块i为中心的准核;若i < m
i<...

【专利技术属性】
技术研发人员:彭小清李一鸣孔祥艳盛羽段桂华
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1