【技术实现步骤摘要】
一种Hi
‑
C数据拓扑相关结构域划分方法及装置
[0001]本专利技术涉及计算生物学
,特别涉及一种Hi
‑
C数据拓扑相关结构域划分方法及装置。
技术介绍
[0002]Hi
‑
C是一种高通量的染色质构象捕获技术,Hi
‑
C技术能够通过甲醛固定、酶切、环化连接、序列打断、建库测序并将它们映射到参考基因组来捕获全基因组的染色体相互作用。Hi
‑
C技术利用高通量的测序技术,可以生成全基因组、大规模的染色体内和染色体间相互作用(接触频率)数据,可以描述基因组内的空间结构。对相互作用的DNA片段进行更深的测序,则可以获得更高分辨率的Hi
‑
C数据,显示更多、更精细的结构信息。随着其技术不断发展成熟和测序价格的大幅下降,它在文献中逐渐成为常规使用的一种研究基因组的技术。
[0003]真核生物基因组在细胞核中折叠成一个具有明确空间结构区域。近些年来三维基因组研究方兴未艾,随着对Hi
‑
C等基因组测序数 ...
【技术保护点】
【技术特征摘要】
1.一种Hi
‑
C数据拓扑相关结构域划分方法,其特征在于,包括:获取Hi
‑
C基因组测序原始观察数据和用于将原始观察矩阵进行归一化的向量,利用所述向量对所述原始观察数据预处理,得到归一化的Hi
‑
C接触矩阵;基于Hi
‑
C数据接触频率和空间距离之间的函数关系,将所述Hi
‑
C接触矩阵转换为基因组各个位点之间的距离矩阵;通过预设的最短路径算法计算基因组位点间的最短距离,对于每个位点保留距离最小的部分数值,得到基因组的空间距离图谱;通过预设的聚类算法对所述基因组的空间距离图谱中的位点进行聚类,得到Hi
‑
C数据的拓扑相关结构域划分。2.如权利要求1所述的Hi
‑
C数据拓扑相关结构域划分方法,其特征在于,所述Hi
‑
C基因组测序原始观察数据的分辨率不小于50kb。3.如权利要求1所述的Hi
‑
C数据拓扑相关结构域划分方法,其特征在于,利用所述向量对所述原始观察数据预处理,包括:对所述Hi
‑
C基因组测序原始观察数据中的值除以所述向量中的相应范数因子。4.如权利要求1所述的Hi
‑
C数据拓扑相关结构域划分方法,其特征在于,所述Hi
‑
C数据接触频率和空间距离之间的函数关系为:其中,f表示Hi
‑
C数据接触频率,d表示空间距离,α为预设的转换参数。5.如权利要求1所述的Hi
‑
C数据拓扑相关结构域划分方法,其特征在于,所述预设的最短路径算法为Floyd Warshall算法。6.如权利要求1所述的Hi
‑
C数据拓扑相关结构域划分方法,其特征在于,所述对于每个位点保留距离最小的部分数值为使用黄金分割搜索算法确定保留值的个数;所述使用黄金分割搜索算法确定保留值的个数包括:设置保留值数量为使用的分辨率下的...
【专利技术属性】
技术研发人员:张晓彤,杨伊,龚海燕,李铭鸿,张司臣,
申请(专利权)人:北京科技大学顺德研究生院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。