生成增强Hi-C矩阵的方法、识别增强Hi-C矩阵中结构染色质像差的方法及可读介质技术

技术编号:38490535 阅读:18 留言:0更新日期:2023-08-15 17:04
本发明专利技术实施例涉及一种用于生成增强的Hi

【技术实现步骤摘要】
【国外来华专利技术】生成增强Hi

C矩阵的方法、识别增强Hi

C矩阵中结构染色质像差的方法及可读介质


[0001]本申请的实施例涉及用于生成增强的Hi

C矩阵的方法、存储用于生成增强的Hi

C矩阵的程序的非瞬态计算机可读介质、用于识别增强的Hi

C矩阵中的结构染色质像差的方法,以及用于诊断和治疗诸如癌症等医学病症或疾病的方法。

技术介绍

[0002]高通量染色体构象捕获(High

throughput chromosome conformation capture,Hi

C)允许在空间中对染色质相互作用进行全基因组分析,并已被用于研究基因组的全基因组相互作用。众所周知,染色质的空间组织是非随机的,对于解读DNA的三维结构如何影响基因组功能和转录至关重要。通过全面检测基因组区域之间的空间相互作用,Hi

C技术对染色质的三维组织提供了更深入的见解。Hi

C技术通常涉及生成数亿的配对末端测序。该技术可以捕获整个基因组中的染色质相互作用,并构建全基因组的Hi

C接触矩阵(Hi

C contact matrix),其中矩阵中的每个元素表示任意两个基因组区域之间的接触强度。
[0003]如Lieberman

Aiden等人的美国申请US2017/0362649中所讨论的,“接触”是在读段后仍保留的片段对,读段时排除与基因组并不唯一对齐的,对应于未连接的片段(fragments)的或重复的片段对,该文献在此通过引用并入本文。接触矩阵可以可视化为热图,其元素称为“像素”。“间隔”是指连续位点(locus)的(一维)集合;两个间隔之间的所述接触从而在接触矩阵中形成“矩形”或“正方形”。“矩阵分辨率”被定义为用于构建特定接触矩阵的位点尺寸,“映射分辨率”被定义为最小的位点尺寸,以使位点的某一阈值具有接触的某一阈值。映射分辨率描述了能够可靠地识别数据中的局部特征的最佳比例。例如,图1示出了常规的接触矩阵,其中每个像素表示一1

Mb位点与另一1

Mb位点之间的接触频率。
[0004]换句话说,Hi

C技术测量位点之间的相互作用频率,而不是距离本身。通常,甲醛用于引发位点之间的交联。甲醛交联只发生在物理上相互作用的位点之间。因此,两个位点之间的弱Hi

C信号表明相互作用发生在群体的一小部分中。为了确定两个位点之间的距离,必须对相互作用频率如何与物理距离相关的假设进行简化。
[0005]包括算法、计算和统计方法在内的生物信息学工具已用于Hi

C数据的勘探和解释。这些流程覆盖了Hi

C分析工作流程的所有当前方面,范围从测序读段的预处理到基因组结构的归一化和推断。预处理流程由读映射,片段分配,滤波和成箱组成,并得到对称的接触矩阵。该矩阵中的每个元素反映了在相应的一对位点(即,箱,bins)之间观察到的相互作用频率。这两个位点通过固定大小的基因组间隔进行分离,作为分辨率。在预处理之后,进行归一化以校正系统偏差,使Hi

C样本更具可比性,下游分析更可靠。然后可以在不同的层次上研究基因组结构的推断,例如拓扑关联域(Topologically associating domains,TAD)。TAD被认为是许多真核基因组的高阶空间基因组组织的功能和结构单元。
[0006]在哺乳动物基因组中,在Hi

C矩阵中通常观察到5种类型的图案:(1)顺式/反式相互作用比,(2)距离依赖性相互作用频率,(3)基因组隔室,(4)染色质环和TAD,以及(5)点相
互作用。研究人员已经开发了一系列算法来捕获染色质环和TAD,其示例如图2所示。
[0007]图3和图4示出了如何分析Hi

C热图以找到染色质环和TAD结构。参见Eagen,K.,“Hi

C揭示的染色体结构原理”,(Principles of Chromosome Architecture Revealed by Hi

C,

Trends Biochem Sci.,43(6),pp.469

478,June 2018)Trends Biochem Sci.,第43(6)期,第469

478页,2018年6月,并可从以下网址获得:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4347522/,该文献通过引用并入本文。如图3所示,每个像素的强度指示两个位点的相对的,成对的接触概率。TAD为接触富集的对角箱。环(Rings)或环圈(loops)是接触强度的径向对称峰,通常位于哺乳动物细胞中TAD的角部。非对角箱指示由于区室化而引起的相互作用。图4示出了染色质环和TAD。区室化由同型(活性

活性或非活性

非活性)TAD

TAD相互作用来表示。
[0008]未经任何处理的原始Hi

C矩阵将受到系统偏差的影响,包括来自测序和映射的技术偏差,其影响下游解释的可靠性。其他因素,如酶的选择、处理时间和所用的细胞数量都会影响结果,因此不可能直接比较不同生物样本中的Hi

C矩阵。
[0009]归一化技术已被开发用于消除不需要的系统偏差,并且是Hi

C数据分析中最重要的流程之一。归一化试图消除不需要的系统偏差,以便尽可能保留反映底层架构的交互频率。常规的Hi

C归一化方法包括顺序组分归一化(sequential component normalization

SCN)、HiCNorm、迭代校正和特征向量分解(iterative correction and eigenvector decomposition

ICE)、Knight

Ruiz(KR)、chromoR和multiHiCcompare。
[0010]通过分析Hi

C数据,研究人员注意到染色质的空间结构因细胞类型而异。但常规的归一化方法难以有效分析,且缺乏可靠性。在这方面,来自类似样本(例如,源自相同癌症类型的样本)的这些方法的校正的Hi

C矩阵仍然显示出不同的特征。例如,图5和图6显示了通过已知方法归一化的相同类型的癌细胞(图5)以及相同类型的正常细胞(图6)的通过ICE归一化的Hi

C矩阵。如图5和图6所示,很难辨别样本之间的相似性。
[0011]从历史上看,癌变过程中寻找三维结构变化的主要方法侧重于局部特异性相互作用,即现有方法侧重于寻本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于生成增强的Hi

C矩阵的方法,所述方法包括:对输入的Hi

C矩阵进行去噪,获得平衡距离矩阵;对所述平衡距离矩阵进行去噪,获得去噪后的距离矩阵;对所述去噪后的距离矩阵进行整理和排序,获得排序后的距离矩阵;基于所述排序后的矩阵,计算邻接矩阵;以及计算所述邻接矩阵的Laplacian特征映射,获得增强的Hi

C矩阵。2.根据权利要求1所述的用于生成增强的Hi

C矩阵的方法,其中,所述输入的Hi

C矩阵为原始数据Hi

C矩阵。3.根据权利要求1所述的用于生成增强的Hi

C矩阵的方法,其中,所述输入的Hi

C矩阵是由SCN、HiCNorm、ICE、KR、chromoR和multiHiCcompare中的至少一种生成的归一化的Hi

C矩阵。4.根据权利要求1所述的用于生成增强的Hi

C矩阵的方法,其中,对所述Hi

C矩阵进行去噪,获得平衡距离矩阵的步骤,包括采用扩散状态距离算法。5.根据权利要求1所述的用于生成增强的Hi

C矩阵的方法,其中,对所述Hi

C矩阵进行去噪,获得平衡距离矩阵的步骤包括:通过将所述矩阵的每一行除以相应的行的和,来归一化所述Hi

C矩阵,获得归一化矩阵,其中所述矩阵的每一行的总和等于1;迭代计算归一化矩阵的倍数幂,获得收敛矩阵;根据公式(I)计算矩阵M:M=(I

P+D)
‑1ꢀꢀꢀ
(I)其中,I为单位矩阵,P为所述归一化矩阵,D为所述收敛矩阵;以及将所述矩阵M的每一行作为坐标向量,计算每一行的成对距离,获得平衡距离矩阵。6.根据权利要求1所述的用于生成增强的Hi

C矩阵的方法,其中,对所述平衡距离矩阵进行去噪,获得去噪后的距离矩阵的步骤,包括对所述平衡距离矩阵进行特征向量分解。7.根据权利要求1所述的用于生成增强的Hi

C矩阵的方法,其中,对所述去噪后的距离矩阵进行整理和排序,获得排序后的距离矩阵包括:将所述去噪后的距离矩阵的每一行从最小到最大排序,并将每个元素替换为其序号,得到排序后的距离矩阵;以及根据公式(II)对所述排序后的距离矩阵进行对称化,获得排序后的矩阵Rank:Rank=(R+R
T
)/2
ꢀꢀꢀꢀ
(II)其中,R为所述排序后的距离矩阵,R
T
为R的转置。8.根据权利要求1所述的用于生成增强的Hi

C矩阵的方法,其中,所述邻接矩阵根据公式(III)计算:Adj=e

Rank/σ
ꢀꢀꢀꢀ
(III)其中,σ为正数。9.根据权利要求1所述的用于生成增强的Hi
‑...

【专利技术属性】
技术研发人员:何玥颖薛玥王静瑶高毅勤
申请(专利权)人:染色质北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1