用于分析染色质相互作用数据的方法和设备技术

技术编号:27139672 阅读:33 留言:0更新日期:2021-01-27 20:59
为了分析染色质的空间组织,计算装置可以使用二叉搜索树将基因组元件触点或读段编译到可变大小的箱中。所述箱可被选择用于各自表示基因组内不同的切割位点增量或功能元件,如基因、TAD、染色质状态片段、环状结构域、染色质结构域等。选择两组箱来生成箱对的正方形基因组矩阵,其中每个组表示所述矩阵的轴。然后将归一化方法应用于具有可变大小和/或形状的所述箱对的相互作用频率以生成每个箱对的经归一化的相互作用频率。可以使用所述经归一化的相互作用频率来识别具有富集的触点和贫化的触点的箱对,以进行各种分析,包含基因组变体的靶基因的检测,以及触点的全基因组分析。以及触点的全基因组分析。以及触点的全基因组分析。

【技术实现步骤摘要】
【国外来华专利技术】用于分析染色质相互作用数据的方法和设备
[0001]相关申请的交叉引用本申请要求于2018年3月22日提交的标题为“染色质相互作用数据分析的方法和设备(Method and Apparatus for Analysis of Chromatin Interaction Data)”的美国临时申请序列号62/646,433的优先权和申请日的权益,所述文献的全部公开内容均在此通过引用明确并入本文。


[0002]本申请涉及染色质相互作用分析,并且,更具体地说,涉及一种利用统计技术使用可变大小的箱有效识别基因组元件的触点的方法和系统。

技术介绍

[0003]今天,基因组元件触点使用Hi-C测序或其它类似方法进行映射,如基因组结构映射、ChIA-PET、4C、5C、Combi-C、Micro-C等。在此类方法中,成对末端测序读段表示在被处理用于产生Hi-C测序库的生物细胞样品中具有空间触点的基因组位置对。将多个这样的成对末端读段编译成表示基因组位置对在空间上相互作用的频率的图或频率矩阵。
[0004]为了执行映射,将数据集编译到固定大小的箱中,这些箱是彼此相邻的基因组的大小均匀的部分。然而,这种方法需要选择固定的分辨率,这使其带有固有的局限性。在低分辨率下,关注的基因座与不相关的基因座结合,而其它基因座被分成两半。基因通常由增强子元件调节,所述增强子元件在序列空间中距所述基因很远,称为远侧顺式,或者位于不同的染色体上,称为反式。然而,由于数据稀疏,这些方法在检测远侧增强子相互作用方面表现不佳。反式和远侧顺式相互作用出现严重的数据稀疏,因为线性基因组中的读段对被映射到面积超过九百万平方兆碱基(Mb)的正方形基因组中。在高分辨率下,这一方法非常占用内存,需要大量计算资源。
[0005]此外,读段密度随基因组距离变化五个数量级,大多数测得的相互作用集中在轴上。因此,对于固定的箱,精细的分辨率将导致99.9%以上的全基因组矩阵条目是空的,而粗略的分辨率将完全不能受益于功能元件的长程触点的调解,从而将它们切成碎片并将其与相邻序列区域结合,从而耗散研究人员希望检测的信号。
[0006]拓扑关联结构域(TAD)已被确定为有效的空间和功能基因组。人类基因组约80%的序列长度被分成约2500个TAD,这是非常稳健的,在人体细胞类型之间、不同人体之间以及疾病状态下都非常保守。TAD也起复制结构域的作用。此外,TAD介导长程空间相互作用:在正方形基因组的任何给定部分中的接触频率将与同一TAD对中的更远序列部分比跨越TAD边界的近侧序列部分更密切相关。
[0007]最近的工作已经开始解决固定箱的缺点。SHAMAN包省去了固定的箱和矩阵编译,并采用了不同的方法来检测触点。其使用一个基对分辨率的稀疏矩阵,然后生成一个满足从真实矩阵中采样的距离频率和边缘覆盖标准的随机矩阵。其使用这种随机矩阵与真实矩阵进行比较,生成p值,然后将p值与FDR统计进行比较,以解决Hi-C矩阵中的随机误差。但
是,p值是根据数据库中每个单独读段对周围的K最近近邻聚类密度的Kolmogorov-Smirnov D统计数据生成的。具有显著密集的K个最近近邻的对可以被认为是富集的。因此,为特定实验选择K值表示分辨率和统计能力之间的重要权衡,很像传统Hi-C编译中的箱大小选择。
[0008]对于远侧触点,SHAMAN包受到影响,因为其没有考虑到大序列元件对触点的调解。一个特定读段对的K个最近近邻可能不会被显著地富集,而读段对所在的整个TAD对可能被富集。对于一个合适的K值,这些将是近似一致的,但SHAMAN没有提供选择这一K的方法,这将在任何情况下改变全基因组。此外,与具有强聚类的TAD对相邻的读段对可以“收起(stow away)”在序列接近的密集读段上,从而以固定箱的方式产生近邻溢出触点检测。
[0009]因此,与现有系统相比,需要一种精确映射基因组元件触点的系统,以保持高精度并减少存储器需求和计算资源。还需要一种在同一个箱中分割相关的基因座并且不将基因座分成两半以检测由功能元件介导的长程顺式和反式相互作用的系统。

技术实现思路

[0010]为了对基因组元件触点进行映射,染色质相互作用系统获得一组基因组元件(例如,基因座),并将所述一组元件分割成不同大小的箱。可以将箱选择为在同一个箱中包含相关的基因组元件并防止将基因组元件分成两半。例如,每个箱可以对应于脱氧核糖核酸(DNA)序列的连续片段,并且可以表示如基因、染色质状态片段、环状结构域、染色质结构域、拓扑关联结构域(TAD)等切割位点增量或功能元件。然后选择两组箱(例如,对应于染色体1的第一组箱和对应于染色体8的第二组箱),并将其放置在n
ꢀ×ꢀ
m矩阵(正方形基因组区域)中,以生成一组箱对。因此,正方形基因组区域可以具有可变的大小和形状。在一些实施例中,两组箱是相同的(例如,每个对应于染色体1)。在任何情况下,染色质相互作用系统使用例如二叉搜索树识别与成对末端读段对应的位置对或具有可能含有所述位置对的箱对的其它在空间上相互作用的位置(即其中所述箱中的一个箱含有所述基因座中的一个基因座,并且另一个箱含有另一个基因座)(例如Chr1:950000和Chr8:15000)。
[0011]然后,基于对应的箱对内的基因组元件触点,产生每个箱对的相互作用频率。此外,根据每个箱对内的成对触点的密度随基因组距离的变化来对相互作用频率进行归一化。更具体地说,可以确定成对触点的密度随基因组距离的变化以生成密度函数。这种函数可以针对特定箱序列中的GC序列百分比、Hi-C测序数据集中特定箱序列的序列覆盖率或用于Hi-C归一化的其它适当因素进行校正。然后,对于特定的箱对,在箱对的正方形基因组区域上对密度函数进行积分,以确定箱对的预期密度。然后,可以使用例如统计测试(如泊松分布p值(例如可以向其应用Benjamini错误发现率))将箱对的预期密度与实际密度(即箱对的正方形基因组区域内的成对触点的数量)进行比较,以在局部或全基因组的基础上以针对距离(和其它适当的特征)进行调整的方式生成富集和贫化染色质触点的集合。染色质相互作用系统然后可以提供用于在用户界面上显示对具有例如富集或贫化的触点的箱对的指示。
[0012]以这种方式,富集或贫化的触点可以用于基于相应基因组内基因座的空间相互作用预测受试者的分子表型。富集或贫化的触点也可以用于对染色体的3D和4D结构进行建模,并识别组织样品中改变的TAD边界和空间相互作用,以确定遗传病或肿瘤学。此外,富集或贫化的触点可以用于确定特定组织或细胞系中的一对基因座是否相互作用。此外,富集
或贫化的触点可以用于定位功能性TAD的反式和远侧顺式结合配偶体,并构建空间触点网络。本实施例有利地在具有固定大小和间距的可比箱的相同数据集中检测使用传统方法的现有系统中没有发现的长程触点。在实验中,与传统方法相比,本专利技术的实施例检测到TAD之间2.5倍的显著长程顺式相互作用。
[0013]此外,与传统方法相比,通过使用可变箱大小,本实施例有利地减少本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于分析染色质的空间和时间组织的计算机实施的方法,所述方法由被编程为执行所述方法的一个或多个处理器执行,所述方法包括:在一个或多个处理器处获得基因组元件的一组成对触点;由所述一个或多个处理器将基因组元件分割成多个箱,其中所述多个箱的箱大小不一致;由所述一个或多个处理器识别第一组所述多个箱和第二组所述多个箱;由所述一个或多个处理器生成n
ꢀ×ꢀ
m个箱对的矩阵,其中n对应于所述第一组所述多个箱,并且m对应于所述第二组所述多个箱;由所述一个或多个处理器识别所述箱对中的每个箱对内的成对触点的子集;由所述一个或多个处理器确定所述箱对中的每个箱对的相互作用频率;由所述一个或多个处理器对所述相互作用频率中的每个相互作用频率进行归一化以生成每个箱对的经归一化的相互作用频率;以及由所述一个或多个处理器提供染色质相互作用的映射以在用户界面上显示,包含对所述箱对的指示和对经归一化的相互作用频率的相应指示。2.根据权利要求1所述的方法,其中对所述相互作用频率中的每个相互作用频率进行归一化包含:由所述一个或多个处理器确定所述一组成对触点的密度随基因组距离的变化以生成密度函数;对于所述多个箱对中的每个箱对:由所述一个或多个处理器对所述箱对的区域上的密度函数进行积分以确定所述箱对的预期密度;由所述一个或多个处理器通过使用泊松统计分布执行统计分析来将所述箱对内的成对触点的所述子集与所述箱对的所述预期密度进行比较,以确定所述箱对的实际密度大于所述箱对的所述预期密度的量明显显著的似然度;由所述一个或多个处理器将用于多重比较控制的错误发现率应用于所确定的似然度以确定经过调整的似然度;以及当经过调整的似然度小于阈值似然度时,由所述一个或多个处理器确定所述箱对具有富集的触点。3.根据权利要求2所述的方法,其进一步包括:由所述一个或多个处理器使用泊松分布执行统计分析以确定所述箱对的所述实际密度小于所述箱对的所述预期密度的量明显显著的第二似然度;由所述一个或多个处理器将用于多重比较控制的错误发现率应用于所确定的第二似然度以确定经过调整的第二似然度;以及当所述经过调整的第二似然度小于阈值似然度时,由所述一个或多个处理器确定所述箱对具有贫化的触点。4. 根据权利要求3所述的方法,其中所述统计分析包含用于确定所述箱对的所述实际密度与所述预期密度不同的量在统计上显著的第三似然度的双尾测试;由所述一个或多个处理器将用于多重比较控制的错误发现率应用于所确定的第三似然度以确定经过调整的第三似然度;以及
当经过调整的第三似然度小于阈值似然度时,由所述一个或多个处理器确定所述箱对具有富集的或贫化的触点。5. 根据权利要求1所述的方法,其中所述成对触点中的至少一些成对触点是顺式触点,使得所述至少一些成对触点中的每个成对触点中的两个基因组元件对应于同一染色体;并且其中所述成对触点中的至少一些成对触点是反式触点,使得所述至少一些成对触点中的每个成对触点中的两个基因组元件对应于不同的染色体。6.根据权利要求2所述的方法,其中所述密度函数由经验数据生成,并且所述密度函数的至少一部分随着基因组距离的增加而减小。7.根据权利要求2所述的方法,其进一步包括:由所述一个或多个处理器识别DNA序列中与一种或多种分子表型相关或以因果关系相关的单个基因座;由所述一个或多个处理器识别含有所述单个基因座的一组箱;由所述一个或多个处理器获得受试者的染色质相互作用数据;由所述一个或多个处理器将含有所述单个基因座的所述箱的所述染色质相互作用数据与另一个生物细胞系统中此类箱的触点数据进行比较;以及由所述一个或多个处理器基于所述比较预测所述受试者的分子表型。8.根据权利要求1所述的方法,其进一步包括:由所述一个或多个处理器基于染色质相互作用的所述映射生成染色体结构的3D或4D模型。9.根据权利要求1所述的方法,其进一步包括:由所述一个或多个处理器生成一组特定的基因座的空间相互作用网络。10.根据权利要求1所述的方法,其中识别每个箱对内的成对触点的所述子集包含使用二叉搜索树识别每个箱对内的成对触点的所述子集。11. 根据权利要求1所述的方法,其中所述第一组所述多个箱和所述第二...

【专利技术属性】
技术研发人员:A
申请(专利权)人:密歇根大学董事会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1