用于分析染色质相互作用数据的方法和设备技术

技术编号：27139672 阅读：33 留言：0更新日期：2021-01-27 20:59

为了分析染色质的空间组织，计算装置可以使用二叉搜索树将基因组元件触点或读段编译到可变大小的箱中。所述箱可被选择用于各自表示基因组内不同的切割位点增量或功能元件，如基因、TAD、染色质状态片段、环状结构域、染色质结构域等。选择两组箱来生成箱对的正方形基因组矩阵，其中每个组表示所述矩阵的轴。然后将归一化方法应用于具有可变大小和/或形状的所述箱对的相互作用频率以生成每个箱对的经归一化的相互作用频率。可以使用所述经归一化的相互作用频率来识别具有富集的触点和贫化的触点的箱对，以进行各种分析，包含基因组变体的靶基因的检测，以及触点的全基因组分析。以及触点的全基因组分析。以及触点的全基因组分析。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于分析染色质相互作用数据的方法和设备
[0001]相关申请的交叉引用本申请要求于2018年3月22日提交的标题为“染色质相互作用数据分析的方法和设备（Method and Apparatus for Analysis of Chromatin Interaction Data）”的美国临时申请序列号62/646,433的优先权和申请日的权益，所述文献的全部公开内容均在此通过引用明确并入本文。

[0002]本申请涉及染色质相互作用分析，并且，更具体地说，涉及一种利用统计技术使用可变大小的箱有效识别基因组元件的触点的方法和系统。

技术介绍

[0003]今天，基因组元件触点使用Hi-C测序或其它类似方法进行映射，如基因组结构映射、ChIA-PET、4C、5C、Combi-C、Micro-C等。在此类方法中，成对末端测序读段表示在被处理用于产生Hi-C测序库的生物细胞样品中具有空间触点的基因组位置对。将多个这样的成对末端读段编译成表示基因组位置对在空间上相互作用的频率的图或频率矩阵。
[0004]为了执行映射，将数据集编译到固定大小的箱中，这些箱是彼此相邻的基因组的大小均匀的部分。然而，这种方法需要选择固定的分辨率，这使其带有固有的局限性。在低分辨率下，关注的基因座与不相关的基因座结合，而其它基因座被分成两半。基因通常由增强子元件调节，所述增强子元件在序列空间中距所述基因很远，称为远侧顺式，或者位于不同的染色体上，称为反式。然而，由于数据稀疏，这些方法在检测远侧增强子相互作用方面表现不佳。反式和远侧顺式相互...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于分析染色质的空间和时间组织的计算机实施的方法，所述方法由被编程为执行所述方法的一个或多个处理器执行，所述方法包括：在一个或多个处理器处获得基因组元件的一组成对触点；由所述一个或多个处理器将基因组元件分割成多个箱，其中所述多个箱的箱大小不一致；由所述一个或多个处理器识别第一组所述多个箱和第二组所述多个箱；由所述一个或多个处理器生成n
ꢀ×ꢀ
m个箱对的矩阵，其中n对应于所述第一组所述多个箱，并且m对应于所述第二组所述多个箱；由所述一个或多个处理器识别所述箱对中的每个箱对内的成对触点的子集；由所述一个或多个处理器确定所述箱对中的每个箱对的相互作用频率；由所述一个或多个处理器对所述相互作用频率中的每个相互作用频率进行归一化以生成每个箱对的经归一化的相互作用频率；以及由所述一个或多个处理器提供染色质相互作用的映射以在用户界面上显示，包含对所述箱对的指示和对经归一化的相互作用频率的相应指示。2.根据权利要求1所述的方法，其中对所述相互作用频率中的每个相互作用频率进行归一化包含：由所述一个或多个处理器确定所述一组成对触点的密度随基因组距离的变化以生成密度函数；对于所述多个箱对中的每个箱对：由所述一个或多个处理器对所述箱对的区域上的密度函数进行积分以确定所述箱对的预期密度；由所述一个或多个处理器通过使用泊松统计分布执行统计分析来将所述箱对内的成对触点的所述子集与所述箱对的所述预期密度进行比较，以确定所述箱对的实际密度大于所述箱对的所述预期密度的量明显显著的似然度；由所述一个或多个处理器将用于多重比较控制的错误发现率应用于所确定的似然度以确定经过调整的似然度；以及当经过调整的似然度小于阈值似然度时，由所述一个或多个处理器确定所述箱对具有富集的触点。3.根据权利要求2所述的方法，其进一步包括：由所述一个或多个处理器使用泊松分布执行统计分析以确定所述箱对的所述实际密度小于所述箱对的所述预期密度的量明显显著的第二似然度；由所述一个或多个处理器将用于多重比较控制的错误发现率应用于所确定的第二似然度以确定经过调整的第二似然度；以及当所述经过调整的第二似然度小于阈值似然度时，由所述一个或多个处理器确定所述箱对具有贫化的触点。4. 根据权利要求3所述的方法，其中所述统计分析包含用于确定所述箱对的所述实际密度与所述预期密度不同的量在统计上显著的第三似然度的双尾测试；由所述一个或多个处理器将用于多重比较控制的错误发现率应用于所确定的第三似然度以确定经过调整的第三似然度；以及
当经过调整的第三似然度小于阈值似然度时，由所述一个或多个处理器确定所述箱对具有富集的或贫化的触点。5. 根据权利要求1所述的方法，其中所述成对触点中的至少一些成对触点是顺式触点，使得所述至少一些成对触点中的每个成对触点中的两个基因组元件对应于同一染色体；并且其中所述成对触点中的至少一些成对触点是反式触点，使得所述至少一些成对触点中的每个成对触点中的两个基因组元件对应于不同的染色体。6.根据权利要求2所述的方法，其中所述密度函数由经验数据生成，并且所述密度函数的至少一部分随着基因组距离的增加而减小。7.根据权利要求2所述的方法，其进一步包括：由所述一个或多个处理器识别DNA序列中与一种或多种分子表型相关或以因果关系相关的单个基因座；由所述一个或多个处理器识别含有所述单个基因座的一组箱；由所述一个或多个处理器获得受试者的染色质相互作用数据；由所述一个或多个处理器将含有所述单个基因座的所述箱的所述染色质相互作用数据与另一个生物细胞系统中此类箱的触点数据进行比较；以及由所述一个或多个处理器基于所述比较预测所述受试者的分子表型。8.根据权利要求1所述的方法，其进一步包括：由所述一个或多个处理器基于染色质相互作用的所述映射生成染色体结构的3D或4D模型。9.根据权利要求1所述的方法，其进一步包括：由所述一个或多个处理器生成一组特定的基因座的空间相互作用网络。10.根据权利要求1所述的方法，其中识别每个箱对内的成对触点的所述子集包含使用二叉搜索树识别每个箱对内的成对触点的所述子集。11. 根据权利要求1所述的方法，其中所述第一组所述多个箱和所述第二...

【专利技术属性】
技术研发人员：A，
申请(专利权)人：密歇根大学董事会，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人