【技术实现步骤摘要】
【国外来华专利技术】染色体邻近实验中的结构变异检测
[0001]本专利技术涉及分子生物学领域,更具体地涉及DNA技术。本专利技术涉及用于评估感兴趣的基因组区域的DNA序列的结构完整性的策略,其在诊断和个性化癌症治疗中具有临床应用。
[0002]具体提供了一种检测DNA读取和感兴趣的基因组区域的染色体重排的方法。将观测邻近评分分配(101)给基因组片段。基于多个基因组片段的观测邻近评分,将预期邻近评分分配(102)给所述多个基因组片段中至少一个基因组片段中的每一个,其中所述预期邻近评分是所述多个基因组片段中至少一个邻近评分的预期值。基于多个基因组片段中的所述至少一个基因组片段的观测邻近评分和多个基因组片段中的所述至少一个基因组片段的预期邻近评分,生成(104)多个基因组片段中的所述至少一个基因组片段参与染色体重排的可能性指示。
技术介绍
[0003]有一系列技术(3C、4C、5C、Hi
‑
C、ChIA PET、HiChIP、靶向位点扩增(TLA)、capture
‑
C、启动子
‑
capture HiC等)(见Denker&de Laat,Genes&Development 2016),基于细胞核3D空间中的邻近连接:细胞核内DNA片段化和随后的再连接(原位)。在大多数邻近连接测定中,在片段化之前,染色质首先被交联以帮助维持原始3D构象,但也有无交联的原位片段化和邻近连接技术(例如Brant等人,Mol Sys Biol 2016)。这些方法在空间 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种使用DNA读取数据集检测涉及感兴趣基因组区域的染色体重排的方法,所述数据集包括DNA读取,所述DNA读取代表与感兴趣基因区域核邻近的基因组片段,所述方法包括:向基因组的多个基因组片段中的每一个分配(101)观测邻近评分,每个基因组片段的观测邻近评分指示在数据集中存在核邻近感兴趣基因组区域且包括对应于基因组片段的序列的至少一个DNA读取;基于多个基因组片段的观测邻近评分,将预期邻近评分分配(102)给所述多个基因组片段中至少一个基因组片段中的每一个,其中所述预期邻近评分包括所述多个基因组片段中至少一个邻近评分的预期值;和基于多个基因组片段中的所述至少一个基因组片段的观测邻近评分和多个基因组片段中的所述至少一个基因组片段的预期邻近评分,生成(103)多个基因组片段中所述至少一个基因组片段参与染色体重排的可能性指示。2.如权利要求1所述的方法,其中给所述至少一个基因组片段分配(102)预期邻近评分包括:基于多个相关基因组片段的观测邻近评分来确定(303)多个相关邻近评分,其中所述相关基因组片段根据一组选择标准与所述至少一个基因组片段关联;和基于所述多个相关邻近评分确定(304)所述至少一个基因组片段的预期邻近评分。3.如权利要求2所述的方法,其中确定(303)多个相关邻近评分包括:生成(401)观测邻近评分的多个置换(permutation),从而鉴定基因组片段中每一个对应的多个置换观测邻近评分,其中生成置换包括交换根据选择标准组彼此相关的随机选择的基因组片段的观测邻近评分。4.如权利要求3所述的方法,其中确定(303)所述至少一个基因组片段的每个相关邻近评分还包括通过聚集置换内所述至少一个基因组片段的基因组邻域中基因组片段的置换观测邻近评分来聚集(402)一个置换的置换观测邻近评分,以获得每个置换的基因组片段的聚集置换观测邻近评分。5.如权利要求4所述的方法,还包括聚集(101a)所述至少一个基因组片段的基因组邻域中所述基因组片段的观测邻近评分,以获得所述至少一个基因组片段的聚集的观测邻近评分,其中所述生成(103)所述多个基因组片段中所述至少一个基因组片段是否参与染色体重排的指示是基于所述至少一个基因组片段的聚集的观测邻近评分和所述至少一个基因组片段的预期邻近评分来执行的。6.如权利要求5所述的方法,还包括聚集(101a)每个基因组片段的基因组邻域中基因组片段的观测邻近评分,以获得每个基因组片段的聚集的观测邻近评分,其中基于每个基因组片段的聚集的观测邻近评述生成(401)置换,和其中所述生成(103)所述多个基因组片段中所述至少一个基因组片段是否参与染色体重排的指示是基于所述至少一个基因组片段的聚集的观测邻近评分和所述至少一个基因组片段的预期邻近评分来执行的。7.如权利要求5或6所述的方法,其中对于多个不同规模(501),重复(502)聚集邻近评
分(101a),分配(102)预期邻近评分,和生成(103)多个基因组片段中的所述至少一个基因组片段参与染色体重排的可能性指示的步骤,其中在每次重复中(101a
’
、102
’
、103
’
)中,基因组邻域的大小基于所述规模。8.如前任一权利要求所述的方法,其中确定(304)所述至少一个基因组片段的预期邻近评分包括组合所述至少一个基因组片段的多个相关邻近评分以确定例如平均值和/或标准偏差。9.如前任一权利要求所述的方法,其中将观测邻近评分分配(101)给多个基因组片段中的每一个包括:向基因组的多个基因组片段分配(201)观测邻近频率,所述观测邻近频率指示在数据集中存在对应基因组片段的至少一个DNA读取;和通过组合每个基因组片段的基因组邻域中的观测邻近频率,例如通过对观测邻近频率进行分箱,来计算(202)每个观测邻近评分,优选地,其中观测邻近频率包括指示与基因组片段对应的DNA读取是否存在于数据集中的二进制值,或者指示与数据集中基因组片段对应的DNA读取数的值。10.如前任一权利要求所述的方法,其中提供DNA读取数据集包括:a.确定参考基因组中的感兴趣基因组区域;b.执行邻近连接测定以产生多个邻近连接片段;c.对邻近连接片段进行测序;d.将经测序的邻近连接片段映射到参考基因组;e.选择多个经测序邻近连接片段,所述邻近连接片段包括映射到感兴趣基因组区域的基因组片段;和f.检测连接到至少一种所选的经测序邻近连接片段中感兴趣基因组区域的基因组片段。11.如权利要求2
‑
10任一所述的方法,其中识别多个与基因组片段相关的相关基因组片段的选择标准组可包括以下至少一个:a.候选相关基因组片段是否在参考基因组中顺式定位于同样包含感兴趣基因组区域的同一染色体;b.候选相关基因组片段是否在参考基因组中顺式定位于同样包含感兴趣基因组区域的同一染色体的特定部分;和c.候选相关基因组片段是否在参考基因组中反式定位于不包含感兴趣基因组区域的染色体。12.如权利要求2
‑
11任一所述的方法,其中识别多个与基因组片段相关的相关基因组片段的选择标准组可包括以下至少一个:i.如通过核邻近测定确定的,候选相关基因组片段是否定位于与感兴趣基因组区域相同的活性或非活性三维核区室(例如A或B区室)内的基因组部分;ii.如通过分析给定组蛋白修饰的基因组分布的表观遗传学谱方法确定的,候选相关基因组片段是否定位于与感兴趣的基因组区域具有相同或相似的表观遗传染色质谱的基因组部分;iii.如转录概况分析法确定的,候选相关基因组片段是否定位于与感兴趣的基因组区
域具有相似转录活性的基因组部分;iv.如复制时间概况分析法确定的,候选相关基因组片段是否定位于与感兴趣的基因组区域具有相似复制时间的基因组部分;v.候选相关基因组片段是否定位于具有作为感兴趣基因组区域实验产生片段的相关密度的基因组部分;和vi.候选相关基因组片段是否定位于具有相关密度的作为感兴趣的基因组区域的非可映射片段或片段末端的基因组部分。13.如前任一权利要求所述的方法,其中用于识别多个相关基因组片段的选择标准组包括候选相关基因组片段邻近评分具有指示非零DNA读取数的值的要求,优选其中生成所述至少一个基因组片段与染色体重排相关的可能性指示包括:使用一组选择标准来生成所述至少一个基因片段与染色体重组相关可能性的第一指示,所述选择标准排除了候选相关基因组片段邻近评分具有指示非零DNA读取数的值的要求;使用一组选择标准来生成所述至少一个基因片段与染色体重组相关可能性的第二指示,所述选择标准包括候选相关基因组片段邻近评分具有指示非零DNA读取数的值的要求;和基于所述第一指示和所述第二指示生成所述至少一个基因组片段与染色体重排相关的可能性的第三指示。14.一种计算机程序产品,包括计算机可读指令,当由处理器系统执行时,所述计算机可读指令使处理器系统:向基因组的多个基因组片段中的每一个分配(101)观测邻近评分,一个基因组片段的观测邻近评分指示在数据集中存在对应于基因组片段的DNA读取,其中数据集包括DNA读取,所述DNA读取代表与感兴趣基因组区域核邻近的基因组片段;基于多个基因组片段的观测邻近评分,将预期邻近评分分配(102)给所述多个基因组片段中至少一个基因组片段中的每一个,其中所述预期邻近评分是所述多个基因组片段中至少一个邻近评分的预期值;和基于多个基因组片段中的所述至少一个基因组片段的观测邻近评分和多个基因组片段中的所述至少一个基因组片段的预期邻近评分,生成(103)多个基因组片段中所述至少一个基因组片段参与染色体重排的可能性指示。15.一种确认染色体断裂点连接的存在,将候选重排伴侣融合到感兴趣基因组区域内位置的方法,所述方法包括:a、对包含DNA的样品进行邻近测定以产生多个邻近连接的产物;b、富集包含基因组片段的邻近连接产物,所述基因组片段包含侧接感兴趣基因组区域5
’
端的序列,其中所述邻近连接产物进一步包含与所述包含侧接感兴趣基因组区域5
’
端的序列的基因组片段邻近的基因组片段;对所述邻近连接产物进行测序以产生测序读取,将与所述包含侧接感兴趣基因组区域5
’
端的序列的基因组片段邻近的基因组片段序列映射到参考序列;
c.富集包含基因组片段的邻近连接产物,所述基因组片段包含侧接感兴趣基因组区域3
’
端的序列,其中所述邻近连接产物进一步包含与所述包含侧接感兴趣基因组区域3
’
端的序列的基因组片段邻近的基因组片段;对所述邻近连接产物进行测序以产生测序读取,将与所述包含侧接感兴趣基因组区域3
’
端的序列的基因组片段邻近的基因组片段序列映射到参考序列;d.基于所述基因组片段与感兴趣基因组区域或包含侧接感兴趣基因组区域的序列的基因组片段的邻近频率,鉴定至少一个基因组片段作为候选重排伴侣,其中步骤d)包括:向基因组的多个基因组片段中的每一个分配(101)观测邻近评分,每个基因组片段的观测邻近评分指示在数据集中存在邻近感兴趣基因组区域且包括对应于基因组片段的序列的至少一个测序读取;基于多个基因组片段的观测邻近评分,将预期邻近评分分配(102)给所述多个基因组片段中至少一个基因组片段中的每一个,其中所述预期邻近评分包括所述多个基因组片段中至少一个邻近评分的预期值;和基于多个基因组片段中的所述至少一个基因组片段的观测邻近评分和多个基因组片段中的所述至少一个基因组片段的预期邻近评分,生成(103)多个基因组片段中的所述至少一个基因组片段参与染色体重排的可能性指示,和将所述基因组片段鉴定为候选重排伴侣;e.确定与所述包含侧接感兴趣基因组区域5
’
端的序列的基因组片段邻近的候选重排伴侣的基因组片段和与所述包含侧接感兴趣基因组区域3
’
端的序列的基因组片段邻近的候选重排伴侣的基因组片段是重叠的还是线性分离的,其中所述候选重排伴侣基因组片段的线性分离指示所述感兴趣基因组区域内的染色体断裂点连接。16.一种确认染色体断裂点连接的存在,将候选重排伴侣融合到感兴趣基因组区域内位置的方法,所述方法包括:a.对包含DNA的样品...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。