从头二倍体基因组组装和单倍型序列重建制造技术

技术编号:17102444 阅读:76 留言:0更新日期:2018-01-21 12:38
示例性实施方案提供了用于二倍体基因组组装和单倍型序列重建的方法和系统。所述示例性实施方案的各方面包括:从两个单倍型的读段产生融合组装图,所述融合组装图包括所鉴别的主要重叠群和相关重叠群;使用已定相的读段和所述已定相的读段的感知到有单倍型的重叠来产生单倍型特异组装图;将所述融合组装图和所述单倍型特异组装图合并来产生合并的组装单倍型图;从所述合并的组装单倍型图去除交叉定相的连线以产生最终单倍型已分辨的组装图;以及从所述最终单倍型已分辨的组装图重建单倍型特异重叠群,从而产生单倍型特异重叠群。

Genome assembly of ab initio diploid and reconstruction of haplotype sequence

The exemplary implementation provides methods and systems for the assembly of the diploid genome and the reconstruction of the haplotype sequence. Each aspect of the exemplary embodiment includes: generating fusion assembly from reading section two haplotypes, the fusion contig assembly diagram including identification and related contigs; read by using reading section and the fixed phase of perceived haplotype overlap to produce a specific haplotype assembly; the fusion assembly and the assembly to generate specific haplotype with combined haplotype assembly; assembly haplotype map combined with from the removal of the cross phase line to produce the final assembly drawing haplotype resolved; specific haplotype reconstruction and assembly drawing from the final haplotype resolved contig, resulting in haplotype specific contigs.

【技术实现步骤摘要】
【国外来华专利技术】从头二倍体基因组组装和单倍型序列重建相关申请的交叉引用本国际PCT专利申请要求于2015年5月26日提交的美国临时专利申请号62/166,605的优先权的权益,并且涉及于2014年12月18日提交的名为“StringGraphAssemblyforPolyploidGenomes”的美国专利申请序列号14/574,887,所述专利申请已被转让给本申请的受让人并且以引用的方式并入本文。专利技术背景生物分子序列测定尤其是相对于核酸和蛋白质样品的进步已彻底改变了细胞和分子生物学领域。受到自动化测序系统的发展的推动,现在已经有可能对样品核酸的混合群体进行测序。然而,必须谨慎地监测序列信息的质量,并且所述质量可能会因与生物分子本身或所使用的测序系统相关的许多因素而受损,所述因素包括生物分子的组成(例如,核酸分子的碱基组成)、实验和系统噪声、观察到的信号强度的变化以及反应效率的差异。因此,必须实施过程来分析和改进来自这类测序技术的数据的质量。除了会影响所产生的序列读段的总准确度之外,这些因素还会使碱基调用作为真正变体或可替代地误调用(例如,序列读段中的插入、缺失或失配错误)的指定复杂化。例如,在二倍体生物中,染色体可以具有在序列上不同于同源染色体的基因座。当对这些基因座进行测序时,碱基调用在同源染色体之间会出现差异。重要的是能够确定在同源染色体之间有所不同的碱基调用是同源物之间的真正变异,还是仅为测序错误。此外,个体中的病毒群体在所述群体中,尤其是在高突变性病毒诸如HIV中的个别病毒基因组之间可能会具有许多变异。能够鉴别具有不同来源(例如,不同染色体或基因组来源)的不同测序读段对于能够准确地表征核酸的混合群体来说是至关重要的。在产生100%准确的读段的理论测序平台上,读段可以简单地用简单的字符串匹配算法来进行相互比较。读段之间的任何差异都指示真正变异以及因此不同来源。然而,任何真实世界原始测序数据都可能含有误差,因此简单的字符串匹配算法方法是不够的。字符串图是可以用于对基因组建模,例如以帮助从测序数据组装基因组的数据结构。用字符串图对基因组进行建模通常具有优于用重叠图或deBrujin图进行建模的优点。例如,可以改进序列和/或共有误差的校正以及对异源区域的注释。有关字符串图构建的进一步的细节请参见Fragmentassemblystringgraph,Myers,E.W.(2005)Bioinformatics21(期,增刊2):ii79-ii85),所述参考文献以引用的方式并入本文。在字符串图内,顶点(又称为节点)是序列片段的起点和/或终点,并且连线是两个顶点之间的序列片段。字符串图算法的核心是将两个片段之间的每个“适当的重叠”(其中两个读段的每一个当中只有一部分彼此重叠,即,第一读段在3’端延伸超出重叠并且第二读段在5’端延伸超出重叠)转换为字符串图结构。这个过程包括鉴别处于重叠区域边缘处的顶点;以及将连线延伸至重叠片段的非重叠部分。根据序列的方向来标记连线,并且通过传递规约来去除冗余的连线以产生字符串图。对于双链单倍体样品,例如大肠杆菌基因组,这种梳理会产生两个互补的重叠群,一个是关于正向链并且一个是关于反向链,它们可以进一步简化为表示基因组组件的单一重叠群。字符串图结构中观察到的其他特征包括分支、结点和泡状物。分支或分支点通常会在读段例如因基因组中存在重复区域而含有一些重复序列时产生。结点(其中许多连线连接至同一个节点)会因为许多读段含有基因组中的相同重复而产生。简单的“最佳重叠逻辑”通常用于“梳理”简单的结点。简单的泡状物通常会在存在局部结构变异时观察到,并且通常很容易解决。然而,简单的泡状物还会因为原始序列读段中和/或在读段的预组装期间执行的共有序列测定中出现错误而产生。此外,如果重叠鉴别步骤无法检测出适当的重叠,则会在字符串图中呈现泡状物。还可能会观察到通常可能因单倍型内或之间的更复杂的重复而引起的复杂的泡状物。常规的图遍历算法通常会停止围绕这类复杂的泡状物的节点延伸重叠群,而这往往会导致片段化的组装。一种选择是使用蚕食图遍历算法,所述算法可以遍历泡状物来产生更大的重叠群,但是这些重叠群不太可能真正地代表原始样品核酸。重要的是了解如何检测和去除字符串图中因这些假象而引起的泡状物,以及如何将人为泡状物与因同源序列之间的真正结构变异而引起的泡状物区分开来,连同如何对所述真正变异进行注释。因此,需要改进从头二倍体组装,所述二倍体组装为适当的单倍型序列重建结合了介于SNP之间的定相以及结构变异。
技术实现思路
参考以下具体实施方式和附图可更好地理解本专利技术以及各个特定方面和实施方案,其中就各个特定方面和实施方案描述了本专利技术。这些方面和实施方案仅出于清楚目的而提供并且不应视为对本专利技术进行限制。本专利技术以及其方面可以应用于本文未确切公开的各种类型的方法、装置和系统。在某些方面,本专利技术提供用于从头二倍体基因组组装和单倍型序列重建的方法,所述方法由在至少一个处理器上执行的至少一个软件部件执行。在某些实施方案中,这类方法包括若干步骤,包括从两个单倍型的读段产生融合组装图,所述融合组装图包括所鉴别的主要重叠群和相关重叠群;使用已定相的读段和已定相的读段的感知到有单倍型的重叠来产生单倍型特异组装图;将融合组装图和单倍型特异组装图合并来产生合并的组装单倍型图;从合并的组装单倍型图去除交叉定相的连线以产生最终单倍型已分辨的组装图;以及从最终单倍型已分辨的组装图重建单倍型特异单体群。根据本文公开的方法,示例性实施方案提供了能够将多个变体类型整合为综合组装的单倍型的算法。附图简述图1是示出用于实施从头二倍体基因组组装和单倍型序列重建的过程的计算机系统的一个实施方案的图。图2是示出用于从头二倍体基因组组装和单倍型序列重建的一个示例性实施方案过程的流程图。图3A是进一步详细地示出图2所示用于重建单倍型序列的过程方框的方框图。图3B和图3C是示出从已比对序列之间的重叠和传递规约创建字符串图的方法的实施方案的图。图4是示出针对双链单倍体样品,例如大肠杆菌基因组产生的示例性字符串图的图形图。图5是示出字符串图结构中观察到的其他特征可以包括缠绕区域,诸如分支、结点和泡状物的图。图6是示出对大肠杆菌字符串图应用最佳重叠规则的结果的图。图7是以图形方式示出从字符串图的无分支部分鉴别统一群以产生统一群图的图。图8A是以图形方式示出可以具有准线性结构和泡状物的字符串图的图。图8B是示出简单的泡状物还可能因原始序列读段中和/或在读段的预组装期间执行的共有序列测定中出现错误而产生的图。图9是示出二倍体组装的一个挑战是确定字符串图中的遗传序列基础复杂结构的图,其中字符串图中的相同结构可能因重复或存在同源序列而引起。图10A和图10B是以图形方式示出统一群图的示例性大规模和小规模拓扑特征的图。图11A是示出由二倍体重叠群发生器对多倍体基因组执行的字符串图组装的过程的流程图。图11B是示出对字符串束的处理的图形图,所述字符串束包括泡状物以及“无泡状物”部分。图12A是示出用于确定统一群图中的顶点处的接合点是从属于字符串束还是从属于分支路径的过程的图。图12B是示出根据第二实施方案的对字符串束的处理的图形图。图13是以图形方式示出基于主要重叠群和相关重叠群而构本文档来自技高网
...
从头二倍体基因组组装和单倍型序列重建

【技术保护点】
一种用于二倍体基因组组装和单倍型序列重建的方法,所述方法由在处理器上执行的至少一个软件部件执行,所述方法包括:从两个单倍型的读段产生融合组装图,所述融合组装图包括所鉴别的主要重叠群和相关重叠群;使用已定相的读段和所述已定相的读段的感知到有单倍型的重叠来产生单倍型特异组装图;将所述融合组装图和所述单倍型特异组装图合并来产生合并的组装单倍型图;从所述合并的组装单倍型图去除交叉定相的连线以产生最终单倍型已分辨的组装图;以及从所述最终单倍型已分辨的组装图重建单倍型特异重叠群,从而产生单倍型特异重叠群。

【技术特征摘要】
【国外来华专利技术】2015.05.26 US 62/166,6051.一种用于二倍体基因组组装和单倍型序列重建的方法,所述方法由在处理器上执行的至少一个软件部件执行,所述方法包括:从两个单倍型的读段产生融合组装图,所述融合组装图包括所鉴别的主要重叠群和相关重叠群;使用已定相的读段和所述已定相的读段的感知到有单倍型的重叠来产生单倍型特异组装图;将所述融合组装图和所述单倍型特异组装图合并来产生合并的组装单倍型图;从所述合并的组装单倍型图去除交叉定相的连线以产生最终单倍型已分辨的组装图;以及从所述最终单倍型已分辨的组装图重建单倍型特异重叠群,从而产生单倍型特异重叠群。2.如权利要求1所述的方法,其中使用已定相的读段和所述已定相的读段的感知到有单倍型的重叠来产生所述单倍型特异组装图还包括:针对每个融合单倍型的重叠群,鉴别从属于所述融合单倍型的重叠群的原始读段的子组;对所述读段进行定相以使用单核苷酸多态性(SNP)信息来将所述读段分类为表示不同单倍型的组;以及将所述融合单倍型的重叠群分解为单倍型特异重叠群。3.如权利要求2所述的方法,其中鉴别从属于所述重叠群的原始读段的所述子组还包括:使用用于产生所述组装的所述重叠数据来收集来源于重叠群的相同基因组区域的读段;以及按照区块和相位对来自相同重叠群的所述读段进行定相。4.如权利要求2所述的方法,其中对所述读段进行定相还包括:通过局部比对过程来对与每个重叠群相关联的所述读段进行比对;执行杂合SNP(hetSNP)调用过程,所述杂合SNP调用过程鉴别SNP;以及执行定相hetSNP316过程,所述定相hetSNP过程对具有共享的SNP的读段进行分组。5.如权利要求2所述的方法,所述方法还包括:同时对SNP和读段进行分组以获得有关哪些读段从属于相同相位中的相同区块的信息,从而产生一组已定相的读段,所述已定相的读段用于重建仅因小变异而不同的单倍型。6.如权利要求2所述的方法,其中对所述重叠群进行分解还包括:对测序读段进行比对以鉴别在序列之间具有相似性的区域,从而产生已比对序列;对所述已比对序列进行误差校正以产生经过误差校正的读段;对所述经过误差校正的读段进行比对;以及在重叠阶段期间使用所述已定相的读段来确保只有相同相位的所述已比对的经过误差校正的读段彼此重叠,从而产生每个单倍型的一组重叠读段。7.如权利要求6所述的方法,所述方法还包括使用每个单倍型的所述重叠读段组来产生所述单倍型特异组装图。8.如权利要求1所述的方法,其中所述合并的组装单倍型图包括连接来自相同单倍型的节点的连线,以及连接来自不同单倍型的节点的连线,所述连线是所述交叉定相的连线。9.如权利要求1所述的方法,其中所述单倍型特异重叠群包括已连接的定相区块。10.如权利要求9所述的方法,其中产生融合组装图还包括:接收从长度为至少.5kb的序列读段产生的字符串图和统一群;鉴别所述统一群图中的字符串束;从所述字符串束中的每一个确定主要重叠群;以及确定相较于所述主要重叠群而言含有结构变异的相关重叠群。11.如权利要求9所述的方法,所述方法还包括:鉴别所述主要重叠群中的候选分支点;以及使所述相应的主要重叠群在所述分支点处中断。12.如权利要求9所述的方法,其中所述序列读段包括长度范围为约0.5至1、2、3、5、10、15、20kb的长测序读段。13.如权利要求9所述的方法,其中鉴别所述统一群图中的字符串束还包括:遍历所述统一群图以鉴别形成无分支的复合路径的一组连线。14.如权利要求9所述的方法,其中从所述字符串束中的每...

【专利技术属性】
技术研发人员:C·金P·佩鲁索D·兰克
申请(专利权)人:加利福尼亚太平洋生物科学股份有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1