从头二倍体基因组组装和单倍型序列重建制造技术

技术编号：17102444 阅读：76 留言：0更新日期：2018-01-21 12:38

示例性实施方案提供了用于二倍体基因组组装和单倍型序列重建的方法和系统。所述示例性实施方案的各方面包括：从两个单倍型的读段产生融合组装图，所述融合组装图包括所鉴别的主要重叠群和相关重叠群；使用已定相的读段和所述已定相的读段的感知到有单倍型的重叠来产生单倍型特异组装图；将所述融合组装图和所述单倍型特异组装图合并来产生合并的组装单倍型图；从所述合并的组装单倍型图去除交叉定相的连线以产生最终单倍型已分辨的组装图；以及从所述最终单倍型已分辨的组装图重建单倍型特异重叠群，从而产生单倍型特异重叠群。

Genome assembly of ab initio diploid and reconstruction of haplotype sequence

The exemplary implementation provides methods and systems for the assembly of the diploid genome and the reconstruction of the haplotype sequence. Each aspect of the exemplary embodiment includes: generating fusion assembly from reading section two haplotypes, the fusion contig assembly diagram including identification and related contigs; read by using reading section and the fixed phase of perceived haplotype overlap to produce a specific haplotype assembly; the fusion assembly and the assembly to generate specific haplotype with combined haplotype assembly; assembly haplotype map combined with from the removal of the cross phase line to produce the final assembly drawing haplotype resolved; specific haplotype reconstruction and assembly drawing from the final haplotype resolved contig, resulting in haplotype specific contigs.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】从头二倍体基因组组装和单倍型序列重建相关申请的交叉引用本国际PCT专利申请要求于2015年5月26日提交的美国临时专利申请号62/166,605的优先权的权益，并且涉及于2014年12月18日提交的名为“StringGraphAssemblyforPolyploidGenomes”的美国专利申请序列号14/574,887，所述专利申请已被转让给本申请的受让人并且以引用的方式并入本文。专利技术背景生物分子序列测定尤其是相对于核酸和蛋白质样品的进步已彻底改变了细胞和分子生物学领域。受到自动化测序系统的发展的推动，现在已经有可能对样品核酸的混合群体进行测序。然而，必须谨慎地监测序列信息的质量，并且所述质量可能会因与生物分子本身或所使用的测序系统相关的许多因素而受损，所述因素包括生物分子的组成(例如，核酸分子的碱基组成)、实验和系统噪声、观察到的信号强度的变化以及反应效率的差异。因此，必须实施过程来分析和改进来自这类测序技术的数据的质量。除了会影响所产生的序列读段的总准确度之外，这些因素还会使碱基调用作为真正变体或可替代地误调用(例如，序列读段中的插入、缺失或失配错误)的指定复杂化。例如，在二倍体生物中，染色体可以具有在序列上不同于同源染色体的基因座。当对这些基因座进行测序时，碱基调用在同源染色体之间会出现差异。重要的是能够确定在同源染色体之间有所不同的碱基调用是同源物之间的真正变异，还是仅为测序错误。此外，个体中的病毒群体在所述群体中，尤其是在高突变性病毒诸如HIV中的个别病毒基因组之间可能会具有许多变异。能够鉴别具有不同来源(例如，不同染色体或基因组来源)的不同...
从头二倍体基因组组装和单倍型序列重建

【技术保护点】
一种用于二倍体基因组组装和单倍型序列重建的方法，所述方法由在处理器上执行的至少一个软件部件执行，所述方法包括：从两个单倍型的读段产生融合组装图，所述融合组装图包括所鉴别的主要重叠群和相关重叠群；使用已定相的读段和所述已定相的读段的感知到有单倍型的重叠来产生单倍型特异组装图；将所述融合组装图和所述单倍型特异组装图合并来产生合并的组装单倍型图；从所述合并的组装单倍型图去除交叉定相的连线以产生最终单倍型已分辨的组装图；以及从所述最终单倍型已分辨的组装图重建单倍型特异重叠群，从而产生单倍型特异重叠群。

【技术特征摘要】
【国外来华专利技术】2015.05.26 US 62/166,6051.一种用于二倍体基因组组装和单倍型序列重建的方法，所述方法由在处理器上执行的至少一个软件部件执行，所述方法包括：从两个单倍型的读段产生融合组装图，所述融合组装图包括所鉴别的主要重叠群和相关重叠群；使用已定相的读段和所述已定相的读段的感知到有单倍型的重叠来产生单倍型特异组装图；将所述融合组装图和所述单倍型特异组装图合并来产生合并的组装单倍型图；从所述合并的组装单倍型图去除交叉定相的连线以产生最终单倍型已分辨的组装图；以及从所述最终单倍型已分辨的组装图重建单倍型特异重叠群，从而产生单倍型特异重叠群。2.如权利要求1所述的方法，其中使用已定相的读段和所述已定相的读段的感知到有单倍型的重叠来产生所述单倍型特异组装图还包括：针对每个融合单倍型的重叠群，鉴别从属于所述融合单倍型的重叠群的原始读段的子组；对所述读段进行定相以使用单核苷酸多态性(SNP)信息来将所述读段分类为表示不同单倍型的组；以及将所述融合单倍型的重叠群分解为单倍型特异重叠群。3.如权利要求2所述的方法，其中鉴别从属于所述重叠群的原始读段的所述子组还包括：使用用于产生所述组装的所述重叠数据来收集来源于重叠群的相同基因组区域的读段；以及按照区块和相位对来自相同重叠群的所述读段进行定相。4.如权利要求2所述的方法，其中对所述读段进行定相还包括：通过局部比对过程来对与每个重叠群相关联的所述读段进行比对；执行杂合SNP(hetSNP)调用过程，所述杂合SNP调用过程鉴别SNP；以及执行定相hetSNP316过程，所述定相hetSNP过程对具有共享的SNP的读段进行分组。5.如权利要求2所述的方法，所述方法还包括：同时对SNP和读段进行分组以获得有关哪些读段从属于相同相位中的相同区块的信息，从而产生一组已定相的读段，所述已定相的读段用于重建仅因小变异而不同的单倍型。6.如权利要求2所述的方法，其中对所述重叠群进行分解还包括：对测序读段进行比对以鉴别在序列之间具有相似性的区域，从而产生已比对序列；对所述已比对序列进行误差校正以产生经过误差校正的读段；对所述经过误差校正的读段进行比对；以及在重叠阶段期间使用所述已定相的读段来确保只有相同相位的所述已比对的经过误差校正的读段彼此重叠，从而产生每个单倍型的一组重叠读段。7.如权利要求6所述的方法，所述方法还包括使用每个单倍型的所述重叠读段组来产生所述单倍型特异组装图。8.如权利要求1所述的方法，其中所述合并的组装单倍型图包括连接来自相同单倍型的节点的连线，以及连接来自不同单倍型的节点的连线，所述连线是所述交叉定相的连线。9.如权利要求1所述的方法，其中所述单倍型特异重叠群包括已连接的定相区块。10.如权利要求9所述的方法，其中产生融合组装图还包括：接收从长度为至少.5kb的序列读段产生的字符串图和统一群；鉴别所述统一群图中的字符串束；从所述字符串束中的每一个确定主要重叠群；以及确定相较于所述主要重叠群而言含有结构变异的相关重叠群。11.如权利要求9所述的方法，所述方法还包括：鉴别所述主要重叠群中的候选分支点；以及使所述相应的主要重叠群在所述分支点处中断。12.如权利要求9所述的方法，其中所述序列读段包括长度范围为约0.5至1、2、3、5、10、15、20kb的长测序读段。13.如权利要求9所述的方法，其中鉴别所述统一群图中的字符串束还包括：遍历所述统一群图以鉴别形成无分支的复合路径的一组连线。14.如权利要求9所述的方法，其中从所述字符串束中的每...

【专利技术属性】
技术研发人员：C·金，P·佩鲁索，D·兰克，
申请(专利权)人：加利福尼亚太平洋生物科学股份有限公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人