核酸序列装配的方法和系统技术方案

技术编号:22058778 阅读:97 留言:0更新日期:2019-09-07 16:37
本分案申请提供了用于分析遗传序列数据的方法、过程、且特别是计算机执行的过程和计算机程序产品。所述过程和产品用于将较短的核酸序列数据装配成较长连接的并且优选连续的遗传构建体,包括大的重叠群、染色体和整个基因组。

Method and System of Nucleic Acid Sequence Assembly

【技术实现步骤摘要】
核酸序列装配的方法和系统本申请为申请号为201580042592.6,申请日为2015年6月26日,专利技术名称为“核酸序列装配的方法和系统”的分案申请。相关申请的交叉引用本申请要求2014年6月26日提交的名称为“ProcessesandSystemsforNucleicAcidsSequenceAssembly”的美国专利申请号62/017,589的优先权,其通过引用的方式并入本文。
技术介绍
与高通量下一代测序技术相关的重要挑战之一在于将相对短的序列读段装配成较长的连续序列。基因组序列装配过程通常类推为具有切割成小段的小说,然后必须将其重新装配成完整的小说。在序列装配中,这通常通过将要装配的整个序列的重叠子区段拼接在一起来实现。如将理解的,当各段为较大且不太模糊时,该装配过程变得较容易。例如,根据完整的段落,页或章节比从单个句子,句子片段或随机词或词的部分装配小说更容易。同样,使用核酸测序,单独的序列读段越短,将多个读段装配成较长的连续序列变得越困难。虽然下一代测序技术能够产生大量的序列数据,例如在单次运行中产生1兆兆碱基(terabase)序列数据,但是它们困扰于仅产生短的序列读段长度的困难。具体地,这些测序技术通常获得100个连续碱基或更少(或当作为配对末端测序来测序时,高达约200个碱基)的读段中的序列数据。这些读段然后必须装配成更长的连续序列。尽管某些测序技术提供长度为800、1000、5000或甚至20,000个碱基的更长序列读段,但这通常以系统通量为代价而来到,每次运行仅产生数百兆碱基序列数据。已经采用了许多过程和算法将相对短的序列读段装配成更长的连续序列。通常,这些短序列读段通常与许多其它短序列读段重叠,以在整个较长序列的不同部分上提供冗余覆盖(称为“覆盖”或“倍数覆盖”)。在高水平,来自多个读段的重叠序列用于将较长序列信息拼凑在一起。在许多情况下,例如来自相同物种的现有已知参考序列是可获得的。这些参考序列可以用作将较短序列读段定位到较大基因组或基因组片段上的支架上。然后在支架上层叠多倍序列覆盖以提供相对高的置信序列。然而,在许多情况下,参考序列可能不可用,需要被测序的基因组或基因组片段的从头装配。此外,在许多情况下,此类参考序列是没有帮助的,因为测序的目标实现它以检测靶序列中的突变。例如,在靶序列来自癌症的情况下,它是输入以确定靶序列中存在哪些突变,插入和缺失作为诊断癌症阶段或癌症的一些其它属性的方式。因此,利用参考序列在测序努力中并不总是有用的。因此,本文描述了用于将序列读段装配成更大基因组或基因组片段序列,特别是将序列信息从头装配成更大序列背景的改进的方法,过程和系统,所述序列背景包括例如全染色体或甚至全基因组背景。概要本文中描述了用于装配来自多种不同测序系统的序列读段(包括例如短读段和长读段序列系统)的改进的遗传序列装配方法。本文中所述的方法可用于从头装配过程和再测序装配过程或针对已知参考序列的装配过程两者。本文所述的方法,过程和系统采用具有相关联的条形码序列的序列读段,以在一个或多个不同的装配步骤帮助整体装配过程。在某些方面,提供了将核酸序列读段装配成较大连续序列的方法。所述方法包括在包括第一数据结构的计算机执行的系统中鉴定包含重叠序列和共同条形码序列二者的序列读段的第一子集,所述第一数据结构包含源自较大的连续核酸的多个序列读段。源自较大的连续核酸的共同片段的序列读段包括共同的条形码序列。比对序列读段的第一子集以提供连续的线性核酸序列。还提供了将核酸序列读段装配成较大的连续序列的方法。此类方法在包括第一数据结构的计算机实施系统中从重叠序列读段集合中鉴定第一子序列,所述第一数据结构包含源自较大的连续核酸的多个序列读段。然后,基于与第一子序列共同的相邻序列上条形码序列的存在,将第一子序列延伸至一个或多个相邻或重叠的序列。然后提供包含第一子序列和一个或多个相邻序列的线性核酸序列。本公开的一个方面提供了一种测序方法,所述测序方法包括在计算机系统上执行获得多个序列读段的方法,所述计算机系统具有一个或多个处理器,以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器。多个序列读段包含多个序列读段的集合。在序列读段集合中的每个相应序列读段包括(i)对应于较大的连续核酸的子集的第一部分和(ii)形成标识符的共同第二部分,所述标识符不依赖于所述较大的连续核酸的序列,并且鉴定多个分区中的分区,其中形成所述相应的序列读段。在多个分区中的分区中形成序列读段的多个集合中的序列读段的每个相应集合,并且每个分区包括较大的连续核酸的一个或多个片段(例如,2个或更多个,3个或更多个,10个或更多个),所述较大的连续核酸用作分区中每个相应序列读段的模板。在该方法中,对于在多个序列读段中的每个序列读段创建相应的k聚体集合。k聚体集合共同包含多个k聚体。保留多个k聚体中的每个k聚体的序列读段的标识符。在许多情况下,对于k聚体中的至少一些,存在多个此类测序读段标识符。k值小于多个序列读段中的序列读段的平均长度。每个相应的k聚体集合包括对应序列读段的第一部分的长度k的可能k聚体中的一些(例如,至少80%)。在该方法中,对于多个k聚体中的每个相应k聚体,追踪含有相应k聚体的多个序列读段中的每个序列读段的身份和含有序列读段的序列读段集合的标识符。在该方法中,将多个k聚体的全部或一部分(例如,至少1%,至少5%,至少50%)绘制为包括通过多个有向弧连接的多个节点的图。每个节点包含长度k的多个k聚体中具有k-1重叠的k聚体的不间断集合。每个弧将源节点连接到多个节点中的目标节点。源节点的最终k聚体与目标节点的初始k聚体具有k-1重叠。第一源节点具有在所述多个节点中的第一目标节点和第二目标节点二者的第一有向弧。在该方法中,测定是否将源节点与第一目标节点或第二目标节点合并,以便得到更可能代表较大的连续核酸的一部分的重叠群序列。重叠群序列包含(i)源节点和(ii)第一目标节点和第二目标节点中的一个。所述测定至少使用所述第一源节点、所述第一目标节点和所述第二目标节点中的k聚体的序列读段的标识符。另一方面提供了计算系统,所述计算系统包括一个或多个处理器,存储要由所述一个或多个处理器执行的一个或多个程序的存储器,所述一个或多个程序包括用于执行上述方法的指令。本公开的另一方面提供了测序方法,所述测序方法包括在计算机系统上获得多个序列读段,所述计算机系统具有一个或多个处理器以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器中。多个序列读段包括多个序列读段集合。在序列读段集合中的每个相应序列读段包括(i)对应于较大的连续核酸的子集的独特第一部分和(ii)形成标识符的共同第二部分,所述标识符不依赖于所述较大的连续核酸的序列,并且鉴定多个分区中的分区,其中形成所述相应的序列读段。在所述多个分区中的分区中形成所述序列读段的多个集合中的序列读段的每个相应集合。每个此类分区包括较大的连续核酸的一个或多个片段,所述较大的连续核酸用作分区中每个相应序列读段的模板。在该方法中,对于在多个序列读段中每个序列读段创建相应的k聚体集合。k聚体集合共同包含多个k聚体。保留多个k聚体中的每个k聚体的序列读段的标识符。k值小于多个序列读段中的本文档来自技高网...

【技术保护点】
1.一种装配核酸序列读段的测序方法,所述测序方法包括:在计算机系统上,所述计算机系统具有一个或多个处理器,以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器:获得源自较大的连续核酸的多个序列读段,其中源自所述较大的连续核酸的共同片段的两个或更多个序列读段包括共同条形码序列,鉴定所述多个序列读段中包含重叠序列和共同条形码序列两者的序列读段的第一子集;并且比对序列读段的所述第一子集以提供连续的线性核酸序列。

【技术特征摘要】
2014.06.26 US 62/017,5891.一种装配核酸序列读段的测序方法,所述测序方法包括:在计算机系统上,所述计算机系统具有一个或多个处理器,以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器:获得源自较大的连续核酸的多个序列读段,其中源自所述较大的连续核酸的共同片段的两个或更多个序列读段包括共同条形码序列,鉴定所述多个序列读段中包含重叠序列和共同条形码序列两者的序列读段的第一子集;并且比对序列读段的所述第一子集以提供连续的线性核酸序列。2.根据权利要求1所述的方法,所述方法还包括用序列读段的多个不同子集重复所述鉴定和比对步骤,以提供多个连续的线性核酸序列。3.根据权利要求2所述的方法,所述方法还包括在所述较大的连续核酸内的序列背景中将所述多个不同的连续线性核酸序列排序。4.根据权利要求3所述的方法,其中所述排序包括相对于参考序列定位所述多个不同的连续线性核酸序列。5.根据权利要求3所述的方法,其中所述排序包括:鉴定一个或多个序列读段,所述序列读段包含与第一连续线性核酸序列共同的条形码序列,但是包括与第二连续线性核酸序列的重叠序列;并且将所述第一和第二连续线性核酸鉴定为结构连接的。6.一种将核酸序列读段装配成较大的连续序列的方法,所述方法包括:在计算机系统上,所述计算机系统具有一个或多个处理器,以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器:获得源自较大的连续核酸的多个序列读段,从所述多个序列读段中的重叠序列读段集合中鉴定第一子序列;基于在相邻序列上与所述第一子序列共同的条形码序列的存在,将所述第一子序列延伸至一个或多个相邻或重叠序列;并且提供包含所述第一子序列和所述一个或多个相邻序列的线性核酸序列。7.一种测序方法,所述测序方法包括在计算机系统上,所述计算机系统具有一个或多个处理器,以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器:(A)获得多个序列读段,其中所述多个序列读段包括序列读段的多个集合,在序列读段集合中的每个相应的序列读段包含(i)对应于较大的连续核酸的子集的第一部分和(ii)形成标识符的共同第二部分,所述标识符不依赖于所述较大的连续核酸的序列,并且鉴定多个分区中形成所述相应的序列读段的分区,并且在所述多个分区中的分区中形成所述序列读段的多个集合中的序列读段的每个相应集合,并且每个分区包含所述较大的连续核酸的一个或多个片段,所述较大的连续核酸用作所述分区中的每个相应序列读段的模板;(B)为在所述多个序列读段中的每个序列读段创建相应的k聚体集合,其中所述k聚体集合共同包含多个k聚体,保留所述多个k聚体中的每个k聚体的所述序列读段的所述标识符,k小于所述多个序列读段中的所述序列读段的平均长度,并且每个相应的k聚体集合包括所述对应序列读段的第一部分的长度k的可能k聚体的至少80%;(C)对于所述多个k聚体中的每个相应的k聚体,追踪含有所述相应k聚体的所述多个序列读段中的每个序列读段的身份和含有所述序列读段的所述序列读段集合的所述标识符;(D)将所述多个k聚体绘制为包括通过多个有向弧连接的多个节点的图,其中,每个节点包含长度k的多个k聚体中具有k-1重叠的k聚体的不间断集合,每个弧在所述多个节点中将源节点连接到目标节点,源节点的最终k聚体与目标节点的初始k聚体具有k-1重叠,并且第一源节点具有在所述多个节点中的第一目标节点和第二目标节点二者的第一有向弧;并且(E)测定是否将所述源节点与所述第一目标节点或所述第二目标节点合并,以便得到更可能代表所述较大的连续核酸的一部分的重叠群序列,其中所述重叠群序列包含(i)所述源节点和(ii)所述第一目标节点和所述第二目标节点中的一个,其中所述测定至少使用所述第一源节点、所述第一目标节点和所述第二目标节点中的k聚体的序列读段的标识符。8.根据权利要求7所述的测序方法,其中,所述第一源节点和所述第一目标节点是所述图中包括除所述源节点和所述第一目标节点之外的一个或多个额外节点的第一路径的一部分,所述第一源节点和所述第二目标节点是所述图中包括除所述源节点和所述第二目标节点之外的一个或多个额外节点的第二路径的一部分,所述测定(E)包括通过相对于所述第二途径的第一部分的节点的k聚体和所述第二路径的第二部分的节点的k聚体之间共享的标识符的数目评估所述第一路径的第一部分的节点的k聚体和所述第一路径的第二部分的节点的k聚体之间共享的标识符的数目测定所述第一路径是否比所述第二路径更可能代表所述较大的连续核酸。9.根据权利要求7所述的测序方法,其中所述第一源节点和所述第一目标节点是所述图中包括除所述源节点和所述第一目标节点之外的一个或多个额外节点的第一路径的一部分,所述第一源节点和所述第二目标节点是所述图中包括除所述源节点和所述第二目标节点之外的一个或多个额外节点的第二路径的一部分,当所述第一路径具有比所述第二路径更高的平均覆盖时,所述测定(E)相对于所述第二路径向上加权所述第一路径。10.根据权利要求7所述的测序方法,其中所述第一源节点和所述第一目标节点是所述图中包括除所述源节点和所述第一目标节点之外的一个或多个额外节点的第一路径的一部分,所述第一源节点和所述第二目标节点是所述图中包括除所述源节点和所述第二目标节点之外的一个或多个额外节点的第二路径的一部分,当所述第一路径代表比所述第二路径更长的所述较大的连续核酸序列的连续部分时,测定(E)相对于所述第二路径向上加权所述第一路径。11.根据权利要求7-10中任一项所述的测序方法,其中所述第一节点中的第一k聚体存在于所述多个序列读段的子多个中,并且在所述子多个序列读段中的每个序列读段的身份对于所述第一k聚体得到保留,并通过所述测定(E)以测定所述第一路径是否比所述第二路径更可能代表所述较大的连续核酸序列。12.权利要求7-11中任一项所述的测序方法,其中所述多个分区中的分区包含具有所述共同的第二部分的至少1000个分子,并且所述至少1000个分子中的每个分子还包含与所述较大的连续核酸的至少一部分互补的引物序列。13.根据权利要求7-11中任一项所述的测序方法,其中所述多个分区中的分区包括具有所述共同的第二部分的至少1000个分子,并且所述至少1000个分子中的每个分子还包含引物位点和与所述较大的连续核酸的一部分互补的半随机N聚体引发序列。14.根据权利要求7-13中任一项所述的测序方法,其中所述多个分区中的分区中的所述较大的连续核酸的所述一个或多个片段的长度大于50千碱基。15.根据权利要求7-13中任一项所述的测序方法,其中所述多个分区中的分区中的所述较大的连续核酸的所述一个或多个片段的长度在20千碱基和200千碱基之间。16.根据权利要求7-15中任一项所述的测序方法,其中所述多个分区中的分区中的所述较大的连续核酸的所述一个或多个片段由所述较大的连续核酸的在1个和500个之间的不同片段组成。17.根据权利要求7-15中任一项所述的测序方法,其中所述多个分区中的分区中的所述较大的连续核酸的所述一个或多个片段由所述较大的连续核酸的在5个和100个之间的片段组成。18.根据权利要求7-17中任一项所述的测序方法,其中从小于5纳克的核酸或核糖核酸获得所述多个序列读段。19.根据权利要求7-18中任一项所述的测序方法,其中在所述序列读段集合中的每个相应序列读段的所述第二部分中的所述标识符编码选自以下的共同值:集合{1,…,1024}、集合{1,…,4096}、集合{1,…,16384}、集合{1,…,65536}、集合{1,…,262144}、集合{1,…,1048576}、集合{1,…,4194304}、集合{1,…,16777216}、集合{1,…,67108864}、或集合{1,…,1x1012}。20.根据权利要求7-18中任一项所述的测序方法,其中所述标识符是N聚体,并且N是选自集合{4,…,20}的整数。21.根据权利要求7-20中任一项所述的测序方法,其中所述多个序列读段的平均序列读段长度在40个碱基和200个碱基之间。22.根据权利要求7-20中任一项所述的测序方法,其中所述多个序列读段的平均序列读段长度在60个碱基和140个碱基之间。23.根据权利要求7-22中任一项所述的测序方法,其中所述多个序列读段共同为所述较大的连续核酸提供至少15X覆盖,所述多个k聚体中超过10%的所述k聚体来自所述多个序列读段中的超过一个序列读段,并且保留对于由超过一个序列读段代表的每个k聚体的每个序列读段的所述标识符。24.根据权利要求7-22中任一项所述的测序方法,其中所述多个序列读段共同为所述较大的连续核酸提供至少25X覆盖,所述多个k聚体的超过30%来自在所述多个序列读段中的超过一个序列读段,并且保留对于由超过一个源序列代表的每个k聚体的每个序列读段的所述标识符。25.根据权利要求7-24中任一项所述的测序方法,其中所述多个序列读段中的所述序列读段编码在75个...

【专利技术属性】
技术研发人员:M·史诺莱文I·麦克卡伦
申请(专利权)人:一零X基因组学有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1