核酸序列装配的方法和系统技术方案

技术编号：22058778 阅读：97 留言：0更新日期：2019-09-07 16:37

本分案申请提供了用于分析遗传序列数据的方法、过程、且特别是计算机执行的过程和计算机程序产品。所述过程和产品用于将较短的核酸序列数据装配成较长连接的并且优选连续的遗传构建体，包括大的重叠群、染色体和整个基因组。

Method and System of Nucleic Acid Sequence Assembly

全部详细技术资料下载

【技术实现步骤摘要】
核酸序列装配的方法和系统本申请为申请号为201580042592.6，申请日为2015年6月26日，专利技术名称为“核酸序列装配的方法和系统”的分案申请。相关申请的交叉引用本申请要求2014年6月26日提交的名称为“ProcessesandSystemsforNucleicAcidsSequenceAssembly”的美国专利申请号62/017,589的优先权，其通过引用的方式并入本文。
技术介绍
与高通量下一代测序技术相关的重要挑战之一在于将相对短的序列读段装配成较长的连续序列。基因组序列装配过程通常类推为具有切割成小段的小说，然后必须将其重新装配成完整的小说。在序列装配中，这通常通过将要装配的整个序列的重叠子区段拼接在一起来实现。如将理解的，当各段为较大且不太模糊时，该装配过程变得较容易。例如，根据完整的段落，页或章节比从单个句子，句子片段或随机词或词的部分装配小说更容易。同样，使用核酸测序，单独的序列读段越短，将多个读段装配成较长的连续序列变得越困难。虽然下一代测序技术能够产生大量的序列数据，例如在单次运行中产生1兆兆碱基(terabase)序列数据，但是它们困扰于仅产生短的序列读段长度的困难。具体地，这些测序技术通常获得100个连续碱基或更少(或当作为配对末端测序来测序时，高达约200个碱基)的读段中的序列数据。这些读段然后必须装配成更长的连续序列。尽管某些测序技术提供长度为800、1000、5000或甚至20,000个碱基的更长序列读段，但这通常以系统通量为代价而来到，每次运行仅产生数百兆碱基序列数据。已经采用了许多过程和算法将相对短的序列读段装配成更...

【技术保护点】
1.一种装配核酸序列读段的测序方法，所述测序方法包括：在计算机系统上，所述计算机系统具有一个或多个处理器，以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器：获得源自较大的连续核酸的多个序列读段，其中源自所述较大的连续核酸的共同片段的两个或更多个序列读段包括共同条形码序列，鉴定所述多个序列读段中包含重叠序列和共同条形码序列两者的序列读段的第一子集；并且比对序列读段的所述第一子集以提供连续的线性核酸序列。

【技术特征摘要】
2014.06.26 US 62/017,5891.一种装配核酸序列读段的测序方法，所述测序方法包括：在计算机系统上，所述计算机系统具有一个或多个处理器，以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器：获得源自较大的连续核酸的多个序列读段，其中源自所述较大的连续核酸的共同片段的两个或更多个序列读段包括共同条形码序列，鉴定所述多个序列读段中包含重叠序列和共同条形码序列两者的序列读段的第一子集；并且比对序列读段的所述第一子集以提供连续的线性核酸序列。2.根据权利要求1所述的方法，所述方法还包括用序列读段的多个不同子集重复所述鉴定和比对步骤，以提供多个连续的线性核酸序列。3.根据权利要求2所述的方法，所述方法还包括在所述较大的连续核酸内的序列背景中将所述多个不同的连续线性核酸序列排序。4.根据权利要求3所述的方法，其中所述排序包括相对于参考序列定位所述多个不同的连续线性核酸序列。5.根据权利要求3所述的方法，其中所述排序包括：鉴定一个或多个序列读段，所述序列读段包含与第一连续线性核酸序列共同的条形码序列，但是包括与第二连续线性核酸序列的重叠序列；并且将所述第一和第二连续线性核酸鉴定为结构连接的。6.一种将核酸序列读段装配成较大的连续序列的方法，所述方法包括：在计算机系统上，所述计算机系统具有一个或多个处理器，以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器：获得源自较大的连续核酸的多个序列读段，从所述多个序列读段中的重叠序列读段集合中鉴定第一子序列；基于在相邻序列上与所述第一子序列共同的条形码序列的存在，将所述第一子序列延伸至一个或多个相邻或重叠序列；并且提供包含所述第一子序列和所述一个或多个相邻序列的线性核酸序列。7.一种测序方法，所述测序方法包括在计算机系统上，所述计算机系统具有一个或多个处理器，以及存储用于由所述一个或多个处理器执行的一个或多个程序的存储器：(A)获得多个序列读段，其中所述多个序列读段包括序列读段的多个集合，在序列读段集合中的每个相应的序列读段包含(i)对应于较大的连续核酸的子集的第一部分和(ii)形成标识符的共同第二部分，所述标识符不依赖于所述较大的连续核酸的序列，并且鉴定多个分区中形成所述相应的序列读段的分区，并且在所述多个分区中的分区中形成所述序列读段的多个集合中的序列读段的每个相应集合，并且每个分区包含所述较大的连续核酸的一个或多个片段，所述较大的连续核酸用作所述分区中的每个相应序列读段的模板；(B)为在所述多个序列读段中的每个序列读段创建相应的k聚体集合，其中所述k聚体集合共同包含多个k聚体，保留所述多个k聚体中的每个k聚体的所述序列读段的所述标识符，k小于所述多个序列读段中的所述序列读段的平均长度，并且每个相应的k聚体集合包括所述对应序列读段的第一部分的长度k的可能k聚体的至少80％；(C)对于所述多个k聚体中的每个相应的k聚体，追踪含有所述相应k聚体的所述多个序列读段中的每个序列读段的身份和含有所述序列读段的所述序列读段集合的所述标识符；(D)将所述多个k聚体绘制为包括通过多个有向弧连接的多个节点的图，其中，每个节点包含长度k的多个k聚体中具有k-1重叠的k聚体的不间断集合，每个弧在所述多个节点中将源节点连接到目标节点，源节点的最终k聚体与目标节点的初始k聚体具有k-1重叠，并且第一源节点具有在所述多个节点中的第一目标节点和第二目标节点二者的第一有向弧；并且(E)测定是否将所述源节点与所述第一目标节点或所述第二目标节点合并，以便得到更可能代表所述较大的连续核酸的一部分的重叠群序列，其中所述重叠群序列包含(i)所述源节点和(ii)所述第一目标节点和所述第二目标节点中的一个，其中所述测定至少使用所述第一源节点、所述第一目标节点和所述第二目标节点中的k聚体的序列读段的标识符。8.根据权利要求7所述的测序方法，其中，所述第一源节点和所述第一目标节点是所述图中包括除所述源节点和所述第一目标节点之外的一个或多个额外节点的第一路径的一部分，所述第一源节点和所述第二目标节点是所述图中包括除所述源节点和所述第二目标节点之外的一个或多个额外节点的第二路径的一部分，所述测定(E)包括通过相对于所述第二途径的第一部分的节点的k聚体和所述第二路径的第二部分的节点的k聚体之间共享的标识符的数目评估所述第一路径的第一部分的节点的k聚体和所述第一路径的第二部分的节点的k聚体之间共享的标识符的数目测定所述第一路径是否比所述第二路径更可能代表所述较大的连续核酸。9.根据权利要求7所述的测序方法，其中所述第一源节点和所述第一目标节点是所述图中包括除所述源节点和所述第一目标节点之外的一个或多个额外节点的第一路径的一部分，所述第一源节点和所述第二目标节点是所述图中包括除所述源节点和所述第二目标节点之外的一个或多个额外节点的第二路径的一部分，当所述第一路径具有比所述第二路径更高的平均覆盖时，所述测定(E)相对于所述第二路径向上加权所述第一路径。10.根据权利要求7所述的测序方法，其中所述第一源节点和所述第一目标节点是所述图中包括除所述源节点和所述第一目标节点之外的一个或多个额外节点的第一路径的一部分，所述第一源节点和所述第二目标节点是所述图中包括除所述源节点和所述第二目标节点之外的一个或多个额外节点的第二路径的一部分，当所述第一路径代表比所述第二路径更长的所述较大的连续核酸序列的连续部分时，测定(E)相对于所述第二路径向上加权所述第一路径。11.根据权利要求7-10中任一项所述的测序方法，其中所述第一节点中的第一k聚体存在于所述多个序列读段的子多个中，并且在所述子多个序列读段中的每个序列读段的身份对于所述第一k聚体得到保留，并通过所述测定(E)以测定所述第一路径是否比所述第二路径更可能代表所述较大的连续核酸序列。12.权利要求7-11中任一项所述的测序方法，其中所述多个分区中的分区包含具有所述共同的第二部分的至少1000个分子，并且所述至少1000个分子中的每个分子还包含与所述较大的连续核酸的至少一部分互补的引物序列。13.根据权利要求7-11中任一项所述的测序方法，其中所述多个分区中的分区包括具有所述共同的第二部分的至少1000个分子，并且所述至少1000个分子中的每个分子还包含引物位点和与所述较大的连续核酸的一部分互补的半随机N聚体引发序列。14.根据权利要求7-13中任一项所述的测序方法，其中所述多个分区中的分区中的所述较大的连续核酸的所述一个或多个片段的长度大于50千碱基。15.根据权利要求7-13中任一项所述的测序方法，其中所述多个分区中的分区中的所述较大的连续核酸的所述一个或多个片段的长度在20千碱基和200千碱基之间。16.根据权利要求7-15中任一项所述的测序方法，其中所述多个分区中的分区中的所述较大的连续核酸的所述一个或多个片段由所述较大的连续核酸的在1个和500个之间的不同片段组成。17.根据权利要求7-15中任一项所述的测序方法，其中所述多个分区中的分区中的所述较大的连续核酸的所述一个或多个片段由所述较大的连续核酸的在5个和100个之间的片段组成。18.根据权利要求7-17中任一项所述的测序方法，其中从小于5纳克的核酸或核糖核酸获得所述多个序列读段。19.根据权利要求7-18中任一项所述的测序方法，其中在所述序列读段集合中的每个相应序列读段的所述第二部分中的所述标识符编码选自以下的共同值：集合{1,…,1024}、集合{1,…,4096}、集合{1,…,16384}、集合{1,…,65536}、集合{1,…,262144}、集合{1,…,1048576}、集合{1,…,4194304}、集合{1,…,16777216}、集合{1,…,67108864}、或集合{1,…,1x1012}。20.根据权利要求7-18中任一项所述的测序方法，其中所述标识符是N聚体，并且N是选自集合{4,…,20}的整数。21.根据权利要求7-20中任一项所述的测序方法，其中所述多个序列读段的平均序列读段长度在40个碱基和200个碱基之间。22.根据权利要求7-20中任一项所述的测序方法，其中所述多个序列读段的平均序列读段长度在60个碱基和140个碱基之间。23.根据权利要求7-22中任一项所述的测序方法，其中所述多个序列读段共同为所述较大的连续核酸提供至少15X覆盖，所述多个k聚体中超过10％的所述k聚体来自所述多个序列读段中的超过一个序列读段，并且保留对于由超过一个序列读段代表的每个k聚体的每个序列读段的所述标识符。24.根据权利要求7-22中任一项所述的测序方法，其中所述多个序列读段共同为所述较大的连续核酸提供至少25X覆盖，所述多个k聚体的超过30％来自在所述多个序列读段中的超过一个序列读段，并且保留对于由超过一个源序列代表的每个k聚体的每个序列读段的所述标识符。25.根据权利要求7-24中任一项所述的测序方法，其中所述多个序列读段中的所述序列读段编码在75个...

【专利技术属性】
技术研发人员：M·史诺莱文，I·麦克卡伦，
申请(专利权)人：一零X基因组学有限公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人