用于全基因组序列数据的从头组装的系统、方法和介质技术方案

技术编号:19394699 阅读:54 留言:0更新日期:2018-11-10 04:15
描述了用于从个体的核酸样品生成的核酸序列数据的从头定相二倍体组装的计算机实现的方法、系统和介质,所述核酸序列数据利用核酸标签来保留所述个体的长程序列上下文,以使得从共同起始序列导出的短读取序列数据的子集共享共同标签。所述定相的二倍体组装在不与源自除所述个体以外的生物体的参考序列比对的情况下实现。所描述的方法、系统和介质是计算机资源有效的,从而允许按比例放大。

【技术实现步骤摘要】
【国外来华专利技术】用于全基因组序列数据的从头组装的系统、方法和介质交叉引用本申请要求2016年2月11日提交的美国申请序列号62/294,184和2016年5月6日提交的美国申请序列号62/332,914的权益,所述申请两者均特此以引用的方式整体并入。
技术介绍
基因组测序在医学、法医学和生物
具有广阔的前景。已经基于不同的测序化学开发了多种DNA测序方法,并且进行基因组测序的机器已经变得更加稳健且有效。在技术上,可获取原始基因组数据的速度超过了将这种原始数据组装成基因组—特别是二倍体或多倍体基因组的能力。当前的序列组装方法是复杂的,需要大量处理器能力,并占用大量内存。
技术实现思路
确定个体活生物体或组织的基因组序列对生物学和医学具有基本重要性。几十年的研究已经产生了大量针对这一问题的实验室方法和计算方法。这些方法在它们的总体实验负担(包括输入DNA量、成本、复杂性和时间线)上差别很大,其还更大的负担倾向于产生更高质量的基因组序列。在低端,一些方法对DNA的短片段进行测序,然后将所得读取段(reads)与来自同一物种的单倍体参考序列进行比对,以鉴定与所述参考序列的差异,从而部分推断样品的序列。所述方法已被各自用于产生并分析超过一千份人样品,从而跨群体产生极其深入的信息。然而,这些方法可能因参考比较而具有内在偏差,并且通常不能鉴定对给定样品来说新颖或代表大规模变化的序列,也不能区分亲本等位基因上的变化。相比之下,数据(通常来自长DNA片段)可在称为从头组装、而不利用参考序列并且对于大型且复杂的基因组来说特别困难的方法中合成。核心挑战是高度相似序列的正确表示。一个特别强大的实例出现在真核生物中,其中有性生殖有助于母本和父本染色体“拷贝”。虽然这些拷贝对于长链段将是非常相似的,但一些区域可具有巨大差异,从而不仅导致小规模差异,而且常常导致基因拷贝数差异。由于同源染色体编码单独的基因拷贝,因此需要了解其单独序列以理解表型。然而即使对于高端从头实验室制剂来说,所述领域的标准是在计算上编织同源染色体,从而为每个基因座产生通常在自然界中不存在的单个单倍体共有序列。更好的是,将产生单倍体组装体以及两种起源染色体之间的差异的分阶段目录。通过以非常低的实验负担创建真实二倍体,从头组装体,本文提供的公开内容缩小了低端方法与高端方法之间的差距。所公开的技术还基于使用自动微流体系统的基因组分区。所述技术能够从一个文库生成组装体项目的全部数据。此外,所公开的方法从约1纳克的高分子量DNA开始,其比替代方法小约一百万倍。有利地,数据的成本在基于读取比对的低端方法的范围内,并且组装不需要专门知识,因为所述方法是自动的。本公开提供了使用短DNA序列读取段将全基因组测序读取段从头组装成完整基因组的平台、系统、媒介和方法。所述方法与任何短读取测序技术兼容。本文描述的方法有利地用于将重叠群“定相”成更大的序列区块并解析基因组结构变异,如大的插入缺失、重复和易位。与其他短读取组装技术和长读取技术如单分子实时(SMRT)测序相比,本公开的方法具有许多优点。所述优点中的一些包括:输入DNA减少、对序列覆盖率的要求减少、组装时间减少、处理要求减少、由于能够在商品化的计算机资源上运行而具有商业可扩展性以及效率和成本效益的总体提高。例如,与利用SMRT技术的太平洋生物科学公司(PacificBiosciences)(PacBio)的FALCON汇编器相比,本公开的方法允许处理能力降低近180倍并且存储器利用率降低21倍。另外,长读取测序技术受到技术的平均读取长度如10-20kb的限制。本文描述的技术已经显示产生在85-105kb范围内的完全定相的重叠群和长度至少5Mb的完全定相的序列区块。在一方面,本文公开了一种用于从生物体的核酸样品生成的核酸序列数据的从头基因组组装的计算机实现的方法,所述方法包括:由一台或多台计算机生成基于短读取序列数据的初始组装体,所述初始组装体包括一个或多个未解析的序列模糊性区域,其中所述短读取序列数据是从来自核酸序列数据的较长起始序列导出并被标记以保留所述生物体的长程序列上下文,以使得从共同起始序列导出的所述短读取序列数据的子集共享共同标签;通过利用所述标签来解析多个序列模糊性区域,由所述一台或多台计算机生成基于所述初始组装体的多个局部组装体;由所述一台或多台计算机生成基于所述多个局部组装体的全局组装体;通过移除与由所述标签指示的长程序列上下文不一致的序列数据,由所述一台或多台计算机清除所述全局组装体;并且通过利用所述标签来分离定相的核苷酸序列,由所述一台或多台计算机生成基于所述全局组装体的定相基因组组装体;其中,在不与参考序列或任何独立生成的基因组序列比对的情况下实现所述定相的基因组组装体。在某些实例中,所述基因组是二倍体。在某些实例中,所述短读取序列数据从单个测序文库生成。在某些实例中,所述短读取序列数据产生所述生物体的基因组的50x或更低覆盖率。在某些实例中,对所述短读取序列数据进行标记以保留在比所述读取段长2x–1000x的起始序列内的上下文。在某些实例中,对所述短读取序列数据进行标记以保留在10kb–5Mb的起始序列内的上下文。所述初始组装体可以是初始组装图。在某些实施方案中,通过以下方式来生成初始组装图:鉴定在所述生物体的基因组中存在的概率高的多个k-聚体;使用所述标签来基于每个k-聚体出现的起始序列的数量来过滤所述多个k-聚体;并且将所述多个k-聚体中共享共同l-聚体的k-聚体汇集在一起以形成初始组装体,其中l<k。所述方法还可包括通过以下方式由所述一台或多台计算机修订初始组装图:基于序列模糊性区域内可供用于每种选项的多个读取段,消除一个或多个序列模糊性区域;并且通过咨询原始短读取序列数据来填充所述初始组装图中的空位。K可以是介于24与96之间。可通过以下方式来生成多个局部组装体:使用所述初始组装图作为临时参考;鉴定明确序列的边缘;鉴定共享在阈值数量的标签以上的多个标签的相邻边缘;并且将明确序列的边缘与所鉴定的相邻边缘汇集在一起。可通过以下方式来产生全局组装体:鉴定所述多个局部组装体中在所述生物体的基因组中存在的概率高的多个z-聚体,其中z>k;并且将所述多个局部组装体中的z-聚体汇集在一起。Z可以是介于100与300之间。可从少于10ng的DNA输入材料生成短读取序列数据。可从少于2ng的DNA输入材料生成短读取序列数据。在一些实施方案中,所述组装可在不到60分钟内完成。在这些实施方案中,所述一台或多台计算机可包括小于512GB的存储;在某些实施方案中,所述一台或多台计算机可包括小于60GB的存储。在某些实例中,所述组装在不到20分钟内完成。在这些实例中,所述一台或多台计算机包括小于512GB的存储。在某些实例中,所述一台或多台计算机包括小于60GB的存储。在某些实例中,所述生物体是人类。在某些实例中,所述DNA序列数据是全基因组序列数据,并且所述定相的基因组组装体是全基因组组装体。在某些实例中,所述一台或多台计算机占用一立方英尺或更小的物理空间。在另一方面,本文公开了一种计算机实现的系统,所述系统包括:数字处理装置,所述数字处理装置包括:至少一个处理器;操作系统,所述操作系统被配置用于执本文档来自技高网...

【技术保护点】
1.一种用于从生物体的核酸样品生成的核酸序列数据的从头基因组组装的计算机实现的方法,所述方法包括:a)由一台或多台计算机生成基于短读取序列数据的初始组装体,所述初始组装体包括一个或多个未解析的序列模糊性区域,其中所述短读取序列数据是从来自所述核酸序列数据的较长起始序列导出并被标记以保留所述生物体的长程序列上下文,以使得从共同起始序列导出的所述短读取序列数据的子集共享共同标签;b)通过利用所述标签来解析多个序列模糊性区域,由所述一台或多台计算机生成基于所述初始组装体的多个局部组装体;c)由所述一台或多台计算机生成基于所述多个局部组装体的全局组装体;d)通过移除与由所述标签指示的所述长程序列上下文不一致的序列数据,由所述一台或多台计算机清除所述全局组装体;以及e)通过利用所述标签来分离定相的核苷酸序列,由所述一台或多台计算机生成基于所述全局组装体的定相的基因组组装体;其中在不与参考序列或任何独立生成的基因组序列比对的情况下实现所述定相的基因组组装体。

【技术特征摘要】
【国外来华专利技术】2016.02.11 US 62/294,184;2016.05.06 US 62/332,9141.一种用于从生物体的核酸样品生成的核酸序列数据的从头基因组组装的计算机实现的方法,所述方法包括:a)由一台或多台计算机生成基于短读取序列数据的初始组装体,所述初始组装体包括一个或多个未解析的序列模糊性区域,其中所述短读取序列数据是从来自所述核酸序列数据的较长起始序列导出并被标记以保留所述生物体的长程序列上下文,以使得从共同起始序列导出的所述短读取序列数据的子集共享共同标签;b)通过利用所述标签来解析多个序列模糊性区域,由所述一台或多台计算机生成基于所述初始组装体的多个局部组装体;c)由所述一台或多台计算机生成基于所述多个局部组装体的全局组装体;d)通过移除与由所述标签指示的所述长程序列上下文不一致的序列数据,由所述一台或多台计算机清除所述全局组装体;以及e)通过利用所述标签来分离定相的核苷酸序列,由所述一台或多台计算机生成基于所述全局组装体的定相的基因组组装体;其中在不与参考序列或任何独立生成的基因组序列比对的情况下实现所述定相的基因组组装体。2.如权利要求1所述的方法,其中所述基因组是二倍体。3.如权利要求1所述的方法,其中从单个文库生成所述短读取序列数据。4.如权利要求1所述的方法,其中所述短读取序列数据产生所述生物体的所述基因组的50x或更低覆盖率。5.如权利要求1所述的方法,其中对所述短读取序列数据进行标记以保留在比所述读取段长2x–1000x的起始序列内的上下文。6.如权利要求1所述的方法,其中对所述短读取序列数据进行标记以保留在10kb–5Mb的起始序列内的上下文。7.如权利要求1所述的方法,其中所述初始组装体是初始组装图。8.如权利要求7所述的方法,其中通过以下方式来生成所述初始组装图:a)鉴定在所述生物体的所述基因组中存在的概率高的多个k-聚体;b)使用所述标签来基于每个k-聚体出现于其中的起始序列的数量来过滤所述多个k-聚体;以及c)将所述多个k-聚体中共享共同l-聚体的k-聚体汇集在一起以形成初始组装体,其中l<k。9.如权利要求8所述的方法,其还包括:在生成所述初始组装体之前,由所述一台或多台计算机应用初步滤波器,其中所述初步滤波器包括:a)利用来自用于生成所述短读取序列数据的序列分析仪的碱基质量得分,以及b)利用出现超过一次的k-聚体和所述标签,以使得必须观察到每个k-聚体由两个不同的标签产生。10.如权利要求9所述的方法,其还包括由所述一台或多台计算机向所述质量得分和通过所述图的路径的每个记录应用无损随机存取压缩。11.如权利要求8所述的方法,其中方法还包括通过以下方式由所述一台或多台计算机修订所述初始组装图:a)基于序列模糊性区域内可供用于每种选项的多个读取段,消除一个或多个序列模糊性区域;以及b)通过咨询所述原始短读取序列数据来填充所述初始组装图中的空位。12.如权利要求8所述的方法,其中k是介于24与96之间。13.如权利要求8所述的方法,其中通过以下方式来生成所述多个局部组装体:a)使用所述初始组装图作为临时参考;b)鉴定明确序列的边缘;c)鉴定共享在阈值数量的标签以上的多个标签的相邻边缘;以及d)将明确序列的边缘与所述鉴定的相邻边缘汇集在一起。14.如权利要求13所述的方法,其中通过以下方式来生成所述全局组装体:a)鉴定所述多个局部组装体中在所述生物体的所述基因组中存在的概率高的多个z-聚体,其中z>k;以及b)将所述多个局部组装体中的所述z-聚体汇集在一起。15.如权利要求14所述的方法,其中z是介于100与300之间。16.如权利要求1所述的方法,其中从少于10ng的DNA输入材料生成所述短读取序列数据。17.如权利要求16所述的方法,其中从少于2ng的DNA输入材料生成所述短读取序列数据。18.如权利要求1所述的方法,其中所述组装在不到60分钟内完成。19.如权利要求18所述的方法,其中所述一台或多台计算机包括小于512GB的存储。20.如权利要求19所述的方法,其中所述一台或多台计算机包括小于60GB的存储。21.如权利要求1所述的方法,其中所述组装在不到20分钟内完成。22.如权利要求21所述的方法,其中所述一台或多台计算机包括小于512GB的存储。23.如权利要求22所述的方法,其中所述一台或多台计算机包括小于60GB的存储。24.如权利要求1所述的方法,其中所述生物体是人类。25.如权利要求1所述的方法,其中所述DNA序列数据是全基因组序列数据,并且所述定相的基因组组装体是全基因组组装体。26.如权利要求1所述的方法,其中所述一台或多台计算机占用一立方英尺或更小的物理空间。27.一种计算机实现的系统,所述系统包括:数字处理装置,所述数字处理装置包括:至少一个处理器;操作系统,所述操作系统被配置用于执行可执行指令;存储器;以及计算机程序,所述计算机程序包括可由所述数字处理装置执行以创建从生物体的核酸样品生成的核酸序列数据的从头基因组组装应用程序的指令,所述应用程序包括:a)第一软件模块,所述第一软件模块生成基于短读取序列数据的初始组装体,所述初始组装体包括一个或多个未解析的序列模糊性区域,其中所述短读取序列数据是从来自所述核酸序列数据的较长起始序列导出并被标记以保留所述生物体的长程序列上下文,以使得从共同起始序列导出的所述短读取序列数据的子集共享共同标签;b)第二软件模块,所述第二软件模块通过利用所述标签来解析多个序列模糊性区域而生成基于所述初始组装体的多个局部组装体;c)第三软件模块,所述第三软件模块生成基于所述多个局部组装体的全局组装体;d)第四软件模块,所述第四软件模块通过移除与由所述标签指示的长程序列上下文不一致的序列数据而清除所述全局组装体;以及e)第五软件模块,所述第五软件模块通过利用所述标签来分离同源定相的核苷酸序列而生成基于所述全局组装体的定相的基因组组装体;其中在不与参考序列或任何独立生成的基因组序列比对的情况下实现所述定相的基因组组装体。28.如权利要求27所述的系统,其中所述基因组是二倍体。29.如权利要求27所述的系统,其中从单个文库生成所述短读取序列数据。30.如权利要求27所述的系统,其中所述短读取序列数据产生所述生物体的所述基因组的50x或更低覆盖率。31.如权利要求27所述的系统,其中对所述短读取序列数据进行标记以保留在比所述读取段长2x–1000x的起始序列内的上下文。32.如权利要求27所述的系统,其中对所述短读取序列数据进行标记以保留在10kb–5Mb的起始序列内的上下文。33.如权利要求27所述的系统,其中所述初始组装体是初始组装图。34.如权利要求33所述的系统,其中所述生成初始组装图的软件模块通过以下方式来生成所述初始组装图:a)鉴定在所述生物体的所述基因组中存在的概率高的多个k-聚体;b)使用所述标签来基于每个k-聚体出现于其中的起始序列的数量来过滤所述多个k-聚体;以及c)将所述多个k-聚体中共享共同l-聚体的k-聚体汇集在一起以形成初始组装体,其中l<k。35.如权利要求33所述的方法,其中所述应用程序还包括在生成所述初始组装体之前,应用初步滤波器的软件模块,其中所述初...

【专利技术属性】
技术研发人员:大卫·杰夫帕特里克·马科斯迈克尔·史诺莱文尼尔·威森菲尔德
申请(专利权)人:一零X基因组学有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1