用于基因组组装及单体型定相的方法技术

技术编号:19115594 阅读:28 留言:0更新日期:2018-10-10 02:13
本发明专利技术提供了用于大大加快并改善从头基因组组装的方法。本文所公开的方法利用数据分析方法,使来自一个或多个受试者的基因组的从头组装快速且便宜。本发明专利技术进一步提供,本文所公开的方法可用于多种应用,包括单体型定相和宏基因组分析。

Methods for genome assembly and haplotyping

The invention provides a method for greatly accelerating and improving the de novo genome assembly. The method disclosed herein utilizes data analysis methods to make de novo assembly of genomes from one or more subjects fast and inexpensive. The invention further provides that the method disclosed herein can be used for a variety of applications, including haplotype phase determination and macrogenomic analysis.

【技术实现步骤摘要】
用于基因组组装及单体型定相的方法本申请是申请日为2014年1月31日的PCT国际专利申请PCT/US2014/014184进入中国国家阶段的中国专利申请号201480020008.2、专利技术名称为“用于基因组组装及单体型定相的方法”的分案申请。相关申请的交叉引用本申请要求2013年2月1日提交的临时申请号61/759,941和2013年10月17日提交的临时申请号61/892,355的权益,所述临时申请的公开内容以引用方式并入本文中。
本专利技术提供了基因组组装和单体型定相的方法,用于鉴别基因组内的短的、中等的和长的连接。
技术介绍
理论上和实践上仍然难以产生高质量的、高度连续的基因组序列。
技术实现思路
下一代测序(NGS)数据的一个长久性缺陷在于不能跨越大的基因组重复区域,这是由于读段短和插入大小相对较小。该缺陷显著地影响了从头(denovo)组装。由于基因组重排的性质和排布是不确定的,因此被长重复区域隔开的重叠群(contig)不能被连接或重测序。此外,由于变异体不能够在长距离内确信地与单倍型相关联,难以确定定相信息。通过生成具有适宜的输入DNA的、跨越数十万碱基以及多达百万碱基级别的基因组距离的极长程读对(extremelylong-rangereadpair,XLRP),本专利技术能够同时解决所有这些问题。这些数据对于克服基因组中的大重复区域(包括着丝粒)所产生的问题,是非常宝贵的;能够节约从头组装的成本;并为个体化用药产生具有足够完整度、准确度的重测序数据。在相距非常远、但分子上相连的DNA片段之间形成关联的过程中使用重构染色质,是非常重要的。本专利技术使远离的片段能够被放到一起并通过染色质构象共价相接,从而物理地连接DNA分子先前远离的部分。后续处理能够使关联片段的序列被确定,产生读对(readpair),其在基因组上的间隔延伸至输入DNA分子的全长。由于读对来源于同一分子,因此这些读对还含有相位信息。在一些实施方案中,本专利技术提供了能够用比先前所需更少的数据产生高质量组装的方法。例如,本文所公开的方法提供了基因组组装,其仅仅来自两条泳道(lane)的IlluminaHiSeq数据。在其它实施方案中,本专利技术提供了能够使用长距离读对方式产生染色体水平定相的方法。例如,本文所公开的方法能够以至少99%或更高的准确度,定相90%或更多用于该个体的杂合单核苷酸多态性(SNPs)。该准确度与实质上更昂贵、更费力的方法所产生的定相相当。在一些实施例中,能够产生达到百万碱基规模的基因组DNA片段的方法可与本文所公开的方法联用。可产生长的DNA片段,以确认本方法生成跨越由那些提取所能供给的最长片段的读对的能力。在一些情况下,可提取长度超过150kbp的DNA片段,并用其生成XLRP文库。本专利技术提供了用于大大加快并改善从头基因组组装的方法。本文所公开的方法利用数据分析方法,所述方法允许来自一个或多个受试者的基因组的快速、便宜的从头组装。本专利技术进一步提供,本文所公开的方法可用于多种应用,包括单体型定相和宏基因组分析。在某些实施方案中,本专利技术提供了用于基因组组装的方法,其包括以下步骤:生成多个重叠群;从通过探测染色体、染色质或重构染色质的物理布局产生的数据来生成多个读对;将所述多个读对定位或组装至所述多个重叠群;使用读段定位或组装数据来构建重叠群的邻接矩阵;和分析所述邻接矩阵,以确定经过重叠群的路径,该路径表示重叠群的次序和/或对基因组的定向。在进一步的实施方案中,本专利技术提供,通过采用每个读段到重叠群边缘的距离的函数,加权至少大约90%的读对,以包含关于哪些读对表示短程接触以及哪些读对表示长程接触的信息。在其它实施方案中,重新调整邻接矩阵,以减少表示基因组混杂区域的一些重叠群上的大量接触的权重,例如针对调节染色质的骨架相互作用的一种或多种介质的保守结合位点,比如转录抑制子CTCF。在其它实施方案中,本专利技术提供了用于人类受试者的基因组组装的方法,其中从人类受试者的DNA生成多个重叠群,并且其中通过分析人类受试者的染色体、染色质或由人类受试者的裸DNA制得的重构染色质,生成多个读对。在进一步的实施方案中,本专利技术提供,通过使用鸟枪(shotgun)测序法生成多个重叠群,该方法包括:使长段的受试者DNA断裂成大小不确定的随机片段;用高通量测序法对片段进行测序,以生成多个测序读段;和组装测序读段以形成多个重叠群。在某些实施方案中,本专利技术提供,通过使用基于Hi-C的技术,探测染色体、染色质或重构染色质的物理布局,生成多个读对。在进一步的实施方案中,该基于Hi-C的技术包括:使染色体、染色质或重构染色质与固定剂交联,该固定剂例如甲醛,以形成DNA-蛋白质交联;用一种或多种限制性内切酶切割交联的DNA-蛋白质,以生成含有粘性末端的多个DNA-蛋白质复合物;用含有一种或多种标记物(marker)的核苷酸补平所述粘性末端,该标记例如生物素,以产生平末端,然后将所述平末端连接在一起;使多个DNA-蛋白质复合物断裂成片段;通过使用所述一种或多种标记物,拉下含有接点的片段;和用高通量测序法对含有接点的片段进行测序,以生成多个读对。在进一步的实施方案中,从通过探测重构染色质的物理布局产生的数据来生成用于本文所公开的方法的多个读对。在不同的实施方案中,本专利技术提供,通过探测分离自培养细胞或初生组织的染色体或染色质的物理布局,确定多个读对。在其它实施方案中,通过探测该重构染色质的物理布局,可确定多个读对,所述重构染色质是通过将从一个或多个受试者样本得到的裸DNA与分离的组蛋白复合形成的。在其它实施方案中,本专利技术提供了一种确定单体型定相的方法,其包括以下步骤:鉴别多个读对中的一个或多个杂合位点,其中可通过鉴别含有双杂合位点的读对,确定用于等位基因变异体的定相数据。在不同的实施方案中,本专利技术提供了一种用于高通量细菌基因组组装的方法,其包括以下步骤:通过使用改良的基于Hi-C的方法探测多个微生物染色体的物理布局,来生成多个读对;该改良的基于Hi-C的方法包括以下步骤:收集来自环境的微生物;加入固定剂,例如甲醛,以在每个微生物细胞中形成交联,其中读对定位至不同的重叠群表明哪些重叠群来自相同的物种。在一些实施方案中,本专利技术提供了一种用于基因组组装的方法,其包括:(a)生成多个重叠群;(b)从通过探测染色体、染色质或重构染色质的物理布局生成的数据来确定多个读对;(c)将所述多个读对定位至所述多个重叠群;(d)使用读定位数据构建重叠群的邻接矩阵;和(e)分析所述邻接矩阵,以确定经过所述重叠群的路径,该路径表示重叠群的次序和/或对基因组的定向。在进一步的实施方案中,本专利技术提供一种通过使用基于Hi-C的技术探测染色体、染色质或重构染色质的物理布局,来生成多个读对的方法。在进一步的实施方案中,基于Hi-C的技术包括:(a)将染色体、染色质或重构染色质与固定剂交联,以形成DNA-蛋白质交联;(b)用一种或多种限制性内切酶切割交联的DNA-蛋白质,以生成含有粘性末端的多个DNA-蛋白质复合物;(c)用含有一种或多种标记物的核苷酸补平所述粘性末端,以产生平末端,然后将所述平末端连接在一起;(d)将所述多个DNA-蛋白质复合物剪切成片段;(e)通过使用所述一种或多种标记物,拉本文档来自技高网...
用于基因组组装及单体型定相的方法

【技术保护点】
1.一种用于基因组组装的方法,其包括:生成多个重叠群;从通过探测染色体、染色质或重构染色质的物理布局产生的数据中,生成多个读对;将所述多个读对定位或组装至所述多个重叠群;使用读段定位或组装数据,构建重叠群的邻接矩阵;分析所述邻接矩阵,以确定经过所述重叠群的路径,所述路径代表所述重叠群的次序和/朝着基因组的方向。

【技术特征摘要】
2013.02.01 US 61/759,941;2013.10.17 US 61/892,3551.一种用于基因组组装的方法,其包括:生成多个重叠群;从通过探测染色体、染色质或重构染色质的物理布局产生的数据中,生成多个读对;将所述多个读对定位或组装至所述多个重叠群;使用读段定位或组装数据,构建重叠群的邻接矩阵;分析所述邻接矩阵,以确定经过所述重叠群的路径,所述路径代表所述重叠群的次序和/朝着基因组的方向。2.根据权利要求1所述的方法,其中所述多个重叠群通过使用鸟枪测序法生成,所述鸟枪测序法包括:使长段的受试者DNA断裂成大小不确定的随机片段;用高通量测序法对所述片段进行测序,以生成多个测序读段;和组装所述测序读段,以形成多个重叠群。3.根据权利要求1或权利要求2所述的方法,其中通过使用基于Hi-C的技术,探测染色体、染色质或重构染色质的物理布局,生成所述多个读对。4.根据权利要求3所述的方法,其中所述基于Hi-C的技术包括:使染色体、染色质或重构染色质与固定剂交联,以形成DNA-蛋白质交联物;用一种或多种限制性内切酶切割交联的DNA-蛋白质,以生成含有粘性末端的多个DNA-蛋白质复合物;用含有一种或多种标记物的核苷酸补平所述粘性末端,产生平末端随后使平末端连接在一起;使所述多个DNA-蛋白质复合物断裂为片段;通过使用一种或多种标记物,拉下含有接点的片段;和用高通量测序法对所述含有接点的片段的进行测序,以生成多个读段对。5.根据前述任一项权利要求所述的方法,其中通过探测分离自培养细胞或初生组织的染色体或染色质的物理布局,生成多个读段对。6.根据权利要求1至4任一项所述的方法,其中所述多个读对是通过将探测重构染色质的物理布局生成的,所述重构染色质是通过将获自一个或多个受试者样本的裸DNA与分离的组蛋白复合形成的。7.根据前述任一项权利要求所述的方法,其中对于所述多个读段对,通过采用所述读段到所述重叠群边缘的距离的函数,加权至少约80%的读对,体现短接触比长接触更高的概率。8.根据前述任一项权利要求所述的方法,其中重新调整所述邻接矩阵,以减少表示所述基因组混杂区域的重叠群上的大量接触的权重。9.根据权利要求8所述的方法,其中所述基因组的混杂区域包括对于一种或多种物质的一个或多个保守结合位点,所述物质调节染色质的支架相互作用。10.根据权利要求9所述的方法,其中所述一种或多种介质包含转录抑制子CTCF。11.根据前述任一项权利要求所述的方法,其中所述方法提供人类受试者的基因组组装,其中从人类受试者的DNA生成多个重叠群,而且其中通过使用人类受试者的染色体或染色质或由受试者裸DNA制得的重构染色质,生成多个读对。12.一种用于确定单体型定相的方法,其包括前述任一项权利要求所述的方法,其中所述方法进一步包括:识别所述多个读对中的一个或多个杂合位点;和识别含有成对杂合位点的读对,其中从所述成对杂合位点的识别,能够确定用于等位基因变异型的定相数据。13.一种用于宏基因组装的方法,其包括权利要求1所述的方法,其中通过使用改良的基于Hi-C的方法探测多个微生物染色体的物理布局,确定多个读对,所述改良的基于Hi-C的方法包括:收集来自环境的微生物;和加入固定剂,以在每个微生物细胞中形成交联,其中定位至不同重叠群的读对表明哪些重叠群来自相同的物种。14.根据权利要求13所述的方法,其中所述固定剂为甲醛。15.一种组装从单个DNA分子生成的多个重叠群的方法,其包括:从所述单个DNA分子生成多个读对;和使用所述读对组装所述重叠群,其中至少1%的读对跨越单个DNA分子上的至少50kB的距离,并且其中所述读对在14天内生成。16.根据权利要求15所述的方法,其中至少10%的所述读对跨越所述单个DNA分子上的至少50kB的距离。17.根据权利要求15所述的方法,其中至少1%的所述读对跨越所述单个DNA分子上的至少100kB的距离。18.根据权利要求15至17任一项所述的方法,其中所述读对在7天内生成。19.一种组装源自单个DNA分子的多个重叠群的方法,其包括:在体外从所述单个DNA分子生成多个读对;和使用所述读对组装所述重叠群,其中至少1%的所述读对跨越所述单个DNA分子上的至少30kB的距离。20.根据权利要求19所述的方法,其中至少10%的所述读段对跨越所述单个DNA分子上的至少30kB的距离。21.根据权利要求20所述的方法,其中至少1%的所述读对跨越所述单个DNA分子上的至少50kB的距离。22.一种单体型定相的方法,其包括:从单个DNA分子生成多个读对;和使用所述读对组装所述DNA分子的多个重叠群,其中至少1%的所述读段对跨越所述单个DNA分子上的至少50kB的距离,并且其中以大于70%的准确度进行所述单体型定相。23.根据权利要求22所述的方法,其中至少10%的所述读对跨越所述单个DNA分子上的至少50kB的距离。24.根据权利要求22所述的方法,其中至少1%的所述读对跨越所述单个DNA分子上的至少100kB的距离。25.根据权利要求22至24任一项所述的方法,其中以大于90%的准确度进行所述单体型定相。26.一种单体型定相的方法,其包括:在体外从单个DNA分子生成多个读对;和使用所述读对组装所述DNA分子的多个重叠群,其中至少1%的所述读段对跨越所述单个DNA分子上的至少30kB的距离,并且其中以大于70%的准确度进行所述单体型定相。27.根据权利要求26所述的方法,其中至少10%的所述读对跨越所述单个DNA分子上的至少30kB的距离。28.根据权利要求26所述的方法,其中至少1%的所述读对跨越所述单个DNA分子上的至少50kB的距离。29.根据权利要求26至28任一项所述的方法,其中以大于90%的准确度进行所述单体型定相。30.一种在体外单体型定相的方法,其中所述单体型定相以大于70%的准确度进行。31.一种从第一DNA分子生成第一读对的方法,其包括:(a)在体外交联所述第一DNA分子,...

【专利技术属性】
技术研发人员:小R·E·格林L·F·拉里奥
申请(专利权)人:加利福尼亚大学董事会
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1