The invention provides a method for greatly accelerating and improving the de novo genome assembly. The method disclosed herein utilizes data analysis methods to make de novo assembly of genomes from one or more subjects fast and inexpensive. The invention further provides that the method disclosed herein can be used for a variety of applications, including haplotype phase determination and macrogenomic analysis.
【技术实现步骤摘要】
用于基因组组装及单体型定相的方法本申请是申请日为2014年1月31日的PCT国际专利申请PCT/US2014/014184进入中国国家阶段的中国专利申请号201480020008.2、专利技术名称为“用于基因组组装及单体型定相的方法”的分案申请。相关申请的交叉引用本申请要求2013年2月1日提交的临时申请号61/759,941和2013年10月17日提交的临时申请号61/892,355的权益,所述临时申请的公开内容以引用方式并入本文中。
本专利技术提供了基因组组装和单体型定相的方法,用于鉴别基因组内的短的、中等的和长的连接。
技术介绍
理论上和实践上仍然难以产生高质量的、高度连续的基因组序列。
技术实现思路
下一代测序(NGS)数据的一个长久性缺陷在于不能跨越大的基因组重复区域,这是由于读段短和插入大小相对较小。该缺陷显著地影响了从头(denovo)组装。由于基因组重排的性质和排布是不确定的,因此被长重复区域隔开的重叠群(contig)不能被连接或重测序。此外,由于变异体不能够在长距离内确信地与单倍型相关联,难以确定定相信息。通过生成具有适宜的输入DNA的、跨越数十万碱基以及多达百万碱基级别的基因组距离的极长程读对(extremelylong-rangereadpair,XLRP),本专利技术能够同时解决所有这些问题。这些数据对于克服基因组中的大重复区域(包括着丝粒)所产生的问题,是非常宝贵的;能够节约从头组装的成本;并为个体化用药产生具有足够完整度、准确度的重测序数据。在相距非常远、但分子上相连的DNA片段之间形成关联的过程中使用重构染色质,是非常重要的。本 ...
【技术保护点】
1.一种用于基因组组装的方法,其包括:生成多个重叠群;从通过探测染色体、染色质或重构染色质的物理布局产生的数据中,生成多个读对;将所述多个读对定位或组装至所述多个重叠群;使用读段定位或组装数据,构建重叠群的邻接矩阵;分析所述邻接矩阵,以确定经过所述重叠群的路径,所述路径代表所述重叠群的次序和/朝着基因组的方向。
【技术特征摘要】
2013.02.01 US 61/759,941;2013.10.17 US 61/892,3551.一种用于基因组组装的方法,其包括:生成多个重叠群;从通过探测染色体、染色质或重构染色质的物理布局产生的数据中,生成多个读对;将所述多个读对定位或组装至所述多个重叠群;使用读段定位或组装数据,构建重叠群的邻接矩阵;分析所述邻接矩阵,以确定经过所述重叠群的路径,所述路径代表所述重叠群的次序和/朝着基因组的方向。2.根据权利要求1所述的方法,其中所述多个重叠群通过使用鸟枪测序法生成,所述鸟枪测序法包括:使长段的受试者DNA断裂成大小不确定的随机片段;用高通量测序法对所述片段进行测序,以生成多个测序读段;和组装所述测序读段,以形成多个重叠群。3.根据权利要求1或权利要求2所述的方法,其中通过使用基于Hi-C的技术,探测染色体、染色质或重构染色质的物理布局,生成所述多个读对。4.根据权利要求3所述的方法,其中所述基于Hi-C的技术包括:使染色体、染色质或重构染色质与固定剂交联,以形成DNA-蛋白质交联物;用一种或多种限制性内切酶切割交联的DNA-蛋白质,以生成含有粘性末端的多个DNA-蛋白质复合物;用含有一种或多种标记物的核苷酸补平所述粘性末端,产生平末端随后使平末端连接在一起;使所述多个DNA-蛋白质复合物断裂为片段;通过使用一种或多种标记物,拉下含有接点的片段;和用高通量测序法对所述含有接点的片段的进行测序,以生成多个读段对。5.根据前述任一项权利要求所述的方法,其中通过探测分离自培养细胞或初生组织的染色体或染色质的物理布局,生成多个读段对。6.根据权利要求1至4任一项所述的方法,其中所述多个读对是通过将探测重构染色质的物理布局生成的,所述重构染色质是通过将获自一个或多个受试者样本的裸DNA与分离的组蛋白复合形成的。7.根据前述任一项权利要求所述的方法,其中对于所述多个读段对,通过采用所述读段到所述重叠群边缘的距离的函数,加权至少约80%的读对,体现短接触比长接触更高的概率。8.根据前述任一项权利要求所述的方法,其中重新调整所述邻接矩阵,以减少表示所述基因组混杂区域的重叠群上的大量接触的权重。9.根据权利要求8所述的方法,其中所述基因组的混杂区域包括对于一种或多种物质的一个或多个保守结合位点,所述物质调节染色质的支架相互作用。10.根据权利要求9所述的方法,其中所述一种或多种介质包含转录抑制子CTCF。11.根据前述任一项权利要求所述的方法,其中所述方法提供人类受试者的基因组组装,其中从人类受试者的DNA生成多个重叠群,而且其中通过使用人类受试者的染色体或染色质或由受试者裸DNA制得的重构染色质,生成多个读对。12.一种用于确定单体型定相的方法,其包括前述任一项权利要求所述的方法,其中所述方法进一步包括:识别所述多个读对中的一个或多个杂合位点;和识别含有成对杂合位点的读对,其中从所述成对杂合位点的识别,能够确定用于等位基因变异型的定相数据。13.一种用于宏基因组装的方法,其包括权利要求1所述的方法,其中通过使用改良的基于Hi-C的方法探测多个微生物染色体的物理布局,确定多个读对,所述改良的基于Hi-C的方法包括:收集来自环境的微生物;和加入固定剂,以在每个微生物细胞中形成交联,其中定位至不同重叠群的读对表明哪些重叠群来自相同的物种。14.根据权利要求13所述的方法,其中所述固定剂为甲醛。15.一种组装从单个DNA分子生成的多个重叠群的方法,其包括:从所述单个DNA分子生成多个读对;和使用所述读对组装所述重叠群,其中至少1%的读对跨越单个DNA分子上的至少50kB的距离,并且其中所述读对在14天内生成。16.根据权利要求15所述的方法,其中至少10%的所述读对跨越所述单个DNA分子上的至少50kB的距离。17.根据权利要求15所述的方法,其中至少1%的所述读对跨越所述单个DNA分子上的至少100kB的距离。18.根据权利要求15至17任一项所述的方法,其中所述读对在7天内生成。19.一种组装源自单个DNA分子的多个重叠群的方法,其包括:在体外从所述单个DNA分子生成多个读对;和使用所述读对组装所述重叠群,其中至少1%的所述读对跨越所述单个DNA分子上的至少30kB的距离。20.根据权利要求19所述的方法,其中至少10%的所述读段对跨越所述单个DNA分子上的至少30kB的距离。21.根据权利要求20所述的方法,其中至少1%的所述读对跨越所述单个DNA分子上的至少50kB的距离。22.一种单体型定相的方法,其包括:从单个DNA分子生成多个读对;和使用所述读对组装所述DNA分子的多个重叠群,其中至少1%的所述读段对跨越所述单个DNA分子上的至少50kB的距离,并且其中以大于70%的准确度进行所述单体型定相。23.根据权利要求22所述的方法,其中至少10%的所述读对跨越所述单个DNA分子上的至少50kB的距离。24.根据权利要求22所述的方法,其中至少1%的所述读对跨越所述单个DNA分子上的至少100kB的距离。25.根据权利要求22至24任一项所述的方法,其中以大于90%的准确度进行所述单体型定相。26.一种单体型定相的方法,其包括:在体外从单个DNA分子生成多个读对;和使用所述读对组装所述DNA分子的多个重叠群,其中至少1%的所述读段对跨越所述单个DNA分子上的至少30kB的距离,并且其中以大于70%的准确度进行所述单体型定相。27.根据权利要求26所述的方法,其中至少10%的所述读对跨越所述单个DNA分子上的至少30kB的距离。28.根据权利要求26所述的方法,其中至少1%的所述读对跨越所述单个DNA分子上的至少50kB的距离。29.根据权利要求26至28任一项所述的方法,其中以大于90%的准确度进行所述单体型定相。30.一种在体外单体型定相的方法,其中所述单体型定相以大于70%的准确度进行。31.一种从第一DNA分子生成第一读对的方法,其包括:(a)在体外交联所述第一DNA分子,...
【专利技术属性】
技术研发人员:小R·E·格林,L·F·拉里奥,
申请(专利权)人:加利福尼亚大学董事会,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。