核酸序列的分析制造技术

技术编号:14890373 阅读:147 留言:0更新日期:2017-03-28 22:49
本公开涉及用于单倍型定相和拷贝数变异分析的方法、组合物以及系统。本公开内包括用于将包含条形码的珠粒与样品组合于多个单独的分区中的方法和系统,以及对条形码化样品进行处理、测序和分析的方法。

【技术实现步骤摘要】
【国外来华专利技术】交叉引用本申请要求2014年6月26日提交的美国临时专利申请号62/017,808以及2014年10月29日提交的美国临时专利申请号62/072,214的优先权,这些申请中的每一者出于所有目的以全文引用的方式并入本文中。背景对特定人基因组的基本理解可能不只需要简单识别存在或不存在某些基因变异,诸如突变。确定某些基因变异是出现在同一染色体还是不同染色体上(也称为定相(phasing))也是重要的。关于基因变异模式(诸如单倍型)的信息也是重要的,关于基因拷贝的数目的信息也重要。术语“单倍型”是指在连续区块(block)中一起遗传的DNA序列变体(等位基因)的集合。一般来说,人基因组含有各基因的两个拷贝–母体拷贝和父体拷贝。对于各自具有两个可能的等位基因的一对基因,例如基因等位基因“A”和“a”,以及基因等位基因“B”和“b”,给定个体的基因组将包括两种单倍型中的一种:“AB/ab”,其中A和B等位基因位于同一染色体上(“顺式”构型);或“Ab/aB,其中A和B等位基因位于不同染色体上(“反式”构型)。可使用定相方法或分析来确定指定等位基因集合是位于同一染色体还是不同染色体上。在一些情况下,限定单倍型的若干相连等位基因可能与特定疾病表型相关联或相关;在此类情况下,就患者是否将展示疾病来说单倍型(而不是任何一种特定基因变体)可能是最具决定性的因素。基因拷贝数也在一些疾病表型中发挥作用。大多数基因通常以两个拷贝存在,然而,扩增的基因为以超过两个功能拷贝的形式存在的基因。在一些情况下,基因还可经历功能拷贝减少。基因拷贝数的减少或增加可导致异常mRNA和蛋白质表达水平的产生,从而潜在地导致癌性状态或其他病症。癌症和其他基因病症经常与异常(增加或减少)的染色体数目(“非整倍性”)相关联。可使用诸如荧光原位杂交或比较基因组杂交等细胞遗传传技术来检测异常基因的存在或染色体拷贝数。本领域中需要改进的检测基因定相信息、单倍型或拷贝数变异的方法。概述本公开提供可适用于在基因材料的表征方面提供显著进步的方法和系统。这些方法和系统可适用于提供使用通常可获得的技术可能大体上较难实现的基因表征,包括例如单倍型定相、识别结构变异(例如缺失、重复、拷贝数变体、插入、倒位、易位、长串联重复(LTR)、短串联重复(STR))以及多种其他适用表征。本公开一个方面提供一种用于识别核酸中的一种或多种变异的方法,其包括:a)提供核酸的第一片段,其中第一片段具有大于10千碱基(kb)的长度;(b)对第一片段的多个第二片段进行测序以提供多个片段序列,所述多个片段序列共有共同的条形码序列;(c)根据共同条形码序列的存在将多个片段序列归属于第一片段;(d)使用多个片段序列测定第一片段的核酸序列,其中以低于1%的误差率测定核酸序列;以及(e)识别(d)中所测定的第一片段的核酸序列中的一种或多种变异,由此识别核酸内的一种或多种变异。在一些情况下,第一片段在多个离散分区之中的离散分区中。在一些情况下,离散分区为乳液中的微滴。在一些情况下,识别包括识别第一片段的核酸序列中的定相变体。在一些情况下,识别包括由第一片段的核酸序列识别核酸中的一种或多种结构变异。在一些情况下,第一片段具有大于15kb的长度。在一些情况下,第一片段具有大于20kb的长度。在一些情况下,测定包括将多个片段序列映射至参考序列。在一些情况下,测定包括组装具有共同条形码序列的多个片段序列。在一些情况下,用于识别一种或多种变异的方法进一步包括提供核酸的多个第一片段,其长度为至少10kb,并且识别包括测定多个第一片段中的每一者的核酸序列以及由多个第一片段中的每一者的核酸序列识别核酸中的一种或多种变异。在一些情况下,用于识别一种或多种变异的方法进一步包括基于多个第一片段的两个或更多个核酸序列的重叠核酸序列将两个或更多个核酸序列连接成推测重叠群(inferredcontig),其中最大推测重叠群长度为至少10kb。在一些情况下,最大推测重叠群长度为至少20kb。在一些情况下,最大推测重叠群长度为至少40kb。在一些情况下,最大推测重叠群长度为至少50kb。在一些情况下,最大推测重叠群长度为至少100kb。在一些情况下,最大推测重叠群长度为至少200kb。在一些情况下,最大推测重叠群长度为至少500kb。在一些情况下,最大推测重叠群长度为至少750kb。在一些情况下,最大推测重叠群长度为至少1兆碱基(Mb)。在一些情况下,最大推测重叠群长度为至少1.75Mb。在一些情况下,最大推测重叠群长度为至少2.5Mb。在一些情况下,识别一种或多种变异的方法进一步包括基于多个第一片段的两个或更多个核酸序列内的重叠定相变体将多个第一片段的两个或更多个核酸序列连接成相位区块(phaseblock),其中最大相位区块长度为至少10kb。在一些情况下,最大相位区块长度为至少20kb。在一些情况下,最大相位区块长度为至少40kb。在一些情况下,最大相位区块长度为至少50kb。在一些情况下,最大相位区块长度为至少100kb。在一些情况下,最大相位区块长度为至少200kb。在一些情况下,最大相位区块长度为至少500kb。在一些情况下,最大相位区块长度为至少750kb。在一些情况下,最大相位区块长度为至少1Mb。在一些情况下,最大相位区块长度为至少1.75Mb。在一些情况下,最大相位区块长度为至少2.5Mb。在一些情况下,用于识别一种或多种变异的方法进一步包括基于多个第一片段的两个或更多个核酸序列的重叠核酸序列将两个或更多个核酸序列连接成推测重叠群,由此形成推测重叠群的群体,其中推测重叠群的群体的N50为至少10kb。在一些情况下,推测重叠群的群体的N50为至少20kb。在一些情况下,推测重叠群的群体的N50为至少40kb。在一些情况下,推测重叠群的群体的N50为至少50kb。在一些情况下,推测重叠群的群体的N50为至少100kb。在一些情况下,推测重叠群的群体的N50为至少200kb。在一些情况下,推测重叠群的群体的N50为至少500kb。在一些情况下,推测重叠群的群体的N50为至少750kb。在一些情况下,推测重叠群的群体的N50为至少1Mb。在一些情况下,推测重叠群的群体的N50为至少1.75Mb。在一些情况下,推测重叠群的群体的N50为至少2.5Mb。在一些情况下,用于识别一种或多种变异的方法进一步包括基于多个第一片段的两个或更多个核酸序列内的重叠定相变体将多个第一片段的两个或更多个核酸序列连接成相位区块,由此形成相位区块的群体,其中相位区块的群体的N50为至少10kb。在一些情况下,相位区块的群体的N50为至少20kb。在一些情况下,相位区块的群体的N50为至少40kb。在一些情况下,相位区块的群体的N50为至少50kb。在一些情况下,相位区块的群体的N50为至少100kb。在一些情况下,相位区块的群体的N50为至少200kb。在一些情况下,相位区块的群体的N50为至少500kb。在一些情况下,相位区块的群体的N50为至少750kb。在一些情况下,相位区块的群体的N50为至少1Mb。在一些情况下,相位区块的群体的N50为至少1.75Mb。在一些情况下,相位区块的群体的N50为至少2.5Mb。本公开的额外本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/27/201580034149.html" title="核酸序列的分析原文来自X技术">核酸序列的分析</a>

【技术保护点】
一种用于识别核酸中的一种或多种变异的方法,其包括:(a)提供所述核酸的第一片段,其中所述第一片段具有大于10千碱基(kb)的长度;(b)对所述第一片段的多个第二片段进行测序,以提供多个片段序列,所述多个片段序列共有共同的条形码序列;(c)根据所述共同条形码序列的存在将所述多个片段序列归属于所述第一片段;(d)使用所述多个片段序列测定所述第一片段的核酸序列,其中以低于1%的误差率测定所述核酸序列;以及(e)识别(d)中所测定的所述第一片段的所述核酸序列中的所述一种或多种变异,由此识别所述核酸内的所述一种或多种变异。

【技术特征摘要】
【国外来华专利技术】2014.06.26 US 62/017,808;2014.10.29 US 62/072,2141.一种用于识别核酸中的一种或多种变异的方法,其包括:(a)提供所述核酸的第一片段,其中所述第一片段具有大于10千碱基(kb)的长度;(b)对所述第一片段的多个第二片段进行测序,以提供多个片段序列,所述多个片段序列共有共同的条形码序列;(c)根据所述共同条形码序列的存在将所述多个片段序列归属于所述第一片段;(d)使用所述多个片段序列测定所述第一片段的核酸序列,其中以低于1%的误差率测定所述核酸序列;以及(e)识别(d)中所测定的所述第一片段的所述核酸序列中的所述一种或多种变异,由此识别所述核酸内的所述一种或多种变异。2.如权利要求1所述的方法,其中所述第一片段在多个离散分区之中的离散分区中。3.如权利要求2所述的方法,其中所述离散分区为乳液中的微滴。4.如权利要求1所述的方法,其中所述识别包括由所述第一片段的所述核酸序列识别所述核酸中的定相变体。5.如权利要求1所述的方法,其中所述识别包括由所述第一片段的所述核酸序列识别所述核酸中的一种或多种结构变异。6.如权利要求1所述的方法,其中所述第一片段具有大于15kb的长度。7.如权利要求1所述的方法,其中所述第一片段具有大于20kb的长度。8.如权利要求1所述的方法,其中所述测定包括将所述多个片段序列映射至参考序列。9.如权利要求1所述的方法,其中所述测定包括组装具有所述共同条形码序列的所述多个片段序列。10.如权利要求1所述的方法,其进一步包括提供所述核酸的多个第一片段,所述多个第一片段的长度为至少10kb,并且其中所述识别包括测定所述多个第一片段中的每一者的核酸序列以及由所述多个第一片段中的每一者的所述核酸序列识别所述核酸中的所述一种或多种变异。11.如权利要求10所述的方法,其进一步包括基于所述多个第一片段的两个或更多个核酸序列的重叠核酸序列将所述两个或更多个核酸序列连接成推测重叠群,其中最大推测重叠群长度为至少10kb。12.如权利要求11所述的方法,其中所述最大推测重叠群长度为至少20kb。13.如权利要求12所述的方法,其中所述最大推测重叠群长度为至少40kb。14.如权利要求13所述的方法,其中所述最大推测重叠群长度为至少50kb。15.如权利要求14所述的方法,其中所述最大推测重叠群长度为至少100kb。16.如权利要求15所述的方法,其中所述最大推测重叠群长度为至少200kb。17.如权利要求16所述的方法,其中所述最大推测重叠群长度为至少500kb。18.如权利要求17所述的方法,其中所述最大推测重叠群长度为至少750kb。19.如权利要求18所述的方法,其中所述最大推测重叠群长度为至少1兆碱基(Mb)。20.如权利要求19所述的方法,其中所述最大推测重叠群长度为至少1.75Mb。21.如权利要求20所述的方法,其中所述最大推测重叠群长度为至少2.5Mb。22.如权利要求10所述的方法,其进一步包括基于所述多个第一片段的两个或更多个核酸序列内的重叠定相变体将所述多个第一片段的所述两个或更多个核酸序列连接成相位区块,其中最大相位区块长度为至少10kb。23.如权利要求22所述的方法,其中所述最大相位区块长度为至少20kb。24.如权利要求23所述的方法,其中所述最大相位区块长度为至少40kb。25.如权利要求24所述的方法,其中所述最大相位区块长度为至少50kb。26.如权利要求25所述的方法,其中所述最大相位区块长度为至少100kb。27.如权利要求26所述的方法,其中所述最大相位区块长度为至少200kb。28.如权利要求27所述的方法,其中所述最大相位区块长度为至少500kb。29.如权利要求28所述的方法,其中所述最大相位区块长度为至少750kb。30.如权利要求29所述的方法,其中所述最大相位区块长度为至少1Mb。31.如权利要求30所述的方法,其中所述最大相位区块长度为至少1.75Mb。32.如权利要求31所述的方法,其中所述最大相位区块长度为至少2.5Mb。33.如权利要求10所述的方法,其进一步包括基于所述多个第一片段的两个或更多个核酸序列的重叠核酸序列将所述两个或更多个核酸序列连接成推测重叠群,由此形成推测重叠群的群体,其中所述推测重叠群的群体的N50为至少10kb。34.如权利要求33所述的方法,其中所述推测重叠群的群体的所述N50为至少20kb。35.如权利要求34所述的方法,其中所述推测重叠群的群体的所述N50为至少40kb。36.如权利要求35所述的方法,其中所述推测重叠群的群体的所述N50为至少50kb。37.如权利要求36所述的方法,其中所述推测重叠群的群体的所述N50为至少100kb。38.如权利要求37所述的方法,其中所述推测重叠群的群体的所述N50为至少200kb。39.如权利要求38所述的方法,其中所述推测重叠群的群体的所述N50为至少500kb。40.如权利要求39所述的方法,其中所述推测重叠群的群体的所述N50为至少750kb。41.如权利要求40所述的方法,其中所述推测重叠群的群体的所述N50为至少1Mb。42.如权利要求41所述的方法,其中所述推测重叠群的群体的所述N50为至少1.75Mb。43.如权利要求42所述的方法,其中所述推测重叠群的群体的所述N50为至少2.5Mb。44.如权利要求10所述的方法,其进一步包括基于所述多个第一片段的两个或更多个核酸序列内的重叠定相变体将所述多个第一片段的所述两个或更多个核酸序列连接成相位区块,由此形成相位区块的群体,其中所述相位区块的群体的N50为至少10kb。45.如权利要求44所述的方法,其中所述相位区块的群体的所述N50为至少20kb。46.如权利要求45所述的方法,其中所述相位区块的群体的所述N50为至少40kb。47.如权利要求46所述的方法,其中所述相位区块的群体的所述N50为至少50kb。48.如权利要求47所述的方法,其中所述相位区块的群体的所述N50为至少100kb。49.如权利要求48所述的方法,其中所述相位区块的群体的所述N50为至少200kb。50.如权利要求49所述的方法,其中所述相位区块的群体的所述N50为至少500kb。51.如权利要求50所述的方法,其中所述相位区块的群体的所述N50为至少750kb。52.如权利要求51所述的方法,其中所述相位区块的群体的所述N50为至少1Mb。53.如权利要求52所述的方法,其中所述相位区块的群体的所述N50为至少1.75Mb。54.如权利要求53所述的方法,其中所述相位区块的群体的所述N50为至少2.5Mb。55.一种确定核酸结构变异的存在的方法,其包括:(a)提供所述核酸的多个第一片段分子,其中所述多个第一片段分子中的给定第一片段分子包含所述结构变异;(b)对所述多个第一片段分子中的每一者的多个第二片段分子进行测序,以提供多个片段序列,其中所述多个片段序列中对应于给定第一片段分子的每一者共有共同的条形码序列;以及(c)通过以下方式确定所述结构变异的存在:(i)将所述多个片段序列映射至参考序列,(ii)识别共有所述共同条形码序列的所述多个片段序列,并且(iii)基于在比所述给定第一片段分子的长度相隔更远的位置存在升高量的映射至所述参考序列的共有所述共同条形码序列的所述多个片段序列来识别所述结构变异,所述升高量是相对于缺少所述结构变异的序列。56.如权利要求55所述的方法,其中所述升高量相对于源于所述核酸中具有所述结构变异的区域的所述第一片段分子的总数为1%或更多。57.如权利要求56所述的方法,其中所述升高量相对于源于所述核酸中具有所述结构变异的区域的所述第一片段分子的总数为2%或更多。58.如权利要求55所述的方法,其中所述位置相隔至少约100个碱基。59.如权利要求58所述的方法,其中所述位置相隔至少约500个碱基。60.如权利要求59所述的方法,其中所述位置相隔至少约1千碱基(kb)。61.如权利要求60所述的方法,其中所述位置相隔至少约10kb。62.如权利要求55所述的方法,其进一步包括通过由所述多个片段序列形成所述给定第一片段分子的组装物来识别所述结构变异,其中基于所述共同条形码序列的存在选择所述多个片段序列作为所述组装物的输入物。63.如权利要求62所述的方法,其中所述组装物通过由所述多个片段序列产生共有序列来形成。64.如权利要求55所述的方法,其中所述结构变异包括易位。65.一种表征变体核酸序列的方法,其包括:(a)将变体核酸片段化以提供具有大于10千碱基(kb)的长度的多个第一片段;(b)将所述多个第一片段分离至离散分区中;(c)由各个第一片段各自的分区内的各个第一片段形成多个第二片段,所述多个第二片段具有与其连接的条形码序列,给定分区内的所述条形码序列为共同条形码序列;(d)对所述多个第二片段和与其连接的所述条形码序列进行测序,以提供多个第二片段序列;(e)至少部分基于所述共同条形码序列的存在将所述第二片段序列归属于原始第一片段,以提供所述第二片段序列的第一片段序列环境;以及(f)由所述第一片段序列环境识别所述变体核酸的变体部分,由此表征所述变体核酸序列。66.如权利要求65所述的方法,其中所述归属包括至少部分基于所述共同条形码序列的存在由所述多个第二片段序列组装所述多个第一片段中的单个片段的序列的至少一部分。67.如权利要求65所述的方法,其中所述归属包括至少部分基于所述共同条形码序列将所述多个第二片段序列映射至所述多个第一片段中的单个第一片段。68.如权利要求65所述的方法,其进一步包括基于所述多个第一片段中的两者或更多者之间的重叠序列将所述多个第一片段中的所述两者或更多者连接成推测重叠群。69.如权利要求65所述的方法,其中所述识别包括由所述第一片段序列环境识别一个或多个定相变体。70.如权利要求65所述的方法,其进一步包括基于所述多个第一片段中的两者或更多者之间的重叠定相变体将所述多个第一片段中的所述两者或更多者连接成相位区块。71.如权利要求70所述的方法,其中所述识别包括由所述第一片段序列环境识别一种或多种结构变异。72.如权利要求71所述的方法,其中所述一种或多种结构变异独立地选自插入、缺失、易位、反转录转座子、倒位以及重复。73.如权利要求72所述的方法,其中所述结构变异包括插入或易位,并且所述第一片段序列环境指示所述插入或易位的存在。74.一种识别核酸的序列中的变体的方法,其包括:获得所述核酸的多个单个片段分子的核酸序列,所述多个单个片段分子的所述核酸序列各自具有至少1千碱基(kb)的长度;将所述多个单个片段分子中的一者或多者的序列连接成一个或多个推测重叠群;以及由所述一个或多个推测重叠群识别一个或多个变体。75.如权利要求74所述的方法,其中所述获得包括获得长度大于10kb的多个片段分子的所述核酸序列。76.如权利要求75所述的方法,其中所述获得包括:提供所述多个单个片段分子中的各个单个片段分子的多个条形码化片段,给定单个片段分子的所述条形码化片段具有共同条形码;对所述多个单个片段分子的所述多个条形码化片段进行测序,所述测序提供低于1%的测序误差率;以及由所述多个条形码化片段和其相关条形码的序列测定所述多个单个片段分子的序列。77.如权利要求76所述的方法,其中所述连接包括识别两个或更多个单个片段分子之间的一个或多个重叠序列以将所述两个或更多个单个片段分子连接成一个或多个推测重叠群。78.如权利要求77所述的方法,其中所述连接包括识别两个或更多个单个片段分子之间的一个或多个共同变体以将所述两个或更多个单个片段分子连接成所述一个或多个推测重叠群。79.如权利要求78所述的方法,其中所述一个或多个共同变体为定相变体,并且所述一个或多个推测重叠群包含至少100kb的最大相位区块长度。80.如权利要求74所述的方法,其中在所述识别中所识别的所述一个或多个变体包含结构变异。81.如权利要求80所述的方法,其中所述结构变异选自插入、缺失、易位、反转录转座子、倒位以及重复。82.一种表征核酸的方法,其包括:获得具有至少10千碱基(kb)的长度的多个片段分子的核酸序列;识别所述多个片段分子的所述核酸序列中的一个或多个定相变体位置;基于所述第一和第二片段分子内的一个或多个共同定相变体位置的存在将至少一个第一片段分子的所述核酸序列连接至至少一个第二片段分子,以提供具有至少10kb的最大相位区块长度的相位区块;以及由具有至少10kb的所述最大相位区块长度的所述相位区块识别一个或多个定相变体。83.如权利要求82所述的方法,其进一步包括由所述相位区块识别一个或多个额外定相变体。84.如权利要求82所述的方法,其中所述多个片段分子在离散分区中。85.如权利要求84所述的方法,其中所述离散分区为乳液中的微滴。86.如权利要求82所述的方法,其中所述多个片段分子的长度为至少50kb。87.如权利要求86所述的方法,其中所述多个片段分子的长度为至少100kb。88.如权利要求82所述的方法,其中所述最大相位区块长度为至少50kb。89.如权利要求88所述的方法,其中所述最大相位区块长度为至少100kb。90.如权利要求89所述的方法,其中所述最大相位区块长度为至少1Mb。91.如权利要求90所述的方法,其中所述最大相位区块长度为至少2Mb。92.如权利要求91所述的方法,其中所述最大相位区块长度为至少2.5Mb。93.一种方法,其包括:a)将第一核酸分配至第一分区中,其中所述第一核酸包含源于生物体的第一染色体的靶序列;b)将第二核酸分配至...

【专利技术属性】
技术研发人员:迈克尔·史诺莱文米尔娜·雅罗什克里斯多佛·辛德森凯文·奈斯瑟奇·萨克森诺夫本杰明·辛德森格雷斯·X·Y·郑帕特里克·马科斯约翰·史图尔普纳格
申请(专利权)人:一零X基因组学有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1