通过数字化转座子的单倍体组测定制造技术

技术编号:16047160 阅读:99 留言:0更新日期:2017-08-20 06:24
在某些实施方案中,本发明专利技术提供了在进一步分析之前通过使用转座酶将差异条形编码的转座子插入基因组DNA中而“数字化地”标记不同染色体的不同等位基因的方式。根据该方法,每个等位基因变得标记有独特的转座子条形码模式。由于每种独特的转座子条形码模式标识出特定的等位基因,因此该方法有利于确定倍性和拷贝数变异,提高辨别纯合子、杂合子和由测序错误产生的模式的能力,并允许将由不提供信息的DNA段隔开的基因座鉴别为连锁基因座,从而有利于单倍型确定。还提供了一种新的人工转座子末端,其包括在两个或更多个位置的条形码序列,这些位置对于转座不是必需的。

【技术实现步骤摘要】
【国外来华专利技术】通过数字化转座子的单倍体组测定相关申请的交叉引用本申请要求于2014年5月23日提交的第62/002,733号美国临时申请的权益,该临时申请通过引用整体并入本文。关于对联邦资助的研究与开发下作出的专利技术享有权利的声明不适用。
本专利技术总体上涉及利用转座子确定单倍体组(haploidome)的领域。在特定的实施方案中,本专利技术涉及利用数字化的转座子由单细胞高分辨率地确定完整单倍体组的方法和组合物。
技术介绍
已经充分证明,通过基于PCR的扩增或通过等温扩增进行的全基因组扩增通常导致有偏差的扩增,从而致使一些区域扩增过度,而另一些区域扩增不足。这种偏差使得拷贝数变异(CNV)难以确定,并且使单核苷酸多态性(SNP)或单核苷酸变异(SNV;即突变)的鉴定或“判定”具有挑战性。已经采用多种计算机程序来帮助解决这些问题。然而,由于扩增的无序性,常常难以确定观察到的CNV是真实的还是扩增的假象。此外,大多数计算机程序基于每个基因组由44条常染色体和两条性染色体组成的假设而运行,但并非所有细胞均如此,而且对于癌细胞来说肯定不是这样,癌细胞可在癌细胞系内和癌组织内的细胞之间在拷贝数方面表现出巨大差异。具体而言,核型分析研究已发现,一些正常的哺乳动物细胞具有高倍性。单细胞可含有4、6、8条或多达数百条全套染色体。这些细胞在整个基因组中具有一致的拷贝数变化。因此,利用常规测序方法或PCR无法确定这些细胞的绝对拷贝数,原因在于这些方法全部依赖于染色体上的至少一个参考点,该参考点可能是基因或区段或整个染色体。肿瘤组织中或已确立的肿瘤细胞系中的肿瘤细胞的核型倾向于甚至更加复杂且不均匀。染色体数目常常从少于46条(亚倍体)至92条(四倍体)不等。在已确立的肿瘤细胞系内或肿瘤组织内的肿瘤细胞由具有不同染色体数目的细胞集合组成,并且特定染色体,例如染色体1,可在一个细胞中以1个拷贝,或2个拷贝,或5个拷贝,或6个拷贝,或7个拷贝存在,但在另一个细胞中可能缺失,这都增加了复杂性。因此,对于此类肿瘤细胞系,染色体1的平均拷贝数可以为分数。因为七个染色体1之一上的一个突变将由14%的读序(reads)来表示,所以对于类似于此的情况,突变“判定”极具挑战性。此外,在癌症研究中的罕见突变检测中,即使在“深度测序”的帮助下,测序中约1%的典型错误率也常常导致数以亿计的测序错误。这些分散的错误在一些应用中可以被容忍,但如果在次要等位基因中出现罕见突变,则在鉴定细胞群体以及单细胞中的超罕见突变时会变得非常成问题。
技术实现思路
在各个方面,本文预期的专利技术可包括但不必限于以下实施方案中的任一个或多个:实施方案1:一种试剂盒,其包含一组两个或更多个转座子,其中每个转座子包含不同的第一转座子条形码序列和位于填充序列侧翼的转座子末端,其中所述转座子各自在所述填充序列中包含相同的第一引物结合位点并且能够被转座酶插入核酸中。实施方案2:根据实施方案1所述的试剂盒,其中所述第一转座子条形码序列位于转座子末端内或邻近转座子末端。实施方案3:根据实施方案1或2所述的试剂盒,其中每个转座子另外包含第二转座子条形码序列。实施方案4:根据实施方案3所述的试剂盒,其中所述第二转座子条形码序列位于一个转座子末端内或邻近一个转座子末端,并且其中所述第一转座子条形码序列位于另一个转座子末端内或邻近另一个转座子末端。实施方案5:根据实施方案1-4所述的试剂盒,其中所述转座子另外包含第一索引序列,并且其中所述试剂盒包含多组两个或更多个转座子,其中该组内的每个转座子包含不同的第一转座子条形码序列,并且每组转座子的特征在于不同的索引序列。实施方案6:根据实施方案1-5所述的试剂盒,其中所述第一索引序列邻近第一条形码或转座子末端。实施方案7:根据实施方案5和6所述的试剂盒,其中每个转座子另外包含第二索引序列。实施方案8:根据实施方案7所述的试剂盒,其中每个转座子包含:位于一个转座子末端内或邻近一个转座子末端的第一转座子条形码序列,以及位于另一个转座子末端内或邻近另一个转座子末端的第二转座子条形码序列;其中所述第一索引序列邻近第一条形码序列,并且所述第二索引序列邻近第二条形码序列。实施方案9:根据实施方案1-8中任一项所述的试剂盒,其中所述第一引物结合位点位于所述填充序列中,并且包含适于引发全基因组扩增(WGA)的位点。实施方案10:根据实施方案1-9所述的试剂盒,其中每个转座子另外包含第二引物结合位点。实施方案11:根据实施方案10所述的试剂盒,其中所述第二引物结合位点(如果存在)位于所述第一转座子条形码序列和所述第一索引序列的内侧,其中所述第二引物结合位点包含适于引发DNA测序的位点。实施方案12:根据实施方案4所述的试剂盒,其中每个转座子另外包含第三引物结合位点。实施方案13:根据实施方案12所述的试剂盒,其中所述第三引物结合位点位于所述第二转座子条形码序列和第二索引序列的内侧,其中所述第三引物结合位点包含适于引发DNA测序的位点。实施方案14:根据实施方案12所述的试剂盒,其中每个转座子包含:位于一个转座子末端内或邻近一个转座子末端的第一转座子条形码序列,以及位于另一个转座子末端内或邻近另一个转座子末端的第二转座子条形码序列;其中:第一索引序列邻近所述第一条形码序列;第二索引序列邻近所述第二条形码序列;所述第一引物结合位点位于所述填充序列中;所述第二引物结合位点位于所述第一条形码序列和所述第一索引序列的内侧;并且所述第三引物结合位点位于所述第二条形码序列和所述第二索引序列的内侧。实施方案15:根据实施方案12-14所述的试剂盒,其中所述第二引物结合位点与第三引物结合位点相同。实施方案16:根据实施方案1-15所述的试剂盒,其中所述填充序列是双链的。实施方案17:根据实施方案16所述的试剂盒,其中所述填充序列为至少400个核苷酸长。实施方案18:根据实施方案1-15所述的试剂盒,其中所述填充序列是单链的。实施方案19:根据实施方案18所述的试剂盒,其中所述填充序列为至少45个核苷酸长。实施方案20:根据实施方案1-19所述的试剂盒,其中所述两个或更多个转座子是单链转座子。实施方案21:一种标记样品核酸的方法,该方法包括:使来源于10个或更少细胞的样品核酸与能够将转座子并入所述样品核酸中的负载的转座酶接触;从而形成核酸分子,其中特定的转座子与特定的核酸区段相关联;以及检测包含至少一个基因座的不同转座子-核酸区段组合的数目。实施方案22:根据实施方案21所述的方法,其中所述不同转座子-核酸区段组合包含在不同位点插入的相同的转座子序列。实施方案23:根据实施方案21所述的方法,其中所述不同转座子-核酸区段组合包含通过不同的转座酶插入的不同的转座子序列。实施方案24:根据实施方案21所述的方法,其中所述转座子包括一组两个或更多个转座子,其中:每个转座子包含不同的第一转座子条形码序列;所述接触形成条形编码的(barcoded)核酸分子,其中特定的转座子条形码与特定的核酸区段相关联;并且所述检测包括检测包含至少一个基因座的不同条形码-核酸区段组合的数目。实施方案25:根据实施方案21-24所述的方法,其中所述转座子包括单链转座子。实施方案26:根据实施方案24所述的方法,其中所述转座子包括来自本文档来自技高网
...
通过数字化转座子的单倍体组测定

【技术保护点】
一种试剂盒,其包含一组两个或更多个转座子,其中每个转座子包含不同的第一转座子条形码序列和位于填充序列侧翼的转座子末端,其中所述转座子各自在所述填充序列中包含相同的第一引物结合位点并且能够被转座酶插入核酸中。

【技术特征摘要】
【国外来华专利技术】2014.05.23 US 62/002,7331.一种试剂盒,其包含一组两个或更多个转座子,其中每个转座子包含不同的第一转座子条形码序列和位于填充序列侧翼的转座子末端,其中所述转座子各自在所述填充序列中包含相同的第一引物结合位点并且能够被转座酶插入核酸中。2.根据权利要求1所述的试剂盒,其中所述第一转座子条形码序列位于转座子末端内或邻近转座子末端。3.根据权利要求1或2所述的试剂盒,其中每个转座子另外包含第二转座子条形码序列。4.根据权利要求3所述的试剂盒,其中所述第二转座子条形码序列位于一个转座子末端内或邻近一个转座子末端,并且其中所述第一转座子条形码序列位于另一个转座子末端内或邻近另一个转座子末端。5.根据权利要求1-4所述的试剂盒,其中所述转座子另外包含第一索引序列,并且其中所述试剂盒包含多组两个或更多个转座子,其中该组内的每个转座子包含不同的第一转座子条形码序列,并且每组转座子的特征在于不同的索引序列。6.根据权利要求1-5所述的试剂盒,其中所述第一索引序列邻近第一条形码或转座子末端。7.根据权利要求5和6所述的试剂盒,其中每个转座子另外包含第二索引序列。8.根据权利要求7所述的试剂盒,其中每个转座子包含:位于一个转座子末端内或邻近一个转座子末端的第一转座子条形码序列,以及位于另一个转座子末端内或邻近另一个转座子末端的第二转座子条形码序列;其中所述第一索引序列邻近第一条形码序列,并且所述第二索引序列邻近第二条形码序列。9.根据权利要求1-8中任一项所述的试剂盒,其中所述第一引物结合位点位于所述填充序列中,并且包含适于引发全基因组扩增(WGA)的位点。10.根据权利要求1-9所述的试剂盒,其中每个转座子另外包含第二引物结合位点。11.根据权利要求10所述的试剂盒,其中所述第二引物结合位点,如果存在的话,位于所述第一转座子条形码序列和所述第一索引序列的内侧,其中所述第二引物结合位点包含适于引发DNA测序的位点。12.根据权利要求4所述的试剂盒,其中每个转座子另外包含第三引物结合位点。13.根据权利要求12所述的试剂盒,其中所述第三引物结合位点位于所述第二转座子条形码序列和第二索引序列的内侧,其中所述第三引物结合位点包含适于引发DNA测序的位点。14.根据权利要求12所述的试剂盒,其中每个转座子包含:位于一个转座子末端内或邻近一个转座子末端的第一转座子条形码序列,以及位于另一个转座子末端内或邻近另一个转座子末端的第二转座子条形码序列;其中:第一索引序列邻近所述第一条形码序列;第二索引序列邻近所述第二条形码序列;所述第一引物结合位点位于所述填充序列中;所述第二引物结合位点位于所述第一条形码序列和所述第一索引序列的内侧;并且所述第三引物结合位点位于所述第二条形码序列和所述第二索引序列的内侧。15.根据权利要求12-14所述的试剂盒,其中所述第二引物结合位点与第三引物结合位点相同。16.根据权利要求1-15所述的试剂盒,其中所述填充序列是双链的。17.根据权利要求16所述的试剂盒,其中所述填充序列为至少400个核苷酸长。18.根据权利要求1-15所述的试剂盒,其中所述填充序列是单链的。19.根据权利要求18所述的试剂盒,其中所述填充序列为至少45个核苷酸长。20.根据权利要求1-19所述的试剂盒,其中所述两个或更多个转座子是单链转座子。21.一种标记样品核酸的方法,该方法包括:使来源于10个或更少细胞的样品核酸与能够将转座子并入所述样品核酸中的负载的转座酶接触;从而形成核酸分子,其中特定的转座子与特定的核酸区段相关联;以及检测包含至少一个基因座的不同转座子-核酸区段组合的数目。22.根据权利要求21所述的方法,其中所述不同转座子-核酸区段组合包含在不同位点插入的相同的转座子序列。23.根据权利要求21所述的方法,其中所述不同转座子-核酸区段组合包含通过不同的转座酶插入的不同的转座子序列。24.根据权利要求21所述的方法,其中所述转座子包括一组两个或更多个转座子,其中:每个转座子包含不同的第一转座子条形码序列;所述接触形成条形编码的核酸分子,其中特定的转座子条形码与特定的核酸区段相关联;并且所述检测包括检测包含至少一个基因座的不同条形码-核酸区段组合的数目。25.根据权利要求21-24所述的方法,其中所述转座子包括单链转座子。26.根据权利要求24所述的方法,其中所述转座子包括来自权利要求1-20所述的试剂盒的转座子。27.根据权利要求24或26所述的方法,其中所述方法包括将至少10个不同的条形码并入所述样品核酸中。28.根据权利要求21-27所述的方法,其中所述样品核酸包含来源于不多于单个细胞的基因组DNA。29.根据权利要求21-28所述的方法,其中所述方法包括每500个基因组DNA碱基对平均并入一个转座子。30.根据权利要求21-29所述的方法,其中所述样品核酸的子组对于允许转座的负载的转座酶是充分可及的,而另一个子组对于允许转座的负载的转座酶不是充分可及的。31.根据权利要求30所述的方法,其中所述样品核酸包含染色质,并且所述对于允许转座的负载的转座酶充分可及的样品核酸的子组包括在所述染色质中处于开放构型的核酸。32.根据权利要求30所述的方法,其中所述样品核酸包含具有关联的甲基-CpG结合域(MBD)蛋白的染色质,并且所述对于允许转座的负载的转座酶不是充分可及的样品核酸的子组包括在CpG岛中的核酸。33.根据权利要求21-32所述的方法,其中所述方法另外包括进行所述核酸分子的全基因组扩增。34.根据权利要求21-33所述的方法,其中所述检测包括DNA测序。35.根据权利要求21-34所述的方法,其中所述样品核酸包含基因组DNA,并且所述方法包括检测包含至少一个基因座的不同转座子-核酸区段组合的数目,以确定该基因座的拷贝数。36.根据权利要求35所述的方法,其中当检测到的不同转座子-核酸区段组合的数目大于所述基因座的等位基因的预期正常数目时,将所述样品鉴别为其中所述基因座的数目高于所述细胞中预期的拷贝数的样品。37.根据权利要求35所述的方法,其中当检测到的不同转座子-核酸区段组合的数目小于所述基因座的等位基因的预期正常数目时,将所述样品鉴别为其中所述基因座的数目小于所述细胞中预期的拷贝数或可能已在扩增和/或测序期间发生等位基因脱扣的样品。38.根据权利要求35所述的方法,其中当检测到的转座子-核酸区段组合包含两个不同的组合并且其中在所述基因座处包含相同核酸序列的核酸区段与在不同插入位点处的一个或多个转座子、一个或多个不同的转座子序列和/或一个或多个不同的条形码、其组合相关联时,将所述样品鉴别为二倍体并且对于所述基因座是纯合的。39.根据权利要求35所述的方法,其中当检测到的转座子-核酸区段组合包含两个不同的转座子-核酸区段组合并且其中在所述基因座处包含不同核酸序列的核酸区段各自与在不同插入位点处的一个或多个转座子、一个或多个不同的转座子序列和/或一个或多个不同的条形码、其组合相关联时,将所述样品鉴别为二倍体并且对于所述基因座是杂合的。40.根据权利要求34所述的方法,其中当检测到的转座子-核酸区段组合包含两个不同的转座子-核酸区段组合并且其中在所述基因座处包含不同核酸序列的核酸区段各自与在相同插入位点处的相同转座子或条形码相关联时,将所述样品鉴别为在扩增或测序期间可能已将错误引入所述样品核酸序列中的样品。41.根据权利要求34所述的方法,其中当检测到的转座子-核酸区段组合包含两个或更多个不同的转座子-核酸区段组合并且其中在所述基因座处包含不同核酸序列的核酸区段各自与在不同插入位点处的一个或多个转座子、一个或多个不同的转座子序列和/或一个或多个不同的条形码、其组合相关联时,将所述样品鉴别为在所述基因座处包含序列差异的样品。42.根据权利要求36-41中任一项所...

【专利技术属性】
技术研发人员:奚雷汪小辉马克·恩格大卫·鲁夫
申请(专利权)人:数字基因公司
类型:发明
国别省市:美国,US

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1