分子标签、接头及确定含有低频突变核酸序列的方法技术

技术编号:16635099 阅读:246 留言:0更新日期:2017-11-25 23:07
本发明专利技术提供分子标签及其组合物、含有分子标签的接头及其组合物以及一种确定待测样本目标区域含有低频突变核酸序列的方法。其中所述分子标签上最多含有2个连续相同的碱基。本发明专利技术所提供的分子标签没有连续多个相同的碱基,避免由于多个连续碱基出现导致测序质量差的情况。并且分子标签内部各种标签的比例一致,避免出现优势标签的情况,能够最大程度发挥分子标签的效能。

Molecular tags, connectors and methods for determining nucleic acid sequences containing low frequency mutations

The present invention provides a molecular label and its composition, a connector containing a molecular tag and its composition, and a method for determining a target sequence containing a low frequency mutation nucleic acid sequence in a sample to be tested. Among them, the molecular label contains at most 2 consecutive identical bases. The molecular tags provided by the present invention do not have multiple consecutive identical bases to avoid the poor quality of sequencing due to the occurrence of multiple consecutive bases. And the proportion of various tags within the molecular tag is consistent, avoiding the advantage tag, and can maximize the effectiveness of the molecular tag.

【技术实现步骤摘要】
分子标签、接头及确定含有低频突变核酸序列的方法
本专利技术涉及核酸测序
,具体的,本专利技术涉及分子标签及其组合物、含有分子标签的接头及其组合物、确定待测样本目标区域含有低频突变核酸序列的方法。
技术介绍
高通量测序是目前应用范围最广的测序技术,然而其在测序中仍不可避免的存在一些测序错误,发生率为0.1%~0.2%或者更高,并且PCR过程使用的DNA聚合酶也有错误率,错误率为10-7~10-5,特别是随着PCR循环数的增加错误率也有所增加。为了检测低于0.1%的碱基突变(低频突变)或测序错误,学者专利技术了分子标签的方法,分子标签是在PCR之前给每个测序模板的一端或者两端加入一段特殊的序列。分子标签的每个位置可以是A、T、C、G4种碱基中的1种,分子标签的长度根据实际的实验需要选择,根据分子标签的长度及4种碱基的变化,分子标签可以有4的n次方种类。如果原始模板的分子标签是完全随机分布的,那分子标签的多样性能够保证每个原始模板在原始文库中连上分子标签后是独一无二的,在之后的PCR过程中,每个原始模板会作为初始模板形成一簇“分子簇”,如果没有测序错误和PCR错误,这各簇中的分子序列都是初始模板正链和负链的无错误“复制链”。理论上,分子标签的每个位置的碱基序列是完全随机分布的。然而,在引物合成过程中,合成某一碱基时,会加入等量的A、T、C、G四种碱基,由于这四种碱基合成所需的能量或者合成效率不一样,使得每个位置上A、T、C、G四种碱基的出现频率并不是完全相等的。这样会造成部分的碱基处于优势地位,导致了分子标签中并不是每个位置都遵循A、T、C、G四种碱基随机分布的概率,并且会出现优势分子序列,甚至会出现多个连续一样的碱基,例如8个A、8个G等,从而导致实际上得到的随机分子标签种类并没有理论上那么多。多个连续一样的碱基不仅会增加测序错误的可能性,也会增加优势分子序列的比例。由于比例不随机,使得某几种甚至更多的分子连上了同一种标签序列。当这些连上同一种标签序列的分子属于同源性高或者序列十分相似的情况下,技术人员无法区别判断属于测序错误和低频突变的分子。更进一步的,当低频突变和正常丰度的序列连上一样的分子克隆时会导致将低频突变当成测序错误或PCR错误从而漏检。因此分子标签的不随机性会降低其效用,甚至限制了其应用。
技术实现思路
本专利技术的目的在于,通过优化分子标签的设计,提供一种碱基完全随机分布的分子标签,及每种分子标签的比例均为0.95~1.05:1的分子标签组合物,利用该分子标签及其组合物合成的接头进行文库构建并对其进行测序,从而有效地区分测序错误和低频突变。本专利技术一方面提供一种分子标签,所述分子标签上最多含有2个连续相同的碱基。本专利技术另一方面还提供一种分子标签组合物,含有上述分子标签,且每种分子标签的比例为0.95~1.05:1。本专利技术另一方面还提供一种接头,所述接头含有上述分子标签,且所述分子标签位于所述接头除突出端“T”和非突出端末端20bp碱基以外的任意位置。本专利技术另一方面还提供一种接头组合物,含有上述接头,且每种接头的比例为0.95~1.05:1。本专利技术另一方面还提供一种确定待测样本目标区域含有低频突变核酸序列的方法,包括如下步骤:S1、利用如上所述的接头,对待测样本目标区域核酸进行加接头反应,对加接头后的待测样本目标区域核酸进行PCR扩增,获得扩增产物,所述扩增产物构成所述待测样本的目标区域核酸测序文库;S2、对所述待测样本的目标区域核酸测序文库进行测序,获得测序后核酸序列;S3、将所述测序后核酸序列按照所述接头中含有的分子标签进行分类,将携带有相同分子标签的所述测序后的核酸序列归类为同一核酸序列集;S4、将所述核酸序列集内的测序后核酸序列进行相互比较,统计所述核酸序列集中每个碱基位置的碱基种类及其频率;S5、根据所述核酸序列集中每个碱基位置的碱基种类及其频率,通过数据分析,得到所述核酸序列集中含有正确的碱基排列位置的核酸序列;S6、将所述含有正确的碱基排列位置的核酸序列与所述核酸序列集中的其余的核酸序列或平行的核酸序列集中的核酸序列进行比较,得到含有低频突变的核酸序列。本专利技术所提供的分子标签没有连续多个相同的碱基,避免由于多个连续碱基出现导致测序质量差的情况。并且分子标签内部各种标签的比例一致,避免出现优势标签的情况,能够最大程度发挥分子标签的效能。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中图1为本专利技术实施例中完全互补双链接头中分子标签结构示意图。图2为本专利技术实施例中一端互补一端开放的Y型接头中分子标签位于互补端的结构示意图。图3为本专利技术实施例中一端互补一端开放的Y型接头中分子标签位于开放端的结构示意图。图4为本专利技术实施例中分子标签不位于接头上,但可通过PCR引入接头的Y型结构的示意图。图5为本专利技术实施例中确定待测样本目标区域含有低频突变核酸序列的方法流程图。具体实施方式下面详细描述本专利技术的实施例。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。需要说明的是,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。本专利技术提供一种分子标签,所述分子标签上最多含有2个连续相同的碱基。根据本专利技术的实施例,所述分子标签为单链或反向互补的双链。根据本专利技术的实施例,所述分子标签的碱基数目为6~24bp。本专利技术还提供一种分子标签组合物,含有如上所述的分子标签,且每种分子标签的比例为0.95~1.05:1。根据本专利技术的实施例,所述比例包括摩尔比、分子质量比、分子数比的至少之一。根据本专利技术的实施例,所述分子标签的种类数包括4n,n等于6~24。例如根据实验需要,可以设计出4096、16384、65536、262144、16777216、268435456种,甚至更多的种类。根据本专利技术的实施例,当分子标签是单链的结构,则将分子标签按照摩尔数0.95~1.05:1的比例,或分子质量0.95~1.05:1的比例,或分子数0.95~1.05:1的比例混合。优选的,当分子标签是单链的结构,则将分子标签按照摩尔数1:1的比例,或分子质量1:1的比例,或分子数1:1的比例混合。当分子标签是双链的结构,先将单链的分子标签按照摩尔数0.95~1.05:1的比例,或分子质量0.95~1.05:1的比例,或分子数0.95~1.05:1的比例与对应的反向互补的序列进行退火互补形成双链结构的分子标签,再将这些双链分子标签按照0.95~1.05:1的比例混合。优选的,当分子标签是双链的结构,先将单链的分子标签按照摩尔数1:1的比例,或分子质量1:1的比例,或分子数1:1的比例与对应的反向互补的序列进行退火互补形成双链结构的分子标签,再将这些双链分子标签按照1:1的比例混合。本专利技术还提供所述分子标签组合物,在纠正测序错误和PCR错误、检测低频突变、去冗余以及计算特定分子或携带有特定分子的细胞数量中的应用。本专利技术另一方面提供一种接头,所述接头含有如上所述的分子标签,且所述分子标签位于所述接头除突出端“T”和非突出端末端20bp碱基以外的任意位置。根据本专利技术的实施例,如图1所示,当所述接头为完全互补的双链结构时,所述分子标签“NNN…NNN”可位本文档来自技高网
...
分子标签、接头及确定含有低频突变核酸序列的方法

【技术保护点】
一种分子标签,其特征在于,所述分子标签上最多含有2个连续相同的碱基。

【技术特征摘要】
1.一种分子标签,其特征在于,所述分子标签上最多含有2个连续相同的碱基。2.根据权利要求1所述的分子标签,其特征在于,所述分子标签为单链或反向互补的双链。3.根据权利要求1所述的分子标签,其特征在于,所述分子标签的碱基数目为6~24bp。4.一种分子标签组合物,其特征在于,含有如权利要求1~3任一项所述的分子标签,且每种分子标签的比例为0.95~1.05:1。5.根据权利要求4所述的分子标签组合物,其特征在于,所述比例包括摩尔比、分子质量比、分子数比的至少之一。6.一种接头,其特征在于,所述接头含有如权利要求1~3任一项所述的分子标签,且所述分子标签位于所述接头除突出端“T”和非突出端末端20bp碱基以外的任意位置。7.如权利要求6所述的接头,其特征在于,所述接头还含有文库标签,所述文库标签与所述分子标签的3’端或5’端相连。8.如权利要求6所述的接头,其特征在于,所述接头还含有识别性特征序列,所述识别性特征序列为4个不重复的碱基,所述识别性特征序列与所述分子标签的3’端或5’端相连。9.一种接头组合物,其特征...

【专利技术属性】
技术研发人员:曾晓静高晓峘韩颖鑫张印新何哲王佳伟夏伟成李胜
申请(专利权)人:广州精科医学检验所有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1