一种从核酸样品富集目标序列核酸的方法技术

技术编号:13672679 阅读:162 留言:0更新日期:2016-09-07 21:05
本发明专利技术提供了一种从核酸样品富集目标序列核酸的方法,所述方法包括:提供包含目标核酸序列的核酸样品和与目标核酸序列一致或对目标序列具有特征性的诱饵序列;以所述诱饵序列为模板进行体外转录制备核酸类似物,所述核酸类似物带有结合部分;使所述核酸样品片段化;所述核酸类似物与所述核酸样品杂交,使得所述核酸类似物与所述目标序列核酸形成核酸类似物/DNA杂交复合物;通过所述结合部分,从非特异性杂交核酸中分离所述核酸类似物/DNA杂交复合物,去除非目标序列核酸。在优选的实施方案中,所述方法还包括对所述核酸类似物/DNA杂交复合物进行扩增,达到富集目标序列核酸的目的。

【技术实现步骤摘要】

本专利技术涉及核酸序列的捕获、富集与分析。更具体来说,本专利技术涉及基于液相捕获的目标序列富集方法。
技术介绍
全基因组测序可以获得全基因组水平范围的突变、插入、缺失以及结构变异。然而,由于基因组容量较大,以30×进行测序就会产生接近100G的数据量。而肿瘤等相关的低突变频率测序则需要至少1000×的覆盖度,如果进行全基因组测序,则会产生多达3000G的数据量。这样规模的数据量除了会对数据的分析工作造成极大的困难之外,还会使测序成本巨大。这个时候,目标区域捕获技术应运而生。目标区域捕获技术是指通过特定的技术手段定向的捕获目标区域的核酸序列,然后进行建库测序,以达到在对目标区域进行深度测序的目的的同时使得测序成本大大降低。PCR是一种常见的用于富集目标区域的技术,更为常见的是利用多重PCR技术一次性地捕获多个目标区域。多重PCR更适用于热点区域或者长度较小的目标区域的捕获;对于长度较大的目标区域,例如长度超过100K的目标区域,多重PCR从其成本以及技术复杂度上来看,都不再适合。因此,本领域中需要适合对长度较大的目标区域进行捕获的新方法。
技术实现思路
为了解决上述问题,本专利技术提供了一种基于液相捕获的目标序列富集方法。在第一方面,本专利技术提供了一种从核酸样品富集目标序列核酸的方法,所述方法包括:a)提供包含目标核酸序列的核酸样品和与目标核酸序列一致或对目标序列具有特征性的诱饵序列;b)以所述诱饵序列为模板进行体外转录制备核酸类似物,所述核酸类似物带有结合部分;c)使所述核酸样品片段化,优选制备文库;d)所述核酸类似物与所述核酸样品杂交,使得所述核酸类似物与所述目标序列核酸形成核酸类似物/DNA杂交复合物;e)通过所述结合部分,从非特异性杂交核酸中分离所述核酸类似物/DNA杂交复合物,去除非目标序列核酸。在一个实施方案中,在步骤c)的制备文库中在所述核酸样品片段两端连接接头序列,并且在步骤e)还包括步骤f)根据所述接头序列对所述核酸类似物/DNA杂交复合物进行扩增,达到富集目标序列核酸的目的。在一个实施方案中,其中所述诱饵序列具有选自如下的特性:i)自身不产生发夹结构并且相互之间无二聚体产生,ii)拷贝数根据所述目标核酸序列的GC含量和/或空间结构进行补偿,和iii)当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂度区域时,用所述目标区域两侧区域作为替代区域设计诱饵,设计方法与所述目标区域一致,iv)与核酸样品中目标核酸序列之外的其他序列无特异性结合。在一个实施方案中,所述诱饵序列的拷贝数还根据所述目标核酸序列受关注情况进行补偿。在一个实施方案中,其中所述核酸样品是基因组DNA、RNA、cDNA、mRNA,在所述核酸样品是RNA或mRNA的情况下,中步骤c)之前有将所述RNA或mRNA反转录成DNA的步骤。在一个实施方案中,所述诱饵序列在固体载体上,例如在微阵列载玻片上。在一个实施方案中,所述固体载体也为多种珠子或者为微阵列。在一个实施方案中,部分或者全部所述核酸类似物带有结合部分。在一个实施方案中,步骤b)中利用核酸类似物GNA、LNA、PNA、TNA或吗啉核酸进行体外转录,制备核酸类似物,优选所述核酸类似物带有结合部分。在一个实施方案中,其中所述结合部分为生物素结合部分。在一个实施方案中,根据所述目标序列的GC含量对所述诱饵序列拷贝数进行补偿,GC含量越小或者越大,所述目标序列对应的诱饵序列拷贝数增加的就越多。在一个实施方案中,拷贝数根据所述目标核酸序列的GC含量进行补偿是指:以GC含量在50%的诱饵序列拷贝数系数为基准1,GC含量在10%-90%之间偏离50%每1%,诱饵序列拷贝数系数增加0.08-0.12。在一个具体实施方案中,诱饵序列拷贝数补偿方法为:根据所述目标序列的GC含量大小从高到低分为6档,其中第1档:10%-30%;第2档:30%-40%;第3档:40%-60%;第4档:60%-70%;第5档:70%-90%;第6档:小于10%或大于90%,其中第3档的诱饵序列的拷贝数为基准拷贝数,第2档和第4档的诱饵序列的拷贝数多于第3档,例如是第3挡的2.2-2.8倍,第1档和第5档的诱饵序列的拷贝数更多,例如是第3挡的3-4倍。对于第6档,GC含量小于10%或大于90%,以及目标区域是低复杂序列的情况,诱饵序列设计方法是:用所述目标区域两侧区域作为替代区域设计探针,一般选择目标区域两侧300bp以内区域作为替代区域,优选150bp以内的区域。在一个实施方案中,其中所述诱饵序列长度为60-150bp,优选80-120bp。在一个实施方案中,其中所述与目标核酸序列一致或者对目标序列具有特异性是指,诱饵序列在非目标区域上结合的热力学稳定性要显著弱于在目标区域上结合的热力学稳定性,优选与目标区域Tm-与非特异区域Tm≥5℃,更优选与目标区域Tm-与非特异区域Tm≥10℃;优选Tm的值基于SantaLucia 2007热力学参数表的最邻近法计算。在一个实施方案中,其中所述无二聚体产生是指,任意两个诱饵序列之间形成的二聚体,其Tm≤47℃,优选≤37℃;优选Tm的值基于SantaLucia 2007热力学参数表的最邻近法计算。在一个实施方案中,其中所述无发卡结构产生是指,任一诱饵序列自身形成发卡结构,其Tm≤47℃,优选≤37℃;优选Tm的值基于SantaLucia 2007热力学参数表的最邻近法计算。在一个实施方案中,其中对每个目标区域,所述诱饵序列是在特异性、二聚体、发卡结构以及与目标区域的相对位置方面综合评分最优的一个或者多个诱饵序列,所述综合评分通过如下的打分函数进行:S=a×S特异性+b×S二聚体+c×S发卡结构+d×S相对距离,其中a=0.26-0.34、b=0.08-0.12、c=0.17-0.23、d=0.35-0.45,具体的打分计算方法如下:S特异性的打分计算:对新设计的任一条诱饵序列,在基因组上对其进行序列比对,对其每一条比对上的序列分别计算所述诱饵序列与比对上的序列之间Tm,所述诱饵序列与目标区域Tm-其与任一比对上序列Tm之差≥5℃,优选≥10℃,计算所述诱饵序列与所有比对上的序列之间的平均Tm,S特异性=1-Tm平均值/(Tm目标-5),优选S特异性=1-Tm平均值/(Tm目标-10),其中Tm平均值是诱饵序列与所有非特异区域比对结果的平均Tm值,Tm目标是诱饵序列与目标区域TmS二聚体的打分计算:对新设计的任一条诱饵序列,与每一条已经设计的诱饵序列进行二聚体比对分析,对其每一条比对上的序列分别计算所述诱饵序列与所述比对上的诱饵序列之间的Tm,所述Tm<47℃,计算所述诱饵序列与所有比对上的诱饵序列之间的平均Tm,S二聚体=(47-Tm平均值)/47,优选所述Tm<37℃,计算所述诱饵序列与所有比对上的诱饵序列之间的平均Tm,S二聚体=(37-Tm平均值)/37;S发卡结构的打分计算:对任一条诱饵序列,计算其最佳的自身比对结构,并计算所述结构的Tm,所述Tm<47℃,并且S发卡结构=(47-Tm)/47,优选所述Tm<37℃,并且S发卡结构=(37-Tm平均值)/37;S相对距离的打分计算:对于目标区域坐标,对新设计的任一条诱饵序列,计算其与本文档来自技高网...

【技术保护点】
一种从核酸样品富集目标序列核酸的方法,所述方法包括:a)提供包含目标核酸序列的核酸样品和与目标核酸序列一致或对目标序列具有特征性的诱饵序列;b)以所述诱饵序列为模板进行体外转录制备核酸类似物,所述核酸类似物带有结合部分,例如生物素结合部分;c)使所述核酸样品片段化,优选制备文库;d)所述核酸类似物与所述核酸样品杂交,使得所述核酸类似物与所述目标序列核酸形成核酸类似物/DNA杂交复合物;e)通过所述结合部分,从非特异性杂交核酸中分离所述核酸类似物/DNA杂交复合物,去除非目标序列核酸。

【技术特征摘要】
1.一种从核酸样品富集目标序列核酸的方法,所述方法包括:a)提供包含目标核酸序列的核酸样品和与目标核酸序列一致或对目标序列具有特征性的诱饵序列;b)以所述诱饵序列为模板进行体外转录制备核酸类似物,所述核酸类似物带有结合部分,例如生物素结合部分;c)使所述核酸样品片段化,优选制备文库;d)所述核酸类似物与所述核酸样品杂交,使得所述核酸类似物与所述目标序列核酸形成核酸类似物/DNA杂交复合物;e)通过所述结合部分,从非特异性杂交核酸中分离所述核酸类似物/DNA杂交复合物,去除非目标序列核酸。2.根据权利要求1的方法,还包括步骤f):对所述核酸类似物/DNA杂交复合物进行扩增,达到富集目标序列核酸的目的。3.根据权利要求1的方法,其中步骤b)中利用核酸类似物GNA、LNA、PNA、TNA或吗啉核酸进行体外转录,制备核酸类似物。4.根据权利要求1所述的方法,其中所述核酸样品是基因组DNA、RNA、cDNA、mRNA,在所述核酸样品是RNA或mRNA的情况下,在步骤c)之前有将所述RNA或mRNA反转录成DNA的步骤。5.根据权利要求1的方法,其中所述诱饵序列具有选自如下的特性:i)自身不产生发夹结构并且相互之间无二聚体产生,ii)拷贝数根据所述目标核酸序列的GC含量和/或空间结构进行补偿,iii)当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂度区域时,用所述目标区域两侧区域作为替代区域设计诱饵,设计方法与所述目标区域一致,iv)与核酸样品中目标核酸序列之外的其他序列无特异性结合。6.根据权利要求4的方法,其中ii)中拷贝数根据所述目标核酸序列的GC含量进行补偿是指:以GC含量在50%的诱饵序列拷贝数系数为基准1,GC含量10%-90%之间每偏离1%,诱饵序列拷贝数系数增加0.08-0.12。7.所述诱饵序列在固体载体上,例如在微阵列载玻片上。8.根据权利要求1的方法,其中对每个目标区域,所述诱饵序列是在特异性、二聚体、发卡结构以及与目标区...

【专利技术属性】
技术研发人员:蔡万世王瑞超屈武斌杭兴宜
申请(专利权)人:艾吉泰康生物科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1