构建测序文库的方法及其应用技术

技术编号:10942773 阅读:112 留言:0更新日期:2015-01-22 19:46
公开了构建测序文库的方法及其应用,该方法包括:(a)在双链DNA片段的两端分别连接接头,以便获得连接产物;(b)将所述连接产物裂解为单链DNA片段;(c)利用探针对所述单链DNA片段进行筛选;(d)利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物;(e)对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文库。还公开了测序方法、确定核酸序列的方法、构建测序文库的装置、测序设备以及确定核酸序列的系统。

【技术实现步骤摘要】

本专利技术涉及生物医学领域。具体而言,本专利技术涉及构建测序文库的方法、测序方法、确定核酸序列的方法、构建测序文库的装置、测序设备以及确定核酸序列的系统。
技术介绍
高通量测序日益被关注,但是目前高通量测序用于低频率突变的检测仍有待改进。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,根据本专利技术的实施例,本专利技术提出了用于构建测序文库的方法以及检测低频率突变的手段。在本专利技术的第一方面,本专利技术提出了一种构建测序文库的方法。根据本专利技术的实施例,该方法包括:(a)在双链DNA片段的两端分别连接接头,以便获得连接产物,其中,所述接头包括第一链和第二链,所述第一链和第二链部分匹配并且所述第一链包含第一标签序列,以便所述接头上限定出双链区和两个单链尾部,所述两个单链尾部之一的序列中包含第一标签;(b)将所述连接产物裂解为单链DNA片段;(c)利用探针对所述单链DNA片段进行筛选,其中,所述探针特异性识别预定区域,其中,所述预定区域包括下列之一:(1)表1所示基因的至少之一;(2)(1)的CDS区域;以及(3)(2)的上下游至少10bp的区域;(d)利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物,其中,所述第一引物包括第二标签序列,并且所述第一引物适于与所述接头的第一链形成双链结构,只是所述第一标签序列与所述第二标签序列之间存在错配;(e)对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文库,其中,所述扩增采用适于同时扩增所述第一标签序列和所述第二标签序列的引物。。由此,利用根据本专利技术实施例的构建测序文库的方法,能够有效地构建测序文库,同时,所构建的测序文库中,针对相同的双链DNA片段(在本文中也被称为“源序列”)的每条链,分别获得了具有第一标签序列和第二标签序列的扩增产物,由此,在后续测序结果的分析中,可以依据两种标签的测序结果进行互相校正,提高分析结果的可靠性。根据本专利技术的实施例,所述双链DNA片段是通过下列步骤获得的:将核酸样本进行末端修复,以便获得经过修复的核酸样本;以及在所述核酸样本的5’末端添加碱基A,以便获得两端分别具有粘性末端碱基A的核酸样本,所述两端分别具有粘性末端碱基A的核酸样本构成所述双链DNA片段。由此,可以在后续操作中,方便地在所述双链DNA片段的两端添加接头。从而,提高了构建测序文库的效率。根据本专利技术的实施例,所述核酸样本为人基因组DNA的至少一部分或游离核酸。根据本专利技术的实施例,所述人游离核酸是从患者的外周血提取的。根据本专利技术的实施例,所述患者患有结直肠癌。由此,利用本专利技术实施例的方法,能够有效地对人类疾病患者的基因突变进行有效的分析,进而能够有效用于结直肠癌的早诊、个体化用药、以及术后监控等。根据本专利技术的实施例,所述人基因组DNA的至少一部分是通过对人基因组DNA进行随机打断而获得的。由此,可以在后续操作中,方便地在所述双链DNA片段的两端添加接头。从而,提高了构建测序文库的效率。根据本专利技术的实施例,所述接头具有3’碱基T粘性末端。由此,可以在后续操作中,方便地在所述双链DNA片段的两端添加接头。从而,提高了构建测序文库的效率。根据本专利技术的实施例,所述单链DNA片段是通过将所述连接产物进行变性处理获得的。由此,可以快速有效的获得单链DNA片段。根据本专利技术的一些实施例,所述变性处理可以为热变性处理或碱变性处理。根据本专利技术的实施例,所述探针是以芯片的形式提供的。由此,可以提高探针筛选的效率。根据本专利技术的实施例,在存在UDG酶/FPG酶时,进行所述链延伸反应。由此,可以有效地对存在损伤的DNA在链延伸过程中进行修复,减少假阳性的产生,提高构建测序文库的质量。根据本专利技术的实施例,所述第一标签序列和所述第二标签序列分别独立地长度为4~10nt。根据本专利技术的实施例,所述第一标签序列和所述第二标签序列的长度均为8nt。根据本专利技术的实施例,所述第一标签序列和所述第二标签序列之间存在至少2nt的错配。发明人惊奇地发现,采用如此设置,能够有效地提高在后续分析中,利用第一标签序列和第二标签序列进行校正的效率。根据本专利技术的实施例,所述接头的第一链具有SEQ ID NO:1所示的序列,所述接头的第二链具有SEQ ID NO:2所示的序列,所述第一标签具有SEQ ID NO:3-6中任一项所示的序列,所述第二标签具有SEQ ID NO:7-10中至少之一所示的序列,所述第一引物具有SEQ ID NO:11所示的序列,所述适于同时扩增所述第一标签序列和所述第二标签序列的引物具有SEQ ID NO:12和SEQ ID NO:13所示的序列。其中,接头的第一链的序列中“XXXXXXXX”表示第一标签序列,第一引物中序列中的“XXXXXXXX”表示第二标签序列。根据本专利技术的实施例,标签包括但不限于上述所述的4对,可以根据需要涉及多对标签以用于多样品的同时检测。在本专利技术的第二方面,本专利技术提出了一种测序方法,该方法包括:根据前面所述的方法构建测序文库;对所述测序文库进行测序。根据本专利技术的实施例,在Hiseq2000或Hiseq2500上进行所述测序。由此,可以有效地提高测序的效率。另外,前面关于构建测序文库的方法所描述的特征和优点,同样适用该测序方法,在此不再赘述。在本专利技术的第三方面,本专利技术提出了一种确定核酸序列的方法,该方法包括:针对核酸样本,根据权利要求前面所述的方法进行测序,以便获得由多个测序数据构成的测序结果;基于所述测序结果,构建至少一个测序数据子集,其中,每个测序数据子集中的所有测序数据均对应核酸样本上相同的源序列;针对每一个测序数据子集,分别确定与所述第一标签序列对应的测序数据为正链测序数据,与所述第二标签序列对应的测序数据为负链测序数据;针对每一个测序数据子集,分别基于所述正链测序数据和所述负链测序数据,对测序数据进行校正,以便确定经过校正的测序数据;以及基于所述经过校正的测序数据,确定所述核酸样本的序列。由此,可以有效地基于正链测序数据和负链测序数据进行校正,提高分析结果的可靠性。根据本专利技术的实施例,所述测序为双末端测序,所述测序结果由多对成对的测序数据构成。根据本专利技术的实施例,基于所述测序结果,构建至少一个测序数据子集是通过下列步骤进行的:针对所述多对成对的测序数据的每一对,确定成对测序数据索引,所述成对测序数据索引由成对的测序数据的每一个的最初N个碱基构成,其中,N为10~20之间的整数;基于所述成对本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/24/201410521540.html" title="构建测序文库的方法及其应用原文来自X技术">构建测序文库的方法及其应用</a>

【技术保护点】
一种构建测序文库的方法,其特征在于,包括:(a)在双链DNA片段的两端分别连接接头,以便获得连接产物,其中,所述接头包括第一链和第二链,所述第一链和第二链部分匹配并且所述第一链包含第一标签序列,以便所述接头上限定出双链区和两个单链尾部,所述两个单链尾部之一的序列中包含第一标签;(b)将所述连接产物裂解为单链DNA片段;(c)利用探针对所述单链DNA片段进行筛选,其中,所述探针特异性识别预定区域,其中,所述预定区域包括下列之一:(1)表1所示基因的至少之一;(2)(1)的CDS区域;以及(3)(2)的上下游至少10bp的区域;(d)利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物,其中,所述第一引物包括第二标签序列,并且所述第一引物适于与所述接头的第一链形成双链结构,只是所述第一标签序列与所述第二标签序列之间存在错配;(e)对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文库,其中,所述扩增采用适于同时扩增所述第一标签序列和所述第二标签序列的引物。

【技术特征摘要】
1.一种构建测序文库的方法,其特征在于,包括:
(a)在双链DNA片段的两端分别连接接头,以便获得连接产物,其中,所述接头包
括第一链和第二链,所述第一链和第二链部分匹配并且所述第一链包含第一标签序列,以
便所述接头上限定出双链区和两个单链尾部,所述两个单链尾部之一的序列中包含第一标
签;
(b)将所述连接产物裂解为单链DNA片段;
(c)利用探针对所述单链DNA片段进行筛选,其中,所述探针特异性识别预定区域,
其中,所述预定区域包括下列之一:
(1)表1所示基因的至少之一;
(2)(1)的CDS区域;以及
(3)(2)的上下游至少10bp的区域;
(d)利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物,其
中,所述第一引物包括第二标签序列,并且所述第一引物适于与所述接头的第一链形成双
链结构,只是所述第一标签序列与所述第二标签序列之间存在错配;
(e)对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文
库,其中,所述扩增采用适于同时扩增所述第一标签序列和所述第二标签序列的引物。
2.根据权利要求1所述的方法,其特征在于,所述双链DNA片段是通过下列步骤获
得的:
将核酸样本进行末端修复,以便获得经过修复的核酸样本;以及
在所述核酸样本的5’末端添加碱基A,以便获得两端分别具有粘性末端碱基A的核酸
样本,所述两端分别具有粘性末端碱基A的核酸样本构成所述双链DNA片段,
任选地,所述核酸样本为人基因组DNA的至少一部分或游离核酸,
任选地,所述人游离核酸是从患者的外周血提取的,
任选地,所述患者患有结直肠癌,
任选地,所述人基因组DNA的至少一部分是通过对人基因组DNA进行随机打断而获
得的,
任选地,所述接头具有3’碱基T粘性末端,
任选地,所述单链DNA片段是通过将所述连接产物进行变性处理获得的,
任选地,所述探针是以芯片的形式提供的,
任选地,在存在UDG酶/FPG酶时,进行所述链延伸反应,
任选地,所述第一标签序列和所述第二标签序列分别独立地长度为4~10nt,优选8nt,
任选地,所述第一标签序列和所述第二标签序列的长度均为8nt,
任选地,所述第一标签序列和所述第二标签序列之间存在至少2nt的错配,
任选地,所述接头的第一链具有SEQ ID NO:1所示的序列,所述接头的第二链具有
SEQ ID NO:2所示的序列,所述第一标签具有SEQ ID NO:3-6中至少之一所示的序列,
所述第二标签具有SEQ ID NO:7-10中至少之一所示的序列,所述第一引物具有SEQ ID 
NO:11所示的序列,所述第二引物具有SEQ ID NO:12所示的序列,所述第三引物具有
SEQ ID NO:13所示的序列。
3.一种测序方法,其特征在于,包括:
根据权利要求1或2所述的方法构建测序文库;
对所述测序文库进行测序,
任选地,在Hiseq2000或Hiseq2500上进行所述测序。
4.一种确定核酸序列的方法,其特征在于,包括:
针对核酸样本,根据权利要求3所述的方法进行测序,以便获得由多个测序数据构成
的测序结果;
基于所述测序结果,构建至少一个测序数据子集,其中,每个测序数据子集中的所有
测序数据均对应核酸样本上相同的源序列;
针对每一个测序数据子集,分别确定与所述第一标签序列对应的测序数据为正链测序
数据,与所述第二标签序列对应的测序数据为负链测序数据;
针对每一个测序数据子集,分别基于所述正链测序数据和所述负链测序数据,对测序
数据进行校正,以便确定经过校正的测序数据;以及
基于所述经过校正的测序数据,确定所述核酸样本的序列。
5.根据权利要求4所述的方法,其特征在于,所述测序为双末端测序,所述测序结果
由多对成对的测序数据构成,
任选地,基于所述测序结果,构建至少一个测序数据子集是通过下列步骤进行的:
针对所述多对成对的测序数据的每一对,确定成对测序数据索引,所述成对测序数据
索引由成对的测序数据的每一个的最初N个碱基构成,其中,N为10~20之间的整数;
基于所述成对测序数据索引,构建至少一个初步测序数据子集,其中,所述初步测序
数据子集中的每一个测序数据均具有相同的成对测序数据索引;以及
基于所述初步测序数据子集中测序数据之间的汉明距离,对所述至少一个初步测序数
据子集进行细分,以便获得多个所述测序数据子集,
任选地,N为12,
任选地,在所述多个测序数据子集的每一个中,任意两对成对测序数据的汉明距离不
超过20,
任选地,在所述多个测序数据子集的每一个中,正链测序数据和负链测序数据分别为
至少两个,
任选地,基于所述正链测序数据和所述负链测序数据,确定经过校正的测序数据是基
于下列原则进行的:
经过校正的测序数据中的每一个碱基同时获得至少50%正链测序数据和至少50%负链
测序数据的支持,
任选地,经过校正的测序数据中的每一个碱基同时获得至少80%正链测序数据和至少
80%负链测序数据的支持,
任选地,进一步包括:
将所述经过校正的测序数据比对至参考序列上,并删除比对质量小于30的测序数据,
任选地,基于所述核酸样本的序列,进行SNV分析或In...

【专利技术属性】
技术研发人员:管彦芳钱朝阳吕小星常连鹏易鑫朱红梅杨玲吴仁花
申请(专利权)人:天津华大基因科技有限公司深圳华大基因科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1