【技术实现步骤摘要】
本专利技术涉及生物医学领域。具体而言,本专利技术涉及构建测序文库的方法、测序方法、确定核酸序列的方法、构建测序文库的装置、测序设备以及确定核酸序列的系统。
技术介绍
高通量测序日益被关注,但是目前高通量测序用于低频率突变的检测仍有待改进。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,根据本专利技术的实施例,本专利技术提出了用于构建测序文库的方法以及检测低频率突变的手段。在本专利技术的第一方面,本专利技术提出了一种构建测序文库的方法。根据本专利技术的实施例,该方法包括:(a)在双链DNA片段的两端分别连接接头,以便获得连接产物,其中,所述接头包括第一链和第二链,所述第一链和第二链部分匹配并且所述第一链包含第一标签序列,以便所述接头上限定出双链区和两个单链尾部,所述两个单链尾部之一的序列中包含第一标签;(b)将所述连接产物裂解为单链DNA片段;(c)利用探针对所述单链DNA片段进行筛选,其中,所述探针特异性识别预定区域,其中,所述预定区域包括下列之一:(1)表1所示基因的至少之一;(2)(1)的CDS区域;以及(3)(2)的上下游至少10bp的区域;(d)利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物,其中,所述第一引物包括第二标签序列,并且所述第一引物适于与所述接头的第一链形成双链结构,只是所述第一标签序列与所述第二标签序列之间存在错配;(e)对所述链延伸产物进行扩增,以 ...
【技术保护点】
一种构建测序文库的方法,其特征在于,包括:(a)在双链DNA片段的两端分别连接接头,以便获得连接产物,其中,所述接头包括第一链和第二链,所述第一链和第二链部分匹配并且所述第一链包含第一标签序列,以便所述接头上限定出双链区和两个单链尾部,所述两个单链尾部之一的序列中包含第一标签;(b)将所述连接产物裂解为单链DNA片段;(c)利用探针对所述单链DNA片段进行筛选,其中,所述探针特异性识别预定区域,其中,所述预定区域包括下列之一:(1)表1所示基因的至少之一;(2)(1)的CDS区域;以及(3)(2)的上下游至少10bp的区域;(d)利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物,其中,所述第一引物包括第二标签序列,并且所述第一引物适于与所述接头的第一链形成双链结构,只是所述第一标签序列与所述第二标签序列之间存在错配;(e)对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文库,其中,所述扩增采用适于同时扩增所述第一标签序列和所述第二标签序列的引物。
【技术特征摘要】
1.一种构建测序文库的方法,其特征在于,包括:
(a)在双链DNA片段的两端分别连接接头,以便获得连接产物,其中,所述接头包
括第一链和第二链,所述第一链和第二链部分匹配并且所述第一链包含第一标签序列,以
便所述接头上限定出双链区和两个单链尾部,所述两个单链尾部之一的序列中包含第一标
签;
(b)将所述连接产物裂解为单链DNA片段;
(c)利用探针对所述单链DNA片段进行筛选,其中,所述探针特异性识别预定区域,
其中,所述预定区域包括下列之一:
(1)表1所示基因的至少之一;
(2)(1)的CDS区域;以及
(3)(2)的上下游至少10bp的区域;
(d)利用第一引物对所述单链DNA片段进行链延伸反应,以便获得链延伸产物,其
中,所述第一引物包括第二标签序列,并且所述第一引物适于与所述接头的第一链形成双
链结构,只是所述第一标签序列与所述第二标签序列之间存在错配;
(e)对所述链延伸产物进行扩增,以便获得扩增产物,所述扩增产物构成所述测序文
库,其中,所述扩增采用适于同时扩增所述第一标签序列和所述第二标签序列的引物。
2.根据权利要求1所述的方法,其特征在于,所述双链DNA片段是通过下列步骤获
得的:
将核酸样本进行末端修复,以便获得经过修复的核酸样本;以及
在所述核酸样本的5’末端添加碱基A,以便获得两端分别具有粘性末端碱基A的核酸
样本,所述两端分别具有粘性末端碱基A的核酸样本构成所述双链DNA片段,
任选地,所述核酸样本为人基因组DNA的至少一部分或游离核酸,
任选地,所述人游离核酸是从患者的外周血提取的,
任选地,所述患者患有结直肠癌,
任选地,所述人基因组DNA的至少一部分是通过对人基因组DNA进行随机打断而获
得的,
任选地,所述接头具有3’碱基T粘性末端,
任选地,所述单链DNA片段是通过将所述连接产物进行变性处理获得的,
任选地,所述探针是以芯片的形式提供的,
任选地,在存在UDG酶/FPG酶时,进行所述链延伸反应,
任选地,所述第一标签序列和所述第二标签序列分别独立地长度为4~10nt,优选8nt,
任选地,所述第一标签序列和所述第二标签序列的长度均为8nt,
任选地,所述第一标签序列和所述第二标签序列之间存在至少2nt的错配,
任选地,所述接头的第一链具有SEQ ID NO:1所示的序列,所述接头的第二链具有
SEQ ID NO:2所示的序列,所述第一标签具有SEQ ID NO:3-6中至少之一所示的序列,
所述第二标签具有SEQ ID NO:7-10中至少之一所示的序列,所述第一引物具有SEQ ID
NO:11所示的序列,所述第二引物具有SEQ ID NO:12所示的序列,所述第三引物具有
SEQ ID NO:13所示的序列。
3.一种测序方法,其特征在于,包括:
根据权利要求1或2所述的方法构建测序文库;
对所述测序文库进行测序,
任选地,在Hiseq2000或Hiseq2500上进行所述测序。
4.一种确定核酸序列的方法,其特征在于,包括:
针对核酸样本,根据权利要求3所述的方法进行测序,以便获得由多个测序数据构成
的测序结果;
基于所述测序结果,构建至少一个测序数据子集,其中,每个测序数据子集中的所有
测序数据均对应核酸样本上相同的源序列;
针对每一个测序数据子集,分别确定与所述第一标签序列对应的测序数据为正链测序
数据,与所述第二标签序列对应的测序数据为负链测序数据;
针对每一个测序数据子集,分别基于所述正链测序数据和所述负链测序数据,对测序
数据进行校正,以便确定经过校正的测序数据;以及
基于所述经过校正的测序数据,确定所述核酸样本的序列。
5.根据权利要求4所述的方法,其特征在于,所述测序为双末端测序,所述测序结果
由多对成对的测序数据构成,
任选地,基于所述测序结果,构建至少一个测序数据子集是通过下列步骤进行的:
针对所述多对成对的测序数据的每一对,确定成对测序数据索引,所述成对测序数据
索引由成对的测序数据的每一个的最初N个碱基构成,其中,N为10~20之间的整数;
基于所述成对测序数据索引,构建至少一个初步测序数据子集,其中,所述初步测序
数据子集中的每一个测序数据均具有相同的成对测序数据索引;以及
基于所述初步测序数据子集中测序数据之间的汉明距离,对所述至少一个初步测序数
据子集进行细分,以便获得多个所述测序数据子集,
任选地,N为12,
任选地,在所述多个测序数据子集的每一个中,任意两对成对测序数据的汉明距离不
超过20,
任选地,在所述多个测序数据子集的每一个中,正链测序数据和负链测序数据分别为
至少两个,
任选地,基于所述正链测序数据和所述负链测序数据,确定经过校正的测序数据是基
于下列原则进行的:
经过校正的测序数据中的每一个碱基同时获得至少50%正链测序数据和至少50%负链
测序数据的支持,
任选地,经过校正的测序数据中的每一个碱基同时获得至少80%正链测序数据和至少
80%负链测序数据的支持,
任选地,进一步包括:
将所述经过校正的测序数据比对至参考序列上,并删除比对质量小于30的测序数据,
任选地,基于所述核酸样本的序列,进行SNV分析或In...
【专利技术属性】
技术研发人员:管彦芳,钱朝阳,吕小星,常连鹏,易鑫,朱红梅,杨玲,吴仁花,
申请(专利权)人:天津华大基因科技有限公司,深圳华大基因科技有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。