基于高通量测序的PCR产物大样本量混合建库的文库构建方法和试剂技术

技术编号:18885446 阅读:78 留言:0更新日期:2018-09-08 07:11
本发明专利技术公开了一种基于高通量测序的PCR产物大样本量混合建库的文库构建方法和试剂。方法包括:将来源于不同样本DNA的多个PCR产物中的每一个,分别与带有标签序列的随机引物进行退火,并在恒温扩增酶的作用下进行恒温扩增反应;将不同样本来源的恒温扩增产物混合,并对混合产物进行片段选择;对片段选择的产物进行5’磷酸化平末端修复和3’末端加A反应;与接头序列连接,以得到能够区分文库信息的连接产物;对连接产物进行PCR扩增,以得到适用于高通量测序的上机文库。本发明专利技术不依赖于超声打断仪器;实现混合建库,降低建库成本及复杂度;减少数据浪费,提高测序数据的碱基随机性、覆盖深度均一性,从而降低单个样本的测序成本。

High throughput sequencing based library construction method and reagent for large sample mixture of PCR products

The invention discloses a library construction method and reagent for large sample size hybrid library construction of PCR products based on high-throughput sequencing. Methods: Each of the multiple PCR products from different samples was annealed with random primers with tagged sequences, and isothermal amplification was performed under the action of isothermal amplification enzymes; the isothermal amplification products from different sources were mixed and fragments were selected; the fragments were selected. The selected products were repaired by 5'-phosphorylated flat-end repair and 3'-terminal plus A reaction; ligated to the junction sequence to obtain the ligated products which could distinguish library information; and the ligated products were amplified by PCR to obtain the on-line library suitable for high-throughput sequencing. The invention does not depend on ultrasonic interrupting instrument, realizes mixed database building, reduces database building cost and complexity, reduces data waste, improves base randomness and coverage depth uniformity of sequencing data, and thus reduces the sequencing cost of a single sample.

【技术实现步骤摘要】
基于高通量测序的PCR产物大样本量混合建库的文库构建方法和试剂
本专利技术涉及文库构建
,尤其涉及一种基于高通量测序的PCR产物大样本量混合建库的文库构建方法和试剂。
技术介绍
随着测序技术的发展,基因测序已进入千元基因组时代,但是对全基因组进行测序,其测序成本及分析成本依然是非常昂贵的。因此对外显子区域或者感兴趣的特定区域进行捕获测序则更符合实际需求。对于少数几个或者数十个目的基因扩增序列的二代测序文库构建,常常采用单管扩增后混合建库或者多重PCR。由于每个样本的目标区域小,而数据需求量低,所以一般都需要对成百上千个样本进行混合测序,而在常规的文库构建方法情况下,是先将样本DNA进行打断,再在加接头环节将不同样本的插入片段分别加上带有不同文库标签序列的接头,以便于下机数据进行样本的拆分。上述方法工作量大,难以进行大样本量的混合建库。常规的高通量测序小片段文库的构建方法,是将样本DNA分别进行随机打断,进行末端修复及加“A”碱基,再给不同样本的DNA片段分别加上带有不同标签序列的接头,加接头产物即可进行混合建库上机。该方法由于需要对每个样本单独进行酶反应及纯化,建库成本高、工作量大,而且依赖于超声波打断设备。为了降低建库的成本及工作量,实现大样本的混合建库,需尽可能在更早的环节在不同样本的PCR产物上加上用以区分样本的标签序列。除了上述的常规建库方法外,一种方法是在PCR环节,在特异性引物的5’端加上特定的标签序列,PCR产物混合后经不完全随机打断后建库并进行双端测序,部分插入片段带有标签序列则可区分样本信息,而部分不带有标签序列的数据则为无效数据。上述方法操作简单,但存在以下方面的问题:一是由于超声打断后,部分插入片段丢失了区分样本信息的标签序列,所以会产生部分无效数据,造成数据的浪费;二是为了实现序列的全覆盖,必须使用双端测序,插入片段大小范围较大,文库质量相对较差,影响下机数据质量;三是依赖于超声波打断设备。
技术实现思路
本专利技术提供一种基于高通量测序的PCR产物大样本量混合建库的文库构建方法和试剂,不依赖于超声打断仪器;实现混合建库,降低建库成本及复杂度;减少数据浪费,提高测序数据的碱基随机性、覆盖深度均一性,从而降低单个样本的测序成本。根据本专利技术的第一方面,本专利技术提供一种基于高通量测序的PCR产物大样本量混合建库的文库构建方法,包括:(1)将来源于不同样本DNA的多个PCR产物中的每一个,分别与带有标签序列的随机引物进行退火,并在恒温扩增酶的作用下进行恒温扩增反应,得到能够区分样本来源的恒温扩增产物,其中上述带有标签序列的随机引物的序列结构如下:X(m)N(n),其中X(m)表示标签序列,其长度为4~15个碱基,用于区分样本来源;N(n)表示随机碱基序列,其长度为6~10个碱基,用于与上述PCR产物随机结合;(2)将不同样本来源的恒温扩增产物混合,并对混合产物进行片段选择;(3)对上述片段选择的产物进行5’磷酸化平末端修复和3’末端加A反应,以得到具有5’磷酸化和3’粘性末端A的DNA片段;(4)将上述DNA片段与接头序列连接,以得到能够区分文库信息的连接产物,其中上述接头序列含有用于区分文库的条形码序列;(5)对上述连接产物进行PCR扩增,以得到适用于高通量测序的上机文库。进一步地,上述标签序列X(m)长度为6个碱基,上述随机碱基序列N(n)长度为6个碱基。进一步地,上述步骤(1)中的PCR产物是目标区域特异性PCR产物。进一步地,上述步骤(1)中的PCR产物是单重或者多重PCR反应的产物,其长度大于400bp。进一步地,上述步骤(1)中的PCR产物的量是10-50ng。进一步地,上述标签序列X(m)选自如下标签01至标签48所示的序列中任意一个:进一步地,上述步骤(1)中的恒温扩增酶是phi29DNA聚合酶。进一步地,上述接头序列包括正链和负链,其中上述正链如SEQIDNO:1所示的序列,上述负链如SEQIDNO:2所示的序列,5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’(SEQIDNO:1);5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG-3’(SEQIDNO:2),其中NNNNNNNN表示上述条形码序列。根据本专利技术的第二方面,本专利技术提供一种基于高通量测序的PCR产物大样本量混合建库的文库构建试剂盒,包括:带有标签序列的随机引物,其序列结构如下:X(m)N(n),其中X(m)表示标签序列,其长度为4~15个碱基,用于区分样本来源;N(n)表示随机碱基序列,其长度为6~10个碱基,用于与上述PCR产物随机结合;上述带有标签序列的随机引物分别用于与来源于不同样本DNA的多个PCR产物中的每一个进行退火,并在恒温扩增酶的作用下进行恒温扩增反应,以便得到能够区分样本来源的恒温扩增产物。进一步地,上述标签序列X(m)长度为6个碱基,上述随机碱基序列N(n)长度为6个碱基。本专利技术的有益效果体现在:(1)不依赖于超声打断仪器:本专利技术的方法采用随机引物恒温扩增法对样本DNA进行随机扩增,扩增产物呈弥散状,经片段选择后可用于建库,而不依赖于超声波打断仪。(2)降低建库成本:在进行PCR产物的恒温扩增时,采用的是带有特定标签序列的随机引物,扩增产物在两端均带有特定标签序列,可将不同样本的恒温扩增产物进行混合建库,而不需如现有建库方法中单独对每个样本进行末端修复及加“A”、加接头,极大的降低建库成本。(3)提高数据利用率,降低测序成本:经过恒温扩增反应,所得插入片段均带有各自特定的标签序列,不同于在PCR引物两端加标签序列,打断后部分片段丢失标签序列,不会造成数据浪费;而且测序数据随机分布在目标序列上,各位点覆盖深度均一度较好,整体数据需求量更低。(4)提高测序质量:恒温扩增产物大小呈随机弥散状,此时可根据测序策略决定片段选取的大小及范围,经切胶或者磁珠片段选择后,其插入片段相比之下更为集中,文库质量更好;此外采用随机引物进行扩增,下机数据碱基随机性更好。附图说明图1为本专利技术实施例1中PCR产物经恒温扩增后的产物大小电泳图;其中,1表示TiangenD2000DNAladder,2表示恒温反应37℃30min(加酶),3表示恒温反应37℃30min(未加酶),4和5表示恒温扩增37℃60min(加酶),7和8表示恒温扩增37℃60min(未加酶);图2为本专利技术实施例1中恒温扩增产物经磁珠片段选择产物的Ageilent2100bioanalyzer片段大小分析图;图3为本专利技术实施例1中下机数据对特定PCR区域的序列覆盖深度及随机分布图。具体实施方式下面通过具体实施方式结合附图对本专利技术作进一步详细说明。本专利技术提出了一种基于高通量测序的PCR产物大样本量混合建库的文库构建方法,包括:(1)将来源于不同样本DNA的多个PCR产物中的每一个,分别与带有标签序列的随机引物进行退火,并在恒温扩增酶的作用下进行恒温扩增反应,得到能够区分样本来源的恒温扩增产物,其中上述带有标签序列的随机引物的序列结构如下:X(m)N(n),其中X(m)表示标本文档来自技高网
...

【技术保护点】
1.一种基于高通量测序的PCR产物大样本量混合建库的文库构建方法,其特征在于,包括:(1)将来源于不同样本DNA的多个PCR产物中的每一个,分别与带有标签序列的随机引物进行退火,并在恒温扩增酶的作用下进行恒温扩增反应,得到能够区分样本来源的恒温扩增产物,其中所述带有标签序列的随机引物的序列结构如下:X(m)N(n),其中X(m)表示标签序列,其长度为4~15个碱基,用于区分样本来源;N(n)表示随机碱基序列,其长度为6~10个碱基,用于与所述PCR产物随机结合;(2)将不同样本来源的恒温扩增产物混合,并对混合产物进行片段选择;(3)对所述片段选择的产物进行5’磷酸化平末端修复和3’末端加A反应,以得到具有5’磷酸化和3’粘性末端A的DNA片段;(4)将所述DNA片段与接头序列连接,以得到能够区分文库信息的连接产物,其中所述接头序列含有用于区分文库的条形码序列;(5)对所述连接产物进行PCR扩增,以得到适用于高通量测序的上机文库。

【技术特征摘要】
1.一种基于高通量测序的PCR产物大样本量混合建库的文库构建方法,其特征在于,包括:(1)将来源于不同样本DNA的多个PCR产物中的每一个,分别与带有标签序列的随机引物进行退火,并在恒温扩增酶的作用下进行恒温扩增反应,得到能够区分样本来源的恒温扩增产物,其中所述带有标签序列的随机引物的序列结构如下:X(m)N(n),其中X(m)表示标签序列,其长度为4~15个碱基,用于区分样本来源;N(n)表示随机碱基序列,其长度为6~10个碱基,用于与所述PCR产物随机结合;(2)将不同样本来源的恒温扩增产物混合,并对混合产物进行片段选择;(3)对所述片段选择的产物进行5’磷酸化平末端修复和3’末端加A反应,以得到具有5’磷酸化和3’粘性末端A的DNA片段;(4)将所述DNA片段与接头序列连接,以得到能够区分文库信息的连接产物,其中所述接头序列含有用于区分文库的条形码序列;(5)对所述连接产物进行PCR扩增,以得到适用于高通量测序的上机文库。2.根据权利要求1所述的文库构建方法,其特征在于,所述标签序列X(m)长度为6个碱基,所述随机碱基序列N(n)长度为6个碱基。3.根据权利要求1或2所述的文库构建方法,其特征在于,所述步骤(1)中的PCR产物是目标区域特异性PCR产物。4.根据权利要求1或2所述的文库构建方法,其特征在于,所述步骤(1)中的PCR产物是单重或者多重PCR反应的产物,其长度大于400bp。5.根据权利要求1或2所述的文库构建方法,其特征在于,所述步骤(1)中的PCR产物的量是10-50ng。6.根据权利要求...

【专利技术属性】
技术研发人员:陈建国陈川张静王瑢杨传春张文勇
申请(专利权)人:深圳市乐土精准医疗科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1