用于DNA文库制备的标签组、标签引物及试剂盒制造技术

技术编号:37048639 阅读:10 留言:0更新日期:2023-03-29 19:26
本申请提供了用于DNA文库制备标签组、接头及试剂盒。其中,标签组为如式1所示核苷酸序列组成。通过对于用于区分各样本的标签序列进行了针对性设计,改良了标签序列筛选规则,优化了标签接头的可靠性和易用性,并进行了大量详尽的实际建库测序分析确认,使包括标签序列接其能够能好地满足DNBSEQ T7测序平台的真实建库上机需求。建库上机需求。建库上机需求。

【技术实现步骤摘要】
用于DNA文库制备的标签组、标签引物及试剂盒


[0001]本专利技术涉及高通量测序文库构建领域,具体而言,涉及用于DNA文库制备的标签组、接头及试剂盒。

技术介绍

[0002]华大智造基因测序仪采用先进的DNBSEQTM测序核心技术,通过仪器气液系统先将DNA纳米球(DNA nanoball,DNB)泵入到规则阵列芯片(Patterned Array)并加以固定,然后泵入测序模板及测序试剂。所有跟DNB相关的测序技术都属于DNBSEQTM。DNBSEQTM测序技术主要包括:DNA单链环化和DNB制备,规则阵列芯片(Patterned Array),DNB加载,cPAS(combinatorial Probe Anchor Synthesis联合探针锚定聚合测序法),双端测序技术,以及配合的流体和光学检测技术和碱基识别算法等。cPAS已经广泛地应用于BGISEQ—500,BGISEQ—50,MGISEQ—200,MGISEQ—2000以及DNBSEQ—T7等测序平台。
[0003]对于DNBSEQ T7测序平台,单张芯片即有1.5T(1500G)左右的数据量产出;而实际上机pooling时,对于常规的单个测序文库需求数据量在10G以内甚至更少的情况,在大规模平行测序过程中需要大量稳定的标签以区分实际需要多样本文库混合在同一芯片上机的需求。
[0004]实际的DNBSEQ T7上机使用中至少需要数百种不同标签组类型,以应对1.5T数据量下可能日常频繁出现的几百个文库同时上机的情况。同时由于测序平台特性,测序碱基的不平衡会影响信号的收集,使得芯片上信号出现覆盖现象,严重可影响测序数据的准确性。因此需要对标签及标签接头的序列种类进行大规模的适应性设计,并评估其易用性并进行设计改善。

技术实现思路

[0005]本专利技术的主要目的在于通过对于用于区分各样本的标签序列进行了针对性设计,改良了标签序列筛选规则,提升了标签接头在实际DNA建库过程中的可靠性、易用性和平衡性,
[0006]具体来说,本申请涉及如下技术方案:
[0007]1.用于DNA文库制备的标签组,其特征在于,
[0008]所述每个标签组中含有x个标签组成,x=4n,n取任意非零的自然数;
[0009]所述标签序列为一段寡核苷酸序列;
[0010]所述标签组内标签序列为如式1所示核苷酸序列,
[0011]式1:(N
x
)
a
=5'—N
x1
N
x2
N
x3

N
xa
—3';
[0012]其中,N选自A、T、G、C四种碱基核苷酸中的任意一种,(N1)
a
~(N
x
)
a
为一组内的所有标签序列,每条序列为a个碱基组成的核苷酸序列,a为标签序列长度,a取大于等于6的自然数;
[0013]所述标签组中,组内N
11~
~N
x1
、N
12~
~N
x2


、N
1a~
~N
xa
序列中A碱基占25%,G碱基
占25%;
[0014]所述每条标签序列中不含有连续3个以上相同的碱基。
[0015]2.根据项1所述的标签组,其特征在于,
[0016]所述每个标签组中含有四条标签序列,即x=4;
[0017]所述标签组序列为如式1

1~式1

4所示核苷酸序列;
[0018]式1

1:(N1) a
=5'—N
11
N
12
N
13

N
1a
—3'
[0019]式1

2:(N2) a
=5'—N
21
N
22
N
23

N
2a
—3'
[0020]式1

3:(N3) a
=5'—N
31
N
32
N
33

N
3a
—3'
[0021]式1

4:(N4) a
=5'—N
41
N
42
N
43

N
4a
—3'
[0022]其中,(N1)
a
~(N4)
a
为一组内的四条标签序列;
[0023]所述标签组中,组内N
11~
~N
41
、N
12~
~N
42


、N
1a~
~N
4a
序列中A碱基占25%,G碱基占25%。
[0024]3.根据项1所述的标签组,其特征在于,每个所述标签序列不含有与文库构建和/或基因测序过程中使用的任何引物和/或标签序列本身内部序列间互补和/或反向互补结合的6个以上连续的碱基。
[0025]4.根据项1所述的标签组,其特征在于,所述标签组中的任意标签序列两两之间的汉明距离大于等于3。
[0026]5.据项1所述的标签组,其特征在于,所述标签序列的长度a为8~20bp,优选为10bp。
[0027]6.DNA标签文库,其特征在于使用权利要求1中所述的标签序列构建。
[0028]7.用于基因测序的接头,其特征在于,所述的接头的序列中含有权利要求1中所述的标签序列;
[0029]优选地,每个所述接头序列中不含有与文库构建和/或基因测序过程中使用的任何引物和/或接头序列本身内部互补和/或反向互补结合的6个以上连续的碱基。
[0030]8.根据项7所述的标签接头,其特征在于,所述接头序列还包括第一接头部分和第二接头部分,所述标签序列分别与第一接头部分和第二接头部分连接;
[0031]优选地,所述接头包括3

端接头和/或5

端接头;
[0032]所述3

端接头的正向序列,标签序列上游为第一接头部分,与待测序列连接,下游为第二接头部分,与测序芯片连接序列;
[0033]所述5

端接头的反向序列标签序列下游为第一接头部分带有T碱基粘性末端的序列,与待测序列连接,上游为第二接头部分序列;
[0034]优选地,所述的3

端标签接头的正向序列中,所述第一接头部分的序列为:AGTCGGAGGCCAAGCGGTCTTAGGAAGACAA(SEQ ID No:1);
[0035]所述第二接头部分的序列为:CAACTCCTTGGCTCACA(SEQ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于DNA文库制备的标签组,其特征在于,所述每个标签组中含有x个标签组成,x=4n,n取任意非零的自然数;所述标签序列为一段寡核苷酸序列;所述标签组内标签序列为如式1所示核苷酸序列,式1:(N
x
)
a
=5'—N
x1
N
x2
N
x3

N
xa
—3';其中,N选自A、T、G、C四种碱基核苷酸中的任意一种,(N1)
a
~(N
x
)
a
为一组内的所有标签序列,每条序列为a个碱基组成的核苷酸序列,a为标签序列长度,a取大于等于6的自然数;所述标签组中,组内N
11~
~N
x1
、N
12~
~N
x2


、N
1a~
~N
xa
序列中A碱基占25%,G碱基占25%;所述每条标签序列中不含有连续3个以上相同的碱基。2.根据权利要求1所述的标签组,其特征在于,所述每个标签组中含有四条标签序列,即x=4;所述标签组序列为如式1

1~式1

4所示核苷酸序列;式1

1:(N1) a
=5'—N
11
N
12
N
13

N
1a
—3'式1

2:(N2) a
=5'—N
21
N
22
N
23

N
2a
—3'式1

3:(N3) a
=5'—N
31
N
32
N
33

N
3a
—3'式1

4:(N4) a
=5'—N
41
N
42
N
43

N
4a
—3'其中,(N1)
a
~(N4)
a
为一组内的四条标签序列;所述标签组中,组内N

【专利技术属性】
技术研发人员:柳青陈晓丹李志民王娟
申请(专利权)人:浙江安诺优达生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1