第三代测序用标签序列、接头序列、试剂盒和第三代测序建库方法技术

技术编号:23621711 阅读:43 留言:0更新日期:2020-03-31 19:56
一种第三代测序用标签序列、接头序列、试剂盒和第三代测序建库方法。标签序列由若干连续的碱基组成,碱基中至少部分碱基是甲基化的碱基。接头序列包括上述标签序列。本发明专利技术使用甲基化的标签序列能够对常规拆分方法无法拆分的第三代测序数据进行拆分,大大提高了第三代测序数据的拆分率,本发明专利技术能够使第三代测序数据的整体拆分率达到85%左右。

Tag sequence, connector sequence, kit and library building method for the third generation sequencing

【技术实现步骤摘要】
第三代测序用标签序列、接头序列、试剂盒和第三代测序建库方法
本专利技术涉及第三代测序
,具体涉及一种第三代测序用标签序列、接头序列、试剂盒和第三代测序建库方法。
技术介绍
第三代测序(如Pacbio平台测序)基于边合成边测序的原理,以SMRT(单分子实时荧光测序技术)芯片为载体进行测序反应。测序时将基因组DNA打断成许多小片段,制成液滴后将其分散到不同的ZMW(zero-modewaveguides,零模波导)纳米孔中。当ZMW纳米孔底部聚合反应发生时,被不同荧光标记的核苷酸会在小孔的荧光探测区域中被聚合酶滞留,根据荧光的种类和荧光持续时间就可以判定模板DNA碱基组成的种类。Pacbio平台上每个SMRT芯片有100万个ZMW测序孔,平均可以产出5-15G数据,但是对于基因组较小的物种,所需要的数据量较少(数据需求小于1G),往往需要把每个样本加上不同的分子标签(也称“标签序列”),混合测序,最后通过标签序列拆分每个样本的序列。第二代测序平台,每张芯片可以产生多达1T的数据,但是单个样本一般不需要这么多数据,所以为了充分了利用第二代平台的测序数据,科学家专利技术设计了DNA标签序列(barcode),将已知的标签序列连接在DNA文库的两端,然后将带有不同标签序列的样本混合到一起测序,将测序的数据进行标签序列拆分到对应样本。目前由于第二代测序在测序过程中只能读取识别ATGC四种碱基,所以科学家随机使用ATGC四种碱基设计标签序列,不同测序平台标签序列碱基数不同。例如BGIseq500平台,一般在文库的两端各加入10个碱基的标签序列(ATCG四种碱基随机分布)。第三代测序在设计标签序列时,参考了第二代测序平台标签序列设计方法,使用ATGC四种碱基设计标签序列(例如,长度为16个碱基的标签)连接到文库的两端,然后根据标签序列对测序数据进行拆分。如图1所示,第三代测序的接头为环状接头,16个碱基的标签序列(barcode)位于插入片段(insert)与接头之间。当文库的插入片段较短时,文库可以反复读多次,标签序列也会反复被识别,根据文库两端的标签序列即可拆分出子文库的对应信息。当文库较长时,聚合酶可能读不到标签序列,此时大部分数据无法拆分到各个子文库,造成数据浪费。第三代测序文库插入片段长度大致在5-8kb,没有充分的发挥第三代测序读长的优势(目前读长15-20kb),同时由于标签序列设计方面的问题,拆分率大致在60-70%左右,造成30-40%的数据浪费,无形中增加了测序成本,限制了第三代测序平台的发展。
技术实现思路
本专利技术提供一种提高第三代测序数据拆分率的标签序列、接头序列、试剂盒和第三代测序建库方法。根据第一方面,一种实施例中提供一种第三代测序用标签序列,该标签序列由若干连续的碱基组成,上述碱基中至少部分碱基是甲基化的碱基。作为优选的技术方案,上述碱基中至少一种类型的碱基全部是甲基化的碱基;优选地,上述碱基中只有一种类型的碱基全部是甲基化的碱基;更优选地,上述碱基中腺嘌呤碱基全部是6-甲基腺嘌呤(6mA);或者,上述碱基中胞嘧啶碱基全部是4-甲基胞嘧啶(4mC)或5-甲基胞嘧啶(5mC)。作为优选的技术方案,上述标签序列由6至20个碱基组成;优选地,上述标签序列由16个碱基组成。根据第二方面,一种实施例中提供一种第三代测序用接头序列,该接头序列包括标签序列和与上述标签序列连接的其他序列,上述标签序列由若干连续的碱基组成,上述碱基中至少部分碱基是甲基化的碱基。作为优选的技术方案,上述标签序列的碱基中至少一种类型的碱基全部是甲基化的碱基;优选地,上述标签序列的碱基中只有一种类型的碱基全部是甲基化的碱基;更优选地,上述标签序列的碱基中腺嘌呤碱基全部是6-甲基腺嘌呤(6mA);或者,上述标签序列的碱基中胞嘧啶碱基全部是4-甲基胞嘧啶(4mC)或5-甲基胞嘧啶(5mC)。作为优选的技术方案,上述标签序列由6至20个碱基组成;优选地,上述标签序列由16个碱基组成。根据第三方面,一种实施例中提供一种第三代测序用试剂盒,该试剂盒包括第二方面的接头序列;任选地,还包括建库用试剂组分。根据第四方面,一种实施例中提供第一方面的标签序列或第二方面的接头序列在构建第三代测序文库中的用途。根据第五方面,一种实施例中提供一种第三代测序文库构建方法,该方法包括使用第二方面的接头序列与待连接的核酸片段进行连接形成带有上述接头序列的测序文库。作为优选的技术方案,上述方法还包括:在连接上述接头序列之前,对上述待连接的核酸片段进行末端修复或末端修复并加A碱基反应,形成适合与上述接头序列连接的核酸片段;在连接上述接头序列之后,使用消化酶消化未连接的核酸片段和未连接的接头序列。根据第六方面,一种实施例中提供一种第三代测序方法,该方法包括:第三代测序文库构建,其包括使用第二方面的接头序列与待连接的核酸片段进行连接形成带有上述接头序列的测序文库;和对上述测序文库进行第三代上机测序。作为优选的技术方案,上述第三代上机测序是Pacbio平台测序。本专利技术使用甲基化的标签序列能够对常规拆分方法无法拆分的第三代测序数据进行拆分,大大提高了第三代测序数据的拆分率,本专利技术能够使第三代测序数据的整体拆分率达到85%左右。附图说明图1为本专利技术中第三代测序文库结构示意图,两端连接有环状接头,接头中的标签序列(barcode)位于插入片段(insert)与环状接头之间。图2为本专利技术实施例中使用含有6-甲基腺嘌呤(6mA)的标签序列进行第三代测序的碱基读取原理示意图,横坐标表示时间(Time),纵坐标表示荧光强度(FluorescenceIntensity);图中示出当遇到6mA甲基化修饰碱基时(上图),光强持续时间较长、光强较弱;当碱基上无修饰时(下图),光强相对较强、持续时间较短。具体实施方式下面通过具体实施方式结合附图对本专利技术作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本专利技术能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。本专利技术涉及第三代单分子测序
,目的在于通过设计一种甲基化的接头,使得有效样本的整体拆分率提升至85%以上。由于第三代测序为单分子实时荧光测序技术,在测序过程中,可以检测聚合酶荧光强度和持续时间直接读取到甲基化修饰。在建库测序过程中,不需要进行任何出库,是一种直接获取甲基化修饰的方法。具体而言,第三代单分子测序技术,在获取超长读长的同时,本文档来自技高网
...

【技术保护点】
1.一种第三代测序用标签序列,其特征在于,所述标签序列由若干连续的碱基组成,所述碱基中至少部分碱基是甲基化的碱基。/n

【技术特征摘要】
1.一种第三代测序用标签序列,其特征在于,所述标签序列由若干连续的碱基组成,所述碱基中至少部分碱基是甲基化的碱基。


2.根据权利要求1所述的标签序列,其特征在于,所述碱基中至少一种类型的碱基全部是甲基化的碱基;优选地,所述碱基中只有一种类型的碱基全部是甲基化的碱基;更优选地,所述碱基中腺嘌呤碱基全部是6-甲基腺嘌呤(6mA);或者,所述碱基中胞嘧啶碱基全部是4-甲基胞嘧啶(4mC)或5-甲基胞嘧啶(5mC)。


3.根据权利要求1所述的标签序列,其特征在于,所述标签序列由6至20个碱基组成;优选地,所述标签序列由16个碱基组成。


4.一种第三代测序用接头序列,其特征在于,所述接头序列包括标签序列和与所述标签序列连接的其他序列,所述标签序列由若干连续的碱基组成,所述碱基中至少部分碱基是甲基化的碱基。


5.根据权利要求4所述的接头序列,其特征在于,所述标签序列的碱基中至少一种类型的碱基全部是甲基化的碱基;优选地,所述标签序列的碱基中只有一种类型的碱基全部是甲基化的碱基;更优选地,所述标签序列的碱基中腺嘌呤碱基全部是6-甲基腺嘌呤(6mA);或者,所述标签序列的碱基中胞嘧啶碱基全部是4-甲基胞嘧啶(4mC)或5-甲基胞嘧啶(5mC)...

【专利技术属性】
技术研发人员:黄标骆备黄金吴传文
申请(专利权)人:武汉华大医学检验所有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1