对照文库及其构建方法技术

技术编号:19712375 阅读:37 留言:0更新日期:2018-12-08 18:21
本发明专利技术提出了一种对照文库,该对照文库由多个构建体构成,多个构建体分别含有:插入片段,该插入片段来自于人类基因组DNA的至少一部分;以及测序接头序列,该测序接头序列形成在所述插入片段的两侧末端,其中,插入片段中的A、T、G和C碱基的含量均在20~30%之间。根据本发明专利技术实施例的对照文库,实现了对照文库成本的大幅降低,将其应用于碱基不平衡文库测序,碱基不平衡文库测序的质量和产量的得到显著提升。

【技术实现步骤摘要】
对照文库及其构建方法
本专利技术涉及生物领域,具体地,本专利技术涉及对照文库及其构建方法,更具体地,本专利技术涉及对照文库、构建对照文库的方法以及测序方法。
技术介绍
碱基复杂度与碱基多样性是一个意思;复杂度高,碱基即平衡。低多样性(lowdiversity)即碱基不平衡,指碱基的组成太单纯了,种类少。对于一个基因来说,它所包含的碱基种类越多,则碱基复杂度越高;如果各种碱基的百分含量越接近一致,则碱基组成越平衡。4张滤色片,在4个波长处收集信号,然后合成,进行cluster定位及其他运算。如果序列缺少一种碱基,该波长的照片就是全黑的,没有信号,无法完成图片合并以及cluster定位,导致数据浪费。因此,对于碱基不平衡文库上机测序时,illumina通常建议在不平衡文库所在lane中加入其公司的Phixcontrol文库,旨在通过减小整lane文库的碱基波动来提高不平衡文库的测序质量和产量,使得碱基不平衡文库可以正常测序。Phix是一种病毒,其基因组GC%含量在45%左右,AT含量在55%左右。Illumina的Phixcontrol文库是一种碱基较为平衡的文库,该文库的插入片段(Insertsize)在375bp左右,文库中没有加入index。然而,如何进一步有效提高不平衡文库的测序质量和产量仍是科学工作者拭待解决的关键问题。
技术实现思路
本申请是基于专利技术人对以下事实和问题的发现和认识作出的:Phixcontrol文库插入片段单一(仅375bp这一类),与片段偏大的碱基不平衡文库(eg:600bp)pooling时由于测序偏向性影响,会容易造成碱基不平衡文库产量偏低。Phixcontrol文库没有index,Illumina认为其不需要加入index,后期可通过数据比对等方式来剔除phix数据。然而,在实际测序时发现并不能完全去除phix数据,导致会出现phix污染样品数据的问题。本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,在本专利技术的第一方面,本专利技术提出了一种对照文库。根据本专利技术的实施例,所述对照文库由多个构建体构成,所述多个构建体分别含有:插入片段,所述插入片段来自于人类基因组DNA的至少一部分;以及测序接头序列,所述测序接头序列形成在所述插入片段的两侧末端,其中,所述插入片段中的A、T、G和C碱基的含量均在20~30%之间。根据本专利技术实施例的对照文库,实现了文库成本的大幅降低,将其应用于碱基不平衡文库测序,碱基不平衡文库测序的质量和产量的得到显著提升。在本专利技术的第二方面,本专利技术提出了一种构建对照文库的方法。根据本专利技术的实施例,所述方法包括:在插入片段的两末端添加测序接头序列,以便获得多个构建体,所述多个构建体构成所述对照文库,其中,所述插入片段来源于人类基因组DNA至少一部分,所述插入片段中的A、T、G和C碱基的含量均在20~30%之间。利用根据本专利技术实施例的上述构建对照文库的方法,所获得的对照文库实现了文库成本的大幅降低,将其应用于碱基不平衡文库测序,碱基不平衡文库测序的质量和产量的得到显著提升。在本专利技术的第三方面,本专利技术提出了一种测序方法。根据本专利技术的实施例,所述方法包括:(1)将前面所述的对照文库与待测文库混合,以便获得混合文库;(2)在测序平台上对所述混合文库进行测序。利用根据本专利技术实施例的上述测序方法,文库测序的质量和产量的得到显著提升。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1是根据本专利技术实施例的对照文库构建流程图;图2是根据本专利技术实施例的碱基不平衡文库A的碱基(Base)图;以及图3是根据本专利技术实施例的加入40%300bpHumancontrol后的文库A的碱基(Base)图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。对照文库在本专利技术的第一方面,本专利技术提出了一种对照文库。根据本专利技术的实施例,所述对照文库由多个构建体构成,所述多个构建体分别含有:插入片段,所述插入片段来自于人类基因组DNA的至少一部分;以及测序接头序列,所述测序接头序列形成在所述插入片段的两侧末端,其中,所述插入片段中的A、T、G和C碱基的含量均在20~30%之间。根据本专利技术实施例的对照文库,实现了文库成本的大幅降低,将其应用于碱基不平衡文库测序,碱基不平衡文库测序的质量和产量的得到显著提升。根据本专利技术的具体实施例,所述插入片段包括长插入片段和短插入片段,所述短插入片段的长度为250~350bp,优选300bp,所述长插入片段的长度为450~550bp,优选500bp。专利技术人在实验中发现,插入片段的大小在300bp和500bp,对照文库与测序文库混合后所获得的文库的碱基波动显著减少,测序质量和产量进一步显著提高。根据本专利技术的具体实施例,所述插入片段来源于人类基因组的所有序列。根据本专利技术实施例的插入片段是由人全基因组序列随机打断形成,包含了全基因组的所有的序列。由于人类全基因组序列碱基的平衡性,使得根据本专利技术实施例的对照文库与测序文库混合后所获得的文库的碱基波动显著减少,测序质量和产量进一步显著提高。根据本专利技术的具体实施例,所述插入片段的GC含量为40%。专利技术人发现,插入片段的GC含量为40%,可有效保证对照文库中A、T、C、G四种碱基的存在,且含量相对集中,进而有效保证了碱基平衡。根据本专利技术的实施例,所述测序接头序列中进一步包括标签序列。进而本申请的对照文库可以实现与其他文库的正常拆分,避免数据污染问题。根据本专利技术的具体示例,所述标签序列具有选自下列的至少之一的序列:GACTGAGG(SEQIDNO:1);CGGACGGA(SEQIDNO:2)。上述两个标签序列为对照文库专用,进而避免了标签混用而造成污染。构建对照文库的方法在本专利技术的第二方面,本专利技术提出了一种构建对照文库的方法。根据本专利技术的实施例,所述方法包括:在插入片段的两末端添加测序接头序列,以便获得多个构建体,所述多个构建体构成所述对照文库,其中,所述插入片段来源于人类基因组DNA至少一部分,所述插入片段中的A、T、G和C碱基的含量均在20~30%之间。利用根据本专利技术实施例的上述构建对照文库的方法,所获得的对照文库实现了文库成本的大幅降低,将其应用于碱基不平衡文库测序,碱基不平衡文库测序的质量和产量的得到显著提升。根据本专利技术的实施例,所述插入片段是通过对所述人类基因组DNA的至少一部分进行片段化处理得到的。进而可以进一步筛选得到一定片段大小的插入片段。根据本专利技术的具体示例,所述接头序列是通过下列步骤而添加的:(1)将所述人类基因组DNA至少一部分进行随机打断处理;(2)将随机打断处理后获得的DNA进行末端修复处理;(3)将经过末端修复处理的DNA进行3’端加A处理;以及(4)将接头与步骤(3)所获得产物进行T-A连接,所述接头的5’端具有T碱基。采用粘性末端连接,接头连接效率高。测序方法在本专利技术本文档来自技高网...

【技术保护点】
1.一种对照文库,其特征在于,所述对照文库由多个构建体构成,所述多个构建体分别含有:插入片段,所述插入片段来自于人类基因组DNA的至少一部分;以及测序接头序列,所述测序接头序列形成在所述插入片段的两侧末端,其中,所述插入片段中的A、T、G和C碱基的含量均在20~30%之间。

【技术特征摘要】
1.一种对照文库,其特征在于,所述对照文库由多个构建体构成,所述多个构建体分别含有:插入片段,所述插入片段来自于人类基因组DNA的至少一部分;以及测序接头序列,所述测序接头序列形成在所述插入片段的两侧末端,其中,所述插入片段中的A、T、G和C碱基的含量均在20~30%之间。2.根据权利要求1所述的对照文库,其特征在于,所述插入片段包括长插入片段和短插入片段,所述短插入片段的长度为250~350bp,优选300bp,所述长插入片段的长度为450~550bp,优选500bp。3.根据权利要求1所述的对照文库,其特征在于,所述插入片段来源于人类基因组的所有序列。4.根据权利要求1所述的对照文库,其特征在于,所述插入片段的GC含量为40%。5.根据权利要求1所述的对照文库,其特征在于,所述测序接头序列中进一步包括标签序列。6.根据权利要求1所述的对照文库,其特征在于,所述标签序列具有选自下列的至少之一的序列:GACTGAGG;以及CGGACGGA。7.一种构建对照...

【专利技术属性】
技术研发人员:刘舒骆备罗伟琪田志坚
申请(专利权)人:深圳华大基因股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1