批量获得高精度昆虫COI基因条形码的方法和试剂盒技术

技术编号:17770448 阅读:32 留言:0更新日期:2018-04-21 23:08
本申请公开了一种批量获得高精度昆虫COI基因条形码的方法和试剂盒。本申请方法,将96对index序列分别添加到COI基因标准引物5’端,形成新的带index序列的COI基因标准引物,采用该引物分别对待测昆虫DNA进行PCR扩增;将PCR产物混合,进行Illumina建库,采用可以PE150测序的NGS平台测序;对测序数据进行信息分析,获得完整的COI基因条形码序列。本申请充分利用高通量测序优点,大大提高COI基因条形码的获取效率、降低了时间和人工成本;可获得全长COI基因条形码序列,与桑格测序结果达99.98%一致性,对桑格测序的简并碱基也可区分出不同单倍型,为生物多样性研究提供了有利工具。

【技术实现步骤摘要】
批量获得高精度昆虫COI基因条形码的方法和试剂盒
本申请涉及基因条形码获取领域,特别是涉及一种批量获得高精度昆虫COI基因条形码的方法和试剂盒。
技术介绍
在过去的几年里,科学家在构建精心选择的DNA标记方面做出了巨大努力。例如,生命的国际条形码(iBOL,www.ibol.org)项目在通过很多年的积累之后,已经得到了覆盖约20万种的4,694,277条序列。其中,包括细胞色素氧化酶C亚基I(缩写COI)作为动物的条形码标记,核内转录间隔区(缩写ITS)作为真菌的条形码标记,rbcL基因和基因matK基因为植物的条形码。DNA条形码已被证明能够加快未知物种的发现和识别,推进全面的生物调查或“所有类群生物多样性资源”(ATBI)项目,也适用于法医学应用和环境管理等。目前,大部分基因条形码的获取都是通过单样本的DNA提取、PCR扩增,然后进行Sanger测序或双二碱基-index的Illumina测序。其中,Sanger测序在一定程度上具有比较高的准确性;但是通量很低、费时费力,并且,中间还需要电泳跑胶等步骤。Sanger测序的峰图在DNA质量不好或PCR扩增效率低的情况下会出现杂峰,影响最终获得的条形码的准确性。此外,对于微量DNA样本和非模式类群的物种,采用Sanger测序法获得条形码,一般都要经过多轮的PCR才能满足测序的要求。另外通过Sanger测序一般不会得到研究物种中包含的微生物或寄生虫的共扩增,例如沃尔巴克氏体感染、肠道微生物等的序列信息,而这些信息在研究中往往非常有价值。Shokrallaetal.于2015年进行了双二碱基-index方法利用IlluminaMiseqHTS平台对DNA条形码进行测序,结果显示在1010个样本的COI基因DNA条形码的658bp的测序成功率为97.3%,相对于传统的Sanger测序,每个样品的成本和劳动时间减少了近80%。简要地说,该技术采用了两次PCR反应,每次使用两种不同的引物,其中一次PCR扩增的是条形码的5’端区域,另一次PCR扩增的是条形码3’端区域,两次PCR扩增产生两个较小的重叠片段,约82个碱基对重叠,从而克服Illumina测序平台的读长的限制。但是,即便如此,Illumina测序的最长测序能力是300PE,两次PCR扩增重叠组装后也只能达到约518bp的长度,与COI基因条形码的658bp仍然有至少100bp的gap,所以并不能通过一次测序获得COI基因条形码区域的全长,这大大影响了数据的完整性,不能满足通过COI基因条形码进行物种鉴定的使用需求。
技术实现思路
本申请的目的是提供一种新的批量获得高精度昆虫COI基因条形码的方法和试剂盒。本申请采用了以下技术方案:本申请的一方面公开了一种批量获得高精度昆虫COI基因条形码的方法,包括将96对index序列分别添加到COI基因的标准引物的5’端,形成新的带有index序列的96对COI基因标准引物;采用带有index序列的COI基因标准引物,分别对待测昆虫的DNA样本进行单重PCR扩增;将PCR扩增产物混合,进行Illumina建库,采用可以进行PE150测序的NGS平台对所构建的文库进行测序;最后,通过对测序数据进行信息分析,获得完整的COI基因条形码序列。其中,96对index序列是自行设计的序列,符合一般测序平台对index序列的需求。需要说明的是,本申请的昆虫COI基因条形码获得方法,实际上就是基于高通量的NGS平台对昆虫COI基因进行测序,相比于传统的Sanger测序方法,本申请的昆虫COI基因条形码获得方法效率更高,并且,降低了时间和人工成本,解决了低质量DNA不能进行测序的问题,同时也能挖掘到Sanger测序不能获得的嵌合体和共生微生物或寄生虫的序列情况。相比现在Illumina测序方法,本申请通过可以进行PE150测序的NGS平台和测序数据的信息分析,可以获得全长的COI基因条形码序列,并且与桑格的一致性几乎达到了100%,甚至同一物种的不同单倍型也可以组装出来。本申请的批量获得高精度昆虫COI基因条形码的方法,为研究生物多样性提供了有利工具。优选的,信息分析包括数据过滤、序列拆分和两端连接、间隙填充;数据过滤包括,a)去除接头污染序列,b)去除包含N数目大于10的序列,c)去除低质量reads;序列拆分和两端连接包括,结合index序列和COI基因标准引物序列,对所有reads序列进行拆分,对于每个待测昆虫个体,将其在拆分中得到的5’末端和3’末端序列按照98%的相似度聚类,选择聚类结果中最高丰度的序列进行下游的连接和组装,获得COI基因条形码的全长序列;选择聚类结果中丰度不小于所述最高丰度的1/10的序列,按照其测序序列的ID信息把有成对关系的序列挑选出来,将重叠区具有高于95%的相似性的且重叠长度达到30-120bp的序列用COAP连接,最后,将两端覆盖度不足5的碱基截断,排列出双端序列有可能的组合,获得在样本中潜在的微生物或寄生虫的共扩增序列;间隙填充包括,采用SOAPBarcode算法对获得的COI基因条形码全长序列进行补充,获得高精度的完整的昆虫COI基因条形码;具体的,将5’端定义为起始点,并且3’末端作为终点,对于每个待测昆虫个体,用kmer构建debrujin图形,从起点到终点的步骤查找潜在的连接路径,采用以下三种策略确保路径的正确性,a)删除在分叉处前的kmer的丰度小于kmer平均丰度的10%的路径;b)普通读不同出度和位于最后分叉之前kmer之间进行计数,删除有一个以上的出程度第一步之后剩余,并且出度共同的reads小于平均丰度的10%的路径,c)删除扩大超出了预先设定的长度没有终点的路径。其中,测序序列的ID信息,是FASTQ文件格式中第一行文件,对应测序仪运行信息。成对关系的序列是指,可以进行PE150测序的NGS平台中,采用的是PE测序,即pari-end双末端测序,所以对于一个双链的DNA片段,从两端测,就有一对reads。出度是图论中的术语,对有向图而言,顶点的度可分为出度和入度。一个顶点的出度为d,是指有d条边以该顶点为起点,或说与该点关联的出边共有d条。入度的概念也类似。需要说明的是,本申请的批量获得高精度昆虫COI基因条形码的方法,通过本申请特殊的信息分析,能够获得更加准确的高精度的完整昆虫COI基因条形码序列,为后续的基于条形码的检测和研究奠定了坚实的基础。优选的,Illumina建库的插入片段设计为250bp,NGS平台的测序长度为150PE。本申请的一种实现方式中,具体的可以进行PE150测序的NGS平台为Hiseq测序平台。需要说明的是,虽然本申请的测序长度为150PE,但是,建库片段为250bp;因此,在150PE的测序长度下可以准确的测定插入片段;并且,通过对测序数据进行信息分析,可以获得完整的658bp的COI基因条形码区域全长。优选的,标准引物的上游引物为SeqIDNo.1所示序列,下游引物为SeqIDNo.2所示序列;SeqIDNo.1:5’-TAAACTTCAGGGTGACCAAAAAATCA-3’SeqIDNo.2:5’-GGTCAACAAATCATAAAGATATTGG-3’。需要说明的是,本申请的本文档来自技高网
...

【技术保护点】
一种批量获得高精度昆虫COI基因条形码的方法,其特征在于:包括将96对index序列分别添加到COI基因的标准引物的5’端,形成新的带有index序列的96对COI基因标准引物;采用带有index序列的COI基因标准引物,分别对待测昆虫的DNA样本进行单重PCR扩增;将PCR扩增产物混合,进行Illumina建库,采用可以进行PE150测序的NGS平台对所构建的文库进行测序;最后,通过对测序数据进行信息分析,获得完整的COI基因条形码序列。

【技术特征摘要】
1.一种批量获得高精度昆虫COI基因条形码的方法,其特征在于:包括将96对index序列分别添加到COI基因的标准引物的5’端,形成新的带有index序列的96对COI基因标准引物;采用带有index序列的COI基因标准引物,分别对待测昆虫的DNA样本进行单重PCR扩增;将PCR扩增产物混合,进行Illumina建库,采用可以进行PE150测序的NGS平台对所构建的文库进行测序;最后,通过对测序数据进行信息分析,获得完整的COI基因条形码序列。2.根据权利要求1所述的方法,其特征在于:所述信息分析包括数据过滤、序列拆分和两端连接、间隙填充;所述数据过滤包括,a)去除接头污染序列,b)去除包含N数目大于10的序列,c)去除低质量reads;所述序列拆分和两端连接包括,结合index序列和COI基因标准引物序列,对所有reads序列进行拆分,对于每个待测昆虫个体,将其在拆分中得到的5’末端和3’末端序列按照98%的相似度聚类,选择聚类结果中最高丰度的序列进行下游的连接和组装,获得COI基因条形码的全长序列;选择聚类结果中丰度不小于所述最高丰度的1/10的序列,按照其测序序列的ID信息把有成对关系的序列挑选出来,将重叠区具有高于95%的相似性的且重叠长度达到30-120bp的序列用COAP连接,最后,将两端覆盖度不足5的碱基截断,排列出双端序列有可能的组合,获得在样本中潜在的微生物或寄生虫的共扩增序列;所述间隙填充包括,采用SOAPBarcode算法对获得的COI基因条形码全长序列进行补充,获得高精度的完整的昆虫COI基因条形码;具体的,将5’端定义为起始点,并且3’末端作为终点,对于每个待测昆...

【专利技术属性】
技术研发人员:刘山林杨琛涛周程冉周欣
申请(专利权)人:深圳华大生命科学研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1