一种二代序列基因组重叠群的组装方法和系统技术方案

技术编号:19191192 阅读:130 留言:0更新日期:2018-10-17 03:44
本发明专利技术涉及基因组重叠群的组装方法,特别涉及一种二代序列基因组重叠群的组装方法和系统,所述方法包括如下步骤:(1)提取样品基因组并超声打断;(2)将步骤(1)超声打断的片段凝胶纯化并切胶,以构建不同插入片段的文库;(3)将步骤(2)得到的文库进行二代双末端测序;(4)将各个文库的二代双末端测序的读1和读2进行拼接;(5)将拼接后的序列进行序列组装;其中,所述二代双末端测序的读1和读2的序列有5bp以上的重叠区域。本发明专利技术方法和系统通过实验建库、根据测序读长选取建库和切胶范围,并结合拼接软件进行拼接,达到了延长序列读长的目的,用延长后的序列根据重叠关系进行重叠群组装,达到提高重叠群组装的指标和准确性。

【技术实现步骤摘要】
一种二代序列基因组重叠群的组装方法和系统
本专利技术涉及生物
,具体涉及基因组重叠群的组装方法,特别涉及一种二代序列基因组重叠群的组装方法和系统。
技术介绍
罗氏454测序系统的测序原理是基于焦磷酸测序法,依靠生物发光对DNA序列进行检测,在DNA聚合酶,ATP硫酸化酶,荧光素酶和双磷酸酶的协同作用下,罗氏454测序系统将引物上每一个dNTP的聚合与一次荧光信号释放偶联起来。通过检测荧光信号释放的有无和强度,就可以达到实时测定DNA序列的目的。此技术不需要荧光标记的引物或核酸探针,也不需要进行电泳,具有分析结果快速、准确、高灵敏度和高自动化的特点。罗氏454测序序列平均长度一般为500bp左右,最长为700bp左右,其长度相对于目前二代测序Hiseq2500的250bp和Miseq的300bp来说要长的多,但其在2016年年中已经停止服务。目前基因组组装项目以全基因组鸟枪法测序(Whole-genomeshotgunsequencing,WGS)为主流设计方案,WGS是一种分析大片段基因组DNA序列的策略,将大片段DNA(如噬菌体文库中约40kb长或细菌人工染色体所含350kb长的DNA插入片段)随机切成许多1~1.5kb的小片段,分别对其测序,然后借助序列重叠区域拼接成全段序列。重叠群(Contig)组装主要采用德布鲁因图(deBrujingraph)算法进行拼接。但由于基因组中普遍存在重复序列,此组装算法在遇到重复区域无法跨过时就会断掉,重复比例比较高的基因组组装会存在大量长度比较短的重叠群(Contig)。把组装出的重叠群(Contig)从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个重叠群(Contig)的大小即为N50的大小,N50对评价基因测序的完整性有重要意义。N60即把组装出的重叠群(Contig)从大到小排列,当其累计长度刚刚超过全部组装序列总长度60%时,最后一个重叠群(Contig)的大小即为N60的大小。N70、N80、N90以此类推。而由于454序列读长比较长,可以利用相互重叠关系进行拼接,相比德布鲁因图算法来说可以跨过更多的重复区域,组装出长度比较短的Contig会更少,指标会更高。综上所述,序列读长对基因组组装效果有重要的影响,如何通过实验建库和测序读长选取,并结合拼接软件进行拼接以达到延长序列读长,接近或超过454序列的平均长度就成为一个亟待解决的问题。
技术实现思路
针对现有技术的不足及实际的需求,本专利技术提供一种二代序列基因组重叠群的组装方法和系统,本方法和系统能够延长二代序列的平均长度并提高基因组重叠群组装的指标和准确性。为达此目的,本专利技术采用以下技术方案:第一方面,本专利技术提供一种二代序列基因组重叠群的组装方法,包括如下步骤:(1)提取样品基因组并超声打断;(2)将步骤(1)超声打断的片段凝胶纯化并切胶,以构建不同插入片段的文库;(3)将步骤(2)得到的文库进行二代双末端测序;(4)将各个文库的二代双末端测序的读1(read1)和读2(read2)进行拼接;(5)将拼接后的序列进行序列组装;其中,所述二代双末端测序的读1(read1)和读2(read2)的序列有5bp以上的重叠区域。本专利技术中,通过拼接后进行重叠群组装,只要读1(read1)和读2(read2)的序列有5bp以上的重叠区域,读1(read1)和读2(read2)就能拼接成功,并获得尽可能长的序列,而通过这样的拼接后组装使得重叠群数量少,从而也提高了重叠群组装的效率和准确性。根据本专利技术,所述超声打断的范围和切胶的长度范围本领域技术人员可以根据测序长度进行调节,随着技术进一步发展测序长度将进一步延长,超声打断的范围和切胶的长度范围也随之改变,在此不做特殊限定。根据现有技术的测序长度PE250和PE300,本申请确定了两个超声打断范围和切胶的长度范围。根据现在测序长度PE250选择的超声打断的范围为100-500bp,切胶的长度范围为450-500bp,例如可以是450-470bp、460-480bp或470-490bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本专利技术不再穷尽列举所述范围包括的具体点值。根据现在测序长度PE300选择的超声打断的范围为100-600bp,切胶的长度范围为550-600bp,例如可以是550-570bp、560-580bp或570-590bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本专利技术不再穷尽列举所述范围包括的具体点值。根据之后的测序长度PE400选择的超声打断的范围为100-800bp,切胶的长度范围为750-800bp,例如可以是750-770bp、760-780bp或770-790bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本专利技术不再穷尽列举所述范围包括的具体点值。根据之后的测序长度PE500选择的超声打断的范围为100-1000bp,切胶的长度范围为950-1000bp,例如可以是950-970bp、960-980bp或970-990bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本专利技术不再穷尽列举所述范围包括的具体点值。根据本专利技术,所述二代双末端测序选用的测序仪只要能够进行双末端测序都是可行的,本领域技术人员可以根据需要进行选择,在此不做特殊限定,本申请采用的是Hiseq测序仪或Miseq测序仪。根据本专利技术,所述二代双末端测序的读1(read1)和读2(read2)的读长长度本领域技术人员可以根据测序长度进行调节,随着技术进一步发展测序长度将进一步延长,读1(read1)和读2(read2)的读长长度也随之改变,在此不做特殊限定。本专利技术中所述二代双末端测序的读1(read1)和读2(read2)的读长长度为200-2000bp,例如可以是200bp、210bp、230bp、250bp、260bp、270bp、280bp、290bp、300bp、320bp、350bp、380bp、400bp、420bp、450bp、480bp、500bp、550bp、600bp、650bp、700bp、750bp、800bp、850bp、900bp、950bp、1000bp、1100bp、1200bp、1300bp、1400bp、1500bp、1600bp、1700bp、1800bp、1900bp或2000bp,优选为200-500bp,进一步优选为250-300bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本专利技术不再穷尽列举所述范围包括的具体点值。本专利技术中,由于现在测序长度所限,所述读1(read1)和读2(read2)的读长长度为200-500bp,但随着测序技术的进一步发展,测序长度的不断延长,所述读1(read1)和读2(read2)的读长长度可延长到2000bp甚至更长,无论测序技术如何发展,读1(read1)和读2(read2)的读长长度如何延长,只需读1(read1)和读2(read2)的读长具有重叠区域,本专利技术方法都是适用的。根据本专利技术,所述二代双末端测序的读1(read1)和读2(read2)的序列有5bp以上的重叠区域,优选为10bp以上的重叠区域,所述重叠区本文档来自技高网
...

【技术保护点】
1.一种二代序列基因组重叠群的组装方法,其特征在于,包括如下步骤:(1)提取样品基因组并超声打断;(2)将步骤(1)超声打断的片段凝胶纯化并切胶,以构建不同插入片段的文库;(3)将步骤(2)得到的文库进行二代双末端测序;(4)将各个文库的二代双末端测序的读1和读2进行拼接;(5)将拼接后的序列进行序列组装;其中,所述二代双末端测序的读1和读2的序列有5bp以上的重叠区域。

【技术特征摘要】
1.一种二代序列基因组重叠群的组装方法,其特征在于,包括如下步骤:(1)提取样品基因组并超声打断;(2)将步骤(1)超声打断的片段凝胶纯化并切胶,以构建不同插入片段的文库;(3)将步骤(2)得到的文库进行二代双末端测序;(4)将各个文库的二代双末端测序的读1和读2进行拼接;(5)将拼接后的序列进行序列组装;其中,所述二代双末端测序的读1和读2的序列有5bp以上的重叠区域。2.根据权利要求1所述的组装方法,其特征在于,步骤(1)所述超声打断的范围为100-500bp,步骤(2)所述切胶的长度范围为450-500bp;优选地,步骤(1)所述超声打断的范围为100-600bp,步骤(2)所述切胶的长度范围为550-600bp。3.根据权利要求1或2所述的组装方法,其特征在于,所述二代双末端测序的读1和读2的读长长度为200-2000bp,优选为200-500bp,进一步优选为250-300bp。4.根据权利要求1-3中任一项所述的组装方法,其特征在于,所述二代双末端测序的读1和读2的序列有5bp以上的重叠区域。5.根据权利要求1-4中任一项所述的组装方法,其特征在于,所述步骤(3)和步骤(4)之间还包括将步骤(3)所述的二代双末端测序进行数据过滤。6.根据权利要求1-5中任一项所述的组装方法,其特征在于,所述数据过滤具体包括:去除含接头和低质量的序列。7.根据权利要求1-6中任一项所述的组装方法,其特征在...

【专利技术属性】
技术研发人员:邓天全高强杨林峰杨鑫盛琴陈世璇岳震霍守江肖黎
申请(专利权)人:深圳华大基因科技服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1