评估和校验三代测序的序列组装结果的方法与装置制造方法及图纸

技术编号:17667725 阅读:24 留言:0更新日期:2018-04-11 06:04
本发明专利技术公开了一种评估和校验三代测序的序列组装结果的方法与装置。本发明专利技术所提供的评估三代测序的序列组装结果的方法包括:二代序列与三代组装结果比对;低覆盖度区域延伸与选取,获得延伸后序列;三代序列与延伸序列比对;碱基覆盖深度统计;组装结果标记。通过本发明专利技术可以筛选出三代组装结果中质量不是太高的区域,并将其标注出来。在后续的物种研究中,如果需要使用到这些质量不高的区域有提醒的功能,及为后续的改进提供快速的筛选手段。同时也能证明三代组装结果的准确性和质量,能提高组装结果的准确性。

Methods and devices for evaluating and checking the results of sequence assembly of three generation sequencing

【技术实现步骤摘要】
评估和校验三代测序的序列组装结果的方法与装置
本专利技术属于基因组测序领域,涉及一种评估和校验三代测序的序列组装结果的方法与装置。
技术介绍
重叠群(contig)是由序列(reads)通过对重叠(overlap)区域拼接组装成没有间隙(gap)的序列段;骨架序列(scaffold)通过双末端位置信息确定出的重叠群(contig)排列,中间有gap。把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个contig或scaffold的大小即为N50的大小,N50对评价组装序列的连续性、完整性有重要意义;N70和N90的计算方法与N50类似,只是百分数变为70%或90%。二代测序由于读长的限制(一般为50bp-300bp),采用拼接的两种算法OLC和DBG都无法跨过比较长的重复区域,在组装时遇到这些重复区域都会被断开。虽然可以采用不同梯度大片段(比如2k,5k,10k,20k,40k等)数据利用双末端位置的比对关系把两个重叠群连接起来拼接成骨架序列(Scaffold),但ContigN50长度还是不长(一般为1k-70k)。三代测序—Pacbio单分子实时测序(SMRT)技术由于具有超长读长(平均读长一般在8k-13k)的特点,能对高重复序列、转座子区域与高度变异区域等基因组复杂区域进行高水平组装,使得重叠群(Contig)N50和骨架序列(Scaffold)N50长度更长,组装结果更完整准确,随着三代测序成本越来越低,三代组装基因组项目也越来越多。目前三代组装软件主要有PBCR、Falcon、MECAT、CANU、HGAP等,这些软件都包含自纠错和纠错后序列自组装的功能。由于三代序列平均错误率高达15%,故这些软件都需要先进行自纠错,再利用纠错后序列进行组装,最后得到组装结果,由于组装结果可能存在一定的单碱基错误或结构变异,所以后续需要用三代原始序列进行Polish纠错,及用二代序列进行Pilon纠错,得到最终的三代组装结果,三代组装的主要过程如图1所示。在得到组装结果后,我们会通过不同的方法对组装结果的质量进行评价。比如:(一)利用同一个个体的BAC/Fosmid序列(或者同种物种的BAC/Fosmid序列),通过与基因组序列比对,检验基因组常染色质覆盖度,如图2所示,上面是一段Fosmid序列,下面是我们的组装结果序列,它们比对的效果非常好,证明这段Fosmid序列已经被组装出来且效果非常好。(二)利用已有的EST序列,通过与基因组序列比对,检验基因区的覆盖度。(三)单碱基覆盖深度评估,二代序列比对到三代组装结果并统计三代组装结果每个碱基的覆盖深度。如图3所示,二代序列的平均覆盖深度80X,X轴代表不同区间的覆盖深度,Y轴代表不同区间覆盖深度对应的比例,从此图来看,小于10X覆盖深度的比例越低,反应组装结果单碱基的组装质量越高(四)GC含量分布分析。如图4所示,横坐标是GC含量,纵坐标是平均深度。二代序列比对到三代组装结果并统计三代组装结果每个碱基的覆盖深度,以10kb为窗口无重复进行计算。根据这个图我们可以分析这个物种的GC含量,可以对该样品是否有外源DNA污染进行判断。另外也可以看出我们部分区域的组装质量效果。图4(B)结果显示组装结果GC含量深度分布正常,但图4(A)所示,有部分低深度覆盖区域,造成此现象的可能有两个原因,一是三代序列在这些区域覆盖深度较低,导致组装结果存在一定的碱基错误或缺失,虽然经过三代polish纠错和二代pilon纠错,但并没有纠正过来;二是这部分区域组装是准确的,三代在这部分区域覆盖深度很高,但二代在这部分区域覆盖深度较低,可能由于测序错误导致比对不到这部分区域,或者这部分区域没有测到或测到的部分较低。
技术实现思路
为了有效解决三代组装结果的部分区域在二代序列中覆盖深度较低是何种原因导致的,本专利技术提供了一种评估和校验三代测序的序列组装结果的方法与装置。本专利技术所提供的评估三代测序的序列组装结果的方法,大致包括如下步骤:(1)将同一样本的二代测序序列与三代测序的序列组装结果进行对比。(2)根据步骤(1)的比对结果,从所述三代测序的序列组装结果中挑选出在所述二代测序序列中平均覆盖深度低的区域,然后将所选的每一个区域均在所述三代测序的序列组装结果中进行延伸,从而获取若干个延伸后序列。(3)将三代测序序列与步骤(2)获得的每一个延伸后序列进行单独比对。(4)根据步骤(3)的比对结果,统计步骤(2)中所选的每一个区域(即每一个二代低覆盖深度区域)在所述三代测序序列中的平均覆盖深度。(5)根据步骤(4)的统计结果,确定步骤(2)中所选的每一个区域的组装质量的高低,进而实现对所述三代测序的序列组装结果的评估。具体的,所述方法包括如下步骤:(1)将同一样本的二代测序序列与三代测序的序列组装结果进行对比(可以使用比对软件bwa或SOAPAligner等软件完成),统计所述三代测序的序列组装结果中每个碱基在所述二代测序序列中的覆盖深度(可以使用SOAPCoverage软件进行),进而以1-5kb(具体如1kb)为窗口,计算得到所述三代测序的序列组装结果中每个窗口区域在所述二代测序序列中的平均覆盖深度。(2)根据步骤(1)的结果,从所述三代测序的序列组装结果中挑选出在所述二代测序序列中平均覆盖深度低的全部窗口区域,然后将所选的每一个窗口区域均在所述三代测序的序列组装结果中向前后各延伸10-40kb(具体如30kb),从而获取若干个延伸后序列。(3)将三代测序序列与步骤(2)获得的每一个延伸后序列进行单独比对(比对软件可以用bwa)。(4)根据步骤(3)的比对结果,统计步骤(2)中所选的每一个窗口区域(即原1-5kb二代低覆盖深度区域)在所述三代测序序列中的平均覆盖深度。(5)根据步骤(4)的统计结果,按照如下对步骤(2)中所选的每一个窗口区域(即原1-5kb二代低覆盖深度区域)进行组装质量高低的标记,进而评估所述三代测序的序列组装结果的整体组装质量:如果步骤(2)中所选的某一个窗口区域A在所述三代测序序列中的平均覆盖深度小于等于5X,则将所述窗口区域A标记为“组装质量相对较低的区域”;如果步骤(2)中所选的某一个窗口区域B在所述三代测序序列中的平均覆盖深度大于5X,则将所述窗口区域B标记为“组装质量相对较高的区域”。在所述方法的步骤(5)中,具体是按照如下评估所述三代测序的序列组装结果的整体组装质量的:所标记的所述“组装质量相对较高的区域”的数量与所述“组装质量相对较低的区域”和所述“组装质量相对较高的区域”两者总数量的比值越大,则所述三代测序的序列组装结果的整体组装质量越高。其中,步骤(2)中所选的窗口区域中如果连续2个或多个同时被标记为“组装质量相对较低的区域”,则将它们合并记成一个“组装质量相对较低的区域”;如果连续2个或多个同时被标记为“组装质量相对较高的区域”,则将它们合并记成一个“组装质量相对较高的区域”。在所述方法的步骤(1)中,所述二代测序序列为二代高通量测序所得的原始数据经过过滤处理后的序列(去除了接头以及低质量碱基)。在本专利技术的一个实施例中,所述样本为玉米基因组,所述二代测序序列具体为玉米基因组的HiS本文档来自技高网
...
评估和校验三代测序的序列组装结果的方法与装置

【技术保护点】
一种评估三代测序的序列组装结果的方法,包括如下步骤:(1)将同一样本的二代测序序列与三代测序的序列组装结果进行对比;(2)根据步骤(1)的比对结果,从所述三代测序的序列组装结果中挑选出在所述二代测序序列中平均覆盖深度低的区域,然后将所选的每一个区域均在所述三代测序的序列组装结果中进行延伸,从而获取若干个延伸后序列;(3)将三代测序序列与步骤(2)获得的每一个延伸后序列进行单独比对;(4)根据步骤(3)的比对结果,统计步骤(2)中所选的每一个区域在所述三代测序序列中的平均覆盖深度;(5)根据步骤(4)的统计结果,确定步骤(2)中所选的每一个区域的组装质量的高低,进而实现对所述三代测序的序列组装结果的评估。

【技术特征摘要】
1.一种评估三代测序的序列组装结果的方法,包括如下步骤:(1)将同一样本的二代测序序列与三代测序的序列组装结果进行对比;(2)根据步骤(1)的比对结果,从所述三代测序的序列组装结果中挑选出在所述二代测序序列中平均覆盖深度低的区域,然后将所选的每一个区域均在所述三代测序的序列组装结果中进行延伸,从而获取若干个延伸后序列;(3)将三代测序序列与步骤(2)获得的每一个延伸后序列进行单独比对;(4)根据步骤(3)的比对结果,统计步骤(2)中所选的每一个区域在所述三代测序序列中的平均覆盖深度;(5)根据步骤(4)的统计结果,确定步骤(2)中所选的每一个区域的组装质量的高低,进而实现对所述三代测序的序列组装结果的评估。2.根据权利要求1所述的方法,其特征在于:所述方法包括如下步骤:(1)将同一样本的二代测序序列与三代测序的序列组装结果进行对比,统计所述三代测序的序列组装结果中每个碱基在所述二代测序序列中的覆盖深度,进而以1-5kb为窗口,计算得到所述三代测序的序列组装结果中每个窗口区域在所述二代测序序列中的平均覆盖深度;(2)根据步骤(1)的结果,从所述三代测序的序列组装结果中挑选出在所述二代测序序列中平均覆盖深度低的全部窗口区域,然后将所选的每一个窗口区域均在所述三代测序的序列组装结果中向前后各延伸10-40kb,从而获取若干个延伸后序列;(3)将三代测序序列与步骤(2)获得的每一个延伸后序列进行单独比对;(4)根据步骤(3)的比对结果,统计步骤(2)中所选的每一个窗口区域在所述三代测序序列中的平均覆盖深度;(5)根据步骤(4)的统计结果,按照如下对步骤(2)中所选的每一个窗口区域进行组装质量高低的标记,进而评估所述三代测序的序列组装结果的整体组装质量:如果步骤(2)中所选的某一个窗口区域A在所述三代测序序列中的平均覆盖深度小于等于5X,则将所述窗口区域A标记为“组装质量相对较低的区域”;如果步骤(2)中所选的某一个窗口区域B在所述三代测序序列中的平均覆盖深度大于5X,则将所述窗口区域B标记为“组装质量相对较高的区域”。3.根据权利要求2所述的方法,其特征在于:步骤(5)中,是按照如下评估所述三代测序的序列组装结果的整体组装质量的:所标记的所述“组装质量相对较高的区域”的数量与所述“组装质量相对较低的区域”和所述“组装质量相对较高的区域”两者总数量的比值越大,则所述三代测序的序列组装结果的整体组装质量越高;步骤(2)中所选的窗口区域中如果连续2个或多个同时被标记为“组装质量相对较低的区域”,则将它们合并记成一个“组装质量相对较低的区域”;如果连续2个或多个同时被标记为“组装质量相对较高的区域”,则将它们合并记成一个“组装质量相对较高的区域”。4.根据权利要求1-3中任一所述的方法,其特征在于:步骤(1)中,所述二代测序序列为二代高通量测序所得的原始数据经过过滤处理后的序列;和/或步骤(3)中,所述三代测序序列为未纠错序列或者自纠错序列。5.根据权利要求1-4中任一所述的方法,其特征在于:步骤(2)中,所述平均覆盖深度低指的是平均覆盖深度低于“低深度定义阀值”,为如下任一:(a1)当所述二代测序的平均覆盖深度为30X时,所述“低深度定义阀值”为3X;(a2)当所述二代测序的平均覆盖深度大于30X且小于等于50X时,所...

【专利技术属性】
技术研发人员:邓天全
申请(专利权)人:深圳华大基因科技服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1