【技术实现步骤摘要】
评估和校验三代测序的序列组装结果的方法与装置
本专利技术属于基因组测序领域,涉及一种评估和校验三代测序的序列组装结果的方法与装置。
技术介绍
重叠群(contig)是由序列(reads)通过对重叠(overlap)区域拼接组装成没有间隙(gap)的序列段;骨架序列(scaffold)通过双末端位置信息确定出的重叠群(contig)排列,中间有gap。把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个contig或scaffold的大小即为N50的大小,N50对评价组装序列的连续性、完整性有重要意义;N70和N90的计算方法与N50类似,只是百分数变为70%或90%。二代测序由于读长的限制(一般为50bp-300bp),采用拼接的两种算法OLC和DBG都无法跨过比较长的重复区域,在组装时遇到这些重复区域都会被断开。虽然可以采用不同梯度大片段(比如2k,5k,10k,20k,40k等)数据利用双末端位置的比对关系把两个重叠群连接起来拼接成骨架序列(Scaffold),但ContigN50长度还是不长(一般为1k-70k)。三代测序—Pacbio单分子实时测序(SMRT)技术由于具有超长读长(平均读长一般在8k-13k)的特点,能对高重复序列、转座子区域与高度变异区域等基因组复杂区域进行高水平组装,使得重叠群(Contig)N50和骨架序列(Scaffold)N50长度更长,组装结果更完整准确,随着三代测序成本越来越低,三代组装基因组项目也越来越多。目前三代组装软件主要有PBCR、Falcon、ME ...
【技术保护点】
一种评估三代测序的序列组装结果的方法,包括如下步骤:(1)将同一样本的二代测序序列与三代测序的序列组装结果进行对比;(2)根据步骤(1)的比对结果,从所述三代测序的序列组装结果中挑选出在所述二代测序序列中平均覆盖深度低的区域,然后将所选的每一个区域均在所述三代测序的序列组装结果中进行延伸,从而获取若干个延伸后序列;(3)将三代测序序列与步骤(2)获得的每一个延伸后序列进行单独比对;(4)根据步骤(3)的比对结果,统计步骤(2)中所选的每一个区域在所述三代测序序列中的平均覆盖深度;(5)根据步骤(4)的统计结果,确定步骤(2)中所选的每一个区域的组装质量的高低,进而实现对所述三代测序的序列组装结果的评估。
【技术特征摘要】
1.一种评估三代测序的序列组装结果的方法,包括如下步骤:(1)将同一样本的二代测序序列与三代测序的序列组装结果进行对比;(2)根据步骤(1)的比对结果,从所述三代测序的序列组装结果中挑选出在所述二代测序序列中平均覆盖深度低的区域,然后将所选的每一个区域均在所述三代测序的序列组装结果中进行延伸,从而获取若干个延伸后序列;(3)将三代测序序列与步骤(2)获得的每一个延伸后序列进行单独比对;(4)根据步骤(3)的比对结果,统计步骤(2)中所选的每一个区域在所述三代测序序列中的平均覆盖深度;(5)根据步骤(4)的统计结果,确定步骤(2)中所选的每一个区域的组装质量的高低,进而实现对所述三代测序的序列组装结果的评估。2.根据权利要求1所述的方法,其特征在于:所述方法包括如下步骤:(1)将同一样本的二代测序序列与三代测序的序列组装结果进行对比,统计所述三代测序的序列组装结果中每个碱基在所述二代测序序列中的覆盖深度,进而以1-5kb为窗口,计算得到所述三代测序的序列组装结果中每个窗口区域在所述二代测序序列中的平均覆盖深度;(2)根据步骤(1)的结果,从所述三代测序的序列组装结果中挑选出在所述二代测序序列中平均覆盖深度低的全部窗口区域,然后将所选的每一个窗口区域均在所述三代测序的序列组装结果中向前后各延伸10-40kb,从而获取若干个延伸后序列;(3)将三代测序序列与步骤(2)获得的每一个延伸后序列进行单独比对;(4)根据步骤(3)的比对结果,统计步骤(2)中所选的每一个窗口区域在所述三代测序序列中的平均覆盖深度;(5)根据步骤(4)的统计结果,按照如下对步骤(2)中所选的每一个窗口区域进行组装质量高低的标记,进而评估所述三代测序的序列组装结果的整体组装质量:如果步骤(2)中所选的某一个窗口区域A在所述三代测序序列中的平均覆盖深度小于等于5X,则将所述窗口区域A标记为“组装质量相对较低的区域”;如果步骤(2)中所选的某一个窗口区域B在所述三代测序序列中的平均覆盖深度大于5X,则将所述窗口区域B标记为“组装质量相对较高的区域”。3.根据权利要求2所述的方法,其特征在于:步骤(5)中,是按照如下评估所述三代测序的序列组装结果的整体组装质量的:所标记的所述“组装质量相对较高的区域”的数量与所述“组装质量相对较低的区域”和所述“组装质量相对较高的区域”两者总数量的比值越大,则所述三代测序的序列组装结果的整体组装质量越高;步骤(2)中所选的窗口区域中如果连续2个或多个同时被标记为“组装质量相对较低的区域”,则将它们合并记成一个“组装质量相对较低的区域”;如果连续2个或多个同时被标记为“组装质量相对较高的区域”,则将它们合并记成一个“组装质量相对较高的区域”。4.根据权利要求1-3中任一所述的方法,其特征在于:步骤(1)中,所述二代测序序列为二代高通量测序所得的原始数据经过过滤处理后的序列;和/或步骤(3)中,所述三代测序序列为未纠错序列或者自纠错序列。5.根据权利要求1-4中任一所述的方法,其特征在于:步骤(2)中,所述平均覆盖深度低指的是平均覆盖深度低于“低深度定义阀值”,为如下任一:(a1)当所述二代测序的平均覆盖深度为30X时,所述“低深度定义阀值”为3X;(a2)当所述二代测序的平均覆盖深度大于30X且小于等于50X时,所...
【专利技术属性】
技术研发人员:邓天全,
申请(专利权)人:深圳华大基因科技服务有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。