一种基于三代测序的病毒基因组组装方法技术

技术编号:33927606 阅读:18 留言:0更新日期:2022-06-25 21:58
本发明专利技术公开了一种基于三代测序的病毒基因组组装方法,其方法包括有:通过第二代测序数据与第三代单分子测序数据对比进行数据纠错和组装,得到基因组的第一组装结果,通过组装结果去重组得到第二组装结果,并对第二组装结果进行检验和优化后得到第三组装结果,并对第三组装结果进行验证和评估。通过本组装方法能够完整对病毒基因组的基因组图谱进行组装完成。完成。

【技术实现步骤摘要】
一种基于三代测序的病毒基因组组装方法


[0001]本专利技术涉及病毒组组装
,具体为一种基于三代测序的病毒基因组组装方法。

技术介绍

[0002]随着第三代单分子实时测序技术的发展,三代测序技术在基因组领域的应用已越来越广泛。简单基因组、重复基因组组装问题已经有了突破性进展,越来越多的简单基因组和高重复基因组已经组装出接近几百个间隔(Gap)水平的染色体图谱。但是,在组装领域依然存在一些很复杂的基因组尚未成功获得基因组图谱,例如复杂病毒组的组装问题。
[0003]因此,利用三代单分子测序技术攻克更为复杂基因组的组装问题,成为近年来研究的一个热点。现有的三代组装软件(例如,Mecat、Canu、Falcon、 WTDBG等)主要基于二倍体基因组开发,对于组装比较纯合的异源多倍体表现出比较好的效果,目前已经发表的多倍体组装相关文章主要是关于异源多倍体的组装。但是复杂多倍体的组装目前还处于待解决状态,这是由于复杂多倍体染色体组之间的杂合性,以及多倍型带来的多重拷贝。现有的组装软件处理这种类型的情况普遍存在组装序列长度偏短、组装序列总长度远大于预估的基因组大小等问题,这往往导致后期挂载染色体困难,对生物学相关分析带来很大的干扰。

技术实现思路

[0004]本专利技术的目的在于提供一种基于三代测序的病毒基因组组装方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于三代测序的病毒基因组组装方法:所述方法包括:
[0006]步骤1:对病毒基因组进行二代测序,得到病毒基因组的二代测序数据;对病毒基因组进行三代测序,得到病毒基因组的三代单分子测序数据;通过病毒基因组的三代单分子测序数据与二代测序数列进行数据对比,并对三代测序序列进行数据纠错和组装,得到基因组的第一组装结果;
[0007]步骤2:将三代单分子测序数据比对到第一组装结果进行深度评估并统计测序数据对整个基因组的覆盖度,获得组装出单拷贝和多拷贝的区域;
[0008]步骤3:选取组装出多拷贝的区域的序列,对其进行序列之间的比对以去除覆盖在多拷贝区域内的序列之间的重复,得到第一轮去冗余结果;
[0009]步骤4:对第一轮去冗余结果,鉴定并打断可能的错误连接后对基因组序列重新拼接以去除基因组上的拼接问题,得到接近预估的单套染色体基因组大小的第二组装结果;
[0010]步骤5:对第二组装结果,判断保守基因数及多拷贝保守同源基因数的变化情况以确定去冗余成功;并且,将第一组装结果中未包含到第二组装结果的部分序列合并到第二组装结果,然后对组装结果进行优化和矫正,得到第三组装结果;
[0011]步骤6:对第三组装结果进行Hi

C连接,得到第三组装结果的Hi

C连接结果,以便
对第三组装结果进行校验和评估;
[0012]步骤7:将第三组装结果的Hi

C连接结果与第一组装结果进行序列比对,验证第三组装结果的完整性和第一组装结果的序列组成和成分;
[0013]步骤8:通过比较第一组装结果和第三组装结果的Hi

C连接结果的完整保守基因数目,预估第三组装结果的完整性;
[0014]步骤9:将三代单分子测序数据比对到第三组装结果的Hi

C连接结果中,验证三代单分子测序数据的利用率和在整个基因组水平的覆盖情况。
[0015]更进一步的,所述步骤2中使用纠错后的三代单分子测序数据比对到第一组装结果进行深度评估并统计测序数据对整个基因组的覆盖度。
[0016]更进一步的,所述步骤3包括:首先,从组装出多拷贝的区域的序列中选取最优比对的序列标记为候选的多拷贝序列,然后,对候选的多拷贝序列再次比对筛选;
[0017]对候选的多拷贝序列再次比对筛选的步骤进行多轮的迭代,以防止折叠重复和嵌合序列的干扰,确保最终得到的单拷贝序列不再与其他序列存在多重拷贝关系,从而得到所述第一轮去冗余结果。
[0018]更进一步的,所述步骤4中的重新拼接过程中,若两个等位基因共享同一位点,则将两个等位基因分别组装到两个独立的单倍型的组装子序列结果中;若一个等位基因只对应一个位点,则将该位点分别放在两个独立的单倍型的组装子序列结果中,并保证一套组装子序列包含完整基因组拼接序列。
[0019]与现有技术相比,本专利技术的有益效果是:本专利技术通过对Hi

C连接结果与原始组装结果通过模拟酶切的方法进行比较,快速比对出原始的组装结果对整个病毒组多倍体基因组的整体分布情况。同时结合三代测序数据对整个染色体水平的覆盖度,推测最终组装结果中包含的同源区域及异源区域,为后续基因分型和全套多倍体的组装提供技术依据。本专利技术的方法能够有效地从复杂病毒组多倍体中分离出单套染色体组,为获得复杂多倍体的其他染色体组的组装奠定基础,同时对处理高重复高杂合的基因组组装也提供了很好的技术依据,该方法在基因组组装领域有广阔的应用前景。
具体实施方式
[0020]下面将对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]请参阅图,本专利技术提供一种技术方案:一种基于三代测序的病毒基因组组装方法:所述方法包括:
[0022]步骤1:对病毒基因组进行二代测序,得到病毒基因组的二代测序数据;对病毒基因组进行三代测序,得到病毒基因组的三代单分子测序数据;通过病毒基因组的三代单分子测序数据与二代测序数列进行数据对比,并对三代测序序列进行数据纠错和组装,得到基因组的第一组装结果;
[0023]步骤2:将三代单分子测序数据比对到第一组装结果进行深度评估并统计测序数据对整个基因组的覆盖度,获得组装出单拷贝和多拷贝的区域;
[0024]步骤3:选取组装出多拷贝的区域的序列,对其进行序列之间的比对以去除覆盖在多拷贝区域内的序列之间的重复,得到第一轮去冗余结果;
[0025]步骤4:对第一轮去冗余结果,鉴定并打断可能的错误连接后对基因组序列重新拼接以去除基因组上的拼接问题,得到接近预估的单套染色体基因组大小的第二组装结果;
[0026]步骤5:对第二组装结果,判断保守基因数及多拷贝保守同源基因数的变化情况以确定去冗余成功;并且,将第一组装结果中未包含到第二组装结果的部分序列合并到第二组装结果,然后对组装结果进行优化和矫正,得到第三组装结果;
[0027]步骤6:对第三组装结果进行Hi

C连接,得到第三组装结果的Hi

C连接结果,以便对第三组装结果进行校验和评估;
[0028]步骤7:将第三组装结果的Hi

C连接结果与第一组装结果进行序列比对,验证第三组装结果的完整性和第一组装结果的序列组成和成分;...

【技术保护点】

【技术特征摘要】
1.一种基于三代测序的病毒基因组组装方法,其特征在于:所述方法包括:步骤1:对病毒基因组进行二代测序,得到病毒基因组的二代测序数据;对病毒基因组进行三代测序,得到病毒基因组的三代单分子测序数据;通过病毒基因组的三代单分子测序数据与二代测序数列进行数据对比,并对三代测序序列进行数据纠错和组装,得到基因组的第一组装结果;步骤2:将三代单分子测序数据比对到第一组装结果进行深度评估并统计测序数据对整个基因组的覆盖度,获得组装出单拷贝和多拷贝的区域;步骤3:选取组装出多拷贝的区域的序列,对其进行序列之间的比对以去除覆盖在多拷贝区域内的序列之间的重复,得到第一轮去冗余结果;步骤4:对第一轮去冗余结果,鉴定并打断可能的错误连接后对基因组序列重新拼接以去除基因组上的拼接问题,得到接近预估的单套染色体基因组大小的第二组装结果;步骤5:对第二组装结果,判断保守基因数及多拷贝保守同源基因数的变化情况以确定去冗余成功;并且,将第一组装结果中未包含到第二组装结果的部分序列合并到第二组装结果,然后对组装结果进行优化和矫正,得到第三组装结果;步骤6:对第三组装结果进行Hi

C连接,得到第三组装结果的Hi

C连接结果,以便对第三组装结果进行校验和评估;步骤7:将第三组装结果的Hi

C连接结果与第一组装结果进行序列比对,验证第三组装结果的完整性...

【专利技术属性】
技术研发人员:杨作坤
申请(专利权)人:武汉百奥微帆生物科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1