一种检测样本中宏病毒组的方法和系统技术方案

技术编号:32474866 阅读:78 留言:0更新日期:2022-03-02 09:36
本发明专利技术公开了一种检测样本中宏病毒组的方法,属于宏基因组分析技术领域,包括将待检测样本的二代测序数据和三代测序数据进行相互校正和混合组装,得到混合组装contigs,并将三代测序数据单独组装得到Nanopore contigs;进一步将所述混合组装contigs和Nanopore contigs分别进行比对注释,得到候选病毒contigs、非病毒contigs,和Nanopore病毒contigs;最后将3种数据集进行聚类分析,根据聚类结果进一步地综合分析,补充遗漏的病毒序列,并校正物种注释结果,得到更灵敏、准确且全面的病毒鉴定结果。面的病毒鉴定结果。面的病毒鉴定结果。

【技术实现步骤摘要】
一种检测样本中宏病毒组的方法和系统


[0001]本专利技术属于宏基因组分析
,具体地,涉及一种检测样本中宏病毒组的方法和系统。

技术介绍

[0002]随着宏基因组学的发展,越来越多的研究证明,病毒在不同生态系统中发挥着关键作用,因此对宏基因组数据进行病毒的分析是非常有必要的。
[0003]近年来,以高通量测序为基础的病毒宏基因组学技术以其时效性、高通量的优势,使得人们能够对不同类型样本进行微生物测序,对大量的不可培养的病毒进行研究。目前宏基因组测序方法主要包括二代测序(Next

generation Sequencing)和三代测序技术。二代测序因通量高、准确性高而广泛应用于病毒宏基因组领域;而三代测序技术中的纳米孔单分子测序平台(Oxford Nanopore Technologies,ONT)因速度快、测序读长长等优势,也越来越多应用于病毒宏基因组领域。然而,现有的病毒宏基因组学分析方法,存在如下不足:
[0004](1)现有的病毒序列数据库不全,大量的新病毒未被测序,造成病毒序列的鉴定敏感性和准确性均较低;
[0005](2)基于二代测序技术产生的contigs较短,鉴定的病毒序列完整度低;
[0006](3)基于Nanopore测序平台产生的reads准确性较低,鉴定的病毒序列质量低。

技术实现思路

[0007]为了解决上述技术问题中的至少一个,本专利技术采取的技术方案如下:
[0008]本专利技术第一方面提供一种检测样本中宏病毒组的方法,包括以下步骤:
[0009]S1,分别获得待检测样本二代测序数据和三代测序数据;
[0010]S2,将所述二代测序数据和所述三代测序数据进行相互校正和混合组装,得到混合组装contigs,将三代测序数据单独组装得到Nanopore contigs;
[0011]S3,病毒鉴定与物种注释:
[0012]将所述混合组装contigs进行比对注释,得到候选病毒contigs和非病毒contigs,并对鉴定的病毒contigs进行物种注释,得到候选病毒的contigs的注释结果,
[0013]将所述Nanopore contigs进行比对注释,得到Nanopore病毒contigs,同样进行物种注释得到Nanopore病毒contigs的注释结果;
[0014]S4,病毒鉴定的校正:
[0015]S41,将候选病毒contigs、非病毒contigs和Nanopore病毒contigs三个数据集进行聚类分析,
[0016]S42,筛选出代表序列来自Nanopore病毒contigs的聚类单元,该聚类单元中如果某个非病毒contig能够比对上所述代表序列,则该非病毒contig作为遗漏的序列补充进候选病毒contigs,得到校正后的候选病毒contigs,将该聚类单元里的校正后的候选病毒
contigs作为一个类病毒株,并使用代表序列的物种注释结果作为该类病毒株的注释结果,
[0017]S43,将不在筛选出的聚类单元里的每条候选病毒contig均作为类病毒株,与经过校正得到的类病毒株的注释结果进行汇总,得到最终的病毒鉴定结果。
[0018]在本专利技术的一些实施方案中,二代测序数据利用二代测序平台测序得到的数据,所述第二代测序平台包括但不限于Illumina

Solexa(ATM,HiSeq2000
TM
等)、ABI

Solid和Roche

454(焦磷酸测序);三代测序数据利用单分子测序平台测序得到的数据所述单分子测序平台包括但不限于Helicos公司的真实单分子测序技术(True Single Molecule DNAsequencing),Pacific Biosciences公司单分子实时测序(single molecule real

time(SMRTTM)),以及Oxford Nanopore Technologies公司的纳米孔测序技术等(Rusk,Nicole(2009

04

01).Cheap Third

Generation Sequencing.Nature Methods 6(4):2446(4)。
[0019]在本专利技术的一些实施方案中,用于二代测序和用于三代测序的核酸样本利用同样的方法抽提或者利用不同的方法抽提,在一个优选的实施方案中,均采用酚

氯仿抽提法提取核酸样本。
[0020]进一步地,获得的所述二代测序数据和所述三代测序数据为经过质控和去除宿主序列后的二代测序数据和三代测序数据。
[0021]在本专利技术的一些实施方案中,对于二代测序数据,进行质控的步骤如下:
[0022](1)过滤含有2个以上N碱基的read,对保留下来的序列,在序列首尾两端使得滑动窗口检测碱基质量,切除质量值低于Q15的短片段序列,同时检测序列尾端的polyX序列并去除;
[0023](2)过滤低复杂度序列、重复序列和接头序列;
[0024](3)过滤长度小于15bp的序列,
[0025]在本专利技术中,对于二代测序数据进行质控,可以采取任意能够实现上述功能的软件、算法或程序,例如fastp v0.20,参数设置

n 2
ꢀ‑
q 15
ꢀ‑
x
ꢀ‑5ꢀ‑3ꢀ‑
y
ꢀ–
dedup
ꢀ‑‑
dup_calc_accuracy 6。
[0026]在本专利技术的一些实施方案中,对于三代测序数据,进行质控的步骤为:只保留质量值大于7的序列。
[0027]在本专利技术的一些实施方案中,对于二代测序数据和三代测序数据去除宿主序列,均采用首先与宿主参考基因组进行比较,提取未比对上的序列,即得到去除宿主后的二代测序数据或三代测序数据。在本专利技术的一些优选的实施方案中,利用不同的软件、算法或程序分别将二代测序数据或三代测序数据与宿主参考基因组,并用同样的软件、算法或程序提取未比对上的序列,在本专利技术的一些具体实施方案中,利用bwa v0.7.17将二代测序数据与宿主参考基因组进行比对,利用minimap2 v2.2将三代测序数据与宿主参考基因组进行比对,之后均利用samtools v1.9提取未比对上的序列。
[0028]在本专利技术的一些具体实施方案中,利用OPERA

MS v0.9.0软件将所述二代测序数据和三代测序数据进行相互校正与混合组装,得到混合组装contigs。在本专利技术中,也可以利用任意具有相同功能的软件、算法或程序进行相互校正与混合组装。
[0029]在本专利技术的一些具体实施方案中,利用flye v2.8.3对所述三代测序数据进行组装,得到Nanopore contigs。在本专利技术中,也可以利用任意具有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测样本中宏病毒组的方法,其特征在于,包括以下步骤:S1,分别获得待检测样本二代测序数据和三代测序数据;S2,将所述二代测序数据和所述三代测序数据进行相互校正和混合组装,得到混合组装contigs,将三代测序数据单独组装得到Nanopore contigs;S3,病毒鉴定与物种注释:将所述混合组装contigs进行比对注释,得到候选病毒contigs和非病毒contigs,并对鉴定的病毒contigs进行物种注释,得到候选病毒的contigs的注释结果,将所述Nanopore contigs进行比对注释,得到Nanopore病毒contigs,同样进行物种注释得到Nanopore病毒contigs的注释结果;S4,病毒鉴定的校正:S41,将候选病毒contigs、非病毒contigs和Nanopore病毒contigs三个数据集进行聚类分析,S42,筛选出代表序列来自Nanopore病毒contigs的聚类单元,该聚类单元中如果某个非病毒contig能够比对上所述代表序列,则该非病毒contig作为遗漏的序列补充进候选病毒contigs,得到校正后的候选病毒contigs,将该聚类单元里的校正后的候选病毒contigs作为一个类病毒株,并使用代表序列的物种注释结果作为该类病毒株的注释结果,S43,将不在筛选出的聚类单元里的每条候选病毒contig均作为类病毒株,与经过校正得到的类病毒株的注释结果进行汇总,得到最终的病毒鉴定结果。2.根据权利要求1所述的一种检测样本中宏病毒组的方法,其特征在于,步骤S1中,获得的所述二代测序数据和所述三代测序数据为经过质控和去除宿主序列后的二代测序数据和三代测序数据。3.根据权利要求2所述的一种检测样本中宏病毒组的方法,其特征在于,对于二代测序数据,进行质控的步骤如下:(1)过滤含有2个以上N碱基的read,对保留下来的序列,在序列首尾两端使得滑动窗口检测碱基质量,切除质量值低于Q15的短片段序列,同时检测序列尾端的polyX序列并去除;(2)过滤低复杂度序列、重复序列和接头序列;(3)过滤长度小于15bp的序列,对于三代测序数据,进行质控的步骤为:只保留质量值大于7的序列。4.根据权利要求1所述的一种检测样本中宏病毒组的方法,其特征在于,步骤S2中,混合组装contigs和Nanopore contigs只保留长度大于或等于500bp的序列。5.根据权利要求1所述的一种检测样本中宏病毒组的方法,其特征在于,步骤S3中,所述比对注释是指将混合组装contigs或Nanopore contigs与病毒特异性...

【专利技术属性】
技术研发人员:林德春陈江金桃张智闵詹太平蒋华
申请(专利权)人:广东美格基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1