一种宏病毒组流程的优化分析方法技术

技术编号:28323628 阅读:153 留言:0更新日期:2021-05-04 13:04
本发明专利技术公开了一种宏病毒组流程的优化分析方法,1)序列质控,2)序列拼接,3)病毒序列预测,4)病毒序列聚类处理,5)物种注释,本发明专利技术分析数据更为准确,能拼接出长度较长的contig,从而提高比对结果的准确性和注释结果的可靠性。

【技术实现步骤摘要】
一种宏病毒组流程的优化分析方法
本专利技术涉及基因检测
,尤其涉及一种宏病毒组流程的优化分析方法。
技术介绍
宏病毒组测序是指对样本种所有病毒基因组进行高通量测序,通过分析测序序列的构成分析特定环境中病毒群体的构成情况或基因的组成以及功能。借助不同环境下病毒的构成差异分析我们可以分析病毒与宿主之间的关系,寻找标志性病毒或特定功能的基因。为了实现着一些目的。当前运用于宏病毒组分析的最常用方法,是基于reads分析方法。该方法的原理是根据reads与病毒数据库进行比对,将比对上的序列注释为该病毒。但是,由于reads比对的可靠性不高,准确性较差,所得到的结果往往会受到广大的质疑,因此,需要引入基于拼接的数据分析方法。而现有的基于reads分析方法具有如下缺陷:(1)Reads太短,往往只有150bp,由此去比对,往往得到的结果为假阳性;(2)基于reads的分析方法,其结果往往包含了大量的病毒结果,而大部分结果都不可信。
技术实现思路
本专利技术的提供一种宏病毒组流程的优化分析方法。本专利技本文档来自技高网...

【技术保护点】
1.一种宏病毒组流程的优化分析方法,其特征在于,包括下列步骤:/n1)序列质控,使用fastp软件,将原始序列进行质量过滤,获得高质量序列;/n2)序列拼接,使用megahit软件包对上一步得到的高质量序列进行拼接,得到拼接好的contig文件;/n3)病毒序列预测,将上一步得到的contig文件使用virsorter软件进行病毒序列的预测,得到预测为病毒的contig序列;/n4)病毒序列聚类处理,将步骤3)中挑选预测为病毒的contig序列,使用vcontact2软件,对序列进行聚类分析,获得聚类的结果文件;/n5)物种注释,将上一步得到的聚类结果,使用lca的算法,计算出病毒序列的注释结...

【技术特征摘要】
1.一种宏病毒组流程的优化分析方法,其特征在于,包括下列步骤:
1)序列质控,使用fastp软件,将原始序列进行质量过滤,获得高质量序列;
2)序列拼接,使用megahit软件包对上一步得到的高质量序列进行拼接,得到拼接好的contig文件;
3)病毒序列预测,将上一步得到的contig文件使用virsorter软件进行病毒序列的预测,得到预测为病毒的contig序列;
4)病毒序列聚类处理,将步骤3)中挑选预测为病毒的contig序列,使用vcontact2软件,对序列进行聚类分析,获得聚类的结果文件;
5)物种注释,将上一步得到的聚类结果,使用lca的算法,计算出病毒序列的注释结果。


2.如权利要求1所述的一种宏病毒组流程的优化分析方法,其特征在于:所述步骤1)中的原始数据是采用Cutadapt识别3'端潜在的接头序列,并在识别的接头序列处截断;与接头序列的匹配长度≥3bp,允许≤20%的碱基错配率。


3.如权利要求1所述的一种宏病毒组流程的优化分析方法,其特征在于,所述步骤1)中fast软件p采用滑动窗口法对序列进行质量筛查:窗口大小为5bp,从5'端第一个碱基位置开始...

【专利技术属性】
技术研发人员:薛正晟李鸿毅寇文伯孙子奎
申请(专利权)人:上海派森诺生物科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1