System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于宏基因组测序数据进行病毒分类的方法、系统、设备和介质技术方案_技高网

基于宏基因组测序数据进行病毒分类的方法、系统、设备和介质技术方案

技术编号:41178157 阅读:4 留言:0更新日期:2024-05-07 22:13
本发明专利技术公开了一种基于宏基因组测序数据进行病毒分类的方法、设备和介质,属于病毒组学技术领域。所述方法包括以下步骤:S1,获得待测样本的宏基因组测序数据,并进行组装,得到宏基因组contig序列;S2,利用病毒contig序列提取工具从宏基因组contig序列中提取得到病毒contig序列;S3,结合蛋白质数据库对病毒contig序列进行分类,获得病毒分类信息。利用本发明专利技术的方法,能够用于挖掘宏基因组数据集中的病毒群体,可以更好地获取病毒与其宿主之间的复杂关系,从而促进病毒组研究的快速发展。

【技术实现步骤摘要】

本专利技术属于病毒组学,具体地,涉及基于宏基因组测序数据进行病毒分类的方法、系统、设备和介质


技术介绍

1、肠道微生物群极大地影响了人类的健康和疾病,以肠道细菌为宿主的病毒可能是同样重要的。近年来诸多研究表明,肠道病毒组通过与细菌组和人类免疫系统的相互作用,在调节稳态和疾病进展中起着至关重要的作用。这些研究揭示了病毒组组成的变化与几种疾病之间的显著关联,如代谢综合征、坏死性小肠结肠炎、炎症性肠病和2型糖尿病。最近的跨队列荟萃分析发现结直肠癌患者中富集了某些特定的肠道病毒生物标志物,如卟啉单胞菌、梭菌和亨盖特氏菌噬菌体,表明病毒组作为治疗靶点的潜力。还有研究发现肠道病毒组对寿命具有显著的影响,百岁老人的肠道病毒组更多样化,肠道中的多种病毒会增加细菌的新陈代谢能力,可能在帮助百岁老人免受传染病的侵害中发挥重要作用。这些研究都强调了通过探索宏基因组中的病毒群以了解它们对人类健康影响的重要性。

2、尽管宏基因组学技术和微生物测序数据发展迅速,但以往的研究主要集中在细菌上,忽略了细菌和病毒群落之间复杂的相互作用。散弹枪测序数据的出现为理解病毒和细菌生态系统之间的动态关系提供了一个有价值的途径,消除了病毒颗粒特异性富集的必要性。虽然已经出现了一些从宏基因组数据中发现病毒群落的工作流,但它们仍然表现出一定的限制。例如,viwrap缺乏对原始reads的质量控制和组装、基因预测和病毒序列的功能注释。类似地,虽然virmap便于迭代组装增强和从宏基因组数据集中检测病毒序列,但它不包括病毒序列的基因预测和功能注释。


<p>技术实现思路

1、为了解决上述技术问题中的至少一个,本专利技术采用的技术方案如下:

2、本专利技术第一方面提供一种基于宏基因组测序数据进行病毒分类的方法,包括以下步骤:

3、s1,获得待测样本的宏基因组测序数据,并进行组装,得到宏基因组contig序列;

4、s2,利用病毒contig序列提取工具从宏基因组contig序列中提取得到病毒contig序列;

5、s3,结合蛋白质数据库对病毒contig序列进行分类:

6、s31,将病毒contig序列与病毒refseq基因组进行比对,获得第一病毒分类信息;

7、s32,将步骤s31中未对比上的病毒contig序列,利用crass样噬菌体检测获得第二病毒分类信息;

8、s33,将步骤s32中未对比上的病毒contig序列,在所述蛋白质数据库中识别相似的病毒蛋白,从而获得第三病毒分类信息;

9、s34,将步骤s32中未获得相似性病毒蛋白的病毒contig序列,利用demovir确定第四病毒分类信息;

10、将第一病毒分类信息、第二病毒分类信息、第三病毒分类信息和第四病毒分类信息合并,得到待测样本中的病毒分类信息。

11、本专利技术利用上述步骤,能够有效地检测病毒序列。这些序列进一步通过四种不同的策略进行分类,有助于计算病毒序列的丰度、基因功能水平和七级层次分类。

12、在本专利技术的一些实施方案中,步骤s2中,分别利用virsorter2和virfinder提取病毒contig序列,并将提取到的病毒contig序列进行合并。

13、其中,virsorter2应用多分类器、专家指导的方法来检测不同的dna和rna病毒基因组。virfinder基于病毒序列k-mers词频和机器学习识别病毒序列的方法。此方法利用了常用的序列k-mers构建序列相量,构建机器学习分类器,不需要参考病毒序列数据库,显著提高了病毒序列识别的速度和准确性,将有助于在宏基因组学时代下对病毒的研究。

14、用于病毒序列识别的工具很多,除上述两种外,还包括但不限于:vcontact2、gottcha、viromescan、vip、marvel、prophage hunter。专利技术人发现利用virsorter2和virfinder提取病毒contig序列,并将提取到的病毒contig序列进行合并,得到的信息最准确。

15、在本专利技术的一些实施方案中,在步骤s2之后,步骤s3之前,进一步包括利用cd-hit对病毒contig序列进行去冗余的步骤,本步骤能够减轻后续分析的资源需求,降低大规模研究的阈值。

16、在本专利技术的一些实施方案中,步骤s2之后,步骤s3之前,进一步包括对病毒contig序列进行基因预测和功能注释的步骤。

17、在本专利技术的一些优选实施方案中,利用选自go、kegg、pfama、ec和cazy数据库中的至少一种进行所述功能注释。具体地,使用diamond(v.2.0.6)在人类的uniref90数据库中搜索基因序列,e值<1e-10,提取最佳比对结果(至少80%的长度至少有50%的同一性)。最后将比对结果映射到上述数据库。

18、在本专利技术的一些优选实施方案中,进一步包括获得基因表达水平的步骤。

19、在本专利技术的一些实施方案中,步骤s31将病毒contig序列与病毒refseq基因组进行比对,获得第一病毒分类信息,具体步骤包括:

20、获得病毒refseq序列;

21、利用blastn将病毒序列与refseq序列进行比对,使用e值阈值为1e-10;

22、根据taxonkit和ncbi分类确定前五个结果的最低共同祖先,并将其分配到病毒contig序列。

23、在本专利技术的一些实施方案中,步骤s32将步骤s31中未对比上的病毒contig序列,利用crass样噬菌体检测获得第二病毒分类信息,具体步骤包括:

24、利用blastp工具在病毒contig序列的orf上查询原crassphage的遗传特征氨基酸序列,e值阈值为1e-10,从而获得病毒contig序列的病毒分类信息。

25、在本专利技术的一些实施方案中,步骤s33将步骤s32中未对比上的病毒contig序列,在所述蛋白质数据库中识别相似的病毒蛋白,从而获得第三病毒分类信息,具体步骤包括:

26、利用blastp比对至病毒refseq蛋白数据库,e值阈值为1e-10,bitscore阈值为50;

27、利用pfama注释中的噬菌体结构蛋白,根据特定的蛋白对病毒contig序列进行分类。

28、s34,将步骤s33中未获得相似性病毒蛋白的病毒contig序列,利用demovir确定第四病毒分类信息;

29、利用demovir的参数和数据库对其进行科水平的注释。

30、本专利技术第二方面提供一种计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如本专利技术第一方面任一所述方法的步骤。

31、本专利技术第三方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如本专利技术第一方面任一所述方法的步骤。

32、本专利技术第四方面提供一本文档来自技高网...

【技术保护点】

1.一种基于宏基因组测序数据进行病毒分类的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于宏基因组测序数据进行病毒分类的方法,其特征在于,步骤S2中,分别利用VirSorter2和Virfinder提取病毒contig序列,并将提取到的病毒contig序列进行合并。

3.根据权利要求2所述的一种基于宏基因组测序数据进行病毒分类的方法,其特征在于,在步骤S2之后,步骤S3之前,进一步包括利用CD-HIT对病毒contig序列进行去冗余的步骤。

4.根据权利要求1所述的一种基于宏基因组测序数据进行病毒分类的方法,其特征在于,在步骤S2之后,步骤S3之前,进一步包括对病毒contig序列进行基因预测和功能注释的步骤。

5.根据权利要求4所述的一种基于宏基因组测序数据进行病毒分类的方法,其特征在于,利用选自GO、KEGG、PfamA、EC和CAZy数据库中的至少一种进行所述功能注释。

6.根据权利要求4所述的一种基于宏基因组测序数据进行病毒分类的方法,其特征在于,进一步包括获得基因表达水平的步骤。

7.一种计算机设备,其特征在于,包括:

8.一种计算机可读存储介质,其特征在于,

9.一种基于宏基因组测序数据进行病毒分类的系统,其特征在于,包括以下模块:

...

【技术特征摘要】

1.一种基于宏基因组测序数据进行病毒分类的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于宏基因组测序数据进行病毒分类的方法,其特征在于,步骤s2中,分别利用virsorter2和virfinder提取病毒contig序列,并将提取到的病毒contig序列进行合并。

3.根据权利要求2所述的一种基于宏基因组测序数据进行病毒分类的方法,其特征在于,在步骤s2之后,步骤s3之前,进一步包括利用cd-hit对病毒contig序列进行去冗余的步骤。

4.根据权利要求1所述的一种基于宏基因组测序数据进行病毒分类的方法,其特征在于,在步骤s...

【专利技术属性】
技术研发人员:夏炎徐晓强王晓凯梁丽凤孙英帅
申请(专利权)人:深圳零一生命科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1