当前位置: 首页 > 专利查询>南开大学专利>正文

一种病毒测序序列的自动化分析方法及系统技术方案

技术编号:28627921 阅读:20 留言:0更新日期:2021-05-28 16:24
本发明专利技术公开一种病毒测序序列的自动化分析方法及系统,包括:对病毒测序序列经质量控制和序列组装后得到病毒基因组长序列;对病毒基因组长序列进行编码后采用预先训练的深度学习网络模型进行类型鉴定;根据病毒基因组长序列与参考基因组的序列比对进行病毒测序序列的注释。针对大量增长的病毒测序数据量以及硬盘空间被大量占用的问题,本发明专利技术引入深度学习构建鉴定模型,在实现病毒类型鉴定的同时,提供病毒注释功能。

【技术实现步骤摘要】
一种病毒测序序列的自动化分析方法及系统
本专利技术涉及基因测序分析
,特别是涉及一种病毒测序序列的自动化分析方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。在过去二十年里已经出现了多种对人类有大规模杀伤力的新种类病毒,如重症急性呼吸综合征SARS、甲型流感病毒H1N1、中东呼吸综合征MERS、埃博拉病毒等病毒,但是目前对于病毒鉴定的研究尚且不足。现有的病毒鉴定工具通常基于BLAST与基因组数据库或者蛋白质数据库比对来鉴定,但是随着病毒数据成倍甚至指数级的增长,这种方法的速度处理逐渐变慢,所以面对大量增长的病毒测序数据的数量,现有方法已不能满足病毒鉴定需求;另外,由于病毒测序数据量的快速增长,基于序列比对方法所用到的数据库的存储也要占用越来越多的硬盘空间。
技术实现思路
为了解决上述问题,本专利技术提出了一种病毒测序序列的自动化分析方法及系统,针对大量增长的病毒测序数据量以及硬盘空间被大量占用的问题,本专利技术引入深度学习构建鉴定模型,在实现病毒类型鉴定的同时,提供病毒注释功能。为了实现上述目的,本专利技术采用如下技术方案:第一方面,本专利技术提供一种病毒测序序列的自动化分析方法,包括:对病毒测序序列经质量控制和序列组装后得到病毒基因组长序列;对病毒基因组长序列进行编码后采用预先训练的深度学习网络模型进行类型鉴定;根据病毒基因组长序列与参考基因组的序列比对进行病毒测序序列的注释。第二方面,本专利技术提供一种病毒测序序列的自动化分析系统,包括:数据预处理模块,被配置为对病毒测序序列经质量控制和序列组装后得到病毒基因组长序列;鉴定模块,被配置为对病毒基因组长序列进行编码后采用预先训练的深度学习网络模型进行类型鉴定;注释模块,被配置为根据病毒基因组长序列与参考基因组的序列比对进行病毒测序序列的注释。第三方面,本专利技术提供一种计算机可读指令,所述计算机可读指令被处理器执行时,完成第一方面所述的方法。与现有技术相比,本专利技术的有益效果为:针对单物种测序序列的物种识别鉴定问题,本专利技术提出一种基于深度学习的多分类分类器,面对大量增长的病毒测序数据的数量,引入深度学习方法对病毒进行种类鉴定,相比于传统的需要与大量病毒基因组进行比对的鉴定方法来说,本专利技术能够大大提升鉴定速度。本专利技术利用深度学习方法训练得到的鉴定模型,能够代替大量占用硬盘空间的病毒数据库,使得需要占用的硬盘空间明显变少。本专利技术通过深度学习除了实现对病毒种类的鉴定外,还同时提供病毒注释功能,实现了进化树分析、溯源预测功能、变异检测和蛋白质功能注释几种注释功能。本专利技术引入深度学习的鉴定和分类方法的速度不会随着现实数据库中的数据的增多而明显变慢,将病毒数据特征进行抽象出来,解决现有方法所基于的数据库要占用大量硬盘空间的问题,明显提高病毒鉴定的分析效率。本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。图1为本专利技术实施例1提供的病毒测序序列的自动化分析方法流程图;图2为本专利技术实施例1提供的深度学习网络模型结构图;图3为本专利技术实施例1提供的网络模型中分支流程图。具体实施方式:下面结合附图与实施例对本专利技术做进一步说明。应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。实施例1如图1所示,本实施例提供一种病毒测序序列的自动化分析方法,包括:S1:对病毒测序序列经质量控制和序列组装后得到病毒基因组长序列;S2:对病毒基因组长序列进行编码后采用预先训练的深度学习网络模型进行类型鉴定;S3:根据病毒基因组长序列与参考基因组的序列比对进行病毒测序序列的注释。鉴于精确和完整的数据集与基因序列相似度计算的精度和深度学习的效率具有很高的相关性,所以本实施例旨在获取高质量的数据集,从NCBI(NationalCenterforBiotechnologyInformation)FTP下载了分别属于137个族的9569条病毒基因组序列;在所述步骤S1中,具体包括:S1-1:质量控制旨在过滤低质量序列,低质量序列意味着序列中可能包含错误的碱基,所以本实施例评估获取的基因组数据的质量,生成包含高质量碱基占比、平均质量、GC含量等指标的质量评估报告,对病毒基因组序列进行去接头和引物序列的操作;优选地,采用fastp、FastQC、Trimmomatic、Cutadapt和Sickle等外部软件进行质量控制操作。S1-2:序列组装用于将质量控制后的短序列组装成病毒基因组长序列contigs;优选地,采用MEGAHIT、Velvet、SPAdes和Canu等外部组装软件进行序列组装;优选地,得到组装后的长序列contigs后,本实施例还可采用总contigs长度、N50、contigs的平均长度等评估指标判断组装质量,从而判断使用contigs的可信度。在本实施例中,对于深度学习网络模型所采用的训练集,随机选择137个族中长度为5000的一千条序列,并采用ONE-HOT编码将病毒基因组中的碱基序列进行编码,输入至深度学习网络模型中。优选地,在本实施例中提出基于深度学习的新鉴定方法,使用卷积神经网络CNN的多分类模型和残差网络构建包含多个平行分支网络的多分类卷积神经网络模型,如图2-3所示,整个模型由不同的平行分支构成,每个分支类似于一个小型独立网络,每个分支使用不同的架构可以帮助神经网络学习基因组序列更丰富的特征。所述多分类卷积神经网络模型具体结构为:(1)在深度最深的主分支上,本实施例设置了比其他分支更深的层数,使得训练结果更准确,且所有卷积层中的激活函数都设置为ReLu;(2)为了缓解过拟合问题,本实施例将隐藏层中的正则化参数(regularizer)设置为0.001;(3)为了抵消由于深度太深导致的梯度消失的问题,本实施例在主分支上增加本文档来自技高网
...

【技术保护点】
1.一种病毒测序序列的自动化分析方法,其特征在于,包括:/n对病毒测序序列经质量控制和序列组装后得到病毒基因组长序列;/n对病毒基因组长序列进行编码后采用预先训练的深度学习网络模型进行类型鉴定;/n根据病毒基因组长序列与参考基因组的序列比对进行病毒测序序列的注释。/n

【技术特征摘要】
1.一种病毒测序序列的自动化分析方法,其特征在于,包括:
对病毒测序序列经质量控制和序列组装后得到病毒基因组长序列;
对病毒基因组长序列进行编码后采用预先训练的深度学习网络模型进行类型鉴定;
根据病毒基因组长序列与参考基因组的序列比对进行病毒测序序列的注释。


2.如权利要求1所述的一种病毒测序序列的自动化分析方法,其特征在于,所述质量控制为对病毒测序序列进行去接头和去引物序列的操作;
或者,所述序列组装为将短序列组装成长序列,以得到病毒基因组长序列;
或者,对病毒基因组长序列的碱基序列进行编码。


3.如权利要求1所述的一种病毒测序序列的自动化分析方法,其特征在于,对参考基因组进行特征工程后构建训练集,采用训练集对深度学习网络模型进行训练。


4.如权利要求1所述的一种病毒测序序列的自动化分析方法,其特征在于,所述类型鉴定包括:根据预先训练的深度学习网络模型对病毒测序序列进行识别,输出病毒测序序列属于每个族的概率,以概率最高的族为病毒测序序列的类型;
或者,所述深度学习网络模型包含多个平行分支网络,所述多个平行分支网络中至少存在一个分支网络的深度大于其他网分支络。


5.如权利要求1所述的一种病毒测序序列的自动化分析方法,其特征在于,所述病毒基因组长序列与参考基因组的序列比对中,根据相...

【专利技术属性】
技术研发人员:刘健孙嘉良陈娇
申请(专利权)人:南开大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1