一种病毒亚型识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23894816 阅读:22 留言:0更新日期:2020-04-22 08:00
本申请提供一种病毒亚型识别方法、装置、电子设备及存储介质,方法包括:对待识别病毒的至少一基因序列进行拆分处理,得到至少一基因序列中每个基因序列对应的目标基因序列;利用预设的基因向量库对目标基因序列进行索引,得到至少一基因序列中每个基因序列对应的序列向量;将所有序列向量输入预设的病毒分类神经网络模型,根据病毒分类神经网络模型的输出结果确定待识别病毒的亚型。通过对病毒基因进行拆分处理来增加基因序列的特征有效性,利用向量序列来表征基因序列可以降低亚型识别过程的误差率,使用病毒分类神经网络模型对序列向量进行识别,可以更加准确地得到待识别病毒的亚型,并且根据病毒的亚型对该病毒进行针对性的防护。

【技术实现步骤摘要】
一种病毒亚型识别方法、装置、电子设备及存储介质
本申请涉及生物基因领域,具体而言,涉及一种病毒亚型识别方法、装置、电子设备及存储介质。
技术介绍
流感是由流感病毒引起的人畜共患急性呼吸道传染病,每年在全球范围内造成25~50万人死亡,其中威胁最大的是甲型流感,病毒具有变异快、宿主种类丰富等特点,且常出现跨宿主传播,难以有效预防。而病毒根据血凝素(Hemagglutinin,HA)和神经氨酸酶(Neuraminidase,NA)抗原特性的不同,可分为多种亚型,不同亚型的病毒具有不同的致病性和传染性,部分亚型对公共健康构成了巨大威胁。而现有的病毒识别方法是通过采用特异性抗体对病毒的抗原进行检测,而由于特异性抗体的特殊性,传统的病毒识别方法难以准确地确定新的病毒变异体的亚型。
技术实现思路
本申请实施例的目的在于提供一种病毒亚型识别方法、装置、电子设备及存储介质,以改善传统的病毒识别方法检测病毒的亚型不够准确的问题。第一方面,本申请实施例提供了一种病毒亚型识别方法,包括:对待识别病毒的至少一基因序列进行拆分处理,得到所述至少一基因序列中每个基因序列对应的目标基因序列;利用预设的基因向量库对所述目标基因序列进行索引,得到所述至少一基因序列中每个基因序列对应的序列向量;将所有序列向量输入预设的病毒分类神经网络模型,根据所述病毒分类神经网络模型的输出结果确定所述待识别病毒的亚型。本申请实施例通过对病毒基因进行拆分处理来增加基因序列的特征有效性,利用向量序列来表征基因序列可以降低亚型识别过程的误差率,使用病毒分类神经网络模型对序列向量进行识别,由此可以更加准确地得到待识别病毒的亚型,并且根据病毒的亚型对该病毒进行针对性的防护。进一步地,所述对待识别病毒的至少一基因序列进行拆分处理,得到所述至少一基因序列中每个基因序列对应的目标基因序列,包括:获取所述待识别病毒的至少一基因序列;根据三联碱基将每个基因序列拆分,得到每个基因序列对应的预设数目的目标基因序列。本申请实施例根据三联碱基将基因序列拆分成预设数目的目标基因序列,来增加基因序列的特征的有效性,使得后续可以更加准确地利用序列向量表征基因序列。进一步地,所述预设数目的目标基因序列包括第一目标基因序列、第二目标基因序列和第三目标基因序列;所述根据三联碱基将每个基因序列拆分,得到每个基因序列对应的预设数目的目标基因序列,包括:从每个基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将每个基因序列拆分成对应的第一目标基因序列、第二目标基因序列和第三目标基因序列。本申请实施例通过从基因序列的第一个碱基、第二个碱基和第三个碱基开始将基因序列拆分成三条目标基因序列,来增加基因序列的特征的有效性,使得后续可以更加准确地利用序列向量表征基因序列。进一步地,所述利用预设的基因向量库对所述目标基因序列进行索引,得到所述至少一基因序列中每个基因序列对应的序列向量,包括:利用所述基因向量库对每个基因序列对应的各目标基因序列分别进行索引,得到各目标基因序列对应的序列矩阵,所述序列矩阵包括多个子序列向量;分别将各序列矩阵中的多个子序列向量对应进行加和平均,得到各目标基因序列对应的目标序列向量;将每个基因序列对应的所有目标序列向量进行加和平均,得到每个基因序列对应的序列向量。本申请实施例通过利用基因向量库对各目标基因序列进行索引,并对得到的多个子序列向量进行整合,由此,来增加序列向量的精度,序列向量可以更加准确地表征待识别病毒的特征。进一步地,所述利用预设的基因向量库对所述目标基因序列进行索引之前,所述方法还包括:获取多个病毒样本对应的样本基因序列;对各病毒样本的样本基因序列分别进行拆分处理,得到各自对应的样本目标基因序列;将所有样本目标基因序列输入CBOW模型中进行训练,得到所述基因向量库。本申请实施例通过利用预先获得的病毒样本以及对应的样本目标基因序列,对CBOW模型进行训练,以得到基因向量库,使得后续可以更加准确地对待识别病毒的目标基因序列进行索引,得到的序列向量可以更加准确地对目标基因序列进行表征。进一步地,所述对各病毒样本的样本基因序列分别进行拆分处理,得到各自对应的样本目标基因序列,包括:根据三联碱基将各病毒样本的样本基因序列拆分,得到各病毒样本对应的预设数目的样本目标基因序列。本申请实施例根据三联碱基将样本基因序列拆分成预设数目的样本目标基因序列,来增加样本基因序列的特征的有效性,使得后续训练得到的基因向量库可以更加准确地对样本基因序列进行索引。进一步地,所述各病毒样本对应的预设数目的样本目标基因序列包括:第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列;所述根据三联碱基将各病毒样本的样本基因序列拆分,得到各病毒样本对应的预设数目的样本目标基因序列,包括:分别从所述样本基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将所述样本基因序列拆分成对应的第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列。本申请实施例通过从样本基因序列的第一个碱基、第二个碱基和第三个碱基开始将样本基因序列拆分成三条样本目标基因序列,来增加基因序列的特征的有效性,使得后续可以更加准确地利用序列向量表征基因序列。进一步地,所述病毒分类神经网络模型包括至少一池化卷积层和至少一分类层;所述将所有序列向量输入预设的病毒分类神经网络模型,根据所述病毒分类神经网络模型的输出结果确定所述待识别病毒的亚型,包括:将所有序列向量进行拆分再拼接,得到所有序列向量中每个序列向量对应的拼接矩阵;利用所述池化卷积层对所述拼接矩阵进行特征提取,得到分别表征所有序列向量中每个序列向量的特征向量;利用所述分类层对所述特征向量进行分类,得到所述待识别病毒的亚型和宿主类别。本申请实施例通过在病毒分类神经网络中设置池化卷积层,对拼接矩阵进行特征提取,再设置分类层将特征向量进行分类得到对应的亚型和宿主类别,使得病毒分类神经网络可以更加准确地识别出待识别病毒的亚型和宿主类别,有利于后续对病毒进行防护。进一步地,所述至少一基因序列包括第一基因序列和第二基因序列,所述第一基因序列用于表示待识别病毒的NA基因的基因序列,所述第二基因序列用于表示待识别病毒的HA基因的基因序列;所述特征向量包括第一特征向量和第二特征向量,所述第一特征向量用于表示所述第一基因序列对应的特征向量,所述第二特征向量用于表示所述第二基因序列对应的特征向量,所述第一特征向量与所述第二特征向量对应的通道数不同。本申请实施例利用不同的特征提取方式对不同的基因序列进行处理,得到的特征向量的通道数也不同,使得后续可以针对性地对各个基因序列对应的特征向量进行分类。进一步地,所述分类层包括第一分类器、第二分类器和第三分类器;所述利用所述分类层对所述特征向量进行分类,包括:利用所述第一分类器对所述第一特征向量进行分类,得到所述待识别病毒的NA亚型;利用所述第二分类器和第三分类器分别对所述第二特征向量进行本文档来自技高网...

【技术保护点】
1.一种病毒亚型识别方法,其特征在于,包括:/n对待识别病毒的至少一基因序列进行拆分处理,得到所述至少一基因序列中每个基因序列对应的目标基因序列;/n利用预设的基因向量库对所述目标基因序列进行索引,得到所述至少一基因序列中每个基因序列对应的序列向量;/n将所有序列向量输入预设的病毒分类神经网络模型,根据所述病毒分类神经网络模型的输出结果确定所述待识别病毒的亚型。/n

【技术特征摘要】
1.一种病毒亚型识别方法,其特征在于,包括:
对待识别病毒的至少一基因序列进行拆分处理,得到所述至少一基因序列中每个基因序列对应的目标基因序列;
利用预设的基因向量库对所述目标基因序列进行索引,得到所述至少一基因序列中每个基因序列对应的序列向量;
将所有序列向量输入预设的病毒分类神经网络模型,根据所述病毒分类神经网络模型的输出结果确定所述待识别病毒的亚型。


2.根据权利要求1所述的方法,其特征在于,所述对待识别病毒的至少一基因序列进行拆分处理,得到所述至少一基因序列中每个基因序列对应的目标基因序列,包括:
获取所述待识别病毒的至少一基因序列;
根据三联碱基将每个基因序列拆分,得到每个基因序列对应的预设数目的目标基因序列。


3.根据权利要求2所述的方法,其特征在于,所述预设数目的目标基因序列包括第一目标基因序列、第二目标基因序列和第三目标基因序列;所述根据三联碱基将每个基因序列拆分,得到每个基因序列对应的预设数目的目标基因序列,包括:
从每个基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将每个基因序列拆分成对应的第一目标基因序列、第二目标基因序列和第三目标基因序列。


4.根据权利要求2所述的方法,其特征在于,所述利用预设的基因向量库对所述目标基因序列进行索引,得到所述至少一基因序列中每个基因序列对应的序列向量,包括:
利用所述基因向量库对每个基因序列对应的各目标基因序列分别进行索引,得到各目标基因序列对应的序列矩阵,所述序列矩阵包括多个子序列向量;
分别将各序列矩阵中的多个子序列向量对应进行加和平均,得到各目标基因序列对应的目标序列向量;
将每个基因序列对应的所有目标序列向量进行加和平均,得到每个基因序列对应的序列向量。


5.根据权利要求1所述的方法,其特征在于,所述利用预设的基因向量库对所述目标基因序列进行索引之前,所述方法还包括:
获取多个病毒样本对应的样本基因序列;
对各病毒样本的样本基因序列分别进行拆分处理,得到各自对应的样本目标基因序列;
将所有样本目标基因序列输入CBOW模型中进行训练,得到所述基因向量库。


6.根据权利要求5所述的方法,其特征在于,所述对各病毒样本的样本基因序列分别进行拆分处理,得到各自对应的样本目标基因序列,包括:
根据三联碱基将各病毒样本的样本基因序列拆分,得到各病毒样本对应的预设数目的样本目标基因序列。


7.根据权利要求6所述的方法,其特征在于,所述各病毒样本对应的预设数目的样本目标基因序列包括:第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列;所述根据三联碱基将各病毒样本的样本基因序列拆分,得到各病毒样本对应的预设数目的样本目标基因序列,包括:
分别从所述样本基因序列的第一个碱基、第二个碱基和第三个碱基开始,以三联碱基为单位,将所述样本基因序列拆分成对应的第一样本目标基因序列、第二样本目标基因序列和第三样本目标基因序列。


8.根据权利要求1-7任一项所述的方法,其特征在于,所述病毒分类神经网络模型包括至少一池化卷积层和至少一分类层;
所述将所有序列向量输入预设的病毒分类神经网络模型,根据所述病毒分类神经网络模型的输出结果确定所述待识别病毒的亚型,包括:
将所有序列向量进行拆分再拼接,得到所有序列向量中每个序列向量对应的拼接矩阵;
利用所述池化卷积层对所述拼接矩阵进行特征提取,得到分别表征所有序列向量中每个序列向量的特征向量;
利用所述分类层对所述特征向量进行分类,得到所述待识别病毒的亚型和宿主类别。


9.根据权利要求8所述的方法,其特征在于,所述至少一基因序列包括第一基因序列和第二基因序列,所述第一基因序列用于表示待识别病毒的NA基因的基因序列,所述第二基因序列用于表示待识别病毒的HA基因的基因序列;
所述特征向量包括第一特征向量和第二特征向量,所述第一特征向量用于表示所述第一基因序列对应的特征向量,所述第二特征向量用于表示所述第二基因序列对应的特征向量,所述第一特征向量与所述第二特征向量对应的通道数不同。


10.根据权利要求9所述的方法,其特征在于,所述分类层包括第一分类器、第二分类器和第三分类器;
所述利用所述分类层对所述特征向量进行分类,包括:
利用所述第一分类器对所述第一特征向量进行分类,得到所述待识别病毒的NA亚型;
利用所述第二分类器和第三分类器分别对所述第二特征向量进行分类,得到所述待识别病毒的HA亚型和宿主类别。


11.根据权利要求1-7任一项所述的方法,其特征在于,所述将所有序列向量输入预设的病毒分类神经网络模型之前,所述方法还包括:
获取多个病毒样本对应的序列向量,以及所述病毒样本对应的亚型和宿主类别;
将多个病毒样本对应的序列向量、亚型及宿主类别作为输入,对卷积神经网络进行训练,得到所述病毒分类神经网络模型。

【专利技术属性】
技术研发人员:李鹏刘宇奇宋宏彬
申请(专利权)人:中国人民解放军疾病预防控制中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1