一种基于联邦学习和神经网络的抗病毒肽预测方法及系统技术方案

技术编号:36611209 阅读:13 留言:0更新日期:2023-02-08 09:58
本发明专利技术公开了一种基于联邦学习和神经网络的抗病毒肽预测方法及系统,利用多个独立的数据集分别进行预测模型的训练,其模型通过构建双通道深度神经网络,从原始变长序列数据中提取不同维度的特征,并且从序列数据和进化水平两个方面分析肽段序列,最终将得到的模型梯度和参数通过加密技术传输给中间服务器;服务器在不接触数据本身的情况下将传递来的模型参数进行聚合形成中间模型;服务器将中间模型的参数传递给参与方,完成参与方模型的更新,循环上述步骤,直至模型训练完成。将联邦学习和神经网络相结合,在保证数据安全性的前提下,能够准确快速的预测肽段的抗病毒活性。能够准确快速的预测肽段的抗病毒活性。能够准确快速的预测肽段的抗病毒活性。

【技术实现步骤摘要】
一种基于联邦学习和神经网络的抗病毒肽预测方法及系统


[0001]本专利技术属于生物肽识别
,具体涉及一种基于联邦学习和神经网络的抗病毒肽预测方法及系统。

技术介绍

[0002]近年来,大量基于机器学习和深度学习的抗病毒肽预测模型逐步被开发。基于机器学习的模型,能够在较小的数据集上取得不错的预测效果。
[0003]随着测序数据量的快速增长,机器学习在预测精准度和泛化能力上略显不足;基于深度学习的模型在面对海量数据时,能够获得精准的预测效果,但这些模型大都需要集中多个独立的数据集进行训练,在使用数据时难免会出现数据泄露的问题,有可能被恶意窃取利用。

技术实现思路

[0004]本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于联邦学习和神经网络的抗病毒肽预测方法及系统,能够较大限度避免数据泄露,并且能够准确快速的预测,用于解决因为数据隐私性而不可共享导致各数据拥有方出现数据孤岛,以及传统方法中将特征提取和模型学习分开进行产生重复工作量的技术问题。
[0005]本专利技术采用以下技术方案:
[0006]一种基于联邦学习和神经网络的抗病毒肽预测方法,包括以下步骤:
[0007]S1、客户端利用肽序列数据对预测模型进行训练,得到预测模型的梯度和参数进行加密;
[0008]S2、中间服务器对步骤S1加密后预测模型的梯度和参数进行聚合形成中间模型,中间模型将梯度和参数传递给客户端进行更新;
[0009]S3、重复步骤S1和步骤S2,利用二元交叉熵损失函数对中间模型进行评估,得到共享模型并传递给客户端;将待预测的肽序列输入客户端中,经预处理后进行独热编码,再将独热编码输入预测模型,输出预测结果完成抗病毒肽预测。
[0010]具体的,将不同长度的肽序列按照独热码编码规则进行编码,得到独热码;将独热码分别送入包含第一神经网络和第二神经网络的双通道深度神经网络中,将得到的对应特征进行融合,将融合后的特征作为输入,构造两个全连接层和一个Softmax层用于识别抗病毒肽。
[0011]进一步的,编码前,先将肽序列中的冗余序列和相似性大于90%的序列删除。
[0012]进一步的,肽序列的长度为L,经过编码得到维度为L*20的二进制矩阵,20表示氨基酸的种类。
[0013]进一步的,第一神经网络为循环神经网络的变体,结合两个循环神经网络的输出,一个从右到左处理序列,一个从左到右处理序列;两个循环神经网络均包含多个LSTM单元,LSTM单元用于记住任意长度序列数据的值,将输入序列的长度作为时间步长,得到两个方
向上最终时间步长的输出;LSTM单元的数量由输入序列长度动态调整,每个LSTM单元包括输入门、遗忘门和输出门,选择隐藏状态向量h
t
作为输出,得到128维的特征数据,并在输出后添加一个丢弃层,将keep

prob设置为0.8。
[0014]进一步的,第二神经网络包括特征提取层、平均块层和卷积层;
[0015]特征提取层使用20*20的Blosum矩阵初始化20个20*1的卷积核,通过对输入的变长独热码进行卷积操作构建位置特异性打分矩阵;
[0016]平均块层用于对位置特异性打分矩阵矩阵进行平均分块,将可变的进化数据转换为固定长度的进化特征,通过设置width=4,将20*L的位置特异性打分矩阵分成四部分,每一部分按照算法取平均值,最终得到20*4的平均块矩阵;
[0017]卷积层用于对得到的块进行卷积运算,获得100维的输出,并在输出后添加一个丢弃层,将keep

prob设置为0.8。
[0018]更进一步的,卷积操作为:
[0019][0020]其中,X为输入数据,i为位置索引,k为核的索引,W
k
为卷积核,M是窗口大小,N为输入通道数,m和n为累加符的下界。
[0021]进一步的,全连接层具体为:
[0022]fulCN(X)=ReLU(WX+b)
[0023]其中,X为输入数据,W为M
×
N的权重矩阵,b为n维偏差向量,fulCN为全连接函数,ReLU为激活函数;
[0024]Softmax层具体为:
[0025][0026]其中,V为给定的逻辑向量,i和k为位置索引,K=2。
[0027]进一步的,Paillier加密具体为:
[0028]每个研究机构参与方分别用服务器公布的公钥加密预测模型的各项参数,并各自将模型参数传给中间服务器;中间服务器利用私钥对收到的加密参数进行解密,模型更新对应的输入参数;选取两个大质数p,q,且p≈q;计算N=p
×
q,且λ=lcm(p

1,q

1),lcm()为最小公倍数函数或λ=φ(N),φ()为欧拉函数;选取一个随机数g;公钥PK为(N,g),私钥SK为(φ(N),μ),μ=φ(N)
‑1modN;B随机选取R,C=g
M
×
R
N
modN2利用A的公钥进行加密;然后A得到B的C完成解密,M=L(C
λ
modN2)
×
μmodN,C是加密后的数据,R是随机数且满足gcd(r,n)=1,M表示原文。
[0029]第二方面,本专利技术实施例提供了一种基于联邦学习和神经网络的抗病毒肽预测系统,包括:
[0030]加密模块,用于客户端利用肽序列数据对预测模型进行训练,得到预测模型的梯度和参数进行加密;
[0031]聚合模块,用于中间服务器对加密模块加密后预测模型的梯度和参数进行聚合形成中间模型,中间模型将梯度和参数传递给客户端进行更新;
[0032]预测模块,用于重复执行加密模块和聚合模块,利用二元交叉熵损失函数对中间模型进行评估,得到共享模型并传递给客户端;将待预测的肽序列输入客户端中,经预处理后进行独热编码,再将独热编码输入预测模型,输出预测结果完成抗病毒肽预测。
[0033]与现有技术相比,本专利技术至少具有以下有益效果:
[0034]本专利技术一种基于联邦学习和神经网络的抗病毒肽预测方法,采用双通道深度神经网络对变长肽序列进行预测,在处理序列数据时不需要单独进行特征提取,而是使用两个通道分别从序列和进化水平分析肽序列,将特征提取嵌入神经网络中,在训练模型时可以动态的优化特征提取方法;本专利技术方法比需要将特征提取和模型学习分开的传统方法更加简洁高效;并且利用联邦学习将数据孤岛连接,在保证数据隐私安全性的前提下,充分利用零散数据提高预测准确率,解决了在生物肽识别
的深度学习应用场景下,因为数据隐私性而不可共享导致各数据拥有方出现数据孤岛的技术问题。
[0035]进一步的,将不同长度的肽序列按照独热码编码规则进行编码,解决了分类器不好处理数据属性的问题,在一定程度上也起到了扩充特征的作用。将独热码导入第一神经网络,双向循环神经网络可以捕捉本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习和神经网络的抗病毒肽预测方法,其特征在于,包括以下步骤:客户端利用肽序列数据对预测模型进行训练,得到预测模型的梯度和参数进行加密;中间服务器对加密后预测模型的梯度和参数进行聚合形成中间模型,中间模型将梯度和参数传递给客户端进行更新;重复以上步骤,利用二元交叉熵损失函数对中间模型进行评估,得到共享模型并传递给客户端;将待预测的肽序列输入客户端中,经预处理后进行独热编码,再将独热编码输入预测模型,输出预测结果完成抗病毒肽预测。2.根据权利要求1所述的基于联邦学习和神经网络的抗病毒肽预测方法,其特征在于,将不同长度的肽序列按照独热码编码规则进行编码,得到独热码;将独热码分别送入包含第一神经网络和第二神经网络的双通道深度神经网络中,将得到的对应特征进行融合,将融合后的特征作为输入,构造两个全连接层和一个Softmax层用于识别抗病毒肽。3.根据权利要求2所述的基于联邦学习和神经网络的抗病毒肽预测方法,其特征在于,编码前,先将肽序列中的冗余序列和相似性大于90%的序列删除。4.根据权利要求2所述的基于联邦学习和神经网络的抗病毒肽预测方法,其特征在于,肽序列的长度为L,经过编码得到维度为L*20的二进制矩阵,20表示氨基酸的种类。5.根据权利要求2所述的基于联邦学习和神经网络的抗病毒肽预测方法,其特征在于,第一神经网络为循环神经网络的变体,结合两个循环神经网络的输出,一个从右到左处理序列,一个从左到右处理序列;两个循环神经网络均包含多个LSTM单元,LSTM单元用于记住任意长度序列数据的值,将输入序列的长度作为时间步长,得到两个方向上最终时间步长的输出;LSTM单元的数量由输入序列长度动态调整,每个LSTM单元包括输入门、遗忘门和输出门,选择隐藏状态向量h
t
作为输出,得到128维的特征数据,并在输出后添加一个丢弃层,将keep

prob设置为0.8。6.根据权利要求2所述的基于联邦学习和神经网络的抗病毒肽预测方法,其特征在于,第二神经网络包括特征提取层、平均块层和卷积层;特征提取层使用20*20的Blosum矩阵初始化20个20*1的卷积核,通过对输入的变长独热码进行卷积操作构建位置特异性打分矩阵;平均块层用于对位置特异性打分矩阵矩阵进行平均分块,将可变的进化数据转换为固定长度的进化特征,通过设置width=4,将20*L的位置特异性打分矩阵分成四部分,每一部分按照算法取平均值,最终得到20*4的平均块矩阵;卷积层用于对得到的块进行卷积...

【专利技术属性】
技术研发人员:赵晔杜展翔刘复昌
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1