一种基于联邦学习和神经网络的抗病毒肽预测方法及系统技术方案

技术编号：36611209 阅读：13 留言：0更新日期：2023-02-08 09:58

本发明专利技术公开了一种基于联邦学习和神经网络的抗病毒肽预测方法及系统，利用多个独立的数据集分别进行预测模型的训练，其模型通过构建双通道深度神经网络，从原始变长序列数据中提取不同维度的特征，并且从序列数据和进化水平两个方面分析肽段序列，最终将得到的模型梯度和参数通过加密技术传输给中间服务器；服务器在不接触数据本身的情况下将传递来的模型参数进行聚合形成中间模型；服务器将中间模型的参数传递给参与方，完成参与方模型的更新，循环上述步骤，直至模型训练完成。将联邦学习和神经网络相结合，在保证数据安全性的前提下，能够准确快速的预测肽段的抗病毒活性。能够准确快速的预测肽段的抗病毒活性。能够准确快速的预测肽段的抗病毒活性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于联邦学习和神经网络的抗病毒肽预测方法及系统

[0001]本专利技术属于生物肽识别
，具体涉及一种基于联邦学习和神经网络的抗病毒肽预测方法及系统。

技术介绍

[0002]近年来，大量基于机器学习和深度学习的抗病毒肽预测模型逐步被开发。基于机器学习的模型，能够在较小的数据集上取得不错的预测效果。
[0003]随着测序数据量的快速增长，机器学习在预测精准度和泛化能力上略显不足；基于深度学习的模型在面对海量数据时，能够获得精准的预测效果，但这些模型大都需要集中多个独立的数据集进行训练，在使用数据时难免会出现数据泄露的问题，有可能被恶意窃取利用。

技术实现思路

[0004]本专利技术所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于联邦学习和神经网络的抗病毒肽预测方法及系统，能够较大限度避免数据泄露，并且能够准确快速的预测，用于解决因为数据隐私性而不可共享导致各数据拥有方出现数据孤岛，以及传统方法中将特征提取和模型学习分开进行产生重复工作量的技术问题。
[0005]本专利技术采用以下技术方案：
[0006]一种基于联邦学习和神经网络的抗病毒肽预测方法，包括以下步骤：
[0007]S1、客户端利用肽序列数据对预测模型进行训练，得到预测模型的梯度和参数进行加密；
[0008]S2、中间服务器对步骤S1加密后预测模型的梯度和参数进行聚合形成中间模型，中间模型将梯度和参数传递给客户端进行更新；
[0009]S3、重复步骤S1和步骤S2，利用二元交叉...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习和神经网络的抗病毒肽预测方法，其特征在于，包括以下步骤：客户端利用肽序列数据对预测模型进行训练，得到预测模型的梯度和参数进行加密；中间服务器对加密后预测模型的梯度和参数进行聚合形成中间模型，中间模型将梯度和参数传递给客户端进行更新；重复以上步骤，利用二元交叉熵损失函数对中间模型进行评估，得到共享模型并传递给客户端；将待预测的肽序列输入客户端中，经预处理后进行独热编码，再将独热编码输入预测模型，输出预测结果完成抗病毒肽预测。2.根据权利要求1所述的基于联邦学习和神经网络的抗病毒肽预测方法，其特征在于，将不同长度的肽序列按照独热码编码规则进行编码，得到独热码；将独热码分别送入包含第一神经网络和第二神经网络的双通道深度神经网络中，将得到的对应特征进行融合，将融合后的特征作为输入，构造两个全连接层和一个Softmax层用于识别抗病毒肽。3.根据权利要求2所述的基于联邦学习和神经网络的抗病毒肽预测方法，其特征在于，编码前，先将肽序列中的冗余序列和相似性大于90％的序列删除。4.根据权利要求2所述的基于联邦学习和神经网络的抗病毒肽预测方法，其特征在于，肽序列的长度为L，经过编码得到维度为L*20的二进制矩阵，20表示氨基酸的种类。5.根据权利要求2所述的基于联邦学习和神经网络的抗病毒肽预测方法，其特征在于，第一神经网络为循环神经网络的变体，结合两个循环神经网络的输出，一个从右到左处理序列，一个从左到右处理序列；两个循环神经网络均包含多个LSTM单元，LSTM单元用于记住任意长度序列数据的值，将输入序列的长度作为时间步长，得到两个方向上最终时间步长的输出；LSTM单元的数量由输入序列长度动态调整，每个LSTM单元包括输入门、遗忘门和输出门，选择隐藏状态向量h
t
作为输出，得到128维的特征数据，并在输出后添加一个丢弃层，将keep
‑
prob设置为0.8。6.根据权利要求2所述的基于联邦学习和神经网络的抗病毒肽预测方法，其特征在于，第二神经网络包括特征提取层、平均块层和卷积层；特征提取层使用20*20的Blosum矩阵初始化20个20*1的卷积核，通过对输入的变长独热码进行卷积操作构建位置特异性打分矩阵；平均块层用于对位置特异性打分矩阵矩阵进行平均分块，将可变的进化数据转换为固定长度的进化特征，通过设置width＝4，将20*L的位置特异性打分矩阵分成四部分，每一部分按照算法取平均值，最终得到20*4的平均块矩阵；卷积层用于对得到的块进行卷积...

【专利技术属性】
技术研发人员：赵晔，杜展翔，刘复昌，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人