【技术实现步骤摘要】
一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法
[0001]本专利技术属于生物信息学领域,具体涉及一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法。
技术介绍
[0002]不同类型的病毒会引起病毒感染或病毒性疾病。对于救治方法,主要是研制特定疫苗和药物。在病毒感染宿主的过程中,病毒通过蛋白质的种间相互作用将它们自己的遗传物质运输到宿主细胞核中,控制宿主细胞代谢,破坏宿主细胞功能。因此,识别病毒和宿主之间的PPI有助于了解病毒感染的机制和设计抗病毒药物与疫苗的研发。
技术实现思路
[0003]本专利技术的目的是提供一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法,能够提高病毒宿主蛋白
‑
蛋白相互作用预测的准确率。
[0004]本专利技术采用的方法为:一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法,包括以下步骤:
[0005]步骤1:对数据进行预处理:为对病毒宿主蛋白
‑
蛋白相互作用数据,蛋白质序列信息进行预处理,去掉异常值和缺失值。
[0006]步骤2:使用Word2Vec中Skip
‑
Gram模型和One
‑
Hot编码来获得氨基酸的嵌入向量:
[0007]步骤2.1:将所有蛋白质序列信息处理成蛋白质序列模拟文档,氨基酸模拟为单词;
[0008]步骤2.2:使用训练完的Word2Vec中Skip
‑
Gram模型获取20种氨基 ...
【技术保护点】
【技术特征摘要】
1.一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法,其特征在于,包括以下步骤:步骤1:预处理数据;步骤2:使用Word2Vec中Skip
‑
Gram模型和One
‑
Hot编码来获得氨基酸的嵌入向量;步骤3:根据蛋白质的词嵌入矩阵,构建密集连接的卷积网络进行特征提取;步骤4:通过PSSM特征矩阵,获得平均的RPM
‑
PSSM特征描述符;步骤5:根据特征描述符构建全连接神经网络进行特征提取;步骤6:采用concatenate操作进行特征融合,最后将训练好的模型用于预测。2.根据权利要求1所述的一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法,其特征在于,所述的步骤1具体为对病毒宿主蛋白
‑
蛋白相互作用数据,蛋白质序列信息进行预处理,去掉异常值和缺失值。3.根据权利要求1所述的一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法,其特征在于所述步骤2具体为:步骤2.1:将所有蛋白质序列信息处理成蛋白质序列模拟文档,氨基酸模拟为单词;步骤2.2:使用训练完的Word2Vec中Skip
‑
Gram模型获取20种氨基酸的嵌入向量,其中Skip
‑
Gram模型是获得氨基酸的共现相似性,公式如下:Gram模型是获得氨基酸的共现相似性,公式如下:其中,Y
A
是负对数似然损失函数结果,T为给定的蛋白质序列大小,c是上下文大小,给定蛋白质序列T的子序列,以氨基酸a
t
为中心,长度为2c+1,a表示为组成蛋白质序列的氨基酸,a
t
是第t个氨基酸的第一部分嵌入,a
t+j
是相邻氨基酸的第一部分嵌入,p是概率定义为Softmax,n为负采样大小,a'
k
是在同一上下文中不与a
t
共同出现的负样本;步骤2.3:根据氨基酸侧链的偶极和体积将20种氨基酸聚为七个基团,即{AGV}、{C}、{FILP}、{MSTY}、{HNQW}、{DE}和{KR},使用One
‑
Hot进行编码,与步骤2.2中氨基酸的向量进行拼接,形成20
×
40的氨基酸矩阵。4.根据权利要求1所述的一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法,其特征在于所述步骤3具体为:步骤3.1:定义DCNNBlock1块和DCNNBlock2块来构建密集连接的卷积网络(Dense
‑
net),其密集块中卷积核变化和卷积公式如下:net),其密集块中卷积核变化和卷积公式如下:net),其密集块中卷积核变化和卷积公式如下:其中nb_filter是卷积核,M
c
是每层卷积的共享权值,b
c
是偏执向量,h()是激活函数,是经过卷积层后生成的潜在向量,F
con
是前一层卷积输出与当前层输出的拼接结果;
步骤3.2:经过六层卷积获得3维张量后,设计self
‑
attention模块挖掘远程依赖关系,其公式如下:Q
i
=W
Q
X
i
,K
i
=W
K
X
i
,V
i
=W
V
X
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)α
i
=p(z=i|X,Q)=softmax(s(X
i
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。