当前位置: 首页 > 专利查询>辽宁大学专利>正文

一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法技术

技术编号:36801839 阅读:12 留言:0更新日期:2023-03-08 23:49
本发明专利技术是一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法,包括以下步骤:步骤1:预处理数据;步骤2:使用Word2Vec中Skip

【技术实现步骤摘要】
一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法


[0001]本专利技术属于生物信息学领域,具体涉及一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法。

技术介绍

[0002]不同类型的病毒会引起病毒感染或病毒性疾病。对于救治方法,主要是研制特定疫苗和药物。在病毒感染宿主的过程中,病毒通过蛋白质的种间相互作用将它们自己的遗传物质运输到宿主细胞核中,控制宿主细胞代谢,破坏宿主细胞功能。因此,识别病毒和宿主之间的PPI有助于了解病毒感染的机制和设计抗病毒药物与疫苗的研发。

技术实现思路

[0003]本专利技术的目的是提供一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法,能够提高病毒宿主蛋白

蛋白相互作用预测的准确率。
[0004]本专利技术采用的方法为:一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法,包括以下步骤:
[0005]步骤1:对数据进行预处理:为对病毒宿主蛋白

蛋白相互作用数据,蛋白质序列信息进行预处理,去掉异常值和缺失值。
[0006]步骤2:使用Word2Vec中Skip

Gram模型和One

Hot编码来获得氨基酸的嵌入向量:
[0007]步骤2.1:将所有蛋白质序列信息处理成蛋白质序列模拟文档,氨基酸模拟为单词;
[0008]步骤2.2:使用训练完的Word2Vec中Skip

Gram模型获取20种氨基酸的嵌入向量,其中 Skip

Gram模型是获得氨基酸的共现相似性,公式如下:
[0009][0010][0011]其中,Y
A
是负对数似然损失函数结果,T为给定的蛋白质序列大小,c是上下文大小,给定蛋白质序列T的子序列,以氨基酸a
t
为中心,长度为2c+1,a表示为组成蛋白质序列的氨基酸,a
t
是第t个氨基酸的第一部分嵌入,a
t+j
是相邻氨基酸的第一部分嵌入,p是概率定义为Softmax,n为负采样大小,a'
k
是在同一上下文中不与a
t
共同出现的负样本;
[0012]步骤2.3:根据氨基酸侧链的偶极和体积将20种氨基酸聚为七个基团,即{AGV}、{C}、 {FILP}、{MSTY}、{HNQW}、{DE}和{KR},使用One

Hot进行编码,与步骤2.2中氨基酸的向量进行拼接,形成20
×
40的氨基酸矩阵。
[0013]步骤3:根据蛋白质的词嵌入矩阵,构建密集连接的卷积网络进行特征提取:
[0014]步骤3.1:定义DCNNBlock1块和DCNNBlock2块来构建密集连接的卷积网络(Dense

net),其密集块中卷积核变化和卷积公式如下:
[0015][0016][0017][0018]其中nb_filter是卷积核,M
c
是每层卷积的共享权值,b
c
是偏执向量,h()是激活函数,是经过卷积层后生成的潜在向量,F
con
是前一层卷积输出与当前层输出的拼接结果;
[0019]步骤3.2:经过六层卷积获得3维张量后,设计self

attention模块挖掘远程依赖关系,其公式如下:
[0020]Q
i
=W
Q
X
i
,K
i
=W
K
X
i
,V
i
=W
V
X
i
ꢀꢀꢀ
(6)
[0021]α
i
=p(z=i|X,Q)=softmax(s(X
i
,Q))
ꢀꢀꢀ
(7)
[0022][0023][0024][0025]其中Q
i
为查询量,K
i
为键值,V
i
为值,W
Q
、W
K
、W
V
是大小为d∈R
2D
的参数权重矩阵, z∈[1,n]表示被选择信息的索引位置,s(X
i
,Q)为注意力打分函数,注意力得分c
ij
是关键字向量和查询量(Q
j
)在特定空间相关性来计算得到,是为比例因子。
[0026]步骤4:通过PSSM特征矩阵,获得平均的RPM

PSSM特征描述符:
[0027]步骤4.1:使用POSSUM在线Web服务器前需要处理数据,序列长度必须在50到5000 之间,否则无法使用POSSUM;
[0028]步骤4.2:在使用POSSUM在线Web服务器的时候,通过客户端Web界面,用户上传 FASTA格式的蛋白质序列文件,POSSUM在服务器后台计算RPM

PSSM描述符,在作业完成后通过电子邮件的方式返给用户描述符结果。
[0029]步骤5:根据特征描述符构建全连接神经网络进行特征提取:
[0030]步骤5.1:设计一个具有全连接层的多层DNN,使用RPM

PSSM特征描述符作为输入,其公式如下:
[0031]o1=α(W1E+b1)
ꢀꢀꢀ
(11)
[0032]o
i
=α(W
i o
i
‑1+b
i
),2≤i≤M
ꢀꢀꢀ
(12)
[0033]其中o
i
表示第i个全连通层产生的输出,W
i
和b
i
分别表示参数矩阵和偏置项,α表示可以实现非线性变换的RELU激活函数,M表示全连接层的个数。最后一个全连接层产生的输出用作最终的RPM

PSSM特征。
[0034]步骤6:采用concatenate操作进行特征融合,最后将训练好的模型用于预测:
[0035]步骤6.1:将提取的病毒蛋白质序列特征与宿主蛋白质序列特征进行输入张量列表的逐元素间的乘积,RPM

PSSM特征也做同样处理,公式如下:
[0036]P
seq
=P
human

P
virus
ꢀꢀꢀ
(13)
[0037]P
rpm_pssm
=P
humax_pssm

P
virus_pssm
ꢀꢀꢀ
(14)
[0038]P
seq_pssm
=P
seq

P
rpm_pssm
ꢀꢀꢀ
(15)
[0039]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法,其特征在于,包括以下步骤:步骤1:预处理数据;步骤2:使用Word2Vec中Skip

Gram模型和One

Hot编码来获得氨基酸的嵌入向量;步骤3:根据蛋白质的词嵌入矩阵,构建密集连接的卷积网络进行特征提取;步骤4:通过PSSM特征矩阵,获得平均的RPM

PSSM特征描述符;步骤5:根据特征描述符构建全连接神经网络进行特征提取;步骤6:采用concatenate操作进行特征融合,最后将训练好的模型用于预测。2.根据权利要求1所述的一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法,其特征在于,所述的步骤1具体为对病毒宿主蛋白

蛋白相互作用数据,蛋白质序列信息进行预处理,去掉异常值和缺失值。3.根据权利要求1所述的一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法,其特征在于所述步骤2具体为:步骤2.1:将所有蛋白质序列信息处理成蛋白质序列模拟文档,氨基酸模拟为单词;步骤2.2:使用训练完的Word2Vec中Skip

Gram模型获取20种氨基酸的嵌入向量,其中Skip

Gram模型是获得氨基酸的共现相似性,公式如下:Gram模型是获得氨基酸的共现相似性,公式如下:其中,Y
A
是负对数似然损失函数结果,T为给定的蛋白质序列大小,c是上下文大小,给定蛋白质序列T的子序列,以氨基酸a
t
为中心,长度为2c+1,a表示为组成蛋白质序列的氨基酸,a
t
是第t个氨基酸的第一部分嵌入,a
t+j
是相邻氨基酸的第一部分嵌入,p是概率定义为Softmax,n为负采样大小,a'
k
是在同一上下文中不与a
t
共同出现的负样本;步骤2.3:根据氨基酸侧链的偶极和体积将20种氨基酸聚为七个基团,即{AGV}、{C}、{FILP}、{MSTY}、{HNQW}、{DE}和{KR},使用One

Hot进行编码,与步骤2.2中氨基酸的向量进行拼接,形成20
×
40的氨基酸矩阵。4.根据权利要求1所述的一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法,其特征在于所述步骤3具体为:步骤3.1:定义DCNNBlock1块和DCNNBlock2块来构建密集连接的卷积网络(Dense

net),其密集块中卷积核变化和卷积公式如下:net),其密集块中卷积核变化和卷积公式如下:net),其密集块中卷积核变化和卷积公式如下:其中nb_filter是卷积核,M
c
是每层卷积的共享权值,b
c
是偏执向量,h()是激活函数,是经过卷积层后生成的潜在向量,F
con
是前一层卷积输出与当前层输出的拼接结果;
步骤3.2:经过六层卷积获得3维张量后,设计self

attention模块挖掘远程依赖关系,其公式如下:Q
i
=W
Q
X
i
,K
i
=W
K
X
i
,V
i
=W
V
X
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)α
i
=p(z=i|X,Q)=softmax(s(X
i
...

【专利技术属性】
技术研发人员:刘宏生王伟晶张力冯华炜
申请(专利权)人:辽宁大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1