一种基于深度学习的化合物-蛋白质相互作用预测方法技术

技术编号:33125115 阅读:18 留言:0更新日期:2022-04-17 00:33
本发明专利技术公开了一种基于深度学习的化合物

【技术实现步骤摘要】
一种基于深度学习的化合物

蛋白质相互作用预测方法


[0001]本专利技术涉及药物设计以及图像处理
,特别是涉及一种结合CNN和Transformer学习化合物图片特征来预测化合物

蛋白质相互作用的方法。

技术介绍

[0002]药物发现是生物信息学的一个领域,其目的在于发现具有期望药理性质的新分子结构,涉及广泛的科学学科,包括生物学、化学和药理学。新药物分子通过与目标蛋白相互作用,从而为患者的治疗带来益处。
[0003]近年来,在计算机辅助药物设计的背景下,人们开始对开发自动化的机器学习技术产生了极大的兴趣,从而在广阔和非结构化的分子空间中发现了大量可信的、多样的和新颖的候选分子。准确的预测化合物和蛋白质之间的相互作用关系,不仅可以减少一些疾病的产生,还可以降低药物开发成本,对患者和社会都至关重要。

技术实现思路

[0004]本专利技术的目的是根据化合物分子图片的信息,提出一种结合CNN和Transformer学习化合物图片特征来预测化合物

蛋白质相互作用的方法。该方法能够显著的提高化合物和蛋白质相互作用预测的准确度。
[0005]实现本专利技术目的的具体技术方案是:
[0006]一种基于深度学习的化合物

蛋白质相互作用预测方法,所述方法包括以下步骤:
[0007]1)获得化合物分子的特征图,具体包括:
[0008]1.1)根据化合物分子的SMILES序列,通过RDkit软件生成化合物分子图片;
[0009]1.2)将生成的化合物分子图片输入到CNN模块中学习特征,其中图片大小为H
×
W
×
3,H和W分别代表图片的长和宽,3代表图片的颜色通道;使用CNN模块学习化合物分子图片的局部特征,CNN模块的组成为:卷积层、BatchNormalization层、LeakyReLU函数激活层、卷积层、BatchNormalization层、LeakyReLU函数激活层及最大池化层;通过CNN学习后的特征图的大小为m和n分别代表通过CNN学习后化合物分子特征图的长和宽,c代表该特征图的通道;
[0010]1.3)根据获得的特征图X
CNN
,按照其通道维度展平作为Transformer的输入token,新的特征图大小为其中m
·
n为化合物分子特征图的长和宽相乘,c为该特征图的通道;
[0011]1.4)将新的特征图X
token
作为Transformer编码器的输入,然后通过数个Transformer编码器学习特征图中的语义关系,每一个Transformer编码器的组成如下:
[0012]1.4.1)LayerNormalization层对不同长度的数据做处理;
[0013]1.4.2)多头注意力层将输入向量转换为三个不同的向量,其维度都为d:查询向量q、关键向量k、值向量v,将所述向量压缩到对应的矩阵Q、K、V中,其计算过程为:计算查询矩
阵Q与关键矩阵K的分数为:S=Q
·
K
T
,规范化梯度稳定性分数为:使用softmax函数将分数转化为概率:P=softmax(S
n
),获得加权值矩阵:Attention=V
·
P;整个过程的公式为:其中softmax代表softmax激活函数,Q和V代表查询向量q和值向量v压缩的对应矩阵,K
T
代表关键向量压缩的对应矩阵的转置,d
k
代表当前的输入维度;然后,为了解决自注意力对位置信息不敏感的问题,将相同维度的位置编码添加到原始输入嵌入中,其公式为:pos表示单词在句子中的位置,i表示位置编码的当前维度,d是输入向量的维度;总注意力由多个头注意力组合而成:MultiHead(Q

,K

,V

)=concat(head1,...,head
h
)W
O
,concat表示拼接操作,W
O
为可学习的特征转换矩阵,head
i
代表了每一个注意力头的Attention的值,h代表了总共有h个注意力头;
[0014]1.4.3)再经过多层感知机层获得最后的语义信息特征图;多层感知机层的流程为:全连接层,GELU激活层,DropPath层,全连接层,DropPath层;
[0015]1.5)通过数个Transformer编码器的学习表示,获得了最终的化合物分子的特征图X
C

[0016]2)获得蛋白质序列的特征图,具体包括:
[0017]2.1)蛋白质序列为FASTA格式,其中序列由氨基酸组合而成并且氨基酸均以单个字母来表示;采用k

gram方法,对蛋白质序列进行单词划分,每个单词的长度都为k;
[0018]2.2)对划分的单词建立字典,按照最先出现的单词进行升序排序,使用字典的序号来代替原蛋白质序列的表示单词,然后再对每个单词所表示的序号进行嵌入表示;
[0019]2.3)加入原单词在蛋白质序列中的位置信息,经过数个Transformer编码器模块,学习蛋白质序列中各个单词之间的语义信息;
[0020]2.4)通过数个Transformer编码器模块学习后,获得了蛋白质序列的最终特征图X
P

[0021]3)对化合物分子的特征图X
C
和蛋白质序列的特征图X
P
进行进一步学习并预测最终结果,具体包括:
[0022]3.1)将所述特征图X
C
和所述特征图X
P
通过多层感知机进行特征的浅层次学习;
[0023]3.2)将两张特征图进行叠加处理,再使用一个CNN模块进行深层次的特征学习;CNN的模块设计为:卷积层,BatchNormalization层,LeakyReLU函数激活层,最大池化层,卷积层,BatchNormalization层,LeakyReLU函数激活层,最大池化层;
[0024]3.3)将特征图展平,通过一个全连接层获得最终的预测结果,结果表示为0或1,其中0代表化合物和蛋白质没有相互作用,1则代表有相互作用。
[0025]本专利技术的技术构思为:首先化合物分子图片包含了更多的分子信息。其原子信息以及空间结构都很好的呈现在图片上。通过CNN对化合物分子图片进行局部特征学习,可以有效捕获每块像素中包含的分子信息。再通过Transformer对全局特征的学习能力,构建数个Transformer编码器学习特征图的语义关系。其次,对于蛋白质氨基酸种类只有20种的表
示不足缺陷,通过k

gram分词划分,可以将组合的氨基酸种类扩展更多种类,有利于对蛋白质的表示学习。最后,根据化合物和蛋白质的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的化合物

蛋白质相互作用预测方法,其特征在于:该方法包括以下具体步骤:1)获得化合物分子的特征图,具体包括:1.1)根据化合物分子的SMILES序列,通过RDkit软件生成化合物分子图片;1.2)将生成的化合物分子图片输入到CNN模块中学习特征,其中图片大小为H
×
W
×
3,H和W分别代表图片的长和宽,3代表图片的颜色通道;使用CNN模块学习化合物分子图片的局部特征,CNN模块的组成为:卷积层、BatchNormalization层、LeakyReLU函数激活层、卷积层、BatchNormalization层、LeakyReLU函数激活层及最大池化层;通过CNN学习后的特征图的大小为m和n分别代表通过CNN学习后化合物分子特征图的长和宽,c代表该特征图的通道;1.3)根据获得的特征图X
CNN
,按照其通道维度展平作为Transformer的输入token,新的特征图大小为其中m
·
n为化合物分子特征图的长和宽相乘,c为该特征图的通道;1.4)将新的特征图X
token
作为Transformer编码器的输入,然后通过数个Transformer编码器学习特征图中的语义关系,每一个Transformer编码器的组成如下:1.4.1)LayerNormalization层对不同长度的数据做处理;1.4.2)多头注意力层将输入向量转换为三个不同的向量,其维度都为d:查询向量q、关键向量k、值向量v,将所述向量压缩到对应的矩阵Q、K、V中,其计算过程为:计算查询矩阵Q与关键矩阵K的分数为:S=Q
·
K
T
,规范化梯度稳定性分数为:使用softmax函数将分数转化为概率:P=softmax(S
n
),获得加权值矩阵:Attention=V
·
P;整个过程的公式为:其中softmax代表softmax激活函数,Q和V代表查询向量q和值向量v压缩的对应矩阵,K
T
代表关键向量压缩的对应矩阵的转置,d
k
代表当前的输入维度;然后,为了解决自注意力对位置信息不敏感的问题,将相同维度的位置编码添加到原始输入嵌入中,其公式为:添加到原始输入嵌入中,其公式为:pos表示单词在句子中的...

【专利技术属性】
技术研发人员:吴坚钱莹
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1