一种多模态药物-蛋白质靶点相互作用预测方法及系统技术方案

技术编号:37315660 阅读:15 留言:0更新日期:2023-04-21 22:57
本发明专利技术公开了一种多模态药物

【技术实现步骤摘要】
一种多模态药物

蛋白质靶点相互作用预测方法及系统


[0001]本专利技术属于生物基因和人工智能药物研究
,尤其涉及一种多模态药物

蛋白质靶点相互作用预测方法及系统。

技术介绍

[0002]在药物研发过程中,一款新药的研发一般需要经历临床前研发和临床试验两个阶段,其中在临床前研发阶段又需要经历苗头化合物(Hit)发现、先导化合物(Lead)优化和药效试验等过程,通过在研发早期通过预测方式快速发现潜在药物

蛋白质靶点相互作用(Drug Protein Interactions,DPIs),从而显著缩小潜在药物分子的搜索空间,实现高效准确的药物研发流程。随着医药数据的不断积累,使用基于数据驱动的机器学习方法预测DPI受到了越来越多的关注,较于传统的基于药化专家经验或实验室测定来发现有效化合物的方法,使用机器学习方法预测药物

蛋白质靶点相互作用关系能够对海量化合物进行高通量筛选,进而在早期发现具有较高活性和价值的候选化合物。目前基于机器学习的DPI预测方法主要可以分为基于相似度/距离的方法、基于特征的方法和基于深度学习的方法,其中基于深度学习的方法能够利用深度学习方法强大的特征提取和学习能力有效的挖掘大规模药化数据中存在的潜在关联,从而为DPI的准确预测提供了坚实的基础。
[0003]DPI预测主要由药物分子和蛋白质靶点的特征表示和特征交互两部分组成。通常情况下,药物分子可由一维SMILES序列进行表示,也可由二维的分子图结构进行描述;蛋白质靶点可由一维的氨基酸序列进行表示,也可由三维的空间结构来表示,但是对于蛋白质靶点而言,其三维空间结构的获取与有效的特征编码通常难以实现,因此在实际应用中通常基于一维氨基酸序列获取蛋白质靶点的语义特征作为其特征表示。而目前已有研究提出利用二维距离矩阵对蛋白质的空间结构进行表征,其中矩阵的每个元素表示对应的氨基酸之间的距离,这为蛋白质的结构表征提供了新的解决思路。尽管如此,在目前众多的DPI预测方法中仍然存在着许多难点问题亟待解决:1)为了实现DPI的准确预测,需要对药物分子和蛋白质靶点进行充分且有效的特征表示,利用不同模态的信息增强模型的学习能力;2)药物分子与蛋白质靶点的结合与相互作用实质上是在三维空间上发生的,因此结构信息在DPI预测问题中具有重要的作用,但是现有的DPI预测方法缺乏有效的手段对药物分子和蛋白质靶点的结构信息进行提取与表征;3)药物分子和蛋白质靶点特征的有效融合对于DPI的准确预测至关重要,因此需要设计合适的特征融合网络结构。
[0004]因此,上述的现有技术确实有待提出更佳解决方案的必要性。

技术实现思路

[0005]本专利技术的目的是提供一种多模态药物

蛋白质靶点相互作用预测方法及系统,该方法首先分别对药物分子和蛋白质靶点进行信息编码;在药物分子的特征编码方面,使用图神经网络对分子图进行特征提取与编码获取分子的结构特征,同时利用预训练模型Mol2vec获取分子的语义特征;在蛋白质靶点特征编码方面,基于蛋白质靶点的预测亲和度
矩阵和序列匹配特征构建蛋白质图,并利用图神经网络和卷积神经网络提取蛋白质靶点的结构特征,同时基于预训练BERT模型以氨基酸序列作为输入获取到蛋白质靶点的语义特征。在获取到药物分子和蛋白质靶点的结构、语义特征后,进一步利用Transformer网络对药物分子和蛋白质靶点的特征进行融合以进行DPI的预测。通过对结构、语义多模态信息的表征与融合,该方法可以有效提取到药物分子和蛋白质靶点的相互作用信息从而实现准确的DPI预测,提高药物

蛋白质靶点相互作用的预测准确度。
[0006]本专利技术一方面提供了一种多模态药物

蛋白质靶点相互作用预测方法,包括:
[0007]S1,对药物分子进行特征编码从而获取药物分子的特征表示;
[0008]S2,对蛋白质靶点进行特征编码从而获取蛋白质靶点的特征表示;
[0009]S3,将所述多模态药物分子的特征表示和所述多模态蛋白质靶点的特征表示进行特征融合获得融合后的相互作用特征;
[0010]S4,将融合后的相互作用特征作为分类器的输入,基于带标签训练集对预测模型进行训练后获得相互作用预测模型,从而基于所述相互作用预测模型预测药物分子和蛋白质靶点之间的相互作用。
[0011]优选的,所述S1包括:
[0012]S11,利用RDKit工具将分子的SMILES序列表示转换为图结构表示,并基于图结构表示得到相应的分子图特征;
[0013]S12,将分子图特征作为输入,通过图神经网络编码得到药物分子的结构特征;
[0014]S13,将分子的SMILES序列作为输入,通过第一预训练模型得到药物分子的语义特征;
[0015]S14,将所述药物分子的结构特征和所述药物分子的语义特征进行整合编码,得到相应的多模态药物分子的特征表示。
[0016]优选的,所述第一预训练模型为预训练Mol2vec模型。
[0017]优选的,所述S2包括:
[0018]S21,基于蛋白质靶点的预测氨基酸亲和度矩阵和基于氨基酸序列匹配的特征向量构建蛋白质图,所述蛋白质图的结构特征表征蛋白质中氨基酸残基之间的空间结构关系;
[0019]S22,将蛋白图特征作为输入,通过图神经网络和卷积神经网络编码得到蛋白质靶点的结构特征;
[0020]S23,将所述蛋白质靶点的一维氨基酸序列作为输入,通过第二预训练模型得到蛋白质靶点的语义特征;
[0021]S24,将所述蛋白质靶点的结构特征和所述蛋白质靶点的语义特征进行整合编码,得到相应的多模态蛋白质靶点的特征表示。
[0022]优选的,所述第二预训练模型为预训练BERT模型。
[0023]优选的,所述S3包括:
[0024]S31,将药物分子的多模态特征M
h
和蛋白质靶点的多模态特征P
h
输入Transformer解码网络,利用Transformer解码网络中的多头注意力结构使药物分子的多模态特征M
h
和蛋白质靶点的多模态特征P
h
进行交互产生交互特征X;
[0025]S32,对交互特征X在节点维度进行聚合获得融合后的相互作用特征。
[0026]优选的,所述S32所述聚合包括:
[0027][0028]从而得到可以描述药物

蛋白质靶点相互作用的特征向量h;x
i
表示交互特征X的第i个元素。
[0029]优选的,所述S4包括:
[0030]S41,将药物

蛋白质靶点相互作用特征向量h输入到包含多个全连接层的DPI分类器中;
[0031]S42,定义损失函数L如下:
[0032][0033]其中代表真实标签,代表预测概率;
[0034]S43,基于带标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态药物

蛋白质靶点相互作用预测方法,其特征在于,包括:S1,对药物分子进行特征编码从而获取药物分子的特征表示;S2,对蛋白质靶点进行特征编码从而获取蛋白质靶点的特征表示;S3,将所述多模态药物分子的特征表示和所述多模态蛋白质靶点的特征表示进行特征融合获得融合后的相互作用特征;S4,将融合后的相互作用特征作为分类器的输入,基于带标签训练集对预测模型进行训练后获得相互作用预测模型,从而基于所述相互作用预测模型预测药物分子和蛋白质靶点之间的相互作用。2.根据权利要求1所述的一种多模态药物

蛋白质靶点相互作用预测方法,其特征在于,所述S1包括:S11,利用RDKit工具将分子的SMILES序列表示转换为图结构表示,并基于图结构表示得到相应的分子图特征;S12,将分子图特征作为输入,通过图神经网络编码得到药物分子的结构特征;S13,将分子的SMILES序列作为输入,通过第一预训练模型得到药物分子的语义特征;S14,将所述药物分子的结构特征和所述药物分子的语义特征进行整合编码,得到相应的多模态药物分子的特征表示。3.根据权利要求2所述的一种多模态药物

蛋白质靶点相互作用预测方法,其特征在于,所述第一预训练模型为预训练Mol2vec模型。4.根据权利要求3所述的一种多模态药物

蛋白质靶点相互作用预测方法,其特征在于,所述S2包括:S21,基于蛋白质靶点的预测氨基酸亲和度矩阵和基于氨基酸序列匹配的特征向量构建蛋白质图,所述蛋白质图的结构特征表征蛋白质中氨基酸残基之间的空间结构关系;S22,将蛋白图特征作为输入,通过图神经网络和卷积神经网络编码得到蛋白质靶点的结构特征;S23,将所述蛋白质靶点的一维氨基酸序列作为输入,通过第二预训练模型得到蛋白质靶点的语义特征;S24,将所述蛋白质靶点的结构特征和所述蛋白质靶点的语义特征进行整合编码,得到相应的多模态蛋白质靶点的特征表示。5.根据权利要求4所述的一种多模态药物

蛋白质靶点相互作用预测方法,其特征在于,所述第二预训练模型为预训练BERT模型。6.根据权利要求5所述的一种多模态药物

蛋白...

【专利技术属性】
技术研发人员:王鹏磊柳俊宏刘勇李欣泽
申请(专利权)人:星希尔生物科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1