一种基于药物靶标相互作用神经网络寻找活性位点的方法技术

技术编号:31695114 阅读:11 留言:0更新日期:2022-01-01 10:55
一种基于药物靶标相互作用神经网络寻找活性位点的方法属于人工智能药物设计领域。本发明专利技术为寻找药物与蛋白靶标的活性位点,通过将一个蛋白质中的氨基酸序列进行对折拆分,分别输入到药物靶标相互作用神经网络模型,比较输出的药物与氨基酸序列亲和力数值,确定药物与靶标相互作用的活性位点的位置。本发明专利技术已在相关已知蛋白靶点的药物设计方法中进行了多次验证,成功率极高。成功率极高。成功率极高。

【技术实现步骤摘要】
一种基于药物靶标相互作用神经网络寻找活性位点的方法


[0001]本专利技术属于人工智能药物设计领域

技术介绍

[0002]新药研发的关键问题就是寻找和确定药物分子所对应的靶标。药物靶标是指生物体内能够与药物产生相互作用并且可以发挥特殊药效功能以达到治疗效果的生物大分子。其中,98%的药物靶标为蛋白质而极少部分为核酸分子。药物与靶标之间的相互作用就是指药物与靶标蛋白之间的相互作用。研究表明,大多数的药物可以与多个靶标蛋白产生相互作用,同理,靶标蛋白也能够与多个药物产生相互作用,只有准确找到与药物分子作用的特定的靶标蛋白才能够加速药物的研发过程。然而,倘若研究人员们能够在早期的药物研发中做到准确的识别药物与特定靶标蛋白之间的依赖关系,能够找到药物与哪些靶点的相互作用,那么就可以避免从海量的生物数据中来寻找候选靶标蛋白,从而可以极大地提高药物靶标研发的效率。因此,对于新药研发这个高投入、低产出、高风险的工程而言,发展快速、高效以及精确的药物

靶标相互作用预测方法对获得潜在的药物和寻找活性位点都具有非常重要的意义。

技术实现思路

[0003]本专利技术目的在于开发一种基于药物靶标相互作用神经网络寻找活性位点的方法。该方法具有通用性,适用于寻找任何小分子药物与蛋白靶标。
[0004]为实现上述专利技术目的,本专利技术采取如下技术方案:
[0005]神经网络模型主要包括Smiles输入层、氨基酸序列输入层、卷积层、矩阵拼接模块、全连接层、输出层。
[0006]利用药物靶标数据集建立药物靶标相互作用神经网络模型,执行如下操作:
[0007]Binding database(BindingDB)数据库是一个可公开访问的主要收集药物靶点蛋白质和类药小分子之间相互作用亲和力的数据库,目的是使研究者更容易通过网络获取相关分子的非共价结合数据,从而促进药物研发和结合预测模型的构建。训练神经网络选用了Binding DB(http://www.bindingdb.org/bind/index.jsp)的13392个药物分子、1507个蛋白靶标、70750个药物靶标对亲和力数值作为数据集。
[0008]将氨基酸序列和药物Smiles数据作为输入,应用于卷积神经网络(CNN)。在氨基酸序列输入中,采用one

hot编码对氨基酸序列进行分布表示。对于Smiles输入,采用one

hot编码对Smiles进行分布表示。氨基酸序列的CNN和蛋白质

药物相互作用网络的CNN所得到的相同维数的特征向量进行矩阵拼接,通过连接层连接到最终输出层,输出为药物靶标对亲和力数值。
[0009]Smiles和氨基酸序列的输入长度分别为1024和8420。药物和氨基酸序列的卷积滤波器为[32,64,96],药物和氨基酸序列的卷积核分别为[4,6,8]、[4,8,12],一次训练的样本(batch size)为128,训练次数(train epoch)为100,学习率为0.001,全连接层的神经元
分别为1024、1024、512,选用Adam优化器,使用均方误差(MSE)作为损失函数,其中P是预测值,Y对应真实值。其中n表示样本个数。
[0010][0011]拆分氨基酸序列分别输入到神经网络模型进行预测,包括如下过程将氨基酸序列进行对折拆分,分别输入到神经网络模型中,输出亲和力数值,比较药物与两段氨基酸序列通过预模型输出的亲和力数值大小,亲和力数值大的氨基酸序列继续拆分输入到神经网络模型中,继续比较亲和力数值大小,亲和力数字大的氨基酸序列可以继续拆分进一步缩短氨基酸序列的长度,从而找到药物与活性位点的大体位置,即选出的氨基酸序列包含药物与蛋白的活性位点。
附图说明
[0012]图1是本专利技术实施例中所使用方法流程示意图。
[0013]图2是本专利技术实施例中以5zwj(PDB ID)为例氨基酸序列拆分示意图。
具体实施方式
[0014]下面结合附图对本专利技术的具体实施方式进行描述,以便更好地理解本专利技术。
[0015]步骤一:训练药物靶标相互作用神经网络
[0016]首先,将氨基酸序列和Smiles数据应用于卷积神经网络(CNN)。在氨基酸序列输入中,采用one

hot编码对氨基酸序列进行分布表示。对于Smiles输入,采用one

hot编码对Smiles进行分布表示。将氨基酸序列的CNN和蛋白质

药物相互作用网络的CNN所得到的特征向量通过连接层连接到最终输出层。
[0017]步骤二:基于药物靶标相互作用神经网络寻找活性位点
[0018]如图1所示,本专利技术中的针对不同活性位点蛋白进行药物设计的通用性方法,包括以下步骤:对于药物靶标亲和力预测模型,首先,将蛋白质和SMILES数据应用于卷积神经网络(CNN)。对于蛋白质输入,使用one

hot编码对20个氨基酸进行表示。对于SMILES输入,使用one

hot编码对SMILES进行表示。通过CNN输出的向量进行矩阵拼接并由连接层馈送到最终输出层输出亲和力数值。蛋白质

化合物相互作用数据来源于BindingDB。以PDB库中的5zwj文件为例,如图2所示,提取5zwj文件中的EAI045药物SMILES编码和氨基酸数据,将药物的SMILES编码输入到图1预训练模型,将氨基酸序列进行对折拆分,分别输入到模型中,输出亲和力数值,比较药物与两段氨基酸序列通过预模型输出的亲和力数值大小,亲和力数值大的氨基酸序列继续拆分输入到模型中,继续比较亲和力数值大小,亲和力数字大的氨基酸序列可以继续拆分进一步缩短氨基酸序列的长度,从而找到药物与活性位点的大体位置,图2左下侧选出的氨基酸序列YVMASVDN......即包含目前已知的活性位点T790、C797等。
[0019]经过以上技术流程方案就可以快速找到包含一种药物与一种蛋白质相互作用的活性位点的氨基酸序列。此专利技术具有很好的通用性,可以应用于任何小分子药物与蛋白质。
[0020]以上所述是本专利技术的优选实施方案,应当指出,对于本
的普通技术人员来说,在不脱离本专利技术原理的前提下,还可以做出若干改进和润饰,这些改进和润湿也视为
本专利技术的保护范围。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于药物靶标相互作用神经网络寻找活性位点的方法,其特征在于:神经网络模型包括Smiles输入层、氨基酸序列输入层、卷积层、矩阵拼接模块、全连接层、输出层;利用药物靶标数据集建立药物靶标相互作用神经网络模型,执行如下操作:Binding database数据库是一个可公开访问的主要收集药物靶点蛋白质和类药小分子之间相互作用亲和力的数据库,目的是使研究者更容易通过网络获取相关分子的非共价结合数据,从而促进药物研发和结合预测模型的构建;训练神经网络选用了Binding DB(http://www.bindingdb.org/bind/index.jsp)的药物分子、蛋白靶标、药物靶标亲和力数值作为数据集;将氨基酸序列和药物Smiles数据作为输入,应用于卷积神经网络(CNN);在氨基酸序列输入中,采用one

hot编码对氨基酸序列进行分布表示;对于Smiles输入,采用one

hot编码对Smiles进行分布表示;氨基酸序列的CNN和蛋白质

药物相互作用网络的CNN所得到的相同维数的特征向量进行矩...

【专利技术属性】
技术研发人员:孙少瑞张云江
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1