基于图卷积神经网络的药物-靶标亲和力预测系统、计算机设备、存储介质技术方案

技术编号:34120348 阅读:44 留言:0更新日期:2022-07-14 12:52
本发明专利技术公开了一种基于图卷积神经网络预测药物靶标亲和力的系统,属于药物重定位技术领域。该系统包括三条通道,分别提取药物二维表示的特征向量、药物SMILES表达式的上下文关联关系的特征向量和蛋白质序列的上下文关联关系的特征向量,之后将三种特征向量拼接在一起,输入到全连接神经网络中,进而获取药物靶标亲和力的预测值。模型的输入为药物的二维表示、药物的SMILES表达式和蛋白质序列,最终获取药物与靶标的亲和力预测值。取药物与靶标的亲和力预测值。取药物与靶标的亲和力预测值。

Drug target affinity prediction system based on graph convolution neural network, computer equipment, storage medium

【技术实现步骤摘要】
基于图卷积神经网络的药物

靶标亲和力预测系统、计算机设备、存储介质


[0001]本专利技术涉及药物重定位预测
,特别涉及基于图卷积神经网络的药物

靶标亲和力预测系统、计算机设备、存储介质。

技术介绍

[0002]实验确认新的药物

靶点相互作用(DTIs)并不是一件容易的事,因为体外实验既费力又费时。即使已确认的DTI被用于开发新药(包括未被批准的药物),这种新药被批准用于人类使用可能需要很多年,估计成本可能超过10亿美元。此外,虽然开发新药需要巨大的投资,但往往会失败。事实上,根据Thomson Reuters生命科学咨询公司的报告,在2008年至2010 年期间,108个新药和再利用药物的第二阶段失败,51%是由于疗效不足。这一观察结果凸显了以下需求:(1)新的、更合适的药物靶点,(2)能够提高药物发现效率的硅片方法,在药物发现过程的最初阶段筛选大量的药物,从而引导那些可能表现出更好疗效的药物。在这方面,预测DTIs,特别是预测药物与靶点结合亲和力的方法非常有意义。
[0003]迄今为止开发的大多数方法都是利用二元分类来预测药物与其靶点之间是否存在相互作用。然而,预测药物与其靶点之间的结合强度更有参考价值,同时,也更具挑战性。如果该强度不够,这样的DTI可能没有作用。因此,开发预测药物与靶点结合亲和力的方法具有重要价值。

技术实现思路

[0004]本专利技术实施例提供了一种基于图卷积神经网络的药物

靶标亲和力预测系统、计算机设备、存储介质为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
[0005]根据本专利技术实施例的第一方面,提供了基于图卷积神经网络的药物

靶标亲和力预测系统。
[0006]在一些可选实施例中,所述系统包括双向门控循环单元(BiGRU)模型,所述的双向门控循环单元模型包括两个门控循环单元(GRU)组成的序列处理模型,一个输入是向前输入,另一个输入是反向输入,是一个只有输入门和忘记门双向递归神经网络。模型的输入为药物的SMILES表达式,最终输出为200维的向量来表示SMILES表达式。
[0007]可选的,所述的门控循环单元(GRU)对多元时间序列进行充分的特征提取,不断学习多元时间序列的长期依赖关系,其具体包括:首先通过上一个传输下来的状态和当前节点的输入来获取两个门控状态,分别是控制重置的门控(reset gate)和控制更新的门控(update gate),得到门控信号之后,使用重置门控来得到“重置”之后的数据,将该数据与当前节点的输入进行拼接,再通过双曲正切函数将数据缩放到

1~1的范围内,最后使用上文所述的更新门控进行“遗忘”和“记忆”功能,将状态进行更新到0~1之间,门控信号越接
近1,代表“记忆”下来的数据越多。
[0008]可选的,所述系统包括三个长短期记忆网络单元(LSTM)模型,所述的长短期记忆网络单元模型包括遗忘门、输入门和输出门组成的神经网络模型。模型的输入为蛋白质序列,输出为192维的向量来表示蛋白质序列。
[0009]可选的,所述的系统包括四种图卷积神经网络(GNN)模型,所述图卷积神经网络模型包括图卷积神经网络模型(GCN)、图注意力神经网络模型(GAT)、图同构网络模型(GIN) 和图卷积神经网络与图注意力神经网络联合模型(GCN_GAT)。模型的输入为由SMILES字符串转换而来的二维分子图,最终的输出为128维的向量来表示二维分子图。
[0010]可选的,所述系统包括两个全连接神经网络模型。模型的输入为上述输出的三种向量拼接而成的向量,输出为药物

靶标亲和力。
[0011]可选的,对所述的模型利用已有的药物靶标亲和力数据集,将数据集按照20%测试集80%训练集进行划分,通过训练过程,完善模型的参数。
[0012]根据本专利技术的实施的第二方面,提供一种计算机设备。
[0013]在一些可选实施例中,所述计算机设备,包括存储器,显卡,中央处理器,以及存储在所述存储器上的可被所述中央处理器以及显卡并行处理的可执行程序,所述中央处理器所执行所述程序时实现以下步骤:构建基于图卷积神经网络药物靶标亲和力预测模型,所述基于图卷积神经网络药物靶标亲和力预测模型包括:药物特征的提取、靶标特征的提取、药物二维特征的提取和药物靶标亲和力预测。首先利用Bi

GRU网络提取药物的上下文关联关系,再利用图卷积神经网络提取药物的二维表示特征,同时,利用LSTM网络提取蛋白质的上下文关联关系,最后,通过全连接神经网络预测药物靶标亲和力。
[0014]本专利技术实施例提供的技术方案可以包括以下有益效果:
[0015]本专利技术针对药物研发过程中日益增加的资金消耗,传统的药物研发过程研发周期长,成本高,提出了一种预测药物靶标亲和力的系统,可以减少药物研发的时间成本与物质成本,减少候选药物的选取范围。
[0016]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0017]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0018]图1是根据一示例性示出的一种基于图卷积神经网络预测药物靶标亲和力系统的框图。
具体实施方式
[0019]以下结合具体实施方式进一步对本专利技术的技术方案进行阐述。
[0020]如图1所示,本实施例所述的基于图卷积神经网络预测药物靶标亲和力系统,其具体情况:
[0021]1)选取Davis和KIBA两个数据集,分别按照80%作为训练集20%作为测试集的方式划分数据集。
[0022]2)使用RDKIT工具,将SMILES转化成二维矩阵表示,对照字典将SMILES转化为向量的形式,对蛋白质序列进行编码,将所有数据保存在pt文件中。
[0023]3)调用pt文件中的数据,将SMILES的二维矩阵表示输入到四种图卷积神经网络中获取128维特征向量,所属的图卷积神经网络,可以由用户自己选择,将SMILES的向量表示输入到Bi

GRU网络中获取200维特征向量,将蛋白质序列的向量表示输入到 LSTM网络中获取192维特征向量。
[0024]4)将上述三种特征向量连接起来,输入到两层全连接神经网络中获,输出药物与靶标的预测亲和力,之后通过MSE损失函数确定预测值与真实值之间的差距,在这个过程中我们使用CI和MSE来表征预测值与真实值之间的关系。
[0025]本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图卷积神经网络预测药物靶标亲和力的系统,属于药物重定位技术领域。该系统包括三条通道,分别提取药物二维表示的特征向量、药物SMILES表达式的上下文关联关系的特征向量和蛋白质序列的上下文关联关系的特征向量,之后将三种特征向量拼接在一起,输入到全连接神经网络中,进而获取药物靶标亲和力的预测值。模型的输入为药物的二维表示、药物的SMILES表达式和蛋白质序列,最终获取药物与靶标的亲和力预测值。2.如权利要求1所述的系统,其特征在于,所述的以三通道的方式提取特征,而且每个通道各不相同,具体的,为提取药物二维表示的特征向量,我们使用四种图神经网络,分别是图卷积神经网络、图注意力神经网络、图同构神经网络和图卷积神经网络与图注意力网络联合网络,同时在提取药物SMILES表示的上下文关联关系特征向量时,需要将SMILES输入到三层Bi

GRU网络中,在提取蛋白质序列的上下文文关联关系特征向量时,需要将蛋白质序列输入到3层LSTM网络中。3.如权利要求2所述的系统输入,其特征在于,所述系统的输入为SMILES序列的向量表示...

【专利技术属性】
技术研发人员:宋弢田庆雨刘嘉丽刘大岩杜珍珍钟悦
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1