【技术实现步骤摘要】
基于深度学习方法预测化合物蛋白质相互作用的新型深度模型、计算机设备、存储介质
本专利技术涉及化合物蛋白质分子特征提取领域,具体涉及一种基于深度学习方法预测化合物蛋白质相互作用的新型深度模型、计算机设备、存储介质。
技术介绍
药物靶标相互作用预测对药物的设计和开发具有重要意义。虽然实验分析仍然是确定药物靶标相互作用最可靠的方法,但由于实验中涉及到的巨大成本和劳动力使得每个可能药物靶标的实验表征是令人生畏的。因此药物靶标的计算预测近年来取得了巨大的发展,随着近些年蛋白质结构数据集和配体数据集的增多,基于机器学习的方法取得快速发展。即将蛋白质信息、配体信息和相互作用整合到统一的框架内。深度学习的引入被证明是预测药物靶点结合亲和力的最佳模型之一。深度学习的主要优点是通过在每一层中进行非线性转换,它们能够更好的表示原始数据进而便于学习数据中隐藏的模式。然而很多模型的化合物表示仅仅是分子指纹、单一的SMILES字符串。这样会使编码的化合物特征表示丢失许多化合物原有的重要信息,造成最终预测化合物蛋白质亲和力值的不准确性。
技术实现思路
本专利技术的目的是为了解决上述化合物分子和蛋白质分子重要信息丢失并提高预测准确率等问题,本专利技术实施例提供一种基于深度学习方法预测化合物蛋白质相互作用的新型深度模型、计算机设备、存储介质,将化合物分子的二维分子图结构信息和一维SMILES字符串信息结合起来,从而可以提取到更多关于化合物分子的信息,将蛋白质的结构属性序列信息和氨基酸序列信息结合起来获取更多关于蛋白 ...
【技术保护点】
1.一种基于深度学习方法预测化合物蛋白质相互作用的新型深度模型,其特征在于,包括三个双向门控循环单元(BiGRU)模型、图卷积神经网络模型(GCN)和卷积神经网络(CNN)模型,整个网络架构为TripleBiGRU/GCN-CNN。所述的双向门控循环单元模型包括两个门控循环单元(GRU)组成的序列处理模型,一个输入是向前输入,另一个输入是反向输入,是一个只有输入门和忘记门双向递归神经网络。模型的输入为化合物一维SMILES序列、化合物二维分子图、蛋白质结构属性序列和蛋白质氨基酸序列,四个变量分别输入到TripleBiGRU/GCN模型里。TripleBiGRU/GCN模型输出为表示化合物的特征向量和表示蛋白质的特征向量。所述的CNN模型由卷积层、池化层、全连接层组成,该模型的输入为化合物的特征向量、蛋白质的特征向量;该TripleBiGRU/GCN-CNN模型的最终输出为预测化合物蛋白质亲和力值的根均方误差值。/n
【技术特征摘要】
1.一种基于深度学习方法预测化合物蛋白质相互作用的新型深度模型,其特征在于,包括三个双向门控循环单元(BiGRU)模型、图卷积神经网络模型(GCN)和卷积神经网络(CNN)模型,整个网络架构为TripleBiGRU/GCN-CNN。所述的双向门控循环单元模型包括两个门控循环单元(GRU)组成的序列处理模型,一个输入是向前输入,另一个输入是反向输入,是一个只有输入门和忘记门双向递归神经网络。模型的输入为化合物一维SMILES序列、化合物二维分子图、蛋白质结构属性序列和蛋白质氨基酸序列,四个变量分别输入到TripleBiGRU/GCN模型里。TripleBiGRU/GCN模型输出为表示化合物的特征向量和表示蛋白质的特征向量。所述的CNN模型由卷积层、池化层、全连接层组成,该模型的输入为化合物的特征向量、蛋白质的特征向量;该TripleBiGRU/GCN-CNN模型的最终输出为预测化合物蛋白质亲和力值的根均方误差值。
2.如权利要求1所述的新型深度模型,其特征在于,所述的双向门控循环单元(BiGRU)模型能够让数据从正反两个方向同时输入,使每一时刻的信息都包含了前后时刻的序列信息,相当于网络在某个特定时刻的序列信息增多,充分利用历史数据的信息,从而使预测更加准确。BiGRU的基本思想是将每个训练序列向前和向后呈现给两个单独的隐藏层,这两个层都连接到相同的输出层。因此输出层就具有了输入序列中每个点的完整过去和未来的信息。其中门控循环单元(GRU)对多元时间序列进行充分的特征提取,不断学习多元时间序列的长期依赖关系,其具体包括:首先通过上一个传输下来的状态和当前节点的输入来获取两个门控状态,分别是控制重置的门控(resetgate)和控制更新的门控(updategate),得到门控信号之后,使用重置门控来得到“重置”之后的数据,将该数据与当前节点的输入进行拼接,再通过双曲正切函数将数据缩放到-1~1的范围内,最后使用上文所述的更新门控进行“遗忘”和“记忆”功能,将状态进行更新到0~1之间,门控信号越接近1,代表“记忆”下来的数据越多。
3.如权利要求2所述的特征提取模型,其特征在于,所述的图卷积神经网络(GCN)模型主要算法流程为计算每个原子结点的邻居信息,最终形成包含邻居信息的原子向量。
4.如权力要求3所述的化合物特征提取模型,其特征在于,所述的卷积神经网络(CNN)模型由卷积(convolution),激活(activation),池化(pooling)三种结构组成。CNN输出的结果是对应化合物蛋白质的特定特征空间,再将CNN输出的特征空间作为全连接层或全连接神经网络(fullyconnectedneuralnetwork,FCN)的输入,用全连接层来完成从输入化合物特征向量和蛋白质特征向量的亲和力值得映射。
5.如权利要求4所述的整个模型,其特征在于,所述模型的输入为选定的4个变量,输入变量含有来自UniRef数据库的蛋白质结构属性序列和蛋白质氨基酸序列、来自STITCH数据库的化合物SMILES和化合物二维分子图。其中蛋白质结构属性序列由蛋白质的二级结构、蛋白质氨基酸序列的长度、蛋白质的理化性...
【专利技术属性】
技术研发人员:王淑栋,刘嘉丽,宋弢,田庆雨,
申请(专利权)人:中国石油大学华东,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。