当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于零样本学习的针对新发现靶点的药物虚拟筛选系统技术方案

技术编号:34725324 阅读:14 留言:0更新日期:2022-08-31 18:12
本发明专利技术公开了一种基于零样本学习的针对新发现靶点的药物虚拟筛选系统,通过零样本学习构建药物虚拟筛选预测模型,并存储针对先验蛋白质靶点的先验蛋白质靶点表征、以及对应的药效团提取模块的先验参数和分类预测模块的先验参数;这样,针对新发现靶点时,通过利用先验蛋白质靶点表征计算新靶点与先验靶点的注意力权重,基于注意力权重与先验参数构建针对新发现靶点的预测参数(提取预测参数和分类预测参数),这样利用采用预测参数的药物分子虚拟筛选模块能够实现对靶点对药物分子的相互作用的预测概率,根据预测概率即可以得到新发现靶点对药物分子的活性情况。该系统可以指导针对该新发现靶点蛋白质的药物开发。针对该新发现靶点蛋白质的药物开发。针对该新发现靶点蛋白质的药物开发。

【技术实现步骤摘要】
一种基于零样本学习的针对新发现靶点的药物虚拟筛选系统


[0001]本专利技术属于医药数据处理
,具体地说,涉及一种基于零样本学习的针对新发现靶点的药物虚拟筛选系统。

技术介绍

[0002]传统的药物靶标相互作用(Drug Target Interaction,DTI)是一种药物发现过程,需要对药物分子和靶标蛋白进行大量的湿实验,耗时耗力。因此,计算机结合的DTI预测方法作为快速筛选候选分子的第一步,在药学研究中发挥着越来越重要的作用。基于规则的硅基DTI方法,如对接和药效团映射,往往通过化学结构或能量分析模拟对接过程。它们的核心是利用化学规则和样品之间的相似性,分别识别蛋白质和配体(即靶点和药效团)的关键子结构。但是,由于这些规则是由具有先验知识的人类定义的,因此这些方法往往被认为是不灵活的,并且计算成本很高。相比之下,数据驱动的学习方法(如机器学习、深度学习等)能够灵活自主学习交互规则,对药物发现的加速作用更为显著。
[0003]现有的数据驱动的方法通常将DTI预测建模为给定药物靶标对的二元分类问题,研究主要集中在如何有效地学习分子和蛋白质的表示,然后将这些表示输入到高级分类模型或排序模型中。表征学习方法可以从一维(1D)的角度出发,如使用分子指纹、简化分子输入行输入系统(SMILES)、目标蛋白的FASTA序列作为输入特征,或者使用3D视角,利用GNN和CNN模型嵌入目标蛋白和分子的3D结构。近年来,如何基于几何深度学习对三维结构进行建模引起了大量的研究关注。然而,这些深度学习方法的预测性能本质上是隐式或显式地依赖于训练集中测试目标蛋白与其同源蛋白之间的相似性。当给定一个新发现的目标蛋白时,可能很难找到具有相似结构的同源蛋白,或者已知的分子相互作用很少。这使得这些方法很难很好地工作,因为对于这些数据驱动的方法几乎没有经过验证的知识。在这种情况下,这些方法的预测性能较差,不能令人满意。
[0004]图神经网络的提出很好地契合了药物发现在深度学习领域中的应用。通过将化学分子中的原子表示为图中的节点,化学中的原子键代表图中的边,在边和节点的特征中引入键角、旋转、化学能量等特征,很好地保留了化学分子原有的信息。现有的工作例如MPNN、SchNet、DimNet等主干化学分子图神经网络也在化学数据集上得到了良好的表现。
[0005]小样本学习(元学习的一种一般类型)方法主要有两种类型:(1)基于梯度的方法和(2)基于度量的方法。前者使用元学习者来指导基本学习者的更新方式,以便学习所有任务之间参数的中值初始化。对于基于梯度的方法,Finn等提出了MAML算法,它将所有看到的任务的损失加起来,以平衡初始化的参数。Andrychowicz等人将梯度下降函数与LSTM(Long

Short

Term Memory)模型进行比较,并使用LSTM模块指导基础学习者进行更新。对于基于度量的方法,Snell等人提出了一个原型网络,该网络在度量特征空间中学习每一类的原型表示;在测试中,网络计算测试样本与所有看到的类之间的距离来进行分类。
[0006]零样本学习是元学习的一种特殊情况,在这种情况下,一个模型在测试过程中通过额外的信息直接预测看不见的类。这种方法通常利用任务级别信息来快速适应目标任
务。然而,考虑到新发现的蛋白质可能很少有同源蛋白和药物靶点相互作用,将零样本学习应用于DTI预测问题仍是一个较少探索的方向。还有一个类似的概念叫做主从正则化模型;但其目的是利用模型直接预测logistic回归模型的参数来进行公司收入预测。

技术实现思路

[0007]鉴于上述存在的技术不足,本专利技术的目的是提供一种基于零样本学习的针对新发现靶点的药物虚拟筛选系统,以预测新发现蛋白质靶点对药物分子的相互作用。
[0008]为实现上述专利技术目的,实施例提供的一种基于零样本学习的针对新发现靶点的药物虚拟筛选系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中有参数优化好的药物虚拟筛选预测模型,所述药物虚拟筛选预测模型包括蛋白质分析模块、药物分子虚拟筛选模块以及参数存储模块,其中,蛋白质分析模块包括蛋白质表征模块、蛋白质靶点提取模块、靶点相似度注意力模块,药物分子虚拟筛选模块包括药物分子表征模块,药效团提取模块,分类预测模块,参数存储模块存储已知蛋白质对应的先验蛋白质靶点表征,还存储有先验蛋白质靶点对应的药效团提取模块的先验参数和分类预测模块的先验参数;
[0009]所述计算机处理器执行所述计算机程序时实现以下步骤:
[0010]依据目标蛋白质结构数据构建蛋白质异构图并进行节点属性初始化;
[0011]依据候选药物分子结构数据构建药物分子图并进行节点属性初始化;
[0012]利用蛋白质分析模块对目标蛋白质进行分析,包括:输入的蛋白质异构图经过蛋白质表征模块的特征表征得到蛋白质表征,并从蛋白质表征中提取的原子表征输入至蛋白质靶点提取模块,经过蛋白质靶点提取输出蛋白质靶点表征至靶点相似度注意力模块,经过计算蛋白质靶点表征与所有已知蛋白质对应的先验蛋白质靶点表征的相似度以作为注意力权重,再经过计算注意力权重分别与所有药效团提取模块的先验参数和所有分类预测模块的先验参数的加权之和作为目标蛋白质对应的药效团提取模块的提取预测参数和分类预测模块的分类预测参数;
[0013]将提取预测参数和分类预测参数分别载入药效团提取模块和分类预测模块;
[0014]利用药物分子虚拟筛选模块对候选药物分子进行筛选,包括:输入的药物分子图经过药物分子表征模块的特征表征,输出药物分子表征至参数为提取预测参数的药效团提取模块,经过提取输出药效团表征至参数为分类预测参数的分类预测模块,经过分类计算输出表示目标蛋白质与候选药物分子相互作用的预测概率;
[0015]其中,预测概率用于指导针对新发现蛋白质靶点的药物筛选与开发。
[0016]在一个实施例中,所述依据目标蛋白质结构数据构建蛋白质异构图,包括:提取目标蛋白质结构数据中的化学原子和氨基酸残基,以化学原子、氨基酸残基作为节点,以化学原子之间的化学键作为连边,以氨基酸残基之间的肽键作为连边,并在氨基酸残基与其构成化学原子之间构建条超边作为连边,以此来构建蛋白质异构图。
[0017]在一个实施例中,对蛋白质异构图进行节点属性的初始化,包括:以化学原子的电子束和手性作为one

hot向量,采用嵌入层对one

hot向量进行初始化,得到化学原子对应的节点属性;利用预训练的自然语言模型对氨基酸序列进行初始化,以得到氨基酸残基对应的节点属性。
[0018]在一个实施例中,所述依据候选药物分子结构数据构建药物分子图,包括:提取候选药物分子结构数据中的化学原子,以化学原子作为节点,以化学原子之间的化学键作为连边,以构建以此来构建药物分子图。
[0019]在一个实施例中,对药物分子图进行节点属性的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于零样本学习的针对新发现靶点的药物虚拟筛选系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机存储器中有参数优化好的药物虚拟筛选预测模型,所述药物虚拟筛选预测模型包括蛋白质分析模块、药物分子虚拟筛选模块以及参数存储模块,其中,蛋白质分析模块包括蛋白质表征模块、蛋白质靶点提取模块、靶点相似度注意力模块,药物分子虚拟筛选模块包括药物分子表征模块,药效团提取模块,分类预测模块,参数存储模块存储已知蛋白质对应的先验蛋白质靶点表征,还存储有先验蛋白质靶点对应的药效团提取模块的先验参数和分类预测模块的先验参数;所述计算机处理器执行所述计算机程序时实现以下步骤:依据目标蛋白质结构数据构建蛋白质异构图并进行节点属性初始化;依据候选药物分子结构数据构建药物分子图并进行节点属性初始化;利用蛋白质分析模块对目标蛋白质进行分析,包括:输入的蛋白质异构图经过蛋白质表征模块的特征表征得到蛋白质表征,并从蛋白质表征中提取的原子表征输入至蛋白质靶点提取模块,经过蛋白质靶点提取输出蛋白质靶点表征至靶点相似度注意力模块,经过计算蛋白质靶点表征与所有已知蛋白质对应的先验蛋白质靶点表征的相似度以作为注意力权重,再经过计算注意力权重分别与所有药效团提取模块的先验参数和所有分类预测模块的先验参数的加权之和作为目标蛋白质对应的药效团提取模块的提取预测参数和分类预测模块的分类预测参数;将提取预测参数和分类预测参数分别载入药效团提取模块和分类预测模块;利用药物分子虚拟筛选模块对候选药物分子进行筛选,包括:输入的药物分子图经过药物分子表征模块的特征表征,输出药物分子表征至参数为提取预测参数的药效团提取模块,经过提取输出药效团表征至参数为分类预测参数的分类预测模块,经过分类计算输出表示目标蛋白质与候选药物分子相互作用的预测概率;其中,预测概率用于指导针对新发现蛋白质靶点的药物筛选与开发。2.根据权利要求1所述的基于零样本学习的针对新发现靶点的药物虚拟筛选系统,其特征在于,所述依据目标蛋白质结构数据构建蛋白质异构图,包括:提取目标蛋白质结构数据中的化学原子和氨基酸残基,以化学原子、氨基酸残基作为节点,以化学原子之间的化学键作为连边,以氨基酸残基之间的肽键作为连边,并在氨基酸残基与其构成化学原子之间构建条超边作为连边,以此来构建蛋白质异构图;对蛋白质异构图进行节点属性的初始化,包括:以化学原子的电子束和手性作为one

hot向量,采用嵌入层对one

hot向量进行初始化,得到化学原子对应的节点属性;利用预训练的自然语言模型对氨基酸序列进行初始化,以得到氨基酸残基对应的节点属性;所述依据候选药物分子结构数据构建药物分子图,包括:提取候选药物分子结构数据中的化学原子,以化学原子作为节点,以化学原子之间的化学键作为连边,以构建以此来构建药物分子图;对药物分子图进行节点属性的初始化,包括:以化学原子的电子束和手性作为one

hot向量,采用嵌入层对one

hot向量进行初始化,得到化学原子对应的节点属性。3.根据权利要求2所述的基于零样本学习的针对新发现靶点的药物虚拟筛选系统,其
特征在于,所述蛋白质表征模块采用图卷积网络,利用图卷积网络对初始化节点属性的蛋白质异构图进行信息传递,以更新节点属性,得到由最新节点属性组成的蛋白质表征;所述从蛋白质表征中提取的原子表征至蛋白质靶点提取模块,包括:从蛋白质表征中提取化学原子对应的最新节点属性组成原子表征,并将原子表征输入至蛋白质靶点提取模块;所述药物分子表征模块采用图卷积网络,利用图卷积网络对初始化节点属性的药物分子图进行信息传递,以更新节点属性,得到由最新节点属性组成的药物分子表征,优选地,药物分子表征模块采用的图卷积网络为SchNet。4.根据权利要求2所述的基于零样本学习的针对新发现靶点的药物虚拟筛选系统,其特征在于,所述蛋白质表征模块采用图卷积网络,所述图卷积网络包括SchNet、GAT、TransformerConv,利用这三种图卷积网络构建蛋白质表征的过程包括:方式一:利用SchNet对初始化节点属性的蛋白质异构图进行通过化学原子之间的化学键实现信息传递,以更新化学原子对应节点的节点属性;方式二:利用GAT对初始化节点属性的蛋白质异构图进行通过氨基酸残基与其构成化学原子之间的超边实现信息传递,以更新化学原子对应节点的节点属性和氨基酸残基对应节点的节点属性;方式三:利用TransformerConv对初始化节点属性的蛋白质异构图进行通过氨基酸残基之间的肽键实现信息传递,以更新氨基酸残基对应节点的节点属性;对上述三种方式更新的最新节点属性进行加和或者求平均以得到蛋白质表征;所述从蛋白质表征中提取的原子表征至蛋白质靶点提取模块,包括:从蛋白质表征中提取化学原子对应的最新节点属性组成原子表征,并将原子表征输入至蛋白质靶点提取模块。5.根据权利要求1所述的基于零样本学习的针对新发现靶点的药物虚拟筛选系统,其特征在于,所述蛋白质靶点提取模块包括第一图指派层和第一平均池化层;利用第一图指派层对输入的原子表征进行节点属性是否为关键性属性的判断,将判断为关键性属性对应的节点作为靶点;利用第一平均池化层对靶点进行平均池化,将得到平均池化结果作为蛋白质靶点表征;优选地,第一图指派层采用多层感知机;所述药效团提取模块包括第二图指派层和第二平均池化层;利用第二图指派层对输入的药物分子表征...

【专利技术属性】
技术研发人员:应豪超周景博徐宇扬吴健
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1