训练匹配模型、预测氨基酸序列和设计药物的方法与装置制造方法及图纸

技术编号:32896498 阅读:11 留言:0更新日期:2022-04-07 11:45
本申请实施例涉及一种训练匹配模型、预测氨基酸序列和设计药物的方法与装置。其中,训练匹配模型的方法包括:获取样本集,所述样本集包括已知蛋白质三维结构以及所述已知蛋白质三维结构相应的氨基酸序列;和将所述样本集输入匹配函数并进行训练,以便获得经过训练的匹配模型。利用根据本申请实施例的方法,能够提高预测氨基酸序列与蛋白质三维结构匹配程度的预测精度。度的预测精度。度的预测精度。

【技术实现步骤摘要】
训练匹配模型、预测氨基酸序列和设计药物的方法与装置


[0001]本申请实施例涉及计算机
,尤其涉及一种训练匹配模型、预测氨基酸序列和设计药物的方法与装置。

技术介绍

[0002]由氨基酸的线性链组成的蛋白质是活生物体中用途最广泛的分子之一。它们在普遍的生物学机制中起着至关重要的功能。蛋白质根据氨基酸序列自然折叠成三维结构,结构会对其功能产生直接影响。在给定溶剂、温度等环境因素的情况下,蛋白质的氨基酸序列基本可以唯一确定其对应的三维结构。因此,如果已知某个可以完成特定的生物学功能的蛋白质三维结构,那么可以通过计算方法寻找相应的氨基酸序列,使得其折叠后的三维结构吻合需求,以完成对应的生物学功能。
[0003]目前已有的蛋白质从头设计方法中,大多基于人工设计的能量函数以评估氨基酸序列与蛋白质主链三维结构的吻合程度,但是此类能量函数往往基于近似后的物理规则(以保持计算效率),对于氨基酸序列与蛋白质主链三维结构之间的关系刻画不够精确,因此往往导致蛋白质从头设计结构出现偏差。

技术实现思路

[0004]本申请实施例提供一种训练匹配模型、预测氨基酸序列和设计药物的方法与装置以提高基于蛋白质三维结构预测氨基酸序列等相关预测的预测精度,降低工作成本,提高预测效率。
[0005]第一方面,本申请的实施例提供了一种训练匹配模型的方法,所述匹配模型用于表征氨基酸序列和蛋白质三维结构之间的匹配程度,其包括:
[0006]获取样本集,所述样本集包括已知蛋白质三维结构以及所述已知蛋白质三维结构相应的氨基酸序列;和
[0007]将所述样本集输入匹配函数并进行训练,以便获得经过训练的匹配模型。
[0008]根据本申请的一些实施例,所述匹配模型是通过下列步骤训练获得的:
[0009]将具有实际样本分布的样本集输入所述匹配函数;
[0010]根据所述实际样本分布对所述匹配函数进行训练,使所述匹配函数的预测样本分布接近所述实际分布,其中所述实际样本分布和所述预测样本分布是以蛋白质三维结构和氨基酸序列为变量的样本分布。
[0011]根据本申请的一些实施例,所述匹配模型是通过下列步骤训练获得的:
[0012]将已知蛋白质三维结构以及相应氨基酸序列构成的样本集输入匹配函数,获得所述样本集中所述已知蛋白质三维结构与所述相应氨基酸序列的匹配概率预测值;
[0013]基于所述匹配概率预测值确定损失值;
[0014]根据所述损失值对所述匹配函数进行迭代优化使得所述匹配概率预测值增大,以获得经过训练的匹配模型。
[0015]根据本申请的一些实施例,所述根据所述损失值对所述匹配函数进行迭代优化使得所述匹配概率预测值增大,包括:
[0016]对所述匹配函数进行迭代优化使得所述样本集的总匹配概率预测值增大。
[0017]根据本申请的一些实施例,所述根据所述损失值对所述匹配函数进行迭代优化使得所述匹配概率预测值增大,包括:
[0018]从所述样本集中采样获得样本子集;
[0019]对所述匹配函数进行迭代优化使得所述样本子集的总匹配概率预测值增大。
[0020]根据本申请的一些实施例,所述匹配函数是以能量函数预测值的负值作为指数的归一化指数函数,所述获得所述样本集中所述已知蛋白质三维结构与所述相应氨基酸序列的匹配概率预测值,包括:
[0021]基于能量函数,根据所述已知蛋白质三维结构与所述起始氨基酸序列预测能量函数预测值;
[0022]基于所述匹配函数,根据所述能量函数预测值计算所述匹配概率预测值。
[0023]根据本申请的一些实施例,所述基于所述匹配概率预测值确定损失值,包括:
[0024]对所述匹配概率预测值进行对数运算;
[0025]根据对数运算结果,确定损失值。
[0026]根据本申请的一些实施例,所述匹配模型与可训练参数相关联,所述根据所述损失值对所述匹配函数进行迭代优化,包括:
[0027]计算所述损失值相对于所述可训练参数的梯度,得到逆向传播梯度;
[0028]根据所述逆向传播梯度,对所述匹配函数进行逆向传播的迭代优化。
[0029]根据本申请的一些实施例,所述能量函数是包含可训练参数的图神经网络;
[0030]所述计算所述损失值相对于所述可训练参数的梯度,得到逆向梯度,由下述方法近似替代:
[0031]根据所述相应氨基酸序列,从所述匹配函数对应的预测样本分布中采样,获得采样蛋白质三维结构;
[0032]基于所述能量函数,根据所述采样蛋白质三维结构与所述相应氨基酸序列预测能量函数采样预测值;
[0033]计算能量函数预测值和能量函数采样预测值的差值;
[0034]计算所述差值相对于所述可训练参数的梯度,将计算结果近似设置为所述逆向梯度用于所述逆向传播。
[0035]根据本申请的一些实施例,所述从所述匹配函数对应的预测样本分布中采样,是通过马尔可夫链蒙特卡洛方法进行的。
[0036]第二方面,本申请的实施例提供了一种预测氨基酸序列的方法,其包括:
[0037](a)基于匹配模型,确定目标蛋白质三维结构与起始氨基酸序列之间的匹配结果,其中,所述匹配结果表征所述起始氨基酸序列和所述目标蛋白质三维结构之间的匹配程度,所述匹配模型是根据第一方面所述的方法获得的;
[0038](b)对所述起始氨基酸序列进行突变,以便获得突变氨基酸序列;
[0039](c)基于所述匹配模型,确定所述突变氨基酸序列与所述目标蛋白质三维结构之间的匹配结果;
[0040](d)基于步骤(a)与步骤(c)中所述匹配结果的差异,确定是否保留步骤(b)中的所述突变;
[0041](d)重复进行步骤(b)~(d),直到获得最终氨基酸序列。
[0042]根据本申请的一些实施例,所述突变为点突变。
[0043]根据本申请的一些实施例,所述点突变包括删除、置换、插入的至少之一。
[0044]根据本申请的一些实施例,采用蒙特卡洛采样法确定突变。
[0045]根据本申请的一些实施例,所述蒙特卡洛采样法包括模拟退火蒙特卡洛采样法和基于副本交换的蒙特卡洛采样法的至少之一。
[0046]根据本申请的一些实施例,步骤(d)包括:
[0047]当步骤(c)中所述匹配结果对应的匹配程度高于步骤(a)中所述匹配结果对应的匹配程度时,保留步骤(b)中的所述突变;
[0048]当步骤(c)中所述匹配结果对应的匹配程度不高于步骤(a)中所述匹配结果对应的匹配程度时,以预设概率保留步骤(b)中的所述突变,否则放弃步骤(b)中的所述突变。
[0049]根据本申请的一些实施例,所述预设概率是基于当前温度和匹配程度变化确定的。
[0050]第三方面,本申请的实施例提供了一种设计药物的方法,其包括:
[0051]基于已知疾病的靶点,确定目标蛋白质三维结构,所述目标蛋白质三维结构适于与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练匹配模型的方法,所述匹配模型用于表征氨基酸序列和蛋白质三维结构之间的匹配程度,其特征在于,包括:获取样本集,所述样本集包括已知蛋白质三维结构以及所述已知蛋白质三维结构相应的氨基酸序列;和将所述样本集输入匹配函数并进行训练,以便获得经过训练的匹配模型。2.根据权利要求1所述的方法,其特征在于,所述匹配模型是通过下列步骤训练获得的:将具有实际样本分布的样本集输入所述匹配函数;根据所述实际样本分布对所述匹配函数进行训练,使所述匹配函数的预测样本分布接近所述实际分布,其中所述实际样本分布和所述预测样本分布是以蛋白质三维结构和氨基酸序列为变量的样本分布。3.根据权利要求1所述的方法,其特征在于,所述匹配模型是通过下列步骤训练获得的:将已知蛋白质三维结构以及相应氨基酸序列构成的样本集输入匹配函数,获得所述样本集中所述已知蛋白质三维结构与所述相应氨基酸序列的匹配概率预测值;基于所述匹配概率预测值确定损失值;根据所述损失值对所述匹配函数进行迭代优化使得所述匹配概率预测值增大,以获得经过训练的匹配模型。4.根据权利要求3所述的方法,其特征在于,所述根据所述损失值对所述匹配函数进行迭代优化使得所述匹配概率预测值增大,包括:对所述匹配函数进行迭代优化使得所述样本集的总匹配概率预测值增大。5.根据权利要求3所述的方法,其特征在于,所述匹配函数是以能量函数预测值的负值作为指数的归一化指数函数,所述获得所述样本集中所述已知蛋白质三维结构与所述相应氨基酸序列的匹配概率预测值,包括:基于能量函数,根据所述已知蛋白质三维结构与所述起始氨基酸序列预测能量函数预测值;基于所述匹配函数,根据所述能量函数预测值计算所述匹配概率预测值。6.根据权利要求5所述的方法,其特征在于,所述基于所述匹配概率预测值确定损失值,包括:对所述匹配概率预测值进行对数运算;根据对数运算结果,确定损失值。7.根据权利要求3~6所述的方法,其特征在于,所述匹配模型与可训练参数相关联,所述根据所述损失值对所述匹配函数进行迭代优化,包括:计算所述损失值相对于所述可训练参数的梯度,得到逆向传播梯度;根据所述逆向传播梯度,对所述匹配函数进行逆向传播的迭代优化。8.根据权利要求7所述的方法,其特征在于,所述能量函数是包含可训练参数的图神经网络;所述计算所述损失值相对于所述可训练参数的梯度,得到逆向梯度,由下述方法近似替代:
根据所述相应氨基酸序列,从所述匹配函数对应的预测样本分布中采样,获得采样蛋白质三维结构...

【专利技术属性】
技术研发人员:吴家祥
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1