【技术实现步骤摘要】
训练匹配模型、预测氨基酸序列和设计药物的方法与装置
[0001]本申请实施例涉及计算机
,尤其涉及一种训练匹配模型、预测氨基酸序列和设计药物的方法与装置。
技术介绍
[0002]由氨基酸的线性链组成的蛋白质是活生物体中用途最广泛的分子之一。它们在普遍的生物学机制中起着至关重要的功能。蛋白质根据氨基酸序列自然折叠成三维结构,结构会对其功能产生直接影响。在给定溶剂、温度等环境因素的情况下,蛋白质的氨基酸序列基本可以唯一确定其对应的三维结构。因此,如果已知某个可以完成特定的生物学功能的蛋白质三维结构,那么可以通过计算方法寻找相应的氨基酸序列,使得其折叠后的三维结构吻合需求,以完成对应的生物学功能。
[0003]目前已有的蛋白质从头设计方法中,大多基于人工设计的能量函数以评估氨基酸序列与蛋白质主链三维结构的吻合程度,但是此类能量函数往往基于近似后的物理规则(以保持计算效率),对于氨基酸序列与蛋白质主链三维结构之间的关系刻画不够精确,因此往往导致蛋白质从头设计结构出现偏差。
技术实现思路
[0004]本申请实施例提供一种训练匹配模型、预测氨基酸序列和设计药物的方法与装置以提高基于蛋白质三维结构预测氨基酸序列等相关预测的预测精度,降低工作成本,提高预测效率。
[0005]第一方面,本申请的实施例提供了一种训练匹配模型的方法,所述匹配模型用于表征氨基酸序列和蛋白质三维结构之间的匹配程度,其包括:
[0006]获取样本集,所述样本集包括已知蛋白质三维结构以及所述已知蛋白质三维结构相应的氨 ...
【技术保护点】
【技术特征摘要】
1.一种训练匹配模型的方法,所述匹配模型用于表征氨基酸序列和蛋白质三维结构之间的匹配程度,其特征在于,包括:获取样本集,所述样本集包括已知蛋白质三维结构以及所述已知蛋白质三维结构相应的氨基酸序列;和将所述样本集输入匹配函数并进行训练,以便获得经过训练的匹配模型。2.根据权利要求1所述的方法,其特征在于,所述匹配模型是通过下列步骤训练获得的:将具有实际样本分布的样本集输入所述匹配函数;根据所述实际样本分布对所述匹配函数进行训练,使所述匹配函数的预测样本分布接近所述实际分布,其中所述实际样本分布和所述预测样本分布是以蛋白质三维结构和氨基酸序列为变量的样本分布。3.根据权利要求1所述的方法,其特征在于,所述匹配模型是通过下列步骤训练获得的:将已知蛋白质三维结构以及相应氨基酸序列构成的样本集输入匹配函数,获得所述样本集中所述已知蛋白质三维结构与所述相应氨基酸序列的匹配概率预测值;基于所述匹配概率预测值确定损失值;根据所述损失值对所述匹配函数进行迭代优化使得所述匹配概率预测值增大,以获得经过训练的匹配模型。4.根据权利要求3所述的方法,其特征在于,所述根据所述损失值对所述匹配函数进行迭代优化使得所述匹配概率预测值增大,包括:对所述匹配函数进行迭代优化使得所述样本集的总匹配概率预测值增大。5.根据权利要求3所述的方法,其特征在于,所述匹配函数是以能量函数预测值的负值作为指数的归一化指数函数,所述获得所述样本集中所述已知蛋白质三维结构与所述相应氨基酸序列的匹配概率预测值,包括:基于能量函数,根据所述已知蛋白质三维结构与所述起始氨基酸序列预测能量函数预测值;基于所述匹配函数,根据所述能量函数预测值计算所述匹配概率预测值。6.根据权利要求5所述的方法,其特征在于,所述基于所述匹配概率预测值确定损失值,包括:对所述匹配概率预测值进行对数运算;根据对数运算结果,确定损失值。7.根据权利要求3~6所述的方法,其特征在于,所述匹配模型与可训练参数相关联,所述根据所述损失值对所述匹配函数进行迭代优化,包括:计算所述损失值相对于所述可训练参数的梯度,得到逆向传播梯度;根据所述逆向传播梯度,对所述匹配函数进行逆向传播的迭代优化。8.根据权利要求7所述的方法,其特征在于,所述能量函数是包含可训练参数的图神经网络;所述计算所述损失值相对于所述可训练参数的梯度,得到逆向梯度,由下述方法近似替代:
根据所述相应氨基酸序列,从所述匹配函数对应的预测样本分布中采样,获得采样蛋白质三维结构...
【专利技术属性】
技术研发人员:吴家祥,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。