一种分子对接模型的训练方法及装置制造方法及图纸

技术编号:39648517 阅读:10 留言:0更新日期:2023-12-09 11:16
本申请实施例提供了一种分子对接模型的训练方法及装置

【技术实现步骤摘要】
一种分子对接模型的训练方法及装置


[0001]本申请涉及人工智能
,特别是涉及一种分子对接模型的训练方法及装置


技术介绍

[0002]分子对接是一种计算化学方法,用于预测两个分子之间的结合模式

在药物设计和分子生物学研究中,分子对接技术被广泛应用于预测药物分子与蛋白质分子之间的结合模式,以及研究蛋白质

蛋白质和蛋白质

核酸之间的相互作用

[0003]分子对接通常涉及两个分子:一个受体和一个配体

受体是目标分子,通常是蛋白质分子,而配体是候选分子,通常是药物分子

分子对接的目标是确定配体与受体之间的最佳结合模式,即在哪些位置和方向上配体与受体结合最为稳定

[0004]分子对接通常使用计算机模拟或深度学习方法进行,分子对接技术在药物设计和分子生物学研究中发挥了重要作用,可以加速新药发现和蛋白质结构研究的进程

[0005]在受体

配体结合的过程中,由于分子之间作用力的影响,受体与配体的构象都会不同程度的发生变化,这些变化往往十分辅助,为简化问题,降低预测难度,将分子对接任务分为了刚性对接

半柔性对接

柔性对接三种不同的对接模式

[0006]常用的分子对接模型通常是使用实验得出的复合物晶体数据作为训练数据,已有相关工作进行收集整理,最常用的数据集为
PDBBIND2020
,共计
19443


模型训练数据较少,从而导致训练的分子对接模型的预测效果较差,且较少的数据量已严重限制了深度学习对接方法的发展


技术实现思路

[0007]本申请实施例所要解决的技术问题是提供一种分子对接模型的训练方法及装置,以提高训练的分子对接模型的效果,解决较少的数据量已严重限制了深度学习对接方法的发展的问题

[0008]第一方面,本申请实施例提供了一种分子对接模型的训练方法,所述方法包括:
[0009]基于物理模拟数据对待训练分子对接模型进行预训练,所述物理模拟数据为蛋白口袋和小分子对接得到的对接构象;
[0010]基于微调样本数据对预训练后的分子对接模型进行微调训练,得到模型输出,所述微调样本数据是基于复合物晶体数据和基础样本数据混合而成的,所述基准样本数据包括:伪晶体数据和物理模拟数据中的至少一种;
[0011]基于所述模型输出,计算得到损失值;
[0012]在所述损失值处于预设范围内的情况下,得到所述分子对接模型

[0013]可选地,在所述基于物理模拟数据对待训练分子对接模型进行预训练之前,还包括:
[0014]从
PDB
数据库中获取蛋白晶体;
[0015]对所述蛋白晶体进行口袋分割处理,得到蛋白口袋;
[0016]针对每个所述蛋白口袋,从预设数据库中随机选取小分子;
[0017]将所述蛋白口袋和所述小分子进行对接,生成对接构象,并将所述对接构象作为所述物理模拟数据

[0018]可选地,在所述基础样本数据中包含所述伪晶体数据时,
[0019]在所述基于微调样本数据对预训练后的分子对接模型进行微调训练,得到模型输出之前,还包括:
[0020]遍历同源蛋白数据,提取所述同源蛋白数据的复合物晶体数据;
[0021]对所述同源蛋白数据中的目标蛋白序列进行口袋对齐处理,得到对齐蛋白;
[0022]将所述对齐蛋白与配体进行组合,生成所述伪晶体数据

[0023]可选地,所述对所述同源蛋白数据中的目标蛋白序列进行口袋对齐处理,得到对齐蛋白,包括:
[0024]对比同源蛋白中的蛋白序列,剔除与其他同源蛋白序列差异大于设定值的晶体数据;
[0025]使用点云匹配算法对剩余的晶体数据进行口袋对齐,得到所述对齐蛋白

[0026]可选地,所述模型输出包括:多个对接构象,每个对接构象是由不同的模型输入决定的,
[0027]所述基于所述模型输出,计算得到损失值,包括:
[0028]基于所述对接构象的构象组合,计算得到多个第一损失值;
[0029]基于所述多个对接构象和基准晶体构象,计算得到多个第二损失值;
[0030]对所述多个第一损失值和所述多个第二损失值进行加权求和,得到所述损失值

[0031]可选地,在所述得到所述分子对接模型之后,还包括:
[0032]获取蛋白口袋和随机初始构象;
[0033]将所述蛋白口袋和所述随机初始构象输入至所述分子对接模型;
[0034]调用所述分子对接模型对所述蛋白口袋和所述随机初始构象进行处理,得到预测对接构象;
[0035]基于构象合理性约束算法,对所述预测对接构象进行构象合理性约束处理,得到最终的目标对接构象

[0036]可选地,所述基于构象合理性约束算法,对所述预测对接构象进行构象合理性约束处理,得到最终的目标对接构象,包括:
[0037]基于预设工具,生成满足统计规律的小分子构象;
[0038]初始化构象结构变更动作的初始量;
[0039]基于所述初始量对所述小分子构象进行构象结构变更动作处理,得到更新后的小分子构象;
[0040]基于所述更新后的小分子构象和所述预测对接构象,计算得到构象差异损失;
[0041]基于所述构象差异损失,计算所述构象结构变更动作的更新量;
[0042]基于所述更新量更新所述初始量,并对所述小分子构象进行构象结构变更动作处理;
[0043]迭代执行更新过程,直至构象差异损失低于损失阈值,输出所述目标对接构象

[0044]可选地,所述构象结构变更动作包括:旋转动作

平移动作和扭转动作中的至少一种

[0045]第二方面,本申请实施例提供了一种分子对接模型的训练装置,所述装置包括:
[0046]预训练模块,用于基于物理模拟数据对待训练分子对接模型进行预训练,所述物理模拟数据为蛋白口袋和小分子对接得到的对接构象;
[0047]微调模块,用于基于微调样本数据对预训练后的分子对接模型进行微调训练,得到模型输出,所述微调样本数据是基于复合物晶体数据和基础样本数据混合而成的,所述基准样本数据包括:伪晶体数据和物理模拟数据中的至少一种;
[0048]损失值计算模块,用于基于所述模型输出,计算得到损失值;
[0049]分子对接模型获取模块,用于在所述损失值处于预设范围内的情况下,得到所述分子对接模型

[0050]可选地,所述装置还包括:
[0051]蛋白晶体获取模块,用于从
PDB
数据库中获取蛋白晶体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种分子对接模型的训练方法,其特征在于,所述方法包括:基于物理模拟数据对待训练分子对接模型进行预训练,所述物理模拟数据为蛋白口袋和小分子对接得到的对接构象;基于微调样本数据对预训练后的分子对接模型进行微调训练,得到模型输出,所述微调样本数据是基于复合物晶体数据和基础样本数据混合而成的,所述基准样本数据包括:伪晶体数据和物理模拟数据中的至少一种;基于所述模型输出,计算得到损失值;在所述损失值处于预设范围内的情况下,得到所述分子对接模型
。2.
根据权利要求1所述的方法,其特征在于,在所述基于物理模拟数据对待训练分子对接模型进行预训练之前,还包括:从
PDB
数据库中获取蛋白晶体;对所述蛋白晶体进行口袋分割处理,得到蛋白口袋;针对每个所述蛋白口袋,从预设数据库中随机选取小分子;将所述蛋白口袋和所述小分子进行对接,生成对接构象,并将所述对接构象作为所述物理模拟数据
。3.
根据权利要求1所述的方法,其特征在于,在所述基础样本数据中包含所述伪晶体数据时,在所述基于微调样本数据对预训练后的分子对接模型进行微调训练,得到模型输出之前,还包括:遍历同源蛋白数据,提取所述同源蛋白数据的复合物晶体数据;对所述同源蛋白数据中的目标蛋白序列进行口袋对齐处理,得到对齐蛋白;将所述对齐蛋白与配体进行组合,生成所述伪晶体数据
。4.
根据权利要求3所述的方法,其特征在于,所述对所述同源蛋白数据中的目标蛋白序列进行口袋对齐处理,得到对齐蛋白,包括:对比同源蛋白中的蛋白序列,剔除与其他同源蛋白序列差异大于设定值的晶体数据;使用点云匹配算法对剩余的晶体数据进行口袋对齐,得到所述对齐蛋白
。5.
根据权利要求1所述的方法,其特征在于,所述模型输出包括:多个对接构象,每个对接构象是由不同的模型输入决定的,所述基于所述模型输出,计算得到损失值,包括:基于所述对接构象的构象组合,计算得到多个第一损失值;基于所述多个对接构象和基准晶体构象,计算得到多个第二损失值;对所述多个第一损失值和所述多个第二损失值进行加权求和,得到所述损失值
。6.
根据权利要求1所述的方法,其特征在于,在所述得到所述分子对接模型之后,还包括:获取蛋白口袋和随机初始构象;...

【专利技术属性】
技术研发人员:蔡珩宋剑飞邓亚峰施慧
申请(专利权)人:杭州碳硅智慧科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1