蛋白质模型的训练方法技术

技术编号:39845355 阅读:11 留言:0更新日期:2023-12-29 16:42
本公开提出了一种蛋白质模型的训练方法

【技术实现步骤摘要】
蛋白质模型的训练方法、蛋白质数据的获取方法及装置


[0001]本公开涉及人工智能
,尤其涉及生物计算

深度学习

大模型
,尤其涉及一种蛋白质模型的训练方法

蛋白质数据的获取方法

装置

电子设备

存储介质和计算机程序产品


技术介绍

[0002]目前,随着人工智能技术的不断发展,大模型具有泛化性好等优点,在信息提取

文本可信度评估

机器翻译等领域中得到了广泛应用

然而,相关技术中的蛋白质模型的训练方法,存在训练好的蛋白质模型的适用性差的问题


技术实现思路

[0003]本公开提出了一种蛋白质模型的训练方法

蛋白质数据的获取方法

装置

电子设备

存储介质和计算机程序产品

[0004]根据本公开的第一方面,提出了一种蛋白质模型的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种蛋白质模型的训练方法,包括:获取多模态的蛋白质样本数据;对任意两个模态的蛋白质样本数据进行关联,得到候选训练样本;基于多个所述候选训练样本,对蛋白质模型进行训练
。2.
根据权利要求1所述的方法,其中,所述基于多个所述候选训练样本,对蛋白质模型进行训练,包括:基于所述候选训练样本中的两个蛋白质样本数据对应的模态,得到所述候选训练样本对应的模态组合;将同一模态组合的候选训练样本划分到同一候选训练样本集;基于多个所述候选训练样本集,对所述蛋白质模型进行训练
。3.
根据权利要求1所述的方法,其中,所述对任意两个模态的蛋白质样本数据进行关联,得到候选训练样本,包括:将蛋白质样本序列作为标签,对蛋白质样本描述和所述蛋白质样本序列进行关联,得到第一训练样本;所述蛋白质模型包括大模型,所述基于多个所述候选训练样本,对蛋白质模型进行训练,包括:将所述第一训练样本中的蛋白质样本描述输入至所述大模型,由所述大模型输出第一蛋白质预测序列;基于所述第一训练样本中的蛋白质样本序列和所述第一蛋白质预测序列,对所述大模型进行训练
。4.
根据权利要求1所述的方法,其中,所述对任意两个模态的蛋白质样本数据进行关联,得到候选训练样本,包括:将蛋白质样本描述作为标签,对蛋白质样本序列和所述蛋白质样本描述进行关联,得到第二训练样本;所述蛋白质模型包括大模型,所述基于多个所述候选训练样本,对蛋白质模型进行训练,包括:将所述第二训练样本中的蛋白质样本序列输入至所述大模型,由所述大模型输出第一蛋白质预测描述;基于所述第二训练样本中的蛋白质样本描述和所述第一蛋白质预测描述,对所述大模型进行训练
。5.
根据权利要求1所述的方法,其中,所述对任意两个模态的蛋白质样本数据进行关联,得到候选训练样本,包括:将蛋白质样本序列作为标签,对蛋白质样本结构和所述蛋白质样本序列进行关联,得到第三训练样本;所述蛋白质模型包括编码器和大模型,所述基于多个所述候选训练样本,对蛋白质模型进行训练,包括:将所述第三训练样本中的蛋白质样本结构输入至所述编码器,由所述编码器输出第一结构编码;将所述第一结构编码输入至所述大模型,由所述大模型输出第二蛋白质预测序列;
基于所述第三训练样本中的蛋白质样本序列和所述第二蛋白质预测序列,对所述编码器和所述大模型进行训练
。6.
根据权利要求1所述的方法,其中,所述对任意两个模态的蛋白质样本数据进行关联,得到候选训练样本,包括:将蛋白质样本描述作为标签,对蛋白质样本结构和所述蛋白质样本描述进行关联,得到第四训练样本;所述蛋白质模型包括编码器和大模型,所述基于多个所述候选训练样本,对蛋白质模型进行训练,包括:将所述第四训练样本中的蛋白质样本结构输入至所述编码器,由所述编码器输出第二结构编码;将所述第二结构编码输入至所述大模型,由所述大模型输出第二蛋白质预测描述;基于所述第四训练样本中的蛋白质样本描述和所述第二蛋白质预测描述,对所述编码器和所述大模型进行训练
。7.
根据权利要求1所述的方法,其中,所述对任意两个模态的蛋白质样本数据进行关联,得到候选训练样本,包括:将蛋白质样本结构作为标签,对蛋白质样本描述和所述蛋白质样本结构进行关联,得到第五训练样本;所述蛋白质模型包括大模型和生成器,所述基于多个所述候选训练样本,对蛋白质模型进行训练,包括:将所述第五训练样本中的蛋白质样本描述输入至所述大模型,由所述大模型输出第一结构特征;将所述第一结构特征输入至所述生成器,由所述生成器输出第一蛋白质预测结构;基于所述第五训练样本中的蛋白质样本结构和所述第一蛋白质预测结构,对所述大模型和所述生成器进行训练
。8.
根据权利要求1所述的方法,其中,所述对任意两个模态的蛋白质样本数据进行关联,得到候选训练样本,包括:将蛋白质样本结构作为标签,对蛋白质样本序列和所述蛋白质样本结构进行关联,得到第六训练样本;所述蛋白质模型包括大模型和生成器,所述基于多个所述候选训练样本,对蛋白质模型进行训练,包括:将所述第六训练样本中的蛋白质样本序列输入至所述大模型,由所述大模型输出第二结构特征;将所述第二结构特征输入至所述生成器,由所述生成器输出第二蛋白质预测结构;基于所述第六训练样本中的蛋白质样本结构和所述第二蛋白质预测结构,对所述大模型和所述生成器进行训练
。9.
根据权利要求1所述的方法,其中,所述对任意两个模态的蛋白质样本数据进行关联,得到候选训练样本,包括:将蛋白质样本结构作为标签,对蛋白质的样本生成条件和所述蛋白质样本结构进行关联,得到第七训练样本;
所述蛋白质模型包括大模型和扩散模型,所述基于多个所述候选训练样本,对蛋白质模型进行训练,包括:将所述第七训练样本中的样本生成条件输入至所述大模型,由所述大模型对所述第七训练样本中的样本生成条件进行编码,并输出条件编码;将所述条件编码输入至所述扩散模型,由所述扩散模型输出第三蛋白质预测结构;基于所述第七训练样本中的蛋白质样本结构和所述第三蛋白质预测结构,对所述大模型和所述扩散模型进行训练
。10.
根据权利要求9所述的方法,其中,所述将所述条件编码输入至所述扩散模型之前,还包括:获取多个蛋白质样本结构;基于多个所述蛋白质样本结构,对所述扩散模型进行训练
。11.
根据权利要求1‑
10
中任一项所述的方法,其中,所述蛋白质模型包括大模型,所述基于多个所述候选训练样本,对蛋白质模型进行训练之前,还包括:基于多个知识领域的样本文本,对所述大模型进行预训练
。12.
一种蛋白质数据的获取方法,包括:获取第一模态的蛋白质数据;将所述第一模态的蛋白质数据输入至蛋白质模型,由所述蛋白质模型输出至少一个第二模态的蛋白质数据,其中,所述蛋白质模型采用如权利要求1‑
11
中任一项所述的蛋白质模型的训练方法得到
。13.
根据权利要求
12
所述的方法,其中,所述将所述第一模态的蛋白质数据输入至蛋白质模型,由所述蛋白质模型输出至少一个第二模态的蛋白质数据,包括:将蛋白质描述输入至所述蛋白质模型,由所述蛋白质模型输出蛋白质序列和
/
或蛋白质结构
。14.
根据权利要求
12
所述的方法,其中,所述将所述第一模态的蛋白质数据输入至蛋白质模型,由所述蛋白质模型输出至少一个第二模态的蛋白质数据,包括:将蛋白质序列输入至所述蛋白质模型,由所述蛋白质模型输出蛋白质描述和
/
或蛋白质结构
。15.
根据权利要求
12
所述的方法,其中,所述将所述第一模态的蛋白质数据输入至蛋白质模型,由所述蛋白质模型输出至少一个第二模态的蛋白质数据,包括:将蛋白质结构输入至所述蛋白质模型,由所述蛋白质模型输出蛋白质描述和
/
或蛋白质序列
。16.
根据权利要求
12
所述的方法,其中,所述将所述第一模态的蛋白质数据输入至蛋白质模型,由所述蛋白质模型输出至少一个第二模态的蛋白质数据,包括:将蛋白质的生成条件输入至所述蛋白质模型,由所述蛋白质模型输出蛋白质结构
。17.
一种蛋白质模型的训练装置,包括:获取模块,用于获取多模态的蛋白质样本数据;...

【专利技术属性】
技术研发人员:陈致远薛洋陈天浩方晓敏张肖男何径舟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1