多肽序列的生成方法、多肽生成模型的训练方法和装置制造方法及图纸

技术编号:36075835 阅读:27 留言:0更新日期:2022-12-24 10:47
本公开提供了一种多肽序列的生成方法、多肽生成模型的训练方法和装置,涉及人工智能技术领域,具体涉及生物计算技术领域。具体实现方案为:在对指定蛋白质进行多肽药物设计的过程中,获取与该指定蛋白质对应的参考多肽序列,并确定指定蛋白质的蛋白质结合位点的空间结构特征信息,以及将参考多肽序列和空间结构特征信息输入到预先训练的多肽生成模型中,以得到目标多肽序列。由此,提出了一种结合指定蛋白质的蛋白质结合位点的空间结构特征信息来生成多肽序列的方式。来生成多肽序列的方式。来生成多肽序列的方式。

【技术实现步骤摘要】
多肽序列的生成方法、多肽生成模型的训练方法和装置


[0001]本公开涉及人工智能
,具体涉及自然语言处理、生物计算
,尤其涉及一种多肽序列的生成方法、多肽生成模型的训练方法和装置。

技术介绍

[0002]多肽药物具有活性和安全性高、特异性强、确定性好、成药性好等优点,在临床上应用广泛、前景广阔。多肽药物设计其目的在于能可控的,大量产生满足特定性质的多肽序列。相关技术中,多肽药物设计通常是由专家对其进行人工设计并进行试验,然而这种方式严重依赖于专家知识,多肽药物设计周期长等问题。

技术实现思路

[0003]本公开提供了一种多肽序列的生成方法、多肽生成模型的训练方法、装置和电子设备。
[0004]根据本公开的第一方面,提供了一种多肽序列的生成方法,所述方法包括:获取与指定蛋白质对应的参考多肽序列;确定所述指定蛋白质的蛋白质结合位点的空间结构特征信息;将参考多肽序列和所述空间结构特征信息输入到预先训练的多肽生成模型中,以得到目标多肽序列。
[0005]根据本公开的第二方面,提供了一种多肽生成模型的训练方法,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多肽序列的生成方法,包括:获取与指定蛋白质对应的参考多肽序列;确定所述指定蛋白质的蛋白质结合位点的空间结构特征信息;将参考多肽序列和所述空间结构特征信息输入到预先训练的多肽生成模型中,以得到目标多肽序列。2.根据权利要求1所述的方法,其中,所述确定所述指定蛋白质的蛋白质结合位点的空间结构特征信息,包括:获取所述指定蛋白质的氨基酸序列;根据所述氨基酸序列,确定所述蛋白质结合位点的空间结构特征信息。3.根据权利要求2所述的方法,其中,所述根据所述氨基酸序列,确定所述蛋白质结合位点的空间结构特征信息,包括:将所述氨基酸序列输入到预先训练的蛋白质结构预测模型中,以通过所述蛋白质结构预测模型得到所述蛋白质结合位点的空间结构特征信息。4.根据权利要求2所述的方法,其中,所述根据所述氨基酸序列,确定所述蛋白质结合位点的空间结构特征信息,包括:获取所述氨基酸序列对应的分类标记序列,其中,所述分类标记序列中的分类标记与所述氨基酸序列中的氨基酸一一对应,所述分类标记序列中的分类标记用于指示所述氨基酸序列中与所述分类标记对应的氨基酸是否在所述蛋白质结合位点内;将所述氨基酸序列和所述分类标记序列输入到预先训练的蛋白质结构预测模型中,以通过所述蛋白质结构预测模型得到所述蛋白质结合位点的空间结构特征信息。5.根据权利要求1

4中任一项所述的方法,其中,所述多肽生成模型包括编码层、相互作用层和解码层,所述将参考多肽序列和所述空间结构特征信息输入到预先训练的多肽生成模型中,以得到目标多肽序列,包括:通过所述编码层对所述参考多肽序列进行编码,以得到所述参考多肽序列的编码特征信息;通过所述相互作用层对所述编码特征信息和所述空间结构特征信息进行融合,以得到融合特征信息;通过所述解码层对所述融合特征信息进行解码,以得到所述目标多肽序列。6.根据权利要求5所述的方法,其中,所述通过所述相互作用层对所述编码特征信息和所述空间结构特征信息进行融合,以得到融合特征信息,包括:基于所述相互作用层中的第一注意力子层,确定所述编码特征信息对应的第一注意力特征信息;基于所述相互作用层中的第二注意力子层,确定所述空间结构特征信息对应的第二注意力特征信息;基于所述相互作用层中的融合子层,对所述第一注意力特征信息和所述第二注意力特征信息进行特征融合,以得到所述融合特征信息。7.根据权利要求6所述的方法,其中,所述基于所述相互作用层中的第一注意力子层,确定所述编码特征信息对应的第一注意力特征信息,包括:对所述编码特征信息进行注意力权重计算,以得到第一注意力权重信息;
根据所述第一注意力权重信息对所述编码特征信息进行加权处理,以得到所述第一注意力特征信息。8.根据权利要求6所述的方法,其中,所述基于所述相互作用层中的第二注意力子层,确定所述空间结构特征信息对应的第二注意力特征信息,包括:对所述空间结构特征信息进行注意力权重计算,以得到第二注意力权重信息;根据所述第二注意力权重信息对所述空间结构特征信息进行加权处理,以得到所述第二注意力特征信息。9.根据权利要求6所述的方法,其中,所述相互作用层还包括交互注意力子层,所述方法还包括:通过所述交互注意力子层对所述编码特征信息和所述空间结构特征信息进行交互注意力计算,以得到用于所述第一注意力子层的第一注意力权重信息和用于所述第二注意力子层的第二注意力权重信息;其中,所述基于所述相互作用层中的第一注意力子层,确定所述编码特征信息对应的第一注意力特征信息,包括:通过所述第一注意力子层,基于所述第一注意力权重信息对所述编码特征信息进行加权处理,以得到所述第一注意力特征信息;其中,所述基于所述相互作用层中的第二注意力子层,确定所述空间结构特征信息对应的第二注意力特征信息,包括:通过所述第二注意力子层,基于所述第二注意力权重信息对所述空间结构特征信息进行加权处理,以得到所述第二注意力特征信息。10.一种多肽生成模型的训练方法,所述方法包括:确定样本蛋白质的蛋白质结合位点的空间结构特征信息;获取第一样本多肽序列以及对应的第二样本多肽序列,其中,所述第二样本多肽序列是基于所述样本蛋白质和所述第一样本多肽序列生成的;将所述第一样本多肽序列和所述空间结构特征信息输入到多肽生成模型中,以得到预测多肽序列;基于所述预测多肽序列和所述第二样本多肽序列对所述多肽生成模型进行训练。11.根据权利要求10所述的方法,其中,所述确定样本蛋白质的蛋白质结合位点的空间结构特征信息,包括:获取所述样本蛋白质的氨基酸序列;根据所述氨基酸序列,确定所述蛋白质结合位点的空间结构特征信息。12.根据权利要求11所述的方法,其中,所述根据所述氨基酸序列,确定所述蛋白质结合位点的空间结构特征信息,包括:将所述氨基酸序列输入到预先训练的蛋白质结构预测模型中,以通过所述蛋白质结构预测模型得到所述蛋白质结合位点的空间结构特征信息。13.根据权利要求11所述的方法,其中,所述根据所述氨基酸序列,确定所述蛋白质结合位点的空间结构特征信息,包括:获取所述氨基酸序列对应的分类标记序列,其中,所述分类标记序列中的分类标记与所述氨基酸序列中的氨基酸一一对应,所述分类标记序列中的分类标记用于指示所述氨基
酸序列中与所述分类标记对应的氨基酸是否在所述蛋白质结合位点内;将所述氨基酸序列和所述分类标记序列输入到预先训练的...

【专利技术属性】
技术研发人员:陈致远薛洋刘荔行林大勇方晓敏王凡何径舟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1