基于蛋白质的对接结构预测方法及装置制造方法及图纸

技术编号：35907561 阅读：45 留言：0更新日期：2022-12-10 10:46

本公开提供了一种基于蛋白质的对接结构预测方法及装置，涉及人工智能、生物计算技术领域。具体实现方案为：将受体蛋白的氨基酸序列以及目标对接物的氨基酸序列输入PLM，得到第一单序列表示和注意力图；基于适配器层将第一单序列表示转换为第二单序列表示，并基于适配器层将注意力图转换为配对表示；将受体结构信息、第二单序列表示和配对表示输入目标模型的几何模块，得到受体蛋白和目标对接物对接后的结构信息；其中，受体结构信息用于描述目标对接物的相似物和受体蛋白的对接结构。使用本公开提供的对接结构预测方法能够快速准确的预测受体蛋白和目标对接物的对接结构。预测受体蛋白和目标对接物的对接结构。预测受体蛋白和目标对接物的对接结构。

全部详细技术资料下载

【技术实现步骤摘要】
基于蛋白质的对接结构预测方法及装置

[0001]本公开涉及数据处理
，尤其涉及人工智能、生物计算

技术介绍

[0002]Alphafold
‑
Multimer(多聚体的阿尔法折叠)模型是Alphafold2(阿尔法折叠模型的版本2)的扩展，专门用于预测蛋白质
‑
蛋白质的复合物的结构，在实验结果上达到了很高的准确率。
[0003]通常情况下，Alphafold
‑
Multimer需要得到MSA(multiple sequences alignment，同源序列比对)和Template(模板)，去预估对接结构。
[0004]但是Alphafold
‑
Multimer结构较为庞大，需要集成约20多个模型，此外，确定MSA和Template的过程耗时也较长，如何能够快速准确的预测对接结构仍有待解决。

技术实现思路

[0005]本公开提供了一种基于蛋白质的对接结构预测的方法及装置。
[0006]根据本公开的一方面，提供了一种基于蛋白质的对接结构预测方法，包括：
[0007]将受体蛋白的氨基酸序列以及目标对接物的氨基酸序列输入PLM(Protein Language Model，蛋白质语言模型)，得到第一单序列表示和注意力图；
[0008]基于适配器层将第一单序列表示转换为第二单序列表示，并基于适配器层将注意力图转换为配对表示；
[0009]将受体结构信息、第二单序列表示和配对表...

【技术保护点】

【技术特征摘要】
1.一种基于蛋白质的对接结构预测方法，包括：将受体蛋白的氨基酸序列以及目标对接物的氨基酸序列输入蛋白质语言模型，得到第一单序列表示和注意力图；基于适配器层将所述第一单序列表示转换为第二单序列表示，并基于所述适配器层将所述注意力图转换为配对表示；将受体结构信息、所述第二单序列表示和所述配对表示输入目标模型的几何模块，得到所述受体蛋白和所述目标对接物对接后的结构信息；其中，所述受体结构信息用于描述所述目标对接物的相似物和所述受体蛋白的对接结构。2.根据权利要求1所述的方法，还包括基于以下方法得到所述受体结构信息：生成所述目标对接物的多个相似片段；基于评分函数，从所述多个相似片段中筛选出多个候选片段；将每个候选片段分别与所述受体蛋白进行对接，得到多个候选结构；从所述候选结构中选择出最优结构作为目标结构；生成所述目标结构的结构信息作为所述受体结构信息。3.根据权利要求2所述的方法，其中，所述生成所述目标结构的结构信息，包括：获取所述目标结构中的以下至少一种信息，得到所述结构信息：原子编号、原子类型、原子坐标、原子对应的氨基酸编号、原子对应的氨基酸类型、原子对应的链编号。4.根据权利要求2所述的方法，其中，所述将每个候选片段分别与所述受体蛋白进行对接，得到多个候选结构，包括：基于快速傅立叶变换将每个候选片段分别与所述受体蛋白进行对接，得到多个候选结构。5.根据权利要求1
‑
4中任一项所述的方法，其中，所述基于适配器层将所述第一单序列表示转换为第二单序列表示，并基于所述适配器层将所述注意力图转换为配对表示，包括：将所述第一单序列表示输入所述适配器层的第一线性层，得到所述第二单序列表示；将所述注意力图输入所述适配器层的第二线性层，得到所述配对表示。6.根据权利要求1
‑
5中任一项所述的方法，所述目标对接物包括多肽。7.根据权利要求1
‑
6中任一项所述的方法，其中，所述将受体蛋白的氨基酸序列以及目标对接物的氨基酸序列输入蛋白质语言模型，得到第一单序列表示和注意力图，包括：对所述受体蛋白的氨基酸序列以及所述目标对接物的氨基酸序列进行编码，得到编码向量；将所述编码向量输入所述蛋白质语言模型，得到所述第一单序列表示和注意力图。8.根据权利要求1
‑
7中任一项所述的方法，其中，所述蛋白质语言模型中包括多个注意力模块，所述将受体蛋白的氨基酸序列以及目标对接物的氨基酸序列输入蛋白质语言模型，得到第一单序列表示和注意力图，包括：将所述受体蛋白的氨基酸序列以及所述目标对接物的氨基酸序列输入第一个注意力模块，得到中间单序列表示和中间注意力图；针对所述多个注意力模块中的除所述第一个注意力模块之外的任一注意力模块，分别执行以下操作，并将最后一个注意力模块输出的中间单序列表示作为所述第一单序列表
示，将所述最后一个注意力模块输出的中间注意力图作为所述注意力图：将上一注意力模块输出的中间单序列表示，输入所述任一注意力模块得到所述任一注意力模块输出的中间单序列表示；将所述上一注意力模块输出的中间注意力图，输入所述任一注意力模块，得到所述任一注意力模块输出的中间注意力图。9.一种基于蛋白质的对接结构预测装置，包括：特征提取模块，用于将受体蛋白的氨基酸序列以及目标对接物的氨基酸序列输入蛋白质语言模型，得到第一单序列表示和注意力图；转换模块，用于基于适配器层将所述第一单序列表示转换为第二单序列表示，并基于所述适配器层将所述注...

【专利技术属性】
技术研发人员：王俊达，薛洋，陈致远，方晓敏，王凡，张肖男，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人