一种基于Graphormer算法的蛋白质序列设计方法、装置及存储介质制造方法及图纸

技术编号:36690813 阅读:31 留言:0更新日期:2023-02-27 19:58
本发明专利技术涉及一种基于Graphormer算法的蛋白质序列设计方法、装置及存储介质,其中方法包括:将蛋白质结构以图的方式进行表示:以单个氨基酸为节点,以氨基酸之间的联系作为边;提取蛋白质的初始边特征和初始节点特征;将蛋白质初始节点特征和一个随机矩阵进行拼接,并通过线性层调整维度,加上位置编码信息,得到节点特征,作为GPD模型的输入;将蛋白质初始边特征通过矩阵拼接之后再经过两层线性层,得到边特征,嵌入到GPD模型的注意力矩阵中;构建用于固定骨架蛋白质序列设计的GPD模型并训练;基于GPD模型、节点特征和边特征设计蛋白质序列。与现有技术相比,本发明专利技术具有更高的序列恢复率和更高的设计序列多样性。复率和更高的设计序列多样性。复率和更高的设计序列多样性。

【技术实现步骤摘要】
一种基于Graphormer算法的蛋白质序列设计方法、装置及存储介质


[0001]本专利技术涉及蛋白质序列设计模型构建
,尤其是涉及一种基于Graphormer算法的蛋白质序列设计方法、装置及存储介质。

技术介绍

[0002]蛋白质从头设计(De novo protein design)旨在设计具有特定结构或功能的蛋白质。蛋白质设计是蛋白质工程的核心问题,例如利用蛋白质设计提高酶的催化效率、抗体的亲和性等。蛋白质设计包括两个关键任务:蛋白质主链骨架设计和固定骨架蛋白质序列设计(fixed

backbone protein sequence design)。固定骨架蛋白质序列设计旨在设计能折叠成特定蛋白质骨架结构的氨基酸序列,具体来说,设计的序列不仅需要折叠成所需的结构,还需要具有特定的功能。这个任务也被称为蛋白质逆折叠问题(inverse protein folding problem)。
[0003]固定骨架蛋白质序列设计的方法可以分为两类:基于经典能量函数的蛋白质序列设计和基于深度学习的蛋白质序列设计。基于本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Graphormer算法的蛋白质序列设计方法,其特征在于,包括以下步骤:S1、将蛋白质结构以图的方式进行表示:以单个氨基酸为节点,以氨基酸之间的联系作为边;S2、提取蛋白质的初始边特征;S3、提取蛋白质的初始节点特征;S4、将蛋白质初始节点特征和一个随机矩阵进行拼接,并通过线性层调整维度,加上位置编码信息,得到节点特征,作为GPD模型的输入;S5、将蛋白质初始边特征通过矩阵拼接之后再经过两层线性层,得到边特征,嵌入到GPD模型的注意力矩阵中;S6、构建用于固定骨架蛋白质序列设计的GPD模型并训练,所述GPD模型包括依次连接的6个相同的Graphormer模块、线性层处理和softmax,其中,Graphormer模块基于Graphormer区块建立,Graphormer区块包括注意力矩阵;S7、基于GPD模型、节点特征和边特征设计蛋白质序列。2.根据权利要求1所述的一种基于Graphormer算法的蛋白质序列设计方法,其特征在于,所述初始节点特征和初始边特征都具有平移旋转不变性。3.根据权利要求2所述的一种基于Graphormer算法的蛋白质序列设计方法,其特征在于,所述初始边特征包括距离矩阵、位移向量、旋转四元数和残基最短路径。4.根据权利要求2所述的一种基于Graphormer算法的蛋白质序列设计方法,其特征在于,所述初始节点特征包括二面角、预测的二级结构、氨基酸中心度、初始蛋白序列编码。5.根据权利要求4所述的一种基于Graphormer算法的蛋白质序列设计方法,其特征在于,所述将蛋白质初始节点特征和一个随机矩阵进行拼接具体为:分别计算二面角的正弦和余弦值得到二面角正弦矩阵和余弦矩阵;分别将预测的二级结构和初始蛋白序列编码输入嵌...

【专利技术属性】
技术研发人员:陈海峰魏婷
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1