基于图网络掩膜节点分类的固定骨架的蛋白质序列设计方法技术

技术编号:34388640 阅读:29 留言:0更新日期:2022-08-03 21:14
一种基于图网络掩膜节点分类的固定骨架的蛋白质序列设计方法,在离线阶段,通过构建样本的蛋白质最近临图作为训练集,对图神经网络进行训练;在在线阶段,通过训练后的图神经网络对缺失序列的蛋白质结构的最临近图进行处理,得到缺失的氨基酸类别概率,然后对类别概率进行采样得到预测的缺失的氨基酸序列。本发明专利技术通过增加了更多的结构约束,在蛋白质图中相连的氨基酸对加入了距离和相对角度特征以及每个氨基酸的二面角特征,然后建立近邻图,实现了基于Transformer多头注意力机制的更高效的图网络并探究了最优的氨基酸mask比例。效的图网络并探究了最优的氨基酸mask比例。效的图网络并探究了最优的氨基酸mask比例。

【技术实现步骤摘要】
基于图网络掩膜节点分类的固定骨架的蛋白质序列设计方法


[0001]本专利技术涉及的是一种生物工程领域的技术,具体是一种基于图网络掩膜节点分类的固定骨架的蛋白质序列设计方法。

技术介绍

[0002]蛋白质设计是研究蛋白质序列和蛋白质结构之间关系的重要方法,它通过设计具有特定结构的氨基酸序列来设计新型蛋白质。目前使用深度学习进行蛋白质设计的技术,一般将蛋白质设计分成两个步骤,首先根据所需功能生成蛋白质骨架,然后进行固定骨架的蛋白质设计,力求特定稳定的三维结构。
[0003]ProteinSolver(https://github.com/ostrokach/proteinsolver)属于一种固定骨架的蛋白质设计方法,该技术将蛋白质设计建模成约束满足问题(CSP),具体是将蛋白质的结构特征作为约束,并将一部分氨基酸类型mask掉,预测被mask的氨基酸的类型,用预测的新序列填充特定目标结构。但该技术使用的结构特征约束不足,只用到了距离矩阵去约束,不能提取到更准确的蛋白质3d结构表征,而相同的距离矩阵会对应太多不同的同源序列,导致生成的序列折本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于图网络掩膜节点分类的固定骨架的蛋白质序列设计方法,其特征在于,在离线阶段,通过构建样本的蛋白质最近临图作为训练集,对图神经网络进行训练;在在线阶段,通过训练后的图神经网络对缺失序列的蛋白质结构的最临近图进行处理,得到缺失的氨基酸类别概率,然后对类别概率进行采样得到预测的缺失的氨基酸序列。2.根据权利要求1所述的蛋白质序列设计方法,其特征是,所述的蛋白质最近临图,通过以下方式得到:步骤1)获取蛋白质序列对应3d结构中C
α
、C、N、O的坐标;步骤2)使用蛋白质氨基酸序列中C
α
的坐标,以的距离为标准建立最近临图,即

当两个氨基酸的C
α
坐标距离小于时,两个氨基酸互为邻居节点;

当任一氨基酸节点的邻居节点数目大于32时,选择距C
α
最近的32个氨基酸作为邻居节点;步骤3)进一步构建步骤2)中最近临图的节点特征和边特征:节点特征使用蛋白质骨架的3个二面角氨基酸类型(1

20类)的one

hot编码(21类);边特征使用配对氨基酸的C
α
原子的距离d
ij
和相对方向α
ij
,具体为:其中:C
i
,C
j
为配对的两个氨基酸C
α
原子的坐标;步骤4)根据掩模(mask)比例,将步骤3)得到的最临近图中部分氨基酸节点的氨基酸类型信息进行掩模处理,即使用第21类的one

hot编码代替,通过构造序列缺失的数据集,以便根据结构特征以及未缺失的序列特征去预测缺失的序列。3.根据权利要求1所述的蛋白质序列设计方法,其特征是,所述的训练集,具体通过获取CATH 40%非冗余数据集,选择其中长度为50

500的序列,然后按照80:15:5的比例划分为训练集和验证集和测试集。4.根据权利要求1所述的蛋白质序列设计方法,其特征是,所述的图神经网络包括:输入层、编码层和输出层,其中:输入层对输入的蛋白质最近临图中的边和节点特征进行变换,将边和节点的特征维度统一,编码层通过基于Transformer的图网络进一步提取节点和边的特征,输出层使用全连接层将氨基酸节点的节点特征转换到20维,然后通过softmax计算预测的氨基酸类别概率。5.根据权利要求1所述的蛋白质序列设计方法,其特征是,所述的输入层是指:将边和节点的特征维度对齐,具体为:h_x=LayerNorm(Linear(σ(Linear(x...

【专利技术属性】
技术研发人员:刘炎沈红斌袁野
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1