生成蛋白结构约束分布的方法和蛋白设计方法技术

技术编号:32247588 阅读:11 留言:0更新日期:2022-02-09 17:51
本申请公开了一种生成蛋白结构约束分布的方法和蛋白设计方法。该方法包括:获取随机生成的指定序列长度的第一蛋白序列;采用多层神经网络模型得到第一蛋白序列的蛋白结构约束分布;计算第一蛋白序列的损失函数值;采用反向传播加梯度下降的方法,更新第一蛋白序列得更新后的第一蛋白序列;将更新后的第一蛋白序列作为第一蛋白序列,并重复上述步骤预设次数,得到多个损失函数值;从多个损失函数值中选择符合第一预设规则的损失函数值对应的蛋白结构约束分布作为最终的蛋白结构约束分布。通过本申请,解决了相关技术中获取蛋白结构约束分布的效率较低的问题。束分布的效率较低的问题。束分布的效率较低的问题。

【技术实现步骤摘要】
生成蛋白结构约束分布的方法和蛋白设计方法


[0001]本申请涉及生物科技
,具体而言,涉及一种生成蛋白结构约束分布的方法和蛋白设计方法。

技术介绍

[0002]蛋白质在生命活动中是普遍存在且不可或缺的,它在生物体内承担了多种多样的生物学功能,具有相似结构信息的蛋白质往往会拥有相类似的生物学功能。蛋白结构约束分布是指蛋白序列中氨基酸之间的相对位置(包括距离、角度、二面角等)的分布,通过蛋白结构约束分布可以生成完整蛋白骨架,进而可以进行蛋白设计。所以生成包含固定motif的蛋白结构约束分布是至关重要的。
[0003]相关技术一中,生成蛋白结构约束分布需要大量的蛋白设计专家的人工经验和直觉,因此受人工影响较大,效率较低。
[0004]相关技术二中,生成蛋白结构约束分布是需要提前制备大量的骨架库,因此,依赖骨架库的好坏、生成蛋白的大小受骨架库限制。

技术实现思路

[0005]本申请的主要目的在于提供一种生成蛋白结构约束分布的方法和蛋白设计方法,以解决相关技术中获取蛋白结构约束分布过程中存在的部分或全部问题。
[0006]为了实现上述目的,根据本申请的一个方面,提供了一种生成蛋白结构约束分布的方法。该方法包括:S1、获取随机生成的指定序列长度的第一蛋白序列;S2、采用多层神经网络模型得到所述第一蛋白序列的蛋白结构约束分布;S3、基于预设motif的蛋白结构约束分布,背景蛋白的蛋白结构约束分布,和所述第一蛋白序列的蛋白结构约束分布,计算所述第一蛋白序列的损失函数值;S4、采用反向传播加梯度下降的方法,更新所述第一蛋白序列得更新后的第一蛋白序列;S5、将更新后的第一蛋白序列作为所述第一蛋白序列,并重复所述S2、S3和S4预设次数,得到多个损失函数值;S6、从所述多个损失函数值中选择符合第一预设规则的损失函数值对应的蛋白结构约束分布作为最终的蛋白结构约束分布。
[0007]进一步地,所述S3,包括:基于所述第一蛋白序列的蛋白结构约束分布与所述预设motif的蛋白结构约束分布,得到第一损失函数值;基于所述第一蛋白序列的蛋白结构约束分布与所述背景蛋白的蛋白结构约束分布,得到第二损失函数值;对所述第一损失函数值和所述第二损失函数值进行加权处理,得到所述第一蛋白序列的损失函数值。
[0008]进一步地,基于所述第一蛋白序列的蛋白结构约束分布与所述预设motif的蛋白结构约束分布,得到第一损失函数值,包括:确定motif在所述第一蛋白序列中的位置;依据所述位置,获取所述第一蛋白序列的蛋白结构约束分布中的motif的蛋白结构约束分布;依据所述motif的蛋白结构约束分布与所述预设motif的蛋白结构约束分布,得到所述第一损失函数值。
[0009]进一步地,确定motif在所述第一蛋白序列中的位置,采用的方式为如下至少之
一:基于不同motif之间的位置顺序,随机确定一个位置为放置任意一段motif的位置,其中,所述不同motif之间的位置不重合且相互之间不相连,且所述不同motif之间的位置顺序通过随机的方式进行确定;从所述第一蛋白序列中确定与每段motif的结构特征相似度最高的位置,并将所述结构特征相似度最高的位置确定为所述motif的位置。
[0010]进一步地,基于所述第一蛋白序列的蛋白结构约束分布与所述背景蛋白的蛋白结构约束分布,得到第二损失函数值,包括:依据所述第一蛋白序列的长度,获取所述背景蛋白的蛋白结构约束分布;依据所述第一蛋白序列的蛋白结构约束分布与所述背景蛋白的蛋白结构约束分布,得到所述第二损失函数值。
[0011]进一步地,所述S2,包括:从所述第一蛋白序列中提取序列特征;采用所述多层神经网络模型对所述序列特征进行分析,预测得到所述第一蛋白序列的蛋白结构约束分布,其中,所述蛋白结构约束分布表征相应蛋白序列中不同氨基酸之间的相对位置的分布情况。
[0012]进一步地,采用反向传播加梯度下降的方法,对所述第一蛋白序列进行更新,得到更新后的第一蛋白序列,包括:依据所述第一蛋白序列的损失函数值,计算得到损失计算梯度;将所述第一蛋白序列按照所述损失计算梯度的反方向进行更新,得到更新后的第一蛋白序列。
[0013]为了实现上述目的,根据本申请的另一方面,提供了一种蛋白设计方法。该方法包括:根据生成蛋白结构约束分布的方法获得的最终的蛋白结构约束分布进行蛋白设计。
[0014]为了实现上述目的,根据本申请的另一方面,提供了一种生成蛋白结构约束分布的装置。该装置包括:第一获取单元,用于获取随机生成的指定序列长度的第一蛋白序列;第二获取单元,用于采用多层神经网络模型得到所述第一蛋白序列的蛋白结构约束分布;计算单元,用于基于预设motif的蛋白结构约束分布,背景蛋白的蛋白结构约束分布,和所述第一蛋白序列的蛋白结构约束分布,计算所述第一蛋白序列的损失函数值;更新单元,用于采用反向传播加梯度下降的装置,更新所述第一蛋白序列得更新后的第一蛋白序列;处理单元,用将更新后的第一蛋白序列作为所述第一蛋白序列,并重复所述第二获取单元、所述计算单元和所述更新单元预设次数,得到多个损失函数值;选择单元,用于S6、从所述多个损失函数值中选择符合第一预设规则的损失函数值对应的蛋白结构约束分布作为最终的蛋白结构约束分布。
[0015]进一步地,所述计算单元包括:第一计算子单元,用于基于所述第一蛋白序列的蛋白结构约束分布与所述预设motif的蛋白结构约束分布,得到第一损失函数值;第二计算子单元,用于基于所述第一蛋白序列的蛋白结构约束分布与所述背景蛋白的蛋白结构约束分布,得到第二损失函数值;处理子单元,用于对所述第一损失函数值和所述第二损失函数值进行加权处理,得到所述第一蛋白序列的损失函数值。
[0016]进一步地,所述第一计算子单元包括:确定模块,用于确定motif在所述第一蛋白序列中的位置;第一获取模块,用于依据所述位置,获取所述第一蛋白序列的蛋白结构约束分布中的motif的蛋白结构约束分布;第一计算模块,用于依据所述motif的蛋白结构约束分布与所述预设motif的蛋白结构约束分布,得到所述第一损失函数值。
[0017]进一步地,所述确定模块包括如下至少之一:第一确定子模块,用于基于不同motif之间的位置顺序,随机确定一个位置为放置任意一段motif的位置,其中,所述不同
motif之间的位置不重合且相互之间不相连,且所述不同motif之间的位置顺序通过随机的方式进行确定;第二确定子模块,用于从所述第一蛋白序列中确定与每段motif的结构特征相似度最高的位置,并将所述结构特征相似度最高的位置确定为所述motif的位置。
[0018]进一步地,所述第二计算子单元包括:第二获取模块,用于依据所述第一蛋白序列的长度,获取所述背景蛋白的蛋白结构约束分布;第二计算模块,用于依据所述第一蛋白序列的蛋白结构约束分布与所述背景蛋白的蛋白结构约束分布,得到所述第二损失函数值。
[0019]进一步地,所述第二获取单元包括:提取子单元,用于从所述第一蛋白序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成蛋白结构约束分布的方法,其特征在于,包括:S1、获取随机生成的指定序列长度的第一蛋白序列;S2、采用多层神经网络模型得到所述第一蛋白序列的蛋白结构约束分布;S3、基于预设motif的蛋白结构约束分布,背景蛋白的蛋白结构约束分布,和所述第一蛋白序列的蛋白结构约束分布,计算所述第一蛋白序列的损失函数值;S4、采用反向传播加梯度下降的方法,更新所述第一蛋白序列得更新后的第一蛋白序列;S5、将更新后的第一蛋白序列作为所述第一蛋白序列,并重复所述S2、S3和S4预设次数,得到多个损失函数值;S6、从所述多个损失函数值中选择符合第一预设规则的损失函数值对应的蛋白结构约束分布作为最终的蛋白结构约束分布。2.根据权利要求1所述的方法,其特征在于,所述S3包括:基于所述第一蛋白序列的蛋白结构约束分布与所述预设motif的蛋白结构约束分布,得到第一损失函数值;基于所述第一蛋白序列的蛋白结构约束分布与所述背景蛋白的蛋白结构约束分布,得到第二损失函数值;对所述第一损失函数值和所述第二损失函数值进行加权处理,得到所述第一蛋白序列的损失函数值。3.根据权利要求2所述的方法,其特征在于,基于所述第一蛋白序列的蛋白结构约束分布与所述预设motif的蛋白结构约束分布,得到第一损失函数值,包括:确定motif在所述第一蛋白序列中的位置;依据所述位置,获取所述第一蛋白序列的蛋白结构约束分布中的motif的蛋白结构约束分布;依据所述motif的蛋白结构约束分布与所述预设motif的蛋白结构约束分布,得到所述第一损失函数值。4.根据权利要求3所述的方法,其特征在于,确定motif在所述第一蛋白序列中的位置,采用的方式为如下至少之一:基于不同motif之间的位置顺序,随机确定一个位置为放置任意一段motif的位置,其中,所述不同motif之间的位置不重合且相互之间不相连,且所述不同motif之间的位置顺序通过随机的方式进行确定;从所述第一蛋白序列中确定与每段motif的结构特征相似度最高的位置,并将所述结构特征相似度最高的位置确定为所述motif的位置。5.根据权利要求2所述的方法,其特征在于,基于所述第一蛋白序列的蛋白结构约束分布与所述背景蛋白的蛋白结构约束分布,...

【专利技术属性】
技术研发人员:张琳王天元吴炜坤李远鹏翟珂
申请(专利权)人:北京晶泰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1