一种稳定折叠的富含二硫键的多肽设计方法及其电子设备技术

技术编号:35574313 阅读:18 留言:0更新日期:2022-11-12 15:59
本发明专利技术公开了一种稳定折叠的富含二硫键的多肽设计方法及其电子设备,本方法可借助大量天然已知的富含二硫键的多肽家族的半胱氨酸序列分布和配对特点(序列的通配规则),来生成更容易折叠的多肽主链结构序列;也可以根据人为随机化已有序列的通配规则,扩大序列和结构的采样空间。更重要的是,本方法使用高精度的结构预测模型进行序列反向传播设计,同时考虑序列与结构的适配性,生成极具多样性的序列库。做到同时优化预设二硫键配对的半胱氨酸位点的距离分布,以及整体多肽中稀疏的相互作用密度。使得二硫键正确形成的同时,多肽每个位点之间存在足够多的相互作用接触,确保其折叠的稳定性。的稳定性。的稳定性。

【技术实现步骤摘要】
一种稳定折叠的富含二硫键的多肽设计方法及其电子设备


[0001]本专利技术涉及蛋白设计领域,更具体的是涉及一种稳定折叠的富含二硫键的多肽设计方法及其电子设备。

技术介绍

[0002]自从1953年首个人工合成的具有生物活性的多肽问世至今,多肽类药物和配体已被广泛应用于临床诊断和治疗。且相对于无规则卷曲的线型多肽分子,环肽类化合物因具有稳定的构象而具备与靶标蛋白结合的特异性和亲和力好、不容易被生物体系中的蛋白酶降解、生物利用率高等优点,因此针对环肽类化合物进行配体药物的研发引起了人们越来越多的关注。
[0003]富含二硫键的多肽分子普遍具有独特的生物活性,能为构建多元环肽分子探针和开发新型药物分子提供结构多样、复杂、稳定的大分子骨架模型,因此具有极高的研究价值。在这些骨架模型中插入活性多肽,可设计得到一系列潜在的药物分子的序列。因插入的活性多肽的序列不同,这类药物分子氧化折叠过程充满了复杂性和不可控性,设计的药物分子的序列是否能在自然界中稳定存在、构象是否稳定均需通过实验进行验证,这极大地限制了富含二硫键的多肽分子作为分子骨架模型进行探针和药物开发的潜能。
[0004]现有技术中,为了解决多肽在氧化折叠过程中不可控的问题,科学家们利用半胱氨酸类似物(如硒代半胱氨酸、青霉胺)替代多肽链中的半胱氨酸残基。虽然这些半胱氨酸类似物确实有效调控了二硫键的配对方式,但是这些类似物都属于非天然氨基酸,若将这些非天然氨基酸应用于生物体内表达多肽,工作量和难度都是很大的。同时这种严格调控二硫键配对的方法得到的多肽的序列多样性较差,不利于开发出新的药物分子,且开发出的药物分子的生物活性往往较低。因此发展出一种不依赖于非天然氨基酸且分子骨架稳定性高的多肽设计方法是很有必要的。

技术实现思路

[0005]针对现有技术存在的不足,本专利技术的目的之一在于利用深度学习算法对多肽分子的稳定性打分,将该多肽分子的二硫键能量和整体分子能量进行量化,优化二硫键配对的半胱氨酸位点的距离分布以及整体多肽中的相互作用密度,理性设计出多种构象稳定的富含二硫键多肽的设计方法。
[0006]为实现上述目的,本专利技术提供了如下技术方案:一种稳定折叠的富含二硫键的多肽设计方法,包括以下步骤:1)设计初始多肽序列,所述初始多肽序列中设定形成二硫键的氨基酸位点为半胱氨酸,其他氨基酸位点为20种氨基酸中的一种,形成二硫键的半胱氨酸在一级序列上的距离大于5个氨基酸;2)将所述初始多肽序列输入到AlphaFold2模型中得到距离分布矩阵,所述距离分布矩阵反映多肽三维结构中不同氨基酸位点之间的距离分布,所述距离分布矩阵包括二硫
键信息,所述二硫键信息反映形成二硫键的两个半胱氨酸之间的距离分布;3)根据所述二硫键信息计算二硫键交叉熵得到二硫键损失函数,根据所述距离分布矩阵计算多肽交叉熵得到多肽损失函数,加权计算所述二硫键损失函数和所述多肽损失函数得到多肽综合损失函数,对所述多肽多肽综合损失函数进行反向传播求导得到梯度信息,根据所述梯度信息得到多肽序列;4)将所述多肽序列作为新的初始多肽序列并重复所述步骤2)和步骤3),得到新的多肽综合损失函数;5)计算相邻的两个多肽综合损失函数的差值得到评分差,若累计n次所述评分差小于预设的评分差阈值,则停止计算并输出最新的初始多肽序列,否则重复步骤4),n为大于1的整数;或者累计反向传播求导的次数得到优化次数,若所述优化次数大于预设的次数阈值,则停止计算并输出最新的初始多肽序列,否则重复步骤4)。
[0007]作为优选,所述步骤1)中,根据已公开的环肽骨架分子确定所述初始多肽序列中形成二硫键的半胱氨酸。
[0008]作为优选,所述步骤1)中使用维度为Lx20的矩阵代表长度为L个氨基酸的多肽序列,采用离散型函数对多肽序列进行初始化,其中,将设定形成二硫键的半胱氨酸的向量进行加权偏倚,得到所述初始多肽序列。
[0009]作为优选,所述离散型函数为jax中的jax.random.gumbel()函数。
[0010]作为优选,所述步骤3)中,从所述二硫键信息中提取AlphaFold输出的蛋白残基距离分布矩阵的第一张量,所述第一张量的维度为LxLxM,M表示以M个bin将0

>21.6875埃距离进行分箱,M为大于10的整数,所述第一张量表示形成二硫键的两个氨基酸Ca

Ca原子之间的距离分布,记为x1;将Ca

Ca原子距离小于预设的分箱阈值的距离分布进行softmax归一化,得到y1,计算x1与y1的交叉熵求和得到所述二硫键损失函数;从所述距离分布矩阵中提取Alphafold输出的蛋白残基距离分布矩阵的第二张量,所述第二张量的维度为LxLxM,M表示以M个bin将0

>21.6875埃距离进行分箱,M为大于10的整数,所述第二张量表示某一氨基酸与其距离最近的一个或者两个氨基酸的Ca

Ca原子之间的距离分布,记为x2;将Ca

Ca原子距离小于预设的分箱阈值的距离分布进行softmax归一化,得到y2,计算x2与y2的交叉熵求和得到所述多肽损失函数。
[0011]作为优选,所述步骤3)中,对所述多肽损失函数上每一行进行掩码设置,在一级序列上邻近的g个氨基酸之间的损失函数值不进行计算,g为大于5的整数。
[0012]作为优选,所述步骤3)中,M为64。
[0013]作为优选,所述步骤3)还输出所述初始多肽序列对应的二硫键损失函数;多肽设计方法还包括:步骤6)根据所述二硫键损失函数得到若干个二硫键能量值,统计小于预设的二硫键能量阈值的二硫键能量值的数量得到二硫键成键量,将所述二硫键成键量与步骤1)预设的二硫键数量进行一致性比较,若相同则输出所述初始多肽序列,否则重复步骤1)。
[0014]作为优选,所述步骤5)中,预设的次数阈值为30~70。
[0015]针对现有技术存在的不足,本专利技术的目的之二在于能将上述算法进行运行的设备。
[0016]为实现上述目的,本专利技术提供了如下技术方案:一种电子设备,包括:处理器以及存储器,所述存储器存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行上述稳定折叠的富含二硫键的多肽设计方法对应的算法。
[0017]与现有技术相比,本专利技术的优点在于:利用深度学习算法对多肽分子的稳定性打分,将该多肽分子的二硫键能量和整体分子能量进行量化,并利用反向传播求导优化多肽序列,同时优化预设二硫键配对的半胱氨酸位点的距离分布,以及整体多肽中稀疏的相互作用密度。使得二硫键正确形成的同时,多肽每个位点之间存在足够多的相互作用接触,确保其折叠的稳定性。
附图说明
[0018]图1为优化前多肽序列的接触图谱;图2为优化后多肽序列的接触图谱;图3为优化前某一对成二硫键的两个氨基酸位点的距离分布图;图4为优化后某一对成二硫键的两个氨基酸位点的距离分布图。
具体实施方式
[001本文档来自技高网
...

【技术保护点】

【技术特征摘要】
与y2的交叉熵求和得到所述多肽损失函数。6.根据权利要求5所述的一种稳定折叠的富含二硫键的多肽设计方法,其特征在于,所述步骤3)中,对所述多肽损失函数上每一行进行掩码设置,在一级序列上邻近的g个氨基酸之间的损失函数值不进行计算,g为大于5的整数。7.根据权利要求5所述的一种稳定折叠的富含二硫键的多肽设计方法,其特征在于,所述步骤3)中,M为64。8.根据权利要求1所述的一种稳定折叠的富含二硫键的多肽设计方法,其特征在于,所述步骤3)还输出所述初始多肽序列对应的二硫键损失函数;多肽设计方法还包括:步骤6)根据所述二硫键损失函数得...

【专利技术属性】
技术研发人员:吴炜坤张闻瀚金慧玲徐霖
申请(专利权)人:杭州力文所生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1