【技术实现步骤摘要】
一种基于强化学习和分子模拟的靶向多肽设计方法及系统
[0001]本专利技术属于生物基因和人工智能多肽药物研究
,尤其涉及一种基于强化学习和分子模拟的靶向多肽设计方法及系统。
技术介绍
[0002]多肽药物由于其靶向特异性强、毒副作用小、易于修饰的特点,在内分泌代谢和肿瘤免疫等领域受到了越来越多的关注。如图1所示,多肽由20种天然氨基酸脱水缩合而成,多肽(黑色)和靶点蛋白(灰色)结合是一种蛋白和蛋白之间相互作用,表面形状互补,关键的氨基酸形成了氢键、盐桥等分子间相互作用,氨基酸随机地排列组合形成了庞大的分子空间(如一个8肽化学空间就高达8
20
),这限制了虚拟筛选和实验验证的效率,同时也很容易发生免疫原性的问题,因此如何利用已有数据,自动化地找到与靶点蛋白具有高亲和力并且氨基酸分布符合人源多肽分布规律的分子空间至关重要。
[0003]传统的方法通常是对已知多肽分子的生物化学性质进行分析,并人工设计虚拟多肽文库,这种方法通常依赖于专家的领域知识和经验,对可更改的氨基酸位点进行突变、插入和删除等操作,可探索的分子空间十分有限,并且由于蛋白质共进化信息十分复杂,上述操作很容易发生免疫原性的问题。近些年来,有人提出了基于机器学习或智能算法的方法自动生成新的多肽分子,常用的方法是将多肽表示为20种氨基酸缩写的字符串,训练时间序列模型或者自然语言处理模型来自动生成多肽分子,或者使用随机搜索算法对模版多肽分子进行优化。具体的,目前多肽分子的设计方法主要有:
[0004]方法一:选择突变位点,建 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习和分子模拟的靶向多肽设计方法,其特征在于,包括:S1,分别训练多肽分子生成器和多肽
‑
靶点蛋白相互作用预测器,并对所述多肽分子生成器和多肽
‑
靶点蛋白相互作用预测器联用进行强化学习获得多肽氨基酸分布的新潜空间;S2,从新潜空间采样生成新颖多肽分子集合,并与靶点蛋白进行分子对接获取多肽
‑
靶点蛋白复合物三维结构;S3,基于所述多肽
‑
靶点蛋白复合物三维结构进行分子动力学模拟,计算结合自由能,按照结合自由能从大大小排序并推荐分子。2.根据权利要求1所述的一种基于强化学习和分子模拟的靶向多肽设计方法,其特征在于,所述S1包括:S11,基于人源蛋白质和多肽序列数据训练多肽分子生成器,基于多肽分子生成器获取以高维正态分布表示的潜空间;S12,基于多肽
‑
靶点蛋白相互作用的数据集训练多肽
‑
靶点蛋白相互作用预测器,并基于所述多肽
‑
靶点蛋白相互作用预测器获取每个多肽
‑
靶点蛋白对的结合强度或概率值;S13,多肽分子生成器和多肽
‑
靶点蛋白相互作用预测器进行联用和强化学习。3.根据权利要求2所述的一种基于强化学习和分子模拟的靶向多肽设计方法,其特征在于,所述S11包括:(1)基于变分自编码器构建多肽分子生成器,包括:构建氨基酸词汇表,使用人源蛋白质数据作为预训练数据集,将所述预训练数据集映射到氨基酸词汇表获取氨基酸序列的嵌入向量x,变分自编码器拟合训练数据得到后验分布q(z|x),所述后验分布q(z|x)将观察作为输入并输出一组参数,一组所述参数用于指定潜变量z的条件分布;将潜变量z和一个服从标准高斯分布的随机噪声ε组合作为解码器的输入,观察p(x|z)的条件分布;(2)将每个潜变量z作为一个样本z,对于每个样本z,分别确定样本z对应的正态分布的均值和标准差,然后积分域中所有高斯分布的累加形成原始分布P(x)作为VAE的目标函数为:P(x)=∫P(z)P(χ|z)dz;
ꢀꢀꢀꢀ
(1)(3)对所述变分自编码器的目标函数进行最大似然估计,获得VAE模型的损失函教.其中所述损失函教公式为:所述损失函数分为两部分,
‑
D
kl
(Q
φ
(z|X)||P
z
)这一部分是编码器
‑
...
【专利技术属性】
技术研发人员:李高登,李津辰,安铎,周晓城,
申请(专利权)人:星希尔生物科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。