一种目标抗菌肽的生成方法技术

技术编号:42378794 阅读:32 留言:0更新日期:2024-08-16 15:04
本发明专利技术公开了一种目标抗菌肽的生成方法,涉及抗菌肽生成领域,其利用dataset<subgt;pos</subgt;训练ProtGPT2模型得到待判别抗菌肽生成器,并通过待判别抗菌肽生成器生成多条待判别抗菌肽序列,通过抗菌肽判别器利用预设判别策略筛选出待判别抗菌肽序列中的候选抗菌肽数据,通过ESM‑1v获取dataset<subgt;pos</subgt;和AMP<subgt;can didate</subgt;中的每一条氨基酸序列对应的多维数值特征,并对各多维数值特征进行主成分分析,选择区分度最高的预设个特征作为聚类即类别划分的特征,通过K‑Means利用区分度最高的预设个特征对AMP<subgt;can didate</subgt;中的氨基酸序列进行类别划分,得到多个类别数据组,在各类别数据组中选择氨基酸序列进行抗菌活性验证得到目标抗菌肽,其利用蛋白质预训练语言模型ProtGPT2实现了抗菌肽的生成。

【技术实现步骤摘要】

本专利技术涉及抗菌肽生成领域,尤其涉及一种目标抗菌肽的生成方法


技术介绍

1、目前的抗菌肽数据库中包含天然抗菌肽和人工合成抗菌肽,天然抗菌肽指由生物产生用于抵抗外界入侵的代谢物,而人工合成抗菌肽则是利用现有的合成技术合成、与天然抗菌肽具有同样生化特性的蛋白质。相较于天然抗菌肽的发现和验证,人工合成抗菌肽效率更高。设计具有特定功能的氨基酸序列是蛋白质工程的核心之一。目前用于蛋白质工程的工具较少,并且大部分工具都依赖于定向进化,该方法通过测量起始或者野生型序列的随机变异对序列的影响,直到充分优化达到目标功能为止。应用机器学习的进步为抗菌肽设计提供了更广阔的思路,抗菌肽设计要求模型能够捕获指数级别或者无穷的组合状态空间。

2、自然语言处理中存在与抗菌肽设计相似的自然语言生成任务,模型的训练任务是根据之前的符号预测下一个符号。抗菌肽可以以序列化的氨基酸残基形式表示,这使得可以使用处理普通序列的方式处理抗菌肽,自然语言生成任务同样适用于抗菌肽设计。在抗菌肽设计场景下,自然界潜在的生成了一个复杂的抗菌肽分布,每一个氨基酸或者低聚物代表一个标识符,下一个词本文档来自技高网...

【技术保护点】

1.一种目标抗菌肽的生成方法,其特征在于,通过获取抗菌肽判别器与待判别抗菌肽生成器获取抗菌肽,包括:

2.根据权利要求1所述的一种目标抗菌肽的生成方法,其特征在于,所述对AMPcandidate中的氨基酸序列进行类别划分,具体包括:

3.根据权利要求1所述的一种目标抗菌肽的生成方法,其特征在于,所述抗菌肽为:

4.根据权利要求1所述的一种目标抗菌肽的生成方法,其特征在于,所述抗菌肽判别器包括输入词嵌入层、目标模型主体与输出层;所述输入词嵌入层用于利用预设分词策略获取肽序列对应的固定维度向量;所述模型主体用于对固定维度向量进行特征提取并输出潜在空间特征向...

【技术特征摘要】

1.一种目标抗菌肽的生成方法,其特征在于,通过获取抗菌肽判别器与待判别抗菌肽生成器获取抗菌肽,包括:

2.根据权利要求1所述的一种目标抗菌肽的生成方法,其特征在于,所述对ampcandidate中的氨基酸序列进行类别划分,具体包括:

3.根据权利要求1所述的一种目标抗菌肽的生成方法,其特征在于,所述抗菌肽为:

4.根据权利要求1所述的一种目标抗菌肽的生成方法,其特征在于,所述抗菌肽判别器包括输入词嵌入层、目标模型主体与输出层;所述输入词嵌入层用于利用预设分词策略获取肽序列对应的固定维度向量;所述模型主体用于对固定维度向量进行特征提取并输出潜在空间特征向量;所述输出层用于对模型主体输出的潜在空间特征向量进行线性变换、归一化与激活函数的处理,并利用处理后的潜在空间特征向量预测输入的肽序列为抗菌肽的概率,所述潜在空间特征向量表示对输入的肽序列建模的潜在特征空间;所述抗菌肽判别器的获取具体包括:

5.根据权利要求4所述的一种目标抗菌肽的生成方法,其特征在于,所述通过strain-pos获取第一正样本训练集、第二正样本训练集与第三正样本训练集,具体为:

...

【专利技术属性】
技术研发人员:文世挺石家豪吴亦初庞超逸高云君
申请(专利权)人:浙大宁波理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1