联合掩码语言建模和酵母表面展示的多肽设计方法及序列技术

技术编号:39582021 阅读:37 留言:0更新日期:2023-12-03 19:32
本发明专利技术的一种联合掩码语言建模和酵母表面展示的多肽设计方法及序列,包括对蛋白质序列数据库进行清洗,选择符合要求的蛋白质序列作为语言模型的训练集,并在训练集所包含的蛋白质序列上进行掩码语言建模;在预训练模型的基础上设计设定的下游任务,并进行下游任务微调;对一条选定的参考序列进行随机的残基掩盖,并预测被遮盖的残基;对模型生成的多肽候选物进行虚拟筛选;通过酵母展示技术对筛选后的多肽进行蛋白表达水平和亲和力的测定

【技术实现步骤摘要】
联合掩码语言建模和酵母表面展示的多肽设计方法及序列


[0001]本专利技术涉及多肽设计
,具体涉及一种联合掩码语言建模和酵母表面展示的多肽设计方法及序列


技术介绍

[0002]病毒对世界范围内的公共卫生体系造成了巨大影响,进化变异所致的新变异株不断出现,极大地挑战着传统制药行业,对药物设计的时效性提出了更高的要求

[0003]多肽药物相比于小分子药物有着诸多优点,药用价值的评估时间周期相对更短,在应对肺炎这类大流行传染病面前有着独特优势

因此,发展高效

高成功率的多肽设计流程具有重要意义

[0004]随着人工智能技术与自然科学的交叉融合,自然语言处理技术已经被证明可以应用于蛋白质序列的处理,近两年来语言模型被迁移至蛋白质领域,可以有效地进行蛋白质序列的表征学习,在二级结构预测等重要下游任务上表现优异

因此,本专利技术设计了一套基于蛋白质语言模型的多肽设计流程,可以实现高效

低成本的多肽设计与湿实验表征
...

【技术保护点】

【技术特征摘要】
1.
一种联合掩码语言建模和酵母表面展示的多肽设计方法,其特征在于,通过以下步骤,对可公开获取的蛋白质序列数据库进行清洗,选择符合要求的蛋白质序列作为语言模型的训练集,并在训练集所包含的蛋白质序列上进行掩码语言建模即建立预训练模型进行掩码重建预训练;在预训练模型的基础上设计设定的下游任务,通过所述下游任务的训练更新预训练模型的参数,将设定性质信息存储到模型参数中,即进行下游任务微调;对一条选定的参考序列进行随机的残基掩盖,并预测被遮盖的残基,从而得到新的多肽序列;通过人工设定的规则和分子动力学模拟对模型生成的多肽候选物进行虚拟筛选;通过酵母展示技术对筛选后的多肽进行蛋白表达水平和亲和力的测定
。2.
根据权利要求1所述的联合掩码语言建模和酵母表面展示的多肽设计方法,其特征在于:所述掩码重建预训练步骤具体包括:首先根据目标多肽的长度对可公开获取的蛋白质序列数据库进行清洗;接下来在选定的训练集上进行自监督掩码重建任务,具体来说,每一条蛋白质序列将被切分为一个个残基,这些残基有几率被掩盖掉,而模型的任务就是通过的剩余的上下文预测被掩盖的残基
。3.
根据权利要求2所述的联合掩码语言建模和酵母表面展示的多肽设计方法,其特征在于:所述下游任务微调的具体步骤包括,通过下游任务的目标将设定的性质或者功能信息提示给预训练模型,从而使得预训练模型在训练的过程更新参数,存储设定的性质或者功能信息
。4.
根据权利要求3所述的联合掩码语言建模和酵母表面展示的多肽设计方法,其特征在于:预测被遮盖的残基具体包括,首先选定...

【专利技术属性】
技术研发人员:李子刚刘志宏尹丰叶宇鑫窦俊李聪陈杰聂志伟刘雨田
申请(专利权)人:深圳湾实验室坪山生物医药研发转化中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1