基于语言模型的信号肽-蛋白组合分泌效率预测方法及系统技术方案

技术编号:38591871 阅读:9 留言:0更新日期:2023-08-26 23:30
本发明专利技术公开了一种基于语言模型的信号肽

【技术实现步骤摘要】
基于语言模型的信号肽

蛋白组合分泌效率预测方法及系统


[0001]本专利技术属于生物信息
,更具体地,涉及一种基于语言模型的信号肽

蛋白组合分泌效率预测方法及系统。

技术介绍

[0002]许多的抗体药物或者治疗性蛋白在研究、生产过程中都面临着产量低、稳定性差、活性低等问题。增加蛋白的产量是工业界一个亟需解决的问题。目前,在大规模制备抗体药物的过程中,常常利用动物细胞表达系统来生产分泌蛋白,而信号肽作为连接在分泌蛋白N端的一段氨基酸序列,能够控制蛋白质的分泌途径进而影响抗体蛋白的表达产量,因此,重组蛋白的高效表达与信号肽密切相关。许多原核和真核信号肽即使在不同物种之间在功能上也可以互换,天然信号肽也不一定是最有效的信号肽,把来自不同物种的信号肽与目标蛋白嵌合还可以介导CHO细胞中抗体分泌增加。基于这些发现的基础上,我们可以筛选不同物种的不同信号肽,融合到要表达的蛋白中,从而提高最终的分泌蛋白表达量。
[0003]Lars等将治疗性抗体和FC融合蛋白与16种不同信号肽融合,并通过瞬转与稳转分析了分泌效率,与对照信号肽相比,来自多种物种的信号肽甚至天然免疫球蛋白G信号肽都无法实现更高的效率,而使用人白蛋白和人天青霉素的天然信号肽获得了最佳结果。Ryan等将免疫球蛋白重链和轻链信号肽的数据库依据序列相似度进行聚类分析,最终将重链信号肽分为8类,轻链信号肽分为2类,并且将他们融合到当前卖得最好的5个治疗性抗体中,用于分析信号肽对表达量的影响,优化后的信号肽对比原信号肽,能够将Rituxan的产量提高两倍。昂贵的白细胞介素

21生产费用限制了它的应用,Hee Jun Cho等通过优化IL

21密码子将产量提高10倍,为了更一步提高产量,他们通过文献搜索了5个信号肽并且评估其对IL

21表达量的影响,其中人天青霉素信号肽能够将产量再提高3倍。Wei

Li Ling等将Trastuzumab和Pertuzumab交换不同的骨架,系统地比较了共168种抗体排列变体中的骨髓瘤和天然信号肽对产量的影响,在大部分情况下,骨髓瘤信号肽比天然信号肽产量要高。此外,他们根据信号肽和目标蛋白的氨基酸数量建立了逻辑回归模型,用于预测产量的高低,这是利用信号肽与蛋白的氨基酸序列性质预测产量的第一次尝试。Stefano等手动提取了信号肽的156个特征,高通量分析了11,643个信号肽融合AmyQ(来自解淀粉芽孢杆菌的α淀粉酶)在枯草芽孢杆菌的蛋白的表达量,手动提取的信号肽的特征通过随机森林模型去预测蛋白的产量。
[0004]尽管对信号肽在工业界有着普遍的重要性并且有了多年的研究,但为目标蛋白找到最合适的信号肽往往是通过不断地重复实验得到的。过去有研究利用信号肽氨基酸数量特征等研究过信号肽与目标蛋白结合产量的关系,也有固定单个蛋白在原核系统上研究信号肽的特征与产量的关系。这些研究的特征往往是手动提取的,而且信号肽与目标蛋白的结合往往太过单一。

技术实现思路

[0005]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于语言模型的信号肽

蛋白组合分泌效率预测方法、电子设备或非暂态计算机可读存储介质,其目的在于通过截取信号肽

蛋白序列的序列长度作为信号肽特征序列,平衡信号肽和蛋白序列的特征,并且通过蛋白质语言模型,丰富截取的信号肽特征序列的结构特征,由此解决现有技术难以准确预测信号肽

蛋白组合分泌效率的技术问题。
[0006]为实现上述目的,按照本专利技术的一个方面,提供了一种基于语言模型的信号肽

蛋白组合分泌效率预测方法,包括以下步骤:
[0007](1)将待预测的信号肽

蛋白序列划分为翻译单元,对于每一个翻译单元截取N端的前M位氨基酸序列,作为信号肽特征序列;
[0008](2)将步骤(1)中获得的每一个翻译单元的信号肽特征序列,输入到预训练的蛋白质语言模型,获得所述翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量;
[0009](3)将步骤(2)中获得的待预测的信号肽

蛋白序列的每一翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量进行特征拼接,获得所述信号肽

蛋白序列的分泌特征向量获得所述信号肽

蛋白序列的分泌特征向量;
[0010](4)将步骤(3)获得的信号肽

蛋白序列的分泌特征向量输入到预测模型,预测所述信号肽

蛋白序列的分泌效率等级。
[0011]优选地,所述信号肽

蛋白组合分泌效率预测方法,其步骤(1)所述信号肽特征序列长度即M取值在80~200之间,优选100至150。
[0012]优选地,所述信号肽

蛋白组合分泌效率预测方法,其步骤(1)所述翻译单元是指mRNA序列翻译为氨基酸序列的最小独立单元,一般蛋白质亚基为翻译单元。
[0013]优选地,所述信号肽

蛋白组合分泌效率预测方法,其所述与训练的蛋白质语言模型包括但不限于ESM

1、ESM

2、AminoBERT、以及采用氨基酸序列进行训练的自然语言深度学习模型,所述自然语言深度学习模型的框架为BERT及其衍生框架、或GPT及其衍生框架;
[0014]所述蛋白质语言模型基于语言模型,以氨基酸序列作为训练数据,进行模型的自监督预训练,得出的氨基酸特征向量和蛋白质序列特征向量。
[0015]优选地,所述信号肽

蛋白组合分泌效率预测方法,其所述待预测的信号肽

蛋白序列的每一翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量进行特征拼接,进行归一化处理后,获得所述信号肽

蛋白序列的分泌特征向量。
[0016]优选地,所述信号肽

蛋白组合分泌效率预测方法,其所述待预测的信号肽

蛋白序列的每一翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量进行特征拼接,采用以下方式之一:
[0017]其一,将各翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量直接拼接为分泌特征向量,所述分泌特征向量的维度为各翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量的维度之和;
[0018]其二,将各翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量采用一维卷积模型进行卷积后再拼接为分泌特征向量。
[0019]优选地,所述信号肽

蛋白组合分泌效率预测方法,其所述一维卷积模型包括一个一维卷积层、以及一个池化层;氨基酸残基特征向量和/或蛋白质序列特征向量通过一维卷
积层,在序列长度方向进行卷积;卷积层输出通过一个池化层降低信息维度,防止过拟合;池化层输出转化为一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语言模型的信号肽

蛋白组合分泌效率预测方法,其特征在于,包括以下步骤:(1)将待预测的信号肽

蛋白序列划分为翻译单元,对于每一个翻译单元截取N端的前M位氨基酸序列,作为信号肽特征序列;(2)将步骤(1)中获得的每一个翻译单元的信号肽特征序列,输入到预训练的蛋白质语言模型,获得所述翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量;(3)将步骤(2)中获得的待预测的信号肽

蛋白序列的每一翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量进行特征拼接,获得所述信号肽

蛋白序列的分泌特征向量获得所述信号肽

蛋白序列的分泌特征向量;(4)将步骤(3)获得的信号肽

蛋白序列的分泌特征向量输入到预测模型,预测所述信号肽

蛋白序列的分泌效率等级。2.如权利要求1所述的信号肽

蛋白组合分泌效率预测方法,其特征在于,步骤(1)所述信号肽特征序列长度即M取值在80~200之间,优选100至150。3.如权利要求1所述的信号肽

蛋白组合分泌效率预测方法,其特征在于,步骤(1)所述翻译单元是指mRNA序列翻译为氨基酸序列的最小独立单元,一般蛋白质亚基为翻译单元。4.如权利要求1所述的信号肽

蛋白组合分泌效率预测方法,其特征在于,所述与训练的蛋白质语言模型包括但不限于ESM

1、ESM

2、AminoBERT、以及采用氨基酸序列进行训练的自然语言深度学习模型,所述自然语言深度学习模型的框架为BERT及其衍生框架、或GPT及其衍生框架;所述蛋白质语言模型基于语言模型,以氨基酸序列作为训练数据,进行模型的自监督预训练,得出的氨基酸特征向量和蛋白质序列特征向量。5.如权利要求1所述的信号肽

蛋白组合分泌效率预测方法,其特征在于,所述待预测的信号肽

蛋白序列的每一翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量进行特征拼接,进行归一化处理后,获得所述信号肽

蛋白序列的分泌特征向量。6.如权利要求1所述的信号肽

蛋白组合分泌效率预测方法,其特征在于,所述待预测的信号肽

蛋白序列的每一翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量进行特征拼接,采用以下方式之一:其一,将各翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量直接拼接为分泌特征向量,所述分泌特征向量的维度为各翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量的维度之和;其二,将各翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量采用一维卷积模...

【专利技术属性】
技术研发人员:陈亮龙永康胡志鹏梁国龙
申请(专利权)人:深圳太力生物技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1