基于语言模型的信号肽-蛋白组合分泌效率预测方法及系统技术方案

技术编号：38591871 阅读：9 留言：0更新日期：2023-08-26 23:30

本发明专利技术公开了一种基于语言模型的信号肽

全部详细技术资料下载

【技术实现步骤摘要】
基于语言模型的信号肽
‑
蛋白组合分泌效率预测方法及系统

[0001]本专利技术属于生物信息
，更具体地，涉及一种基于语言模型的信号肽
‑
蛋白组合分泌效率预测方法及系统。

技术介绍

[0002]许多的抗体药物或者治疗性蛋白在研究、生产过程中都面临着产量低、稳定性差、活性低等问题。增加蛋白的产量是工业界一个亟需解决的问题。目前,在大规模制备抗体药物的过程中，常常利用动物细胞表达系统来生产分泌蛋白，而信号肽作为连接在分泌蛋白N端的一段氨基酸序列，能够控制蛋白质的分泌途径进而影响抗体蛋白的表达产量，因此，重组蛋白的高效表达与信号肽密切相关。许多原核和真核信号肽即使在不同物种之间在功能上也可以互换，天然信号肽也不一定是最有效的信号肽，把来自不同物种的信号肽与目标蛋白嵌合还可以介导CHO细胞中抗体分泌增加。基于这些发现的基础上，我们可以筛选不同物种的不同信号肽，融合到要表达的蛋白中，从而提高最终的分泌蛋白表达量。
[0003]Lars等将治疗性抗体和FC融合蛋白与16种不同信号肽融合，并通过瞬转与稳转分析了分泌效率，与对照信号肽相比，来自多种物种的信号肽甚至天然免疫球蛋白G信号肽都无法实现更高的效率，而使用人白蛋白和人天青霉素的天然信号肽获得了最佳结果。Ryan等将免疫球蛋白重链和轻链信号肽的数据库依据序列相似度进行聚类分析，最终将重链信号肽分为8类，轻链信号肽分为2类，并且将他们融合到当前卖得最好的5个治疗性抗体中，用于分析信号肽对表达量的影响，优化后的信号肽对比原信号肽，能够...

【技术保护点】

【技术特征摘要】
1.一种基于语言模型的信号肽
‑
蛋白组合分泌效率预测方法，其特征在于，包括以下步骤：(1)将待预测的信号肽
‑
蛋白序列划分为翻译单元，对于每一个翻译单元截取N端的前M位氨基酸序列，作为信号肽特征序列；(2)将步骤(1)中获得的每一个翻译单元的信号肽特征序列，输入到预训练的蛋白质语言模型，获得所述翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量；(3)将步骤(2)中获得的待预测的信号肽
‑
蛋白序列的每一翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量进行特征拼接，获得所述信号肽
‑
蛋白序列的分泌特征向量获得所述信号肽
‑
蛋白序列的分泌特征向量；(4)将步骤(3)获得的信号肽
‑
蛋白序列的分泌特征向量输入到预测模型，预测所述信号肽
‑
蛋白序列的分泌效率等级。2.如权利要求1所述的信号肽
‑
蛋白组合分泌效率预测方法，其特征在于，步骤(1)所述信号肽特征序列长度即M取值在80～200之间，优选100至150。3.如权利要求1所述的信号肽
‑
蛋白组合分泌效率预测方法，其特征在于，步骤(1)所述翻译单元是指mRNA序列翻译为氨基酸序列的最小独立单元，一般蛋白质亚基为翻译单元。4.如权利要求1所述的信号肽
‑
蛋白组合分泌效率预测方法，其特征在于，所述与训练的蛋白质语言模型包括但不限于ESM
‑
1、ESM
‑
2、AminoBERT、以及采用氨基酸序列进行训练的自然语言深度学习模型，所述自然语言深度学习模型的框架为BERT及其衍生框架、或GPT及其衍生框架；所述蛋白质语言模型基于语言模型，以氨基酸序列作为训练数据，进行模型的自监督预训练，得出的氨基酸特征向量和蛋白质序列特征向量。5.如权利要求1所述的信号肽
‑
蛋白组合分泌效率预测方法，其特征在于，所述待预测的信号肽
‑
蛋白序列的每一翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量进行特征拼接，进行归一化处理后，获得所述信号肽
‑
蛋白序列的分泌特征向量。6.如权利要求1所述的信号肽
‑
蛋白组合分泌效率预测方法，其特征在于，所述待预测的信号肽
‑
蛋白序列的每一翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量进行特征拼接，采用以下方式之一：其一，将各翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量直接拼接为分泌特征向量，所述分泌特征向量的维度为各翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量的维度之和；其二，将各翻译单元的氨基酸残基特征向量和/或蛋白质序列特征向量采用一维卷积模...

【专利技术属性】
技术研发人员：陈亮，龙永康，胡志鹏，梁国龙，
申请(专利权)人：深圳太力生物技术有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人