预测信号肽的方法技术

技术编号:39821311 阅读:29 留言:0更新日期:2023-12-22 19:41
本申请涉及计算机技术领域,具体提供预测信号肽的方法

【技术实现步骤摘要】
预测信号肽的方法、预测模型构建方法、装置和计算设备


[0001]本申请涉及计算机
,具体提供预测信号肽的方法

预测模型构建方法

装置和计算设备


技术介绍

[0002]自从谷歌团队在
2017
年首次提出自注意力机制并且在此基础上创造了全新的自然语言处理模型
Transformer
之后,诞生了大量的以
Transformer
架构为基础的各种强大的通用模型架构来进行表征学习或者作为生成式模型
。Transformer
主要由多个编码器
(Encoder)
和多个解码器
(Decoder)
堆叠而成,而根据
Transformer
演化出目前最主流的框架
BERT(Bidirectional Encoder Representations from Transformers)

GPT(Generative Pre

>trained T本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种预测信号肽的方法,其特征在于,包括:获取目标蛋白质序列;用所述目标蛋白质序列生成第一输入序列输入预测模型,得到预测的信号肽序列;所述第一输入序列包括表示所述目标蛋白质序列的下文;其中,所述预测模型是利用训练集对预训练语言模型进行训练得到的,所述训练集包括第二输入序列;所述第二输入序列包括表示信号肽序列的上文和表示蛋白质序列的下文
。2.
根据权利要求1所述的方法,其特征在于,所述预训练语言模型包括预训练后的双向掩码语言模型
。3.
根据权利要求1或2所述的方法,其特征在于,所述上文的词节长度与所述下文的词节长度分别为定长
。4.
根据权利要求3所述的方法,其特征在于,所述第二输入序列中的所述上文用所述信号肽序列基于右对齐的补齐或截断方式生成;和
/
或,所述第二输入序列中的所述下文用所述蛋白质序列基于左对齐的补齐或截断方式生成;和
/
或,所述第一输入序列中的所述下文用所述目标蛋白质序列基于左对齐的补齐或截断方式生成
。5.
根据权利要求1至4任一项所述的方法,其特征在于,还包括:对所述第二输入序列中的所述上文中的部分序列进行掩码操作
。6.
根据权利要求1至5任一项所述的方法,其特征在于,对预训练语言模型进行训练所使用的损失函数包括:其中,
x
i
表示第二输入序列中的第
i
个序列,
s
表示上文序列对应的信号肽序列的实际词节长度,
k
表示所设定的上文序列的词节长度
。7.
根据权利要求1至6任一项所述的方法,其特征在于,所述用所述目标蛋白质序列生成第一输入序列输入预测模型,得到预测的信号肽序列,包括:根据所述目标蛋白质序列生成表示所述目标蛋白质序列的下文;在所述下文前添加使用掩码表示的上文,形成所述第一输入序列;将所述第一输入序列输入所述预测模型,得到预测的信号肽序列
。8.
一种预测信号肽的方法,其特征在于,包括:获取目标蛋白质序列;根据所述目标蛋白质序列生成表示所述目标蛋白质序列的下文,得到第一输入序列;将所述第一输入序列输入预测模型,得到预测的信号肽序列;所述预测模型是利用训练集对预训练语言模型进行训练得到的,所述训练集包括第二输入序列;所述第二输入序列包括表示信号肽序列的上文和表示蛋白质序列的下文,同时表示信号肽序列的上文中的部分序列采用掩码操作;
对预训练语言模型进行训练所使用的损失函数包括:其中,
x
i
表示第二输入序...

【专利技术属性】
技术研发人员:陈亮龙永康胡志鹏梁国龙
申请(专利权)人:深圳太力生物技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1