【技术实现步骤摘要】
预测信号肽的方法、预测模型构建方法、装置和计算设备
[0001]本申请涉及计算机
,具体提供预测信号肽的方法
、
预测模型构建方法
、
装置和计算设备
。
技术介绍
[0002]自从谷歌团队在
2017
年首次提出自注意力机制并且在此基础上创造了全新的自然语言处理模型
Transformer
之后,诞生了大量的以
Transformer
架构为基础的各种强大的通用模型架构来进行表征学习或者作为生成式模型
。Transformer
主要由多个编码器
(Encoder)
和多个解码器
(Decoder)
堆叠而成,而根据
Transformer
演化出目前最主流的框架
BERT(Bidirectional Encoder Representations from Transformers)
和
GPT(Generative Pre
‑
trained Transformer)
,分别采用了
Transformer
中的编码器部分和解码器部分
。BERT
和
GPT
框架最大的区别是
BERT
采用
Transformer
中的编码器部分是多头自注意力机制,可以并行计算,而
GPT
采用
Transformer >中的解码器部分是掩盖多头注意力,在生成文本的时候,模型只能看到前面的输入,后面的输入被掩盖,所以只能从前到后逐步解码
。BERT
在预训练的时候,会随机掩盖一些输入的文字,然后让模型根据前后的文本预测这些被掩盖的文字,此类模型也称为掩码语言模型,具有双向编码的能力,不过生成文本能力较弱
。
而
GPT
在预训练的时候,采用单向编码的方式,只能根据上文预测下文,此类模型也称为生成式语言模型
。
[0003]信号肽是蛋白质
N
端的一段编码长度一般为
15
~
30
个氨基酸的短肽序列,用于引导新合成蛋白质的分泌和移动,在蛋白质完成转运后,信号肽酶将信号肽剪除
。
在工业界,在进行目标蛋白表达前,要生产的目标蛋白往往并无天然信号肽或者其天然信号肽的表达量较低,通常需要进行信号肽的删除
、
替换或者添加,一般是通过筛选同类物种或者演化亲近的信号肽,以提高目标蛋白的表达量
。
目前关于信号肽生成的研究较少
。
[0004]因此,在上述背景下,如何能利用下文的蛋白质序列生成上文的信号肽序列并提高有效率,是有待解决的技术问题
。
技术实现思路
[0005]本申请提供预测信号肽的方法
、
预测模型构建方法
、
装置和计算设备,可以实现利用下文的蛋白质序列生成上文的信号肽序列
。
[0006]为了实现上述目的,本申请特采用如下技术方案:
[0007]本专利技术的第一方面提供了一种预测信号肽的方法,包括:
[0008]获取目标蛋白质序列;
[0009]用所述目标蛋白质序列生成第一输入序列输入预测模型,得到预测的信号肽序列;所述第一输入序列包括表示所述目标蛋白质序列的下文;
[0010]其中,所述预测模型是利用训练集对预训练语言模型进行训练得到的,所述训练集包括第二输入序列;所述第二输入序列包括表示信号肽序列的上文和表示蛋白质序列的
下文
。
[0011]对于目前生成式语言模型为单向生成,只能根据上文预测下文,不能根据下文预测上文,本申请在已标注的上下文数据
(
信号肽序列和蛋白质序列对
)
较少的情况下,利用少量已标注数据对含有大量无标签数据的预训练语言模型进行微调,增加模型利用下文的信息生成上文的能力,实现在保持输入文本结构不变的情况下,能够直接利用下文的信息生成上文
。
并且,本申请为首次将此方法及系统应用于信号肽的生成任务中
。
[0012]作为第一方面的一种可能的实现方式,所述预训练语言模型包括预训练后的双向掩码语言模型
。
[0013]作为第一方面的一种可能的实现方式,所述上文的词节长度与所述下文的词节长度分别为定长
。
[0014]作为第一方面的一种可能的实现方式,所述第二输入序列中的所述上文用所述信号肽序列基于右对齐的补齐或截断方式生成;和
/
或,
[0015]所述第二输入序列中的所述下文用所述蛋白质序列基于左对齐的补齐或截断方式生成;和
/
或,
[0016]所述第一输入序列中的所述下文用所述目标蛋白质序列基于左对齐的补齐或截断方式生成
。
[0017]作为第一方面的一种可能的实现方式,该方法还包括:对所述第二输入序列中的所述上文中的部分序列进行掩码操作
。
[0018]作为第一方面的一种可能的实现方式,对预训练语言模型进行训练所使用的损失函数包括:
[0019]其中,
x
i
表示第二输入序列中的第
i
个序列,
s
表示上文序列对应的信号肽序列的实际词节长度,
k
表示所设定的上文序列的词节长度
。
[0020]作为第一方面的一种可能的实现方式,所述用所述目标蛋白质序列生成第一输入序列输入预测模型,得到预测的信号肽序列,包括:
[0021]根据所述目标蛋白质序列生成表示所述目标蛋白质序列的下文;
[0022]在所述下文前添加使用掩码表示的上文,形成所述第一输入序列;
[0023]将所述第一输入序列输入所述预测模型,得到预测的信号肽序列
。
[0024]本申请第二方面提供了一种预测信号肽的方法,包括:
[0025]获取目标蛋白质序列;
[0026]根据所述目标蛋白质序列生成表示所述目标蛋白质序列的下文,得到第一输入序列;
[0027]将所述第一输入序列输入预测模型,得到预测的信号肽序列;
[0028]所述预测模型是利用训练集对预训练语言模型进行训练得到的,所述训练集包括第二输入序列;所述第二输入序列包括表示信号肽序列的上文和表示蛋白质序列的下文,同时表示信号肽序列的上文中的部分序列采用掩码操作;
[0029]对预训练语言模型进行训练所使用的损失函数包括:
[0030]其中,
x
i
表示第二输入序列中的第
i
个序列,
s
表示上文序列对应的信号肽序列的实际词节长度,
k
表示所设定的上文序列的词节长度;
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种预测信号肽的方法,其特征在于,包括:获取目标蛋白质序列;用所述目标蛋白质序列生成第一输入序列输入预测模型,得到预测的信号肽序列;所述第一输入序列包括表示所述目标蛋白质序列的下文;其中,所述预测模型是利用训练集对预训练语言模型进行训练得到的,所述训练集包括第二输入序列;所述第二输入序列包括表示信号肽序列的上文和表示蛋白质序列的下文
。2.
根据权利要求1所述的方法,其特征在于,所述预训练语言模型包括预训练后的双向掩码语言模型
。3.
根据权利要求1或2所述的方法,其特征在于,所述上文的词节长度与所述下文的词节长度分别为定长
。4.
根据权利要求3所述的方法,其特征在于,所述第二输入序列中的所述上文用所述信号肽序列基于右对齐的补齐或截断方式生成;和
/
或,所述第二输入序列中的所述下文用所述蛋白质序列基于左对齐的补齐或截断方式生成;和
/
或,所述第一输入序列中的所述下文用所述目标蛋白质序列基于左对齐的补齐或截断方式生成
。5.
根据权利要求1至4任一项所述的方法,其特征在于,还包括:对所述第二输入序列中的所述上文中的部分序列进行掩码操作
。6.
根据权利要求1至5任一项所述的方法,其特征在于,对预训练语言模型进行训练所使用的损失函数包括:其中,
x
i
表示第二输入序列中的第
i
个序列,
s
表示上文序列对应的信号肽序列的实际词节长度,
k
表示所设定的上文序列的词节长度
。7.
根据权利要求1至6任一项所述的方法,其特征在于,所述用所述目标蛋白质序列生成第一输入序列输入预测模型,得到预测的信号肽序列,包括:根据所述目标蛋白质序列生成表示所述目标蛋白质序列的下文;在所述下文前添加使用掩码表示的上文,形成所述第一输入序列;将所述第一输入序列输入所述预测模型,得到预测的信号肽序列
。8.
一种预测信号肽的方法,其特征在于,包括:获取目标蛋白质序列;根据所述目标蛋白质序列生成表示所述目标蛋白质序列的下文,得到第一输入序列;将所述第一输入序列输入预测模型,得到预测的信号肽序列;所述预测模型是利用训练集对预训练语言模型进行训练得到的,所述训练集包括第二输入序列;所述第二输入序列包括表示信号肽序列的上文和表示蛋白质序列的下文,同时表示信号肽序列的上文中的部分序列采用掩码操作;
对预训练语言模型进行训练所使用的损失函数包括:其中,
x
i
表示第二输入序...
【专利技术属性】
技术研发人员:陈亮,龙永康,胡志鹏,梁国龙,
申请(专利权)人:深圳太力生物技术有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。