【技术实现步骤摘要】
一种自适应深度Transformer语言模型的预训练方法
[0001]本专利技术涉及语言模型
,特别涉及一种自适应深度Transformer语言模型的预训练方法。
技术介绍
[0002]目前自然语言处理(Natural Language Processing,NLP)中的预训练语言模型(Pre
‑
trained Language Models,PrLM)的发展表明了一个趋势,参数越大的模型具有更好的泛化能力和更好的性能。参数越多,模型的深度和宽度通常随之增加。例如,GPT
‑
1、GPT
‑
2和GPT
‑
3分别有12、48和96个Transformer层。这说明深度语言模型对语言的推理和理解能力的一个关键体现是模型的深度。然而,尽管模型越深其整体性能越好,但对于具有不同可学习复杂性的不同输入样本,采用相同的深度模型肯定是次优的。直观地说,一个短而简单的句子显然比一个复杂或长的句子更难编码。如果对短而简单的句子使用相同的非常深的结构,将会有过拟合的风险 ...
【技术保护点】
【技术特征摘要】
1.一种自适应深度Transformer语言模型的预训练方法,其特征在于,包括以下步骤:S1,使用无监督的分词工具SentencePiece进行分词和创建词典;S2,对输入的序列进行嵌入操作;S3,将执行嵌入操作之后的输入序列输入Sandwich Transformer主干网络,并注入绝对位置编码和相对位置编码信息;S4,利用复杂度自学习和估计模块估计输入复杂度,然后将复杂度转换为自适应深度Transformer层中旁路门的权值,从而对每个输入使用不同的模型结构;S5,使用交叉熵损失对模型进行优化。2.根据权利要求1所述的一种自适应深度Transformer语言模型的预训练方法,其特征在于,在步骤S3中,提供了将绝对位置编码和相对位置编码相结合的新型位置编码,主要包括以下步骤:S301,对于任何带有输入H
i
‑1的第i层,输出H
i
的编码过程可以形式化为:的编码过程可以形式化为:其中LN(
·
)表示层标准化子层,MHATTN(
·
)表示多头注意力的子层,FFN(
·
)表示前馈子层;S302,形式上,原始Transformer的多头注意中单头的计算可以表示为:其中d
head
表示注意力头隐藏大小,W
Q
、W
K
和W
V
都是可学习的参数,(1)式和(2)式表示注意力分数;S303,将相对位置信息注入到注意力分数中,具体来说,需要计算了两个额外的位置分数:数:其中R
i
‑
j
表示相对距离,E
R
是一种可学习的相对距离嵌入,其维数与输入X相同;S304,将这两个位置得分加到注意力得分中,得到具有相对位置信息的新注意力得分:AS
rel
(X)=AS(X)+RKS(X)+RQS(X)#(5)。3.根据权利要求1所述的一种自适应深度Transformer语言模型的预训练方法,其特征在于,在步骤S3中,提供了Sandwich Transformer主干网络,主要包括以下步骤:S311,Sandwich Transformer主干网络使用跨层参数共享机制;S312,将Transformer层分成三组,每组发挥不同的作用;S313,层参数应该只在组内共享,而组间使用不同的层参数。4.根据权利要求1所述的一种自适应深度Transformer语言模型的预训练方法,其特征在于,在步骤S4中,提供了自适应深度Transformer,主要包括以下步骤:设计一个依赖于输入的旁路门,该门...
【专利技术属性】
技术研发人员:李祖超,任婷,张映东,
申请(专利权)人:东湖灵境武汉技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。