【技术实现步骤摘要】
基于冗余词删除的预训练模型加速推理方法和系统
本专利技术涉及自然语言处理领域,尤其涉及一种基于冗余词删除的预训练模型加速推理方法和系统。
技术介绍
大规模预训练语言模型在无监督文本上进行预训练,并在下游任务微调,其中最具代表性的工作是以多层双向Transformer层为骨架的BERT模型。近年来,以BERT为代表的预训练语言模型在许多自然语言处理任务上取得优异的表现,在自然语言推断,机器问答与文本分类任务上都取得当前最好的效果。然而,预训练语言模型包含大量参数,在推理时通常会消耗大量的计算资源,导致他们在使用时存在着较大的延迟。在真实的硬件和功耗受限场景下,如在手机终端上,或在实时应用场景下,如在搜索引擎上,人们都难以部署表现最好的预训练语言模型。因此,提高预训练语言模型在下游任务上的推理速度能使得优质的机器理解能力得到更广泛的应用。在具体应用中,人们需要根据实际需求选择一个符合速度要求时性能最好的预训练语言模型。针对有不同的速度要求,人们需要重新训练不同规模的预训练语言模型,而预训练需要在大规模语料库上进行 ...
【技术保护点】
1.一种基于冗余词删除的预训练模型加速推理方法,其特征在于,包括:/n使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型;/n在微调好的初始模型中添加若干层词选择层,在所述微调好的初始模型中逐层向前传递词的过程中,在输入的词中仅保留通过所述词选择层的词进入到下一层;/n其中,所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到。/n
【技术特征摘要】
1.一种基于冗余词删除的预训练模型加速推理方法,其特征在于,包括:
使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型;
在微调好的初始模型中添加若干层词选择层,在所述微调好的初始模型中逐层向前传递词的过程中,在输入的词中仅保留通过所述词选择层的词进入到下一层;
其中,所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到。
2.根据权利要求1所述的基于冗余词删除的预训练模型加速推理方法,其特征在于,所述使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型包括:
将给定下游任务的句子中的所有单词转化为连续的词向量表示输入预训练语言模型;
在预训练语言模型将输入的词向量表示转化为词的富上下文信息的向量表示后,将所述富上下文信息的向量表示和样本标签输入至预训练语言模型中的分类器中进行微调训练,得到一个微调好的初始模型。
3.根据权利要求2所述的基于冗余词删除的预训练模型加速推理方法,其特征在于,所述将输入的词向量表示转化为词的富上下文信息的向量表示具体包括:
设置第0层的词向量表示为输入单词的词向量表示,第i层的词向量表示Hi通过以下公式得到:
Mi-1=LayerNorm(Hi-1+Self-ATT(Hi-1))
Hi=LayerNorm(Mi-1+FFN(Mi-1))
其中,Hi-1为第i-1层表示,Mi-1为Hi-1通过自注意力机制模块Self-ATT计算得到中间计算结果,Hi为第i层的向量表示,中间计算结果Mi-1通过全连接模块FFN计算得到的第i层的表示,LayerNorm为归一化函数。
4.根据权利要求3所述的基于冗余词删除的预训练模型加速推理方法,其特征在于,所述词选择层包括选词策略评估网络:
所述选词策略评估网络用于对所述输入的词进行重要度评估,计算保留所述输入的词的概率值:
为输入第t个词选择层时序列中n个词的表示,at为这n个词的动作状态集合,每个词的动作状态为选择或跳过;θ={W1,W2,b1,b2}为可训练的选词策略评估网络的参数,W1,W2为可训练的变换矩阵,b1,b2为可训练的偏置向量;GeLU为GeLU激活函数;σ为sigmoid激活函数,输出为一个0~1的概率值。
5.根据权利要求4所述的基于冗余词删除的预训练模型加速推理方法,其特征在于,所述词选择层包括选词修剪网络:
所述选词修剪网络用...
【专利技术属性】
技术研发人员:孙茂松,叶德铭,林衍凯,黄宇飞,
申请(专利权)人:清华大学,腾讯科技深圳有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。