一种降低语义识别计算量的方法、系统及存储介质技术方案

技术编号:33650441 阅读:14 留言:0更新日期:2022-06-02 20:28
本发明专利技术涉及自然语言处理领域,特别涉及一种降低语义识别计算量的方法、系统及存储介质。本发明专利技术的降低语义识别计算量的方法包括如下步骤:获取预训练模型;对预训练模型增加训练优化训练目标成为最终训练模型;将待识别文本输入最终训练模型;输出待识别文本语义。通过增加训练优化训练目标的设计,使得无需改变模型的结构就能提升训练的精确性和模型的鲁棒性,同时还降低了模型的复杂程度,降低了模型的计算量,解决了现有技术模型的计算量过大的问题。的问题。的问题。

【技术实现步骤摘要】
一种降低语义识别计算量的方法、系统及存储介质


[0001]本专利技术涉及自然语言处理领域,特别涉及一种降低语义识别计算量的方法、系统及存储介质。

技术介绍

[0002]近年来,预训练模型成为了自然语言处理 (NLP)领域的新范式。预训练模型是一种迁移学习的应用,通过自监督学习从大规模数据中训练得到与具体任务无关的预训练模型,利用几乎无限的文本,学习输入句子的每一个词语单元的上下文相关的表示,从而隐式地学习通用的语法语义知识,并可通过微调的方式用在任何的下游任务上。
[0003]以BERT为代表的判别式预训练语言模型,采用基于掩码的预训练方法(MLM),或称为去噪策略,其过程分为两个阶段,首先是通过ennoising 的方法,例如将句子中一定比例的词mask掉,来构建训练样本,然后训练语言模型去还原被破坏的句子。
[0004]由于通常采用随机破坏方法,样本的预测难易度不同,模型在denoising训练时的梯度更新强度与样本难度之间缺乏一致性,导致训练不稳定。此外,以上方法也会带来假负例,即还原出来与原始句子不同,而实际上也合法的句子。模型通常采用交叉熵训练,上述样本则都会被判断为错误预测,导致训练不准确。
[0005]现有的一些方案通过语言学相关的任务来引导模型学习人类语言结构,包括语言表示层面和注意力架构层面。具体而言,前者将标注的词性标签、实体标签或语言角色标签等语言学信息通过词嵌入的方式融合到词语表示中,作为语言学标签的增强;后者通过句法结构解析,得到词和词之间的关系,构建关系矩阵,融合到注意力机制的权重里面。这两类方法均需要对模型架构进行修改,导致模型的计算量过大的问题。

技术实现思路

[0006]为了解决现有模型的计算量过大的问题,本专利技术提供了一种降低语义识别计算量的方法、系统及存储介质。
[0007]本专利技术解决技术问题的方案是提供一种降低语义识别计算量的方法,包括以下步骤:
[0008]获取预训练模型;
[0009]对预训练模型增加训练优化训练目标成为最终训练模型;
[0010]将待识别文本输入最终训练模型;
[0011]输出待识别文本语义。
[0012]优选地,所述获取预训练模型的具体步骤包括:
[0013]获取原始句子W,设立第一训练目标;
[0014]将原始句子W拆分成子词原始序列,对原始句子W的子词原始序列进行随机遮盖以生成遮盖后句子W

和遮盖后序列;
[0015]将所述遮盖后句子W

输入语言模型,得到编码后的上下文表示H,并通过第一训练
目标训练模型获得预训练模型。
[0016]优选地,所述训练优化训练目标为评估去噪策略对原始句子的破坏度和/或评估预测句子与原始句子之间的语义距离。
[0017]优选地,评估去噪策略对句子的破坏度具体为:计算原始序列和遮盖后序列之间的KL散度并作为第二训练目标。
[0018]优选地,评估预测句子与原始句子之间的语义距离包括以下步骤:
[0019]通过预训练模型获取原始句子样本W中被遮盖位置的预测字词,并回填至原始句子样本W中被遮盖位置生成预测句子;
[0020]将预测句子拆分成子词预测序列;计算预测序列和原始序列之间的KL散度并作为第三训练目标。
[0021]优选地,将所述第一训练目标与所述第二训练目标结合对模型进行优化训练,获得所述最终训练模型;或者,将所述第一训练目标与所述第三训练目标结合对模型进行优化训练,获得所述最终训练模型;或者,将所述第一训练目标、所述第二训练目标和所述第三训练目标三者结合对模型进行优化训练,获得所述最终训练模型。
[0022]优选地,所述第一训练目标设置为所述第二训练目标计算原始序列和遮盖后序列之间的KL散度设置为所述第三训练目标计算预测序列和原始序列之间的KL散度设置为所述最终训练模型的训练目标 L=L
D
+L
C
+L
S
;其中L
D
为预训练模型的损失函数, L
C
为原始序列和遮盖后序列之间KL散度的预测损失函数,L
S
为预测序列和原始序列之间KL散度的预测损失函数,w
k
为第k个输入的句子,W

为遮盖后句子,H
i
为遮盖后序列分布,为原始序列分布,为预测序列分布。
[0023]优选地,通过损失函数作为训练目标,损失函数设置为交叉熵损失函数。
[0024]本专利技术为解决上述技术问题还提供一种降低语义识别计算量的系统,包括:
[0025]训练模块,用于获取预训练模型,并对预训练模型增加训练优化训练目标成为最终训练模型;
[0026]输入模块,用于将待识别文本输入最终训练模型;
[0027]输出模块,用于输出待识别文本语义。
[0028]本专利技术为解决上述技术问题还提供一种存储介质,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0029]与现有技术相比,本专利技术所提供的一种降低语义识别计算量的方法、系统及存储介质,具有如下的有益效果:
[0030]1、本专利技术的降低语义识别计算量的方法先获取预训练模型;对预训练模型增加训练优化训练目标成为最终训练模型;将待识别文本输入最终训练模型;输出待识别文本语义。通过增加训练优化训练目标的设计,使得无需改变模型的结构就能提升训练的精确性
和模型的鲁棒性,同时还降低了模型的复杂程度,降低了模型的计算量,解决了现有技术模型的计算量过大的问题。
[0031]2、本专利技术的降低语义识别计算量的方法的获取预训练模型的具体步骤包括:获取原始句子W,设立第一训练目标;将原始句子W拆分成子词原始序列,对原始句子W的子词原始序列进行随机遮盖以生成遮盖后句子W

和遮盖后序列;将遮盖后句子W

输入语言模型,得到编码后的上下文表示H,并通过第一训练目标训练模型获得预训练模型。通过遮盖子词序列来训练模型,使得模型初步获得还原语义的能力。
[0032]3、本专利技术的降低语义识别计算量的方法的训练优化训练目标为评估去噪策略对原始句子的破坏度和/或评估预测句子与原始句子之间的语义距离。通过评估去噪策略对原始句子的破坏度和/ 或评估预测句子与原始句子之间的语义距离,作为句子或序列级别的训练目标,可对于常规基于词级别的交叉熵目标有效补充,从而加强模型对知识的学习效率,即同等模型规模和训练资源消耗下,性能更强、训练效率更高、应用起来更鲁棒的模型。
[0033]4、本专利技术的降低语义识别计算量的方法的评估去噪策略对句子的破坏度具体为:计算原始序列和遮盖后序列之间的KL散度并作为第二训练目标。通过评估去噪策略对句子的破坏度,作为句子或序列级别的训练目标,可对于常规基于词级别的交叉熵目标有效补充,从而加强模型对知识的学习效率。
[0034]5、本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种降低语义识别计算量的方法,其特征在于:包括以下步骤:获取预训练模型;对预训练模型增加训练优化训练目标成为最终训练模型;将待识别文本输入最终训练模型;输出待识别文本语义。2.如权利要求1所述的降低语义识别计算量的方法,其特征在于:所述获取预训练模型的具体步骤包括:获取原始句子W,设立第一训练目标;将原始句子W拆分成子词原始序列,对原始句子W的子词原始序列进行随机遮盖以生成遮盖后句子W

和遮盖后序列;将所述遮盖后句子W

输入语言模型,得到编码后的上下文表示H,并通过第一训练目标训练模型获得预训练模型。3.如权利要求1所述的降低语义识别计算量的方法,其特征在于:所述训练优化训练目标为评估去噪策略对原始句子的破坏度和/或评估预测句子与原始句子之间的语义距离。4.如权利要求3所述的降低语义识别计算量的方法,其特征在于:评估去噪策略对句子的破坏度具体为:计算原始序列和遮盖后序列之间的KL散度并作为第二训练目标。5.如权利要求4所述的降低语义识别计算量的方法,其特征在于:评估预测句子与原始句子之间的语义距离包括以下步骤:通过预训练模型获取原始句子样本W中被遮盖位置的预测字词,并回填至原始句子样本W中被遮盖位置生成预测句子;将预测句子拆分成子词预测序列;计算预测序列和原始序列之间的KL散度并作为第三训练目标。6.如权利要求5所述的降低语义识别计算量的方法,其特征在于:将所述第一训练目标与所述第二训练目标结合对模型进行优化训练,获得所述最终训练模型;或者,将所述第一训练目标与所述第三训练目标结合对模型进行优...

【专利技术属性】
技术研发人员:王宇龙张倬胜华菁云周明
申请(专利权)人:北京澜舟科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1