自然语言理解模型的训练方法、装置、终端设备、介质及用户意图判断方法制造方法及图纸

技术编号:34372814 阅读:54 留言:0更新日期:2022-07-31 12:00
本申请实施例提出了一种自然语言理解模型的训练方法、装置、终端设备、介质及用户意图判断方法,其中,上述训练方法中,获取增量模型,所述增量模型包括骨干网络和第一分类器;在所述骨干网络中至少一层神经网络上以分支形式添加第二分类器;获取样本集,重复执行训练步骤,直到满足预设条件,所述样本集包括多个样本文本;所述训练步骤,包括:将样本文本输入所述增量模型中,获取所述第一分类器输出的第一意图分布、以及所述第二分类器输出的第二意图分布;计算所述第一意图分布与所述第二意图分布之间的差异,依据所述差异调整所述第二分类器,得到的模型可以大幅度减少推理时间,提升推理效率,同时保持预测精度不降低。同时保持预测精度不降低。同时保持预测精度不降低。

Training method, device, terminal equipment, medium and user intention judgment method of natural language understanding model

The embodiment of the application proposes a training method, device, terminal device, medium and user intention judgment method of natural language understanding model. In the above training method, an incremental model is obtained, which includes a backbone network and a first classifier; Adding a second classifier in the form of branches on at least one layer of the neural network in the backbone network; Acquire a sample set, repeat the training steps until the preset conditions are met, and the sample set includes a plurality of sample texts; The training step includes: inputting the sample text into the incremental model to obtain the first intention distribution output by the first classifier and the second intention distribution output by the second classifier; Calculate the difference between the first intention distribution and the second intention distribution, and adjust the second classifier according to the difference. The resulting model can greatly reduce the reasoning time, improve the reasoning efficiency, and maintain the prediction accuracy. At the same time, the prediction accuracy is not reduced. At the same time, the prediction accuracy is not reduced< br/>

【技术实现步骤摘要】
自然语言理解模型的训练方法、装置、终端设备、介质及用户意图判断方法


[0001]本申请实施例涉及计算机
,尤其涉及一种自然语言理解模型的训练方法、装置、终端设备、介质及用户意图判断方法。

技术介绍

[0002]随着人工智能技术的发展,NLU自然语言理解在企业发展中扮演着越来越重要的角色,NLU是指将用户说的话通过规则匹配或者模型进行意图分类,其中模型预测的准确率直接影响意图识别的准确率,进而影响用户的交互体验,最终影响任务的完成效果,同时意图识别响应时间也是决定用户体验环节中一项关键因素,因此如何确定一个意图识别准确率高同时线上推理时间快的优质模型,成为NLU至关重要的一环。
[0003]针对用户意图分类环节,若使用简单模型比如TextCNN模型,进行用户意图分类,存在意图识别准确率低而导致的交互体验差的问题,若使用BERT等大模型,一方面也会存在意图识别准确率的问题,另一方面,由于大模型参数复杂繁重,通常单次响应时间较长,且需要在GPU等环境部署,从而会造成成本增加。
[0004]因此,现有技术中亟需一种能够兼顾预测精度和线上推理速度的模型。

技术实现思路

[0005]本申请实施例提供了一种自然语言理解模型的训练方法、装置、终端设备、介质及用户意图判断方法,训练出的模型能大幅度提升推理效率,同时保持预测精度不降低。
[0006]第一方面,本申请实施例提供一种自然语言理解模型的训练方法,包括:获取增量模型,所述增量模型包括骨干网络和第一分类器;在所述骨干网络中至少一层神经网络上以分支形式添加第二分类器;获取样本集,重复执行训练步骤,直到满足预设条件,所述样本集包括多个样本文本;所述训练步骤,包括:将样本文本输入所述增量模型中,获取所述第一分类器输出的第一意图分布、以及所述第二分类器输出的第二意图分布;计算所述第一意图分布与所述第二意图分布之间的差异,依据所述差异调整所述第二分类器。
[0007]上述自然语言理解模型的训练方法中,获取增量模型,在增量模型的骨干网络的至少一层神经网络上以分支形式添加分类器,使用增量模型的已经训练好的分类器对新添加的分类器进行监督训练,最后得到的模型可以大幅度减少推理时间,提升推理效率,同时保持预测精度不降低。
[0008]其中一种可能的实现方式中,所述骨干网络包括嵌入层和变换层。
[0009]其中一种可能的实现方式中,所述在所述骨干网络中至少一层神经网络上以分支形式添加第二分类器,包括:以分支形式为所述变换层中除最后一层外的每层神经网络都添加第二分类器。
[0010]其中一种可能的实现方式中,将样本文本输入所述增量模型中,获取所述第一分类器输出的第一意图分布、以及所述第二分类器输出的第二意图分布,包括:将所述样本文
本输入所述增量模型中,获取所述第一分类器输出的第一意图分布、及每一所述第二分类器输出的意图分布;计算所述第一意图分布与每一所述第二分类器的意图分布之间的差异;对所有差异进行求和,得到总损失,依据所述总损失调整所有所述第二分类器。
[0011]第二方面,本申请实施例提供一种用户意图判断方法,其特征在于,包括:将用户文本输入自然语言理解模型,所述自然语言理解模型中包括多个分类器,所述分类器用于判断文本的意图;沿所述自然语言理解模型的神经网络层序获取分类器的输出,当分类器的输出结果满足阈值,停止所述自然语言理解模型;将满足所述阈值的分类器输出的意图作为用户意图。其中,所述自然语言理解模型包括:执行第一方面提供的方法得到所述自然语言理解模型。
[0012]其中一种可能的实现方式中,所述当分类器的输出结果满足阈值,包括:当任一分类器的输出结果中,存在意图的概率大于所述阈值。
[0013]第三方面,本申请实施例提供一种自然语言理解模型的训练装置,设置在终端设备中,所述训练装置包括:获取模块,用于获取增量模型,所述增量模型包括骨干网络和第一分类器;添加模块,用于在所述骨干网络中至少一层神经网络上以分支形式添加第二分类器;训练模块,用于获取样本集,重复执行训练步骤,直到满足预设条件,所述样本集包括多个样本文本;所述训练步骤,包括:将样本文本输入所述增量模型中,获取所述第一分类器输出的第一意图分布、以及所述第二分类器输出的第二意图分布;计算所述第一意图分布与所述第二意图分布之间的差异,依据所述差异调整所述第二分类器。
[0014]第四方面,本申请实施例提供一种用户意图判断装置,设置在终端设备中,包括:输入模块,用于将用户文本输入自然语言理解模型,所述自然语言理解模型中包括多个分类器,所述分类器用于判断文本的意图;判断模块,用于沿所述自然语言理解模型的神经网络层序获取分类器的输出,当分类器的输出结果满足阈值,停止所述自然语言理解模型;用户意图确定模块,用于将满足所述阈值的分类器输出的意图作为用户意图;其中,所述自然语言理解模型包括:执行如第一方面的任一项训练方法得到所述自然语言理解模型。
[0015]第五方面,本申请实施例提供一种终端设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一、第二方面提供的方法。
[0016]第六方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一、第二方面提供的方法。
【附图说明】
[0017]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0018]图1为本申请一个实施例提供的自然语言理解模型的训练方法的流程图;
[0019]图2为本申请一个实施例提供的预训练任务的示意图;
[0020]图3为本申请一个实施例提供的用户意图判断方法的流程图;
[0021]图4为本申请一个实施例提供的自然语言理解模型的训练装置的示意图;
[0022]图5为本专利技术一个实施例提供的用户意图判断装置的结构示意图。
【具体实施方式】
[0023]为了更好的理解本说明书的技术方案,下面结合附图对本申请实施例进行详细描述。
[0024]应当明确,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本说明书保护的范围。
[0025]在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
[0026]现有相关技术中,针对用户意图分类的NLU模型无法兼顾预测精度和线上推理速度,如果使用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自然语言理解模型的训练方法,其特征在于,包括:获取增量模型,所述增量模型包括骨干网络和第一分类器;在所述骨干网络中至少一层神经网络上以分支形式添加第二分类器;获取样本集,重复执行训练步骤,直到满足预设条件,所述样本集包括多个样本文本;所述训练步骤,包括:将样本文本输入所述增量模型中,获取所述第一分类器输出的第一意图分布、以及所述第二分类器输出的第二意图分布;计算所述第一意图分布与所述第二意图分布之间的差异,依据所述差异调整所述第二分类器。2.根据权利要求1所述方法,其特征在于,所述骨干网络包括嵌入层和变换层。3.根据权利要求2所述方法,其特征在于,所述在所述骨干网络中至少一层神经网络上以分支形式添加第二分类器,包括:以分支形式为所述变换层中除最后一层外的每层神经网络都添加第二分类器。4.根据权利要求3所述方法,其特征在于,将样本文本输入所述增量模型中,获取所述第一分类器输出的第一意图分布、以及所述第二分类器输出的第二意图分布,包括:将所述样本文本输入所述增量模型中,获取所述第一分类器输出的第一意图分布、及每一所述第二分类器输出的意图分布;计算所述第一意图分布与每一所述第二分类器的意图分布之间的差异;对所有差异进行求和,得到总损失,依据所述总损失调整所有所述第二分类器。5.一种用户意图判断方法,其特征在于,包括:将用户文本输入自然语言理解模型,所述自然语言理解模型中包括多个分类器,所述分类器用于判断文本的意图;沿所述自然语言理解模型的神经网络层序获取分类器的输出,当分类器的输出结果满足阈值,停止所述自然语言理解模型;将满足所述阈值的分类器输出的意图作为用户意图;其中,所述自然语言理解模型包括:执行如权1至4的任一项训练方法得到所述自然语言理解模型。6.根据权利要求...

【专利技术属性】
技术研发人员:侯盼盼黄明星王福钋张航飞徐华韫曹富康沈鹏
申请(专利权)人:北京健康之家科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1