The embodiment of the application proposes a training method, device, terminal device, medium and user intention judgment method of natural language understanding model. In the above training method, an incremental model is obtained, which includes a backbone network and a first classifier; Adding a second classifier in the form of branches on at least one layer of the neural network in the backbone network; Acquire a sample set, repeat the training steps until the preset conditions are met, and the sample set includes a plurality of sample texts; The training step includes: inputting the sample text into the incremental model to obtain the first intention distribution output by the first classifier and the second intention distribution output by the second classifier; Calculate the difference between the first intention distribution and the second intention distribution, and adjust the second classifier according to the difference. The resulting model can greatly reduce the reasoning time, improve the reasoning efficiency, and maintain the prediction accuracy. At the same time, the prediction accuracy is not reduced. At the same time, the prediction accuracy is not reduced< br/>
【技术实现步骤摘要】
自然语言理解模型的训练方法、装置、终端设备、介质及用户意图判断方法
[0001]本申请实施例涉及计算机
,尤其涉及一种自然语言理解模型的训练方法、装置、终端设备、介质及用户意图判断方法。
技术介绍
[0002]随着人工智能技术的发展,NLU自然语言理解在企业发展中扮演着越来越重要的角色,NLU是指将用户说的话通过规则匹配或者模型进行意图分类,其中模型预测的准确率直接影响意图识别的准确率,进而影响用户的交互体验,最终影响任务的完成效果,同时意图识别响应时间也是决定用户体验环节中一项关键因素,因此如何确定一个意图识别准确率高同时线上推理时间快的优质模型,成为NLU至关重要的一环。
[0003]针对用户意图分类环节,若使用简单模型比如TextCNN模型,进行用户意图分类,存在意图识别准确率低而导致的交互体验差的问题,若使用BERT等大模型,一方面也会存在意图识别准确率的问题,另一方面,由于大模型参数复杂繁重,通常单次响应时间较长,且需要在GPU等环境部署,从而会造成成本增加。
[0004]因此,现有技术中亟需一种能够兼顾预测精度和线上推理速度的模型。
技术实现思路
[0005]本申请实施例提供了一种自然语言理解模型的训练方法、装置、终端设备、介质及用户意图判断方法,训练出的模型能大幅度提升推理效率,同时保持预测精度不降低。
[0006]第一方面,本申请实施例提供一种自然语言理解模型的训练方法,包括:获取增量模型,所述增量模型包括骨干网络和第一分类器;在所述骨干网络中 ...
【技术保护点】
【技术特征摘要】
1.一种自然语言理解模型的训练方法,其特征在于,包括:获取增量模型,所述增量模型包括骨干网络和第一分类器;在所述骨干网络中至少一层神经网络上以分支形式添加第二分类器;获取样本集,重复执行训练步骤,直到满足预设条件,所述样本集包括多个样本文本;所述训练步骤,包括:将样本文本输入所述增量模型中,获取所述第一分类器输出的第一意图分布、以及所述第二分类器输出的第二意图分布;计算所述第一意图分布与所述第二意图分布之间的差异,依据所述差异调整所述第二分类器。2.根据权利要求1所述方法,其特征在于,所述骨干网络包括嵌入层和变换层。3.根据权利要求2所述方法,其特征在于,所述在所述骨干网络中至少一层神经网络上以分支形式添加第二分类器,包括:以分支形式为所述变换层中除最后一层外的每层神经网络都添加第二分类器。4.根据权利要求3所述方法,其特征在于,将样本文本输入所述增量模型中,获取所述第一分类器输出的第一意图分布、以及所述第二分类器输出的第二意图分布,包括:将所述样本文本输入所述增量模型中,获取所述第一分类器输出的第一意图分布、及每一所述第二分类器输出的意图分布;计算所述第一意图分布与每一所述第二分类器的意图分布之间的差异;对所有差异进行求和,得到总损失,依据所述总损失调整所有所述第二分类器。5.一种用户意图判断方法,其特征在于,包括:将用户文本输入自然语言理解模型,所述自然语言理解模型中包括多个分类器,所述分类器用于判断文本的意图;沿所述自然语言理解模型的神经网络层序获取分类器的输出,当分类器的输出结果满足阈值,停止所述自然语言理解模型;将满足所述阈值的分类器输出的意图作为用户意图;其中,所述自然语言理解模型包括:执行如权1至4的任一项训练方法得到所述自然语言理解模型。6.根据权利要求...
【专利技术属性】
技术研发人员:侯盼盼,黄明星,王福钋,张航飞,徐华韫,曹富康,沈鹏,
申请(专利权)人:北京健康之家科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。