用户意图识别模型的生成方法、用户意图识别方法和设备技术

技术编号:32132340 阅读:39 留言:0更新日期:2022-01-29 19:34
本发明专利技术涉及人工智能技术领域,提供一种用户意图识别模型的生成方法、用户意图识别方法和设备。生成方法包括:基于逐层知识蒸馏训练包含多层编码网络的教师模型,获得目标教师模型的每层编码网络的输出Logits;基于包含多层卷积网络的学生模型,根据包含学生模型的输出结果与训练数据的真实标签之间的交叉熵损失、及各层卷积网络的输出结果与各层编码网络的输出Logits之间的交叉熵损失的目标损失函数,进行可微神经网络结构搜索,获得目标学生模型;根据目标学生模型的输出结果与真实标签之间的交叉熵损失,对目标学生模型进行微调,获得用户意图识别模型。本发明专利技术通过知识蒸馏、可微搜索和微调,自动获得用户意图识别模型,减少模型参数量和硬件资源消耗。少模型参数量和硬件资源消耗。少模型参数量和硬件资源消耗。

【技术实现步骤摘要】
用户意图识别模型的生成方法、用户意图识别方法和设备


[0001]本专利技术涉及人工智能
,具体地说,涉及一种用户意图识别模型的生成方法、用户意图识别方法和设备。

技术介绍

[0002]大型的在线旅行服务平台,能够向海量的用户提供酒店、机票、车票、线路、门票玩乐、签证、企业商旅等一站式专业客服预订服务。面对庞大的用户量,为了降低人工客服的成本,需要针对用户输入的内容进行有效识别,判断是咨询业务或只是闲聊,如果只是闲聊将直接转接智能客服,即客服机器人。如何快速并准确地识别用户意图,是在线旅行服务平台关注的重点。
[0003]目前,BERT(Bidirectional Encoder Representations from Transformer,基于转换器的双向编码表征)模型已经被证明其在各种NLP(Natural Language Processing,自然语言处理)任务中的有效性。但是,BERT模型一般都拥有庞大的参数量以及巨大的模型尺寸,导致BERT模型难以训练及应用,需要研究如何减小BERT模型并加快模型推理速度。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户意图识别模型的生成方法,其特征在于,包括:基于逐层知识蒸馏训练包含多层编码网络的教师模型,获得目标教师模型的每层编码网络的输出Logits;基于包含多层卷积网络的学生模型,根据包含所述学生模型的输出结果与训练数据的真实标签之间的交叉熵损失、及各层所述卷积网络的输出结果与各层所述编码网络的输出Logits之间的交叉熵损失的目标损失函数,进行可微神经网络结构搜索,获得目标学生模型;根据所述目标学生模型的输出结果与所述真实标签之间的交叉熵损失,对所述目标学生模型进行微调,获得用户意图识别模型。2.如权利要求1所述的生成方法,其特征在于,所述基于逐层知识蒸馏训练包含多层编码网络的教师模型,包括:在所述教师模型中插入对应每层所述编码网络的Probe分类器;利用所述训练数据,基于知识蒸馏训练所述教师模型,以通过所述Probe分类器获得每层所述编码网络的输出Logits。3.如权利要求2所述的生成方法,其特征在于,所述获得目标教师模型的每层编码网络的输出Logits,包括:对所述教师模型进行预设次训练;获得每层所述编码网络在所述预设次训练中的最优输出,作为所述目标教师模型的每层所述编码网络的输出Logits。4.如权利要求1所述的生成方法,其特征在于,所述教师模型采用基于转换器的双向编码表征BERT模型;每层所述卷积网络的候选算子包括:具有不同卷积核尺寸的多种卷积、具有不同卷积核尺寸的多种空洞卷积、平均池化、最大池化、Identity函数和Zero函数。5.如权利要求4所述的生成方法,其特征在于,所述进行可微神经网络结构搜索时,以每层所述卷积网络为一个搜索单元,每个所述搜索单元包括两个输入节点、一个输出节点和多个中间节点;每个所述搜索单元中,两个所述输入节点为前两个搜索单元的输出节点,每个所述中间节点连接所述输出节点,每个所述中间节点具有两条入边,每条入边选自所述候选算子。6.如权利要求1所述的生成方法,其特征在于,所述目标损失函数还包括进行可微神经网络结构搜索的效率感知损失;所述目标损失函数的公式为:其中,为所述学生模型的输出结果与所述真实标签之间的交叉熵损失,为各层所述卷积网络的输出结果与各层所述编码网络的输出Logits之间的交叉熵损失,为所述效率感知损失,γ和β为超参数。7.如权利要求6所述的生成方法,其特征在于,第i层卷积网络的输出结果与第j层编码
网络的输出Logits之间的交叉熵损失的公式为:其中,为所述第j层编码网络上的Probe分类器,为所述第j层编码网络的隐藏表示,为所述第j层编码网络的输出Logits,为所述第i层卷积网络上的Probe分类器,为所述第i层卷积网络的隐藏表示,为所述第i层卷积网络的输出结果,T为温度系数;其中,M为所述训练数据的样本数,K为所述学生模型的卷积网络层数,ω
i,m
为所述交叉熵损失的归一化权重;其中,y
m
为第m个样本的标签,正类为1,负类为0。8.如权利要求...

【专利技术属性】
技术研发人员:王嘉欣吴鹏李健
申请(专利权)人:携程旅游信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1