轻量级意图识别模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:32486322 阅读:12 留言:0更新日期:2022-03-02 09:51
本发明专利技术涉及人工智能技术,揭露了一种轻量级意图识别模型训练方法,包括:获取原始会话训练集合,利用预构建的教师模型对所述原始会话训练集合进行会话角色表征及会话环境表征,得到标准会话训练集合,利用所述教师模型和预构建的轻量级神经网络构建互动蒸馏网络,利用所述标准会话训练集合对所述互动蒸馏网络进行互动训练,得到标准学生模型。本发明专利技术还提出一种轻量级意图识别模型训练装置、电子设备以及计算机可读存储介质。本发明专利技术可以解决移动智能设备中的语音识别模型语音意图识别不准确的问题。的问题。的问题。

【技术实现步骤摘要】
轻量级意图识别模型训练方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种轻量级意图识别模型训练方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着人工智能的快速发展,智能语音识别技术应用广泛,适用于智能手机、手环等移动智能设备的模型训练也越来越重要。然而,在语音识别场景下,移动智能设备受限于体积、内存等限制,无法部署处理逻辑复杂的语音识别模型。
[0003]现有技术下通过以下方法来进行移动智能设备中的模型部署:1、通过对语音识别模型进行剪枝与量化来实现模型压缩,然而模型剪枝与量化会同步降低模型的参数量与运算量,降低语音识别的准确率;2、通过知识蒸馏的方法,利用教师模型输出的标签来对学生模型进行训练,使得学生模型的性能接近教师模型,然而学生模型与教师模型的互动较低,且由于人工标注效率较低,缺乏大量标注数据,使得训练出来的模型的识别准确度较低。因此,现有的移动智能设备中语音识别模型语音意图识别准确有待提高。

技术实现思路

[0004]本申请提供了一种轻量级意图识别模型训练方法、装置、电子设备及存储介质,以解决移动智能设备中的语音识别模型语音意图识别不准确的问题。
[0005]第一方面,本申请提供了一种轻量级意图识别模型训练方法,所述方法包括:
[0006]获取原始会话训练集合,利用预构建的教师模型对所述原始会话训练集合进行会话角色表征及会话环境表征,得到标准会话训练集合;
[0007]利用所述教师模型和预构建的轻量级神经网络构建互动蒸馏网络;
[0008]利用所述标准会话训练集合对所述互动蒸馏网络进行互动训练,得到标准学生模型。
[0009]详细地,所述利用预构建的教师模型对所述原始会话训练集合进行会话角色表征及会话环境表征,得到标准会话训练集合,包括:
[0010]利用所述教师模型中的语音识别层对所述原始会话训练集合中的会话语音进行文本转化,得到会话文本;
[0011]利用所述教师模型中的向量转化层对所述会话文本进行向量转化,并对转化后的向量进行角色表征,得到会话语义表征向量;
[0012]利用所述教师模型中的向量表征层对所述会话语义表征向量进行语义环境表征,得到会话环境表征向量;
[0013]利用所述教师模型中的意图识别层输出所述会话环境表征向量中的初始意图识别结果,将所述初始意图识别结果作为真实标注添加至所述原始会话训练集合中,得到所述标准会话训练集合。
[0014]详细地,所述利用所述教师模型中的向量转化层对所述会话文本进行向量转化,
并对转化后的向量进行角色表征,得到会话语义表征向量,包括:
[0015]利用所述向量转化层对所述会话文本中所有句子进行向量转化,得到语句表征向量;
[0016]根据所述语句表征向量的说话人构建角色表征向量;
[0017]拼接所述语句表征向量及所述角色表征向量得到所述会话语义表征向量。
[0018]详细地,所述利用所述教师模型中的意图识别层输出所述会话环境表征向量中的初始意图识别结果,包括:
[0019]利用所述意图识别层中的attention层得到所述会话环境表征向量的贡献度;
[0020]将所述会话环境表征向量及所述贡献度进行累加,得到会话表征向量;
[0021]利用所述意图识别层中的分类函数输出所述会话表征向量的初始意图识别结果。
[0022]详细地,所述利用所述教师模型和预构建的轻量级神经网络构建互动蒸馏网络,包括:
[0023]将所述教师模型中的各层网络作为教师模块,以及将所述预构建的轻量级神经网络中的各层网络作为学生模块;
[0024]将所述教师模块和对应的学生模块进行匹配,并将匹配成功后的教师模型和所述轻量级神经网络进行并联,得到所述互动蒸馏网络。
[0025]详细地,所述利用所述标准会话训练集合对所述互动蒸馏网络进行互动训练,得到标准学生模型,包括:
[0026]在所述互动蒸馏网络中选取其中一个学生模块,并利用选取的所述学生模块替换对应的教师模块,得到混合网络;
[0027]利用所述标准会话训练集合训练所述混合网络,并调整所述混合网络中学生模块的参数,直至所述参数收敛,得到训练完成的学生模块;
[0028]返回上述在所述互动蒸馏网络中选取其中一个学生模块,并利用选取的所述学生模块替换对应的教师模块,得到混合网络的步骤,直到得到所有训练完成的学生模块;
[0029]对所有所述训练完成的学生模块进行迭代训练,得到所述标准学生模型。
[0030]详细地,所述对所有所述训练完成的学生模块进行迭代训练,得到所述标准学生模型,包括:
[0031]按照所述预构建的轻量级神经网络中各层网络的顺序拼接所有所述训练完成的学生模块,得到原始学生模型;
[0032]利用所述原始学生模型输出所述标准会话训练集合中会话的预测标注,并根据所述预测标注及所述真实标注计算损失值;
[0033]在所述损失值大于等于预设的损失阈值时,调整所述原始学生模型中模块的参数,并返回所述利用所述原始学生模型输出所述标准会话训练集合中会话的预测标注的步骤,直至所述损失值小于所述损失阈值时,停止训练,得到所述标准学生模型。
[0034]第二方面,本申请提供了一种轻量级意图识别模型训练装置,所述装置包括:
[0035]会话训练集合构建模块,用于获取原始会话训练集合,利用预构建的教师模型对所述原始会话训练集合进行会话角色表征及会话环境表征,得到标准会话训练集合;
[0036]互动蒸馏网络构建模块,用于利用所述教师模型和预构建的轻量级神经网络构建互动蒸馏网络;
[0037]互动训练模块,用于利用所述标准会话训练集合对所述互动蒸馏网络进行互动训练,得到标准学生模型。
[0038]第三方面,提供了一种意图识别设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
[0039]存储器,用于存放计算机程序;
[0040]处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的轻量级意图识别模型训练方法的步骤。
[0041]第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的轻量级意图识别模型训练方法的步骤。
[0042]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
[0043]本专利技术通过利用预构建的教师模型对原始会话训练集合进行会话角色表征及会话环境表征,由于考虑了不同角色说话所代表的语义,同时考虑了在会话上下文环境下句子对意图判断的贡献力度是不同的,使得标准会话训练集合中的标注更加准确,因此可以获得大量准确的训练数据,提高模型训练的准确率。同时,通过构建互动蒸馏网络进行互动训练,提高了知识蒸馏的互动性,并且不会对标准学生模型进行压本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种轻量级意图识别模型训练方法,其特征在于,所述方法包括:获取原始会话训练集合,利用预构建的教师模型对所述原始会话训练集合进行会话角色表征及会话环境表征,得到标准会话训练集合;利用所述教师模型和预构建的轻量级神经网络构建互动蒸馏网络;利用所述标准会话训练集合对所述互动蒸馏网络进行互动训练,得到标准学生模型。2.如权利要求1所述的轻量级意图识别模型训练方法,其特征在于,所述利用预构建的教师模型对所述原始会话训练集合进行会话角色表征及会话环境表征,得到标准会话训练集合,包括:利用所述教师模型中的语音识别层对所述原始会话训练集合中的会话语音进行文本转化,得到会话文本;利用所述教师模型中的向量转化层对所述会话文本进行向量转化,并对转化后的向量进行角色表征,得到会话语义表征向量;利用所述教师模型中的向量表征层对所述会话语义表征向量进行语义环境表征,得到会话环境表征向量;利用所述教师模型中的意图识别层输出所述会话环境表征向量中的初始意图识别结果,将所述初始意图识别结果作为真实标注添加至所述原始会话训练集合中,得到所述标准会话训练集合。3.如权利要求2所述的轻量级意图识别模型训练方法,其特征在于,所述利用所述教师模型中的向量转化层对所述会话文本进行向量转化,并对转化后的向量进行角色表征,得到会话语义表征向量,包括:利用所述向量转化层对所述会话文本中所有句子进行向量转化,得到语句表征向量;根据所述语句表征向量的说话人构建角色表征向量;拼接所述语句表征向量及所述角色表征向量得到所述会话语义表征向量。4.如权利要求2所述的轻量级意图识别模型训练方法,其特征在于,所述利用所述教师模型中的意图识别层输出所述会话环境表征向量中的初始意图识别结果,包括:利用所述意图识别层中的attention层得到所述会话环境表征向量的贡献度;将所述会话环境表征向量及所述贡献度进行累加,得到会话表征向量;利用所述意图识别层中的分类函数输出所述会话表征向量的初始意图识别结果。5.如权利要求1所述的轻量级意图识别模型训练方法,其特征在于,所述利用所述教师模型和预构建的轻量级神经网络构建互动蒸馏网络,包括:将所述教师模型中的各层网络作为教师模块,以及将所述预构建的轻量级神经网络中的各层网络作为学生模块;将所述教师模块和对应的学生模块进行匹配,并将匹配成功后的教师模型和所述轻量级神经网络进行并联,得到所述互动蒸馏网络。6....

【专利技术属性】
技术研发人员:蒋志燕曾航程刚廖晨
申请(专利权)人:深圳市北科瑞声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1