【技术实现步骤摘要】
模型的训练方法、语音意图识别方法、装置、设备及介质
[0001]本公开涉及人工智能
,更具体地,涉及一种模型的训练方法、语音意图识别方法、装置、电子设备、存储介质和程序产品。
技术介绍
[0002]当前,语音智能系统已经应用于各个智能任务中,许多语音智能系统开始通过语音进行人机交互。语音智能系统通过端到端语音意图识别模型直接从音频信息中识别用户意图信息。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题,端到端语音意图识别模型的意图识别结果不够精准,难以满足用户需求。
技术实现思路
[0004]有鉴于此,本公开提供了一种模型的训练方法、语音意图识别方法、装置、电子设备、存储介质和程序产品。
[0005]本公开的一个方面提供了一种语音意图识别模型的训练方法,包括:将音频样本输入至语音意图识别模型中,得到音频特征;将文本样本输入至文本意图识别模型中,得到文本特征,其中,上述文本样本是基于音频样本得到的,上述语音意图识别模型是基于上述文本意图识别模型得到的;基于上 ...
【技术保护点】
【技术特征摘要】
1.一种语音意图识别模型的训练方法,包括:将音频样本输入至语音意图识别模型中,得到音频特征;将文本样本输入至文本意图识别模型中,得到文本特征,其中,所述文本样本是基于音频样本得到的,所述语音意图识别模型是基于所述文本意图识别模型得到的;基于所述音频特征和所述文本特征,得到第一蒸馏损失值和第二蒸馏损失值,其中,所述第一蒸馏损失值用于表征所述音频特征与所述文本特征之间的字节对齐差距,所述第二蒸馏损失值用于表征所述音频特征与所述文本特征之间的语义对齐差距;以及利用所述第一蒸馏损失值和所述第二蒸馏损失值训练所述语音意图识别模型,得到经训练的语音意图识别模型。2.根据权利要求1所述的方法,其中:所述基于所述音频特征和所述文本特征,得到第一蒸馏损失值,包括:基于所述音频特征、所述文本特征和第一相互注意力矩阵,得到所述第一蒸馏损失值,其中,所述音频特征为所述语音意图识别模型的网络层的输出结果,所述文本特征为所述文本意图识别模型的网络层的输出结果,所述第一相互注意力矩阵为用于将所述文本特征和所述音频特征按照字节对齐的中间特征。3.根据权利要求2所述的方法,其中:在所述语音意图识别模型的网络层中包括注意力机制的情况下,所述语音意图识别模型的训练方法,还包括:将所述音频样本输入至所述语音意图识别模型中,得到音频中间特征,其中,所述音频中间特征为所述语音意图识别模型的网络层中的所述注意力机制的输出结果;将所述文本样本输入至所述文本意图识别模型中,得到文本中间特征,其中,所述文本中间特征为所述文本意图识别模型的网络层中的注意力机制的输出结果;以及基于所述文本中间特征和所述音频中间特征,得到第三蒸馏损失值,以便利用所述第一蒸馏损失值、所述第二蒸馏损失值和所述第三蒸馏损失值训练所述语音意图识别模型。4.根据权利要求3所述的方法,其中:所述基于所述文本中间特征和所述音频中间特征,得到第三蒸馏损失值,包括:基于所述文本中间特征、所述音频中间特征和第二相互注意力矩阵,得到所述第三蒸馏损失值,其中,所述第二相互注意力矩阵为用于将所述文本中间特征和所述音频中间特征按照字节对齐的中间特征。5.根据权利要求4所述的方法,其中:音频特征数据包括所述音频特征或者所述音频中间特征,文本特征数据包括所述文本特征或者所述文本中间特征,所述音频特征数据包括多个,所述文本特征数据包括多个;所述语音意图识别模型的训练方法,还包括:针对多个所述音频特征数据中的每个所述音频特征数据,基于预定映射关系,从多个所述文本特征数据中确定与所述音频特征数据相匹配的目标文本特征数据,其中,所述预定映射关系是基于所述文本意图识别模型的网络层与所述语音意图识别模型的网络层之间的映射关系确定的;以及基于所述音频特征数据和所述目标文本特征数据,得到与所述音频特征数据相匹配的相互注意力矩阵,其中,所述相互注意力矩阵包括所述第一相互注意力矩阵或者所述第二
相互注意力矩阵。6.根据权利要求5所述的方法,其中:所述基于所述音频特征数据和所述目标文本特征数据,得到与所述音频特征数据相匹配的相互注意力矩阵,包括:对所述音频特征数据进行转置,得到转置后的音频特征数据;基于所述目标文本特征数据和所述转置后的音频特征数据,得到初始交互特征数据;对所述初始交互特征数据进行卷积,得到卷积后特征数据;以及对所述卷积后特征数据进行激活,得到与所述音频特征数据相匹配的相互注意力矩阵。7.根据权利要求2至6中任一项所述的方法,其中:所述音频特征包括多个,所述文本特征包括多个,所述基于所述音频特征、所述文本特征和第一相互注意力矩阵,得到第一蒸馏损失值,包括:针对多个所述音频特征中的每个音频特征,基于与所述音频特征相匹配的第一相互注意力矩阵和所述音频特征,得到与目标文本特征从字节层面对齐的对齐后音频特征,其中,所述目标文本特征为与所述音频特征存在所述预定映射关系的文本特征;以及基于多个所述目标文本特征和多个所述对齐后音频特征,得到所述第一蒸馏损失值。8.根据权利要求5或6所述的方法,其中:所述音频中间特征包括...
【专利技术属性】
技术研发人员:王泽勋,冯明超,刘航,
申请(专利权)人:京东科技信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。