唤醒词检测模型训练方法、电子设备和存储介质技术

技术编号：33293180 阅读：21 留言：0更新日期：2022-05-01 00:16

本发明专利技术公开唤醒词检测模型训练方法、电子设备和存储介质，其中，一种唤醒词检测模型训练方法，包括：为所述唤醒词检测模型提供唤醒词的文本信息作为所述模型的输入；使用修正后的交叉熵损失函数、帧级检测损失函数和序列级检测损失函数作为所述模型的训练标准，其中，所述修正后的交叉熵损失函数用于表征唤醒词与非唤醒词之间的区别，帧级检测中的帧级序列通过去重操作后映射至所述序列级检测中的序列级序列。本申请实施例不仅能充分利用到大量的已有数据，大大提高了模型的鲁棒性。此外，本方案还能在训练过程中随机自定义各种唤醒词，并且通过我们提出的检测Loss进行更好的约束。能够使得我们获得一个鲁棒性好且易用的模型。能够使得我们获得一个鲁棒性好且易用的模型。能够使得我们获得一个鲁棒性好且易用的模型。

全部详细技术资料下载

【技术实现步骤摘要】
唤醒词检测模型训练方法、电子设备和存储介质

[0001]本专利技术属于唤醒词检测模型训练
，尤其涉及唤醒词检测模型训练方法、系统、电子设备和存储介质。

技术介绍

[0002]随着物联网的发展，唤醒词检测技术引起了许多现实世界应用的兴趣，例如语音助手。用户可以通过“OK Google”、“Hey Siri”、“Alexa”等预定义关键词唤醒自己的智能设备，并向设备发出各种控制命令。
[0003]唤醒词检测任务需要模型流式地监听和解码音频，它是通用关键词检测系统(Keyword Detection System，KWS)任务的特例。关于连续语音处理中的关键词检测系统主题有丰富的文献。离线大词汇连续语音识别(Large Vocabulary Continuous Speech Recognition，LVCSR)系统可以将声学特征转录为文本，文本可用于检测感兴趣的关键词，但这些系统中的大多数并不适合计算受限环境中的唤醒词检测任务。对于在线、内存消耗小的低延迟唤醒词检测系统，传统的方法是基于关键字/填充节点的隐马尔可夫模型(Hidden Markov Model，HMM)。随着深度学习技术的进步，先前的一些工作提出了没有HMM的单个神经网络系统，直接预测唤醒词。此类系统中应用到的神经网络包括深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)或长短...

【技术保护点】

【技术特征摘要】
1.一种唤醒词检测模型训练方法，包括：为所述唤醒词检测模型提供唤醒词的文本信息作为所述模型的输入，其中，所述文本信息用于加强对于每一帧后验的预测；使用修正后的交叉熵损失函数、帧级检测损失函数和序列级检测损失函数作为所述模型的训练标准，其中，所述修正后的交叉熵损失函数用于表征唤醒词与非唤醒词之间的区别，帧级检测中的帧级序列通过去重操作后映射至所述序列级检测中的序列级序列。2.根据权利要求1所述的方法，其中，所述模型的输入包括声学特征、关键字嵌入序列和可学习的填充序列，所述可学习的填充序列提供非关键字文本信息。3.根据权利要求2所述的方法，其中，所述模型输出帧级后验矩阵，所述帧级后验矩阵用于计算所述修正后的交叉熵损失函数、所述帧级检测损失函数和所述序列级检测损失函数。4.根据权利要求3所述的方法，其中，所述修正后的交叉熵损失函数的计算公式为：其中，p
t
是对应标签在第t帧的预测概率，w是用于强调唤醒词的超参数，W代表唤醒词对应的帧。5.根据权利要求4所述的方法，其中，所述帧级检测损失函...

【专利技术属性】
技术研发人员：俞凯，谭天，奚彧，张王优，杨宝琛，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人