【技术实现步骤摘要】
一种唤醒词识别模型训练、识别方法、装置及介质
[0001]本申请涉及语音识别
,尤其涉及一种唤醒词识别模型训练、识别方法、装置及介质。
技术介绍
[0002]目前唤醒词识别主要依赖于深度学习技术,即将语音信息中的特征输入到神经网络模型中,神经网络模型基于输入的特征中的唤醒词特征进行训练。由于人的语速各不相同,神经网络模型所“看到”的范围并不只是唤醒词本身,还有其附近的上下文信息,包含唤醒词及其上下文信息的这个范围称作神经网络模型的感受野,这些上下文信息是影响神经网络模型识别唤醒词性能的重要影响因素。例如对于支持唤醒词“开空调”的神经网络模型,我们会发现有时语音“请给我打开空调”无法实现正常的唤醒,有时语音“开空调吧”也无法唤醒。
[0003]现有技术中唤醒词识别主要使用细粒度较高的音素级建模或字建模方式,这样做的好处是神经网络模型通常不会对唤醒词的上下文信息产生过渡的依赖,但是误唤醒率较高。现有技术中唤醒词识别还可以基于唤醒词整词建模,这样做的好处是神经网络模型能够充分的考虑唤醒词的全局语义,有效降低混淆词带来 ...
【技术保护点】
【技术特征摘要】
1.一种唤醒词识别模型训练方法,其特征在于,所述方法包括:针对样本集中的每个样本语音,根据预先保存的感受野长度及样本语音中唤醒词的长度,确定该样本语音中每个语音帧对应的目标标签,所述目标标签用于标识对应的语音帧时该样本语音中完整的唤醒词是否位于模型的感受野内,及唤醒词当前在模型的感受野中的位置;将该样本语音的每个语音帧输入到唤醒词识别模型中,获取所述唤醒词识别模型输出的每个语音帧的识别标签;根据该样本语音的每个语音帧的识别标签及所述目标标签,确定每个语音帧对应的损失值,根据所述每个语音帧对应的损失值对所述唤醒词识别模型进行调整。2.如权利要求1所述的方法,其特征在于,所述根据预先保存的感受野长度及样本语音中唤醒词的长度,确定该样本语音中每个语音帧对应的目标标签包括:根据该样本语音中唤醒词的第一时长和预先保存的感受野长度,确定每个标签对应的子时长;根据所述子时长及所述感受野长度,确定该样本语音中每一标签对应的目标时间范围;根据每个语音帧所对应的时间范围和每一标签对应的目标时间范围,确定每个语音帧对应的目标标签。3.如权利要求2所述的方法,其特征在于,所述根据该样本语音中唤醒词的第一时长和预先保存的感受野长度,确定每个标签对应的子时长包括:确定所述感受野长度与所述第一时长的差值;根据所述差值以及预先保存的目标数量,确定每个标签对应的子时长,其中,所述目标数量为标识该样本语音中完整的唤醒词位于感受野不同位置的标签的数量。4.如权利要求2所述的方法,其特征在于,所述根据所述子时长及所述感受野长度,确定该样本语音中每一标签对应的目标时间范围包括:根据唤醒词在样本语音中的开始时间和所述第一时长,确定出现完整唤醒词的完整时间;根据所述完整时间及所述子时长,确定该样本语音中已经存在唤醒词,及存在的唤醒词当前在模型的感受野中的位置的每个标签对应的目标时间范围。5.如权利要求4所述的方法,其特征在于,所述根据预先保存的感受野长度及样本语音中唤醒词的长度,确定该样本语音中每个语音帧对应的目标标签包括:将所述样本语音中其他语音帧对应的目标标签确定为该样本语音中不存在完整的唤醒词位于感受野中对应的标签。6.一种唤醒词识别方法,其特征在于,所述方法包括:接收待识别的目标语音;将所述目标...
【专利技术属性】
技术研发人员:李程帅,周全,徐涛,
申请(专利权)人:青岛信芯微电子科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。