唤醒词检测模型训练方法、电子设备和存储介质技术

技术编号:33293180 阅读:21 留言:0更新日期:2022-05-01 00:16
本发明专利技术公开唤醒词检测模型训练方法、电子设备和存储介质,其中,一种唤醒词检测模型训练方法,包括:为所述唤醒词检测模型提供唤醒词的文本信息作为所述模型的输入;使用修正后的交叉熵损失函数、帧级检测损失函数和序列级检测损失函数作为所述模型的训练标准,其中,所述修正后的交叉熵损失函数用于表征唤醒词与非唤醒词之间的区别,帧级检测中的帧级序列通过去重操作后映射至所述序列级检测中的序列级序列。本申请实施例不仅能充分利用到大量的已有数据,大大提高了模型的鲁棒性。此外,本方案还能在训练过程中随机自定义各种唤醒词,并且通过我们提出的检测Loss进行更好的约束。能够使得我们获得一个鲁棒性好且易用的模型。能够使得我们获得一个鲁棒性好且易用的模型。能够使得我们获得一个鲁棒性好且易用的模型。

【技术实现步骤摘要】
唤醒词检测模型训练方法、电子设备和存储介质


[0001]本专利技术属于唤醒词检测模型训练
,尤其涉及唤醒词检测模型训练方法、系统、电子设备和存储介质。

技术介绍

[0002]随着物联网的发展,唤醒词检测技术引起了许多现实世界应用的兴趣,例如语音助手。用户可以通过“OK Google”、“Hey Siri”、“Alexa”等预定义关键词唤醒自己的智能设备,并向设备发出各种控制命令。
[0003]唤醒词检测任务需要模型流式地监听和解码音频,它是通用关键词检测系统(Keyword Detection System,KWS)任务的特例。关于连续语音处理中的关键词检测系统主题有丰富的文献。离线大词汇连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)系统可以将声学特征转录为文本,文本可用于检测感兴趣的关键词,但这些系统中的大多数并不适合计算受限环境中的唤醒词检测任务。对于在线、内存消耗小的低延迟唤醒词检测系统,传统的方法是基于关键字/填充节点的隐马尔可夫模型(Hidden Markov Model,HMM)。随着深度学习技术的进步,先前的一些工作提出了没有HMM的单个神经网络系统,直接预测唤醒词。此类系统中应用到的神经网络包括深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)或长短期记忆(Long Short

Term Memory,LSTM),和注意力机制(attention mechanism)。这种方法主要由声学模型和后处理模块组成。声学模型旨在将语音信号编码为特征或者是转换为后验概率矩阵。后处理模块可以是相似度比较方法或解码算法,其目的是计算每个语音帧的检测分数。
[0004]尽管上述方法在某些特定条件下可以很好地工作,例如当关键字是预定义好的,但是这仍然有两个未解决的问题限制了模型的潜力。
[0005](1)关键词是固定的。大多数现有的唤醒词检测系统都需要预先定义一个特定的唤醒词。这些系统需要大量包含预定义关键词的数据进行训练,并且模型训练好之后无法更改。虽然已经有一些研究致力于研究开放词汇的唤醒词检测任务以允许用户自定义任何唤醒词,但仍然存在许多挑战。例如模型的鲁棒性,以及如何实时检测关键字。
[0006](2)训练标准与评价指标不匹配。虽然唤醒词检测任务通常使用由声学模型和后处理模块组成的方法,但现有的大多数工作采用交叉熵作为训练准则,这不能很好地反映评估指标的性能,如准确率、召回率、误识别率和未识别率。

技术实现思路

[0007]本专利技术实施例提供一种唤醒词检测模型训练方法、电子设备和存储介质,用于至少解决上述技术问题之一。
[0008]第一方面,本专利技术实施例提供一种唤醒词检测模型训练方法,包括:为所述唤醒词检测模型提供唤醒词的文本信息作为所述模型的输入,其中,所述文本信息用于加强对于
每一帧后验的预测;使用修正后的交叉熵损失函数、帧级检测损失函数和序列级检测损失函数作为所述模型的训练标准,其中,所述修正后的交叉熵损失函数用于表征唤醒词与非唤醒词之间的区别,帧级检测中的帧级序列通过去重操作后映射至所述序列级检测中的序列级序列。
[0009]第二方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的唤醒词检测模型训练方法和系统的步骤。
[0010]第三方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的唤醒词检测模型训练方法和系统的步骤。
[0011]本申请实施例不仅能充分利用到大量的已有数据,大大提高了模型的鲁棒性。此外,本方案还能在训练过程中随机自定义各种唤醒词,并且通过我们提出的检测Loss进行更好的约束。能够使得我们获得一个鲁棒性好且易用的模型。
附图说明
[0012]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1为本专利技术一实施例提供的一种唤醒词检测模型训练方法的流程图;
[0014]图2为本专利技术一实施例提供的另一种唤醒词检测模型训练方法的流程图;
[0015]图3为本专利技术一实施例提供的带有文本提示的唤醒词检测系统的结构;
[0016]图4为本专利技术一实施例提供的帧级检测过程示例;
[0017]图5为本专利技术一实施例提供的采样帧级序列的示例;
[0018]图6为本专利技术一实施例提供的在dev93数据集上使用不同w值获得的F1分数;
[0019]图7为本专利技术一实施例提供的基线的F1分数比较;
[0020]图8是本专利技术一实施例提供的电子设备的结构示意图。
具体实施方式
[0021]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]请参考图1,其示出了本申请的唤醒词检测模型训练方法和系统一实施例的流程图。
[0023]如图1所示,在步骤101中,为所述唤醒词检测模型提供唤醒词的文本信息作为所述模型的输入,其中,所述文本信息用于加强对于每一帧后验的预测;
[0024]在步骤102中,使用修正后的交叉熵损失函数、帧级检测损失函数和序列级检测损失函数作为所述模型的训练标准,其中,所述修正后的交叉熵损失函数用于表征唤醒词与非唤醒词之间的区别,帧级检测中的帧级序列通过去重操作后映射至所述序列级检测中的序列级序列。
[0025]本申请实施例不仅能充分利用到大量的已有数据,大大提高了模型的鲁棒性。此外,本方案还能在训练过程中随机自定义各种唤醒词,并且通过我们提出的检测Loss进行更好的约束。能够使得我们获得一个鲁棒性好且易用的模型。
[0026]在一些可选的实施例中,所述模型的输入包括声学特征、关键字嵌入序列和可学习的填充序列,所述可学习的填充序列提供非关键字文本信息。
[0027]在一些可选的实施例中,所述模型输出帧级后验矩阵,所述帧级后验矩阵用于计算所述修正后的交叉熵损失函数、所述帧级检测损失函本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种唤醒词检测模型训练方法,包括:为所述唤醒词检测模型提供唤醒词的文本信息作为所述模型的输入,其中,所述文本信息用于加强对于每一帧后验的预测;使用修正后的交叉熵损失函数、帧级检测损失函数和序列级检测损失函数作为所述模型的训练标准,其中,所述修正后的交叉熵损失函数用于表征唤醒词与非唤醒词之间的区别,帧级检测中的帧级序列通过去重操作后映射至所述序列级检测中的序列级序列。2.根据权利要求1所述的方法,其中,所述模型的输入包括声学特征、关键字嵌入序列和可学习的填充序列,所述可学习的填充序列提供非关键字文本信息。3.根据权利要求2所述的方法,其中,所述模型输出帧级后验矩阵,所述帧级后验矩阵用于计算所述修正后的交叉熵损失函数、所述帧级检测损失函数和所述序列级检测损失函数。4.根据权利要求3所述的方法,其中,所述修正后的交叉熵损失函数的计算公式为:其中,p
t
是对应标签在第t帧的预测概率,w是用于强调唤醒词的超参数,W代表唤醒词对应的帧。5.根据权利要求4所述的方法,其中,所述帧级检测损失函...

【专利技术属性】
技术研发人员:俞凯谭天奚彧张王优杨宝琛
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1