一种语音唤醒方法及设备技术

技术编号:37265914 阅读:16 留言:0更新日期:2023-04-20 23:37
本申请提供了一种语音唤醒方法及设备,其中方法包括:接收音频序列;对音频序列进行音频事件检测;将带有语音的音频片段输入第一级唤醒模型;当第一级唤醒模型检测到唤醒词时,将音频片段输入第二级唤醒模型;当第二级唤醒模型检测到唤醒词时,将音频片段输入声纹模型;当声纹模型判断说话人为注册人时,系统被唤醒;其中,第一级唤醒模型为流式模型并以字为单元建模;第二级唤醒模型为非流式模型,第二级唤醒模型的卷积输出通道分配有注意力权重。本申请通过构建两级唤醒模型来降低功耗,由于第一级唤醒模型采用字建模,使得二级唤醒模型能够获取准确的唤醒词边界,从而可以使用注意力机制提升卷积通道的特征提取能力,最终提升唤醒性能。提升唤醒性能。提升唤醒性能。

【技术实现步骤摘要】
一种语音唤醒方法及设备


[0001]本专利技术涉及语音识别技术,尤其涉及一种语音唤醒方法及设备。

技术介绍

[0002]声纹唤醒技术是语音识别领域中的一个重要分支,被广泛应用于手机终端、智能家居、车载导航、智能穿戴等语音交互系统中,方便特定用户使用语音指令唤醒设备。更具体地,声纹唤醒任务就是在后台不间断地接受语音并自动检测出预定义的唤醒词,当检测到相应的唤醒词之后还需要鉴别该唤醒词是否是特定说话人所发出的,这样能够保证只有特定说话人喊出唤醒词才能唤醒设备,并使设备进入特定的工作状态。上述唤醒词的检出需通过唤醒模型来实现,确定说话人身份则是通过声纹模型来实现。
[0003]由于唤醒模型需要后台全时运行,对于穿戴设备而言,采用大模型虽能保证性能,但对续航影响较大。若使用小模型,性能很难保证,从而言重影响用户体验。针对该问题,现有技术提出了采用两级模型的解决方法,第一级唤醒模型功耗较低,精度也较低,第二级模型功耗较高,精度也较高。由于第一唤醒模型功耗较低,可以用于对语音数据流的初步识别,当第一唤醒模型识别结果表征语音数据流中包括唤醒词对应的片段时,可以将该语音数据流输入至第二唤醒模型进行二次识别,由于第二唤醒模型精度较高,因此可以实现对于语音数据流的精确识别。并且,通过第一唤醒模型可以过滤掉较多的数据,因此输入至第二唤醒模型的数据大幅减小,如此可以有效降低功耗。
[0004]然而,由于现有二级唤醒模型均是基于帧建模,二级唤醒模型无法获取准确的唤醒词边界,导致二级模型的卷积通道的特征提取能力受限,进而导致唤醒性能受限。
[0005]此外,语音识别设备(特别是穿戴设备)的使用环境的不同会造成声纹模型面对着不同的房间混响、不同信噪比的背景噪声、不同的信道,这些都会造成声纹模型的误接受率偏高。

技术实现思路

[0006]本专利技术的目的在于提供一种功耗更低、唤醒性能更佳、鲁棒性更好的语音唤醒方法及设备。
[0007]以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
[0008]根据本专利技术的一方面,提供了一种语音唤醒方法,包括:
[0009]接收音频序列;
[0010]对音频序列进行音频事件检测,切除音频序列中不含语音的片段,只保留带有语音的音频片段;
[0011]将带有语音的音频片段输入第一级唤醒模型;
[0012]当第一级唤醒模型检测到唤醒词时,将音频片段输入第二级唤醒模型;
[0013]当第二级唤醒模型检测到唤醒词时,将音频片段输入声纹模型;
[0014]当声纹模型判断说话人为注册人时,系统被唤醒;
[0015]其中,所述第一级唤醒模型为流式模型并以字为单元建模;所述第二级唤醒模型为非流式模型,所述第二级唤醒模型的卷积输出通道分配有注意力权重。
[0016]在一实施例中,所述第一级唤醒模型对唤醒词逐字建模,并使用滑动窗来统计唤醒词的置信度h(x)
[0017][0018]其中为滑动窗内的输入序列,T
conf
为滑动窗长,1≤t1≤t2...≤T
conf
表示整个解码网络的路径只能是单调的,表示时刻t
i
模型输出唤醒词为ω
i
的概率,唤醒词共有M个字,即:
[0019]ω={ω1,ω2,....,ω
M
},
[0020]h(x)表示在满足解码网络的前提下,滑动窗内的后验概率能够取得的最大值;当置信度h(x)大于第一阈值时,认为滑动窗内检测到了唤醒词。
[0021]在一实施例中,所述第二级唤醒模型采用多层FSMN堆叠架构,其卷积感受野与唤醒词的感受野相当,模型各层输出节点代表感受野中包含唤醒词的概率值,当概率值大于第二阈值时,则判定检测到了唤醒词。
[0022]在一实施例中,所述第二级唤醒模型的卷积输出通道通过以下方法分配注意力权重:
[0023]假设卷积的通道输出为U∈R
o
×
L
,计算U的各个通道的注意力权重Atten∈R
o
×1:
[0024]Atten=sigmoid(linear(avgpool(U)))
[0025]其中avgpool表示对U的第二维进行平均池化,linear表示全连接层,sigmoid表示sigmoid激活函数;
[0026]将注意力Atten用于强化卷积输出通道:
[0027][0028]其中表示矩阵的哈达玛积。
[0029]在一实施例中,所述声纹模型为以ASP池化作为输出的三层LSTM模型,声纹模型对每个唤醒词提取一个声纹向量,并将唤醒词的声纹向量与预存储的声纹向量进行比对,若唤醒词的声纹向量与预存储的声纹向量相似度大于第三阈值,则判断说话人为注册人。
[0030]在一实施例中,在将唤醒词的声纹向量与预存储的声纹向量进行比对之前,还包括:通过投影矩阵对唤醒词的声纹向量与预存储的声纹向量进行投影,所述投影矩阵的训练过程为:
[0031]输入训练音频的声纹;
[0032]计算所有训练音频的声纹vec的全局均值
[0033][0034]所有训练音频的声纹vec减去该均值;
[0035]采用EM算法估算类内成分的协方差Φ
w
、类间成分的协方差Φ
b

[0036]E步的计算如下:
[0037][0038][0039]训练样本共有K个说话人(K类),表示第k个说话人训练样本的类间方差,表示第k个说话人的类内方差。与均来自上一步的EM迭代。M步使得Φ
w,k
、Φ
b,k
在上一步迭代的基础上向全局最优靠近:
[0040][0041][0042]其中,n表示第k个说话人的训练样本数量,m表示第k个说话人的训练样本的均值。分别表示经过M步优化之后的Φ
w,k
与Φ
b,k

[0043]经过多轮EM迭代,获得使声纹的似然度最大的类内成分的协方差Φ
w
和类间成分的协方差Φ
b

[0044]对Φ
w
进行cholesky分解:
[0045][0046]对A
‑1Φ
b
(A
‑1)
T
进行奇异值分解:
[0047][0048]其中,A矩阵是Φ
w
的cholesky分解,U矩阵是A
‑1Φ
b
(A
‑1)
T
的奇异值分解的仿射矩阵,I为单位矩阵,Ψ为对角矩阵;
[0049]得到投影矩阵T=U
T
A
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括:接收音频序列;对音频序列进行音频事件检测,切除音频序列中不含语音的片段,只保留带有语音的音频片段;将带有语音的音频片段输入第一级唤醒模型;当第一级唤醒模型检测到唤醒词时,将音频片段输入第二级唤醒模型;当第二级唤醒模型检测到唤醒词时,将音频片段输入声纹模型;当声纹模型判断说话人为注册人时,系统被唤醒;其中,所述第一级唤醒模型为流式模型并以字为单元建模;所述第二级唤醒模型为非流式模型,所述第二级唤醒模型的卷积输出通道分配有注意力权重。2.根据权利要求1所述的语音唤醒方法,其特征在于:所述第一级唤醒模型对唤醒词逐字建模,并使用滑动窗来统计唤醒词的置信度h(x)其中为滑动窗内的输入序列,T
conf
为滑动窗长,1≤t1≤t2...≤T
conf
表示整个解码网络的路径只能是单调的,表示时刻t
i
模型输出唤醒词为ω
i
的概率,唤醒词共有M个字,即:ω={ω1,ω2,....,ω
M
},h(x)表示在满足解码网络的前提下,滑动窗内的后验概率能够取得的最大值;当置信度h(x)大于第一阈值时,认为滑动窗内检测到了唤醒词。3.根据权利要求1所述的语音唤醒方法,其特征在于:所述第二级唤醒模型采用多层FSMN堆叠架构,其卷积感受野与唤醒词的感受野相当,模型各层输出节点代表感受野中包含唤醒词的概率值,当概率值大于第二阈值时,则判定检测到了唤醒词。4.根据权利要求3所述的语音唤醒方法,其特征在于,所述第二级唤醒模型的卷积输出通道通过以下方法分配注意力权重:假设卷积的通道输出为U∈R
o
×
L
,其中o表示输出通道数,L表示输出的时序长度,计算U的各个通道的注意力权重Atten∈R
o
×1:Atten=sigmoid(linear(avgpool(U)))其中avgpool表示对U的第二维进行平均池化,linear表示全连接层,sigmoid表示sigmoid激活函数;将注意力Atten用于强化卷积输出通道:其中表示矩阵的哈达玛积运算。5.根据权利要求1所述的语音唤醒方法,其特征在于,所述声纹模型为以ASP池化作为输出的三层LSTM模型,声纹模型对每个唤醒词提取一个声纹向量,并将唤醒词的声纹向量与预存储的声纹向量进行比对,若唤醒词的声纹向量与预存储的声纹向量相似度大于第三阈值,则判断说话人为注册人。
6.根据权利要求5所述的语音唤醒方法,其特征在于,在将唤醒词的声纹向量与预存储的声纹向量...

【专利技术属性】
技术研发人员:王飞王欢良肖佳林吴天昕
申请(专利权)人:苏州奇梦者科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1