一种语音唤醒方法及装置制造方法及图纸

技术编号：35608767 阅读：24 留言：0更新日期：2022-11-16 15:32

本申请提供了一种语音唤醒方法及装置，包括：将音频信号转化为声学特征序列，所述音频信号为语音音频信号；将所述声学特征序列输入滤波网络，输出过滤音频特征，所述滤波网络包括滤波生成网络和动态滤波网络；将所述过滤音频特征输入语音唤醒网络，输出语音唤醒概率；根据所述语音唤醒概率，执行唤醒操作。通过加入动态的滤波网络，避免了因卷积网络参数固定，导致语音唤醒方法对未知说话人和未知噪声唤醒音频难以识别的问题，提高了语音唤醒方法的鲁棒性。同时，本方法并不进行人为的子问题划分，而是完全交给深度学习模型，这样可以使整个系统达到最优的性能，避免不同子问题造成的误差累积。的误差累积。的误差累积。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音唤醒方法及装置

[0001]本申请涉及语音识别的
，特别是涉及语音唤醒方法及装置。

技术介绍

[0002]语音识别技术可以让机器通过识别和理解过程把语音信号转变为相应的文本或命令。因此，在对终端设备进行唤醒时，也可以用到语音识别技术，以便在复杂场景下，通过语音识别来控制对终端设备进行唤醒任务。因为语音唤醒技术大多需要长期运用于复杂声音环境中，所以对声音识别的鲁棒性和功耗会有一定的要求。
[0003]现有的语音唤醒技术中，通常使用卷积神经网络进行模型压缩来提升器功耗性能，但此方式虽可以减小功耗，但是因其有固定的卷积网络参数，不利于检测未知说话人和未知噪声唤醒音频，所以不能满足产品的鲁棒性的要求。
[0004]因此，如何提供一种鲁棒性较高且不会提升功耗的语音唤醒方法，是本领域技术人员亟需解决的技术问题。

技术实现思路

[0005]有鉴于此，本申请实施例提供了一种语音唤醒方法及装置，旨在在不提升功耗的同时，提升语音唤醒的鲁棒性。
[0006]第一方面，本申请实施例提供了一种语音

【技术保护点】

【技术特征摘要】
1.一种语音唤醒方法，其特征在于，所述方法包括：将音频信号转化为声学特征序列，所述音频信号为语音音频信号；将所述声学特征序列输入滤波网络，输出过滤音频特征，所述滤波网络包括滤波生成网络和动态滤波网络；将所述过滤音频特征输入语音唤醒网络，输出语音唤醒概率；根据所述语音唤醒概率，执行唤醒操作。2.根据权利要求1所述的方法，其特征在于，所述滤波生成网络包括第一滤波生成网络和第二滤波生成网络，所述将所述声学特征序列输入滤波网络，输出过滤音频特征，包括：将所述声学特征序列输入所述第一滤波生成网络，输出第一卷积核参数；将所述声学特征序列输入所述第二滤波生成网络，输出第二卷积核参数；将所述声学特征序列、第一卷积核参数和第二卷积核参数输入所述动态滤波网络，输出所述过滤音频特征。3.根据权利要求2所述的方法，其特征在于，所述第一滤波生成网络，包括：w
S
＝Sigmoid(Norm(Conv(x,w)))；其中，w
S
为所述第一卷积核参数，Sigmoid表示Sigmoid激活函数，Norm表示均值方差正规化，Conv(x,w)表示以x为输入，w为卷积核的卷积网络，x为所述声学特征序列。4.根据权利要求3所述的方法，其特征在于，所述第二滤波生成网络，包括：w
N
＝Transpose(Linear(max(0,b)))；其中，w
N
为所述第二卷积核参数，Transpose表示转置，Linear表示全连接网络，max表示取最大值，b＝Norm(Linear(a))，x
i
为所述声学特征序列中第i个特征值，n为所述声学特征序列的长度。5.根据权利要求4所述的方法，其特征在于，所述动态滤波网络，包括：x
o
＝N...

【专利技术属性】
技术研发人员：赵亚东，
申请(专利权)人：太保科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人