一种语音唤醒方法及装置制造方法及图纸

技术编号:35608767 阅读:11 留言:0更新日期:2022-11-16 15:32
本申请提供了一种语音唤醒方法及装置,包括:将音频信号转化为声学特征序列,所述音频信号为语音音频信号;将所述声学特征序列输入滤波网络,输出过滤音频特征,所述滤波网络包括滤波生成网络和动态滤波网络;将所述过滤音频特征输入语音唤醒网络,输出语音唤醒概率;根据所述语音唤醒概率,执行唤醒操作。通过加入动态的滤波网络,避免了因卷积网络参数固定,导致语音唤醒方法对未知说话人和未知噪声唤醒音频难以识别的问题,提高了语音唤醒方法的鲁棒性。同时,本方法并不进行人为的子问题划分,而是完全交给深度学习模型,这样可以使整个系统达到最优的性能,避免不同子问题造成的误差累积。的误差累积。的误差累积。

【技术实现步骤摘要】
一种语音唤醒方法及装置


[0001]本申请涉及语音识别的
,特别是涉及语音唤醒方法及装置。

技术介绍

[0002]语音识别技术可以让机器通过识别和理解过程把语音信号转变为相应的文本或命令。因此,在对终端设备进行唤醒时,也可以用到语音识别技术,以便在复杂场景下,通过语音识别来控制对终端设备进行唤醒任务。因为语音唤醒技术大多需要长期运用于复杂声音环境中,所以对声音识别的鲁棒性和功耗会有一定的要求。
[0003]现有的语音唤醒技术中,通常使用卷积神经网络进行模型压缩来提升器功耗性能,但此方式虽可以减小功耗,但是因其有固定的卷积网络参数,不利于检测未知说话人和未知噪声唤醒音频,所以不能满足产品的鲁棒性的要求。
[0004]因此,如何提供一种鲁棒性较高且不会提升功耗的语音唤醒方法,是本领域技术人员亟需解决的技术问题。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种语音唤醒方法及装置,旨在在不提升功耗的同时,提升语音唤醒的鲁棒性。
[0006]第一方面,本申请实施例提供了一种语音唤醒方法,包括:
[0007]将音频信号转化为声学特征序列,所述音频信号为语音音频信号;
[0008]将所述声学特征序列输入滤波网络,输出过滤音频特征,所述滤波网络包括滤波生成网络和动态滤波网络;
[0009]将所述过滤音频特征输入语音唤醒网络,输出语音唤醒概率;
[0010]根据所述语音唤醒概率,执行唤醒操作。
[0011]可选的,所述滤波生成网络包括第一滤波生成网络和第二滤波生成网络,所述将所述声学特征序列输入滤波网络,输出过滤音频特征,包括:
[0012]将所述声学特征序列输入所述第一滤波生成网络,输出第一卷积核参数;
[0013]将所述声学特征序列输入所述第二滤波生成网络,输出第二卷积核参数;
[0014]将所述声学特征序列、第一卷积核参数和第二卷积核参数输入所述动态滤波网络,输出所述过滤音频特征。
[0015]可选的,所述第一滤波生成网络,包括:
[0016]w
S
=Sigmoid(Norm(Conv(x,w)));
[0017]其中,w
S
为所述第一卷积核参数,Sigmoid表示Sigmoid激活函数,Norm 表示均值方差正规化,Conv(x,w)表示以x为输入,w为卷积核的卷积网络,x 为所述声学特征序列。
[0018]可选的,所述第二滤波生成网络,包括:
[0019]w
N
=Transpose(Linear(max(0,b)));
[0020]其中,w
N
为所述第二卷积核参数,Transpose表示转置,Linear表示全连接网络,
max表示取最大值,b=Norm(Linear(a)),x
i
为所述声学特征序列中第i个特征值,n为所述声学特征序列的长度。
[0021]可选的,所述动态滤波网络,包括:
[0022]x
o
=Norm(Conv(x,w
A
))+x;
[0023]其中,x
o
为所述过滤音频特征,Conv(x,w
A
)表示以x为输入,w
A
为卷积核的卷积网络,w
A
为动态卷积参数,w
A
=w
S

w
N


表示元素积算子。
[0024]可选的,所述语音唤醒网络包括:
[0025]P(唤醒|x)=WakeUpNet(x
o
);
[0026]其中,P(唤醒|x)为所述语音唤醒概率,x
o
为所述过滤音频特征,WakeUpNet 表示端到端语音唤醒网络。
[0027]可选的,所述根据所述语音唤醒概率,执行唤醒操作,包括:
[0028]响应于所述语音唤醒概率大于预设阈值,执行唤醒操作。
[0029]第二方面,本申请实施例提供了一种语音唤醒装置,包括:
[0030]转化模块,用于将音频信号转化为声学特征序列,所述音频信号为用户的语音音频信号;
[0031]滤波模块,用于将所述声学特征序列输入滤波网络,输出过滤音频特征,所述滤波网络包括滤波生成网络和动态滤波网络;
[0032]概率模块,用于将所述过滤音频特征输入语音唤醒网络,输出语音唤醒概率;
[0033]唤醒模块,用于依据所述语音唤醒概率,执行唤醒操作。
[0034]第三方面,本申请实施例提供了一种设备,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行前述第一方面任一项所述的语音唤醒方法。
[0035]第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面任一项所述的语音唤醒方法。
[0036]本申请实施例提供了一种语音唤醒方法及装置,在执行所述方法时,先将音频信号转化为声学特征序列,所述音频信号为语音音频信号;再将所述声学特征序列输入滤波网络,输出过滤音频特征,所述滤波网络包括滤波生成网络和动态滤波网络;然后将所述过滤音频特征输入语音唤醒网络,输出语音唤醒概率;最后根据所述语音唤醒概率,执行唤醒操作。通过加入动态的滤波网络,避免了因卷积网络参数固定,导致语音唤醒方法对未知说话人和未知噪声唤醒音频难以识别的问题,提高了语音唤醒方法的鲁棒性。同时,本方法并不进行人为的子问题划分,而是完全交给深度学习模型,这样可以使整个系统达到最优的性能,避免不同子问题造成的误差累积。
附图说明
[0037]为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1为本申请实施例提供的语音唤醒方法的一种方法流程图;
[0039]图2为本申请实施例提供的语音唤醒方法的另一种方法流程图;
[0040]图3为本申请实施例提供的语音唤醒装置的一种结构示意图。
具体实施方式
[0041]语音识别技术,也被称为自动语音识别(Automatic Speech Recognition, ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
[0042]由于语音识别技术可以让机器通过识别和理解过程把语音信号转变为相应的文本或命令。因此,在对终端设备进行唤醒时,也可以用到语音识别技术,以便在复杂场景下,通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,所述方法包括:将音频信号转化为声学特征序列,所述音频信号为语音音频信号;将所述声学特征序列输入滤波网络,输出过滤音频特征,所述滤波网络包括滤波生成网络和动态滤波网络;将所述过滤音频特征输入语音唤醒网络,输出语音唤醒概率;根据所述语音唤醒概率,执行唤醒操作。2.根据权利要求1所述的方法,其特征在于,所述滤波生成网络包括第一滤波生成网络和第二滤波生成网络,所述将所述声学特征序列输入滤波网络,输出过滤音频特征,包括:将所述声学特征序列输入所述第一滤波生成网络,输出第一卷积核参数;将所述声学特征序列输入所述第二滤波生成网络,输出第二卷积核参数;将所述声学特征序列、第一卷积核参数和第二卷积核参数输入所述动态滤波网络,输出所述过滤音频特征。3.根据权利要求2所述的方法,其特征在于,所述第一滤波生成网络,包括:w
S
=Sigmoid(Norm(Conv(x,w)));其中,w
S
为所述第一卷积核参数,Sigmoid表示Sigmoid激活函数,Norm表示均值方差正规化,Conv(x,w)表示以x为输入,w为卷积核的卷积网络,x为所述声学特征序列。4.根据权利要求3所述的方法,其特征在于,所述第二滤波生成网络,包括:w
N
=Transpose(Linear(max(0,b)));其中,w
N
为所述第二卷积核参数,Transpose表示转置,Linear表示全连接网络,max表示取最大值,b=Norm(Linear(a)),x
i
为所述声学特征序列中第i个特征值,n为所述声学特征序列的长度。5.根据权利要求4所述的方法,其特征在于,所述动态滤波网络,包括:x
o
=N...

【专利技术属性】
技术研发人员:赵亚东
申请(专利权)人:太保科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1