语音唤醒方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:35522864 阅读:29 留言:0更新日期:2022-11-09 14:43
本公开提供了一种语音唤醒方法、装置、电子设备和计算机可读存储介质,涉及语音处理技术领域。所述方法包括:根据预先训练的神经网络模型对待识别语音的语谱图进行处理,得到待识别语音的声纹特征向量和唤醒词;根据预设的对应关系表,查询与唤醒词对应的注册唤醒词标签,并根据注册唤醒词标签,得到注册特征向量;根据声纹特征向量和注册特征向量,计算向量相似度;在向量相似度大于预设的阈值的情况下,进行语音唤醒。利用一个神经网络模型同时实现声纹识别和语音唤醒词匹配这两个任务,解决了两个任务分别构建模型导致的参数冗余、占用内存过大的问题,本公开流程更加简洁,唤醒速度更快。更快。更快。

【技术实现步骤摘要】
语音唤醒方法、装置、电子设备和计算机可读存储介质


[0001]本公开涉及语音处理
,尤其涉及一种语音唤醒方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]语音唤醒是指用户通过说出唤醒词来唤醒电子设备,使电子设备进入等待语音指令或执行语音指令的状态。
[0003]相关技术中,对输入的语音进行固定唤醒词匹配的模型训练及测试,同时对输入的语音进行声纹识别进行模型训练及认证,根据这两种模型测试结果逻辑上取交集,输出是否唤醒的结果。通过唤醒词匹配和声纹识别这两种子任务各自进行训练模型的方法,导致模型参数冗余、占用内存过大、唤醒速度慢。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开提供一种语音唤醒方法、装置、电子设备和计算机可读存储介质,至少在一定程度上克服模型参数冗余、占用内存过大、唤醒速度慢的问题。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的一个方面,提供一种语音唤醒方法,所述方法包括:
[0008]根据预先训练的神经网络模型对待识别语音的语谱图进行处理,得到所述待识别语音的声纹特征向量和唤醒词;
[0009]根据预设的对应关系表,查询与所述唤醒词对应的注册唤醒词标签,并根据所述注册唤醒词标签,得到注册特征向量;
[0010]根据所述声纹特征向量和所述注册特征向量,计算向量相似度;
[0011]在所述向量相似度大于预设的阈值的情况下,进行语音唤醒。
[0012]在本公开的一个实施例中,在所述根据预先训练的神经网络模型对待识别语音的语谱图进行处理,得到所述待识别语音的声纹特征向量和唤醒词之前,所述方法还包括:
[0013]获取注册语音的语谱图;
[0014]根据预先训练的神经网络模型对所述注册语音的语谱图进行处理,得到注册特征向量和注册唤醒词标签;
[0015]根据所述注册特征向量和所述注册唤醒词标签构建所述对应关系表。
[0016]在本公开的一个实施例中,在所述根据预先训练的神经网络模型对待识别语音的语谱图进行处理,得到所述待识别语音的声纹特征向量和唤醒词之前,所述方法还包括:
[0017]去除待识别语音中的静默音,得到有效待识别语音;
[0018]当所述有效待识别语音的有效音频时长大于或等于预设的时长阈值时,对所述有
效待识别语音进行处理,得到所述待识别语音的语谱图。
[0019]在本公开的一个实施例中,所述方法还包括:
[0020]当所述有效待识别语音的有效音频时长小于预设的时长阈值时,语音唤醒失败。
[0021]在本公开的一个实施例中,在所述根据预先训练的神经网络模型对待识别语音的语谱图进行处理,得到所述待识别语音的声纹特征向量和唤醒词之前,所述方法还包括:
[0022]将待识别语音分割成多个时长为第一时长的语音文件,所述语音文件的帧长为第二时长、帧移为第三时长;
[0023]将所述语音文件转化为语谱图。
[0024]在本公开的一个实施例中,在所述根据预先训练的神经网络模型对待识别语音的语谱图进行处理,得到所述待识别语音的声纹特征向量和唤醒词之前,所述方法还包括:
[0025]对获取到的语音数据集进行处理,得到所述语音数据集的语谱图;
[0026]根据所述语音数据集的语谱图和对应的标签,训练初始神经网络模型,其中,所述初始神经网络模型包括第一目标网络结构和第二目标网络结构,若满足预设的第一训练停止条件,则将所述初始神经网络模型作为目标神经网络模型。
[0027]在本公开的一个实施例中,所述语音数据集的语谱图包括用于模型训练的训练数据集和用于验证模型的测试数据集,所述训练数据集和所述测试数据集按照预设比例划分。
[0028]在本公开的一个实施例中,所述语音数据集的语谱图还包括验证数据集;
[0029]所述第一目标网络结构和第二目标网络结构通过以下方式得到:
[0030]基于多梯度下降算法MGDA算法构建训练损失函数;
[0031]根据所述训练数据集、带有网络结构参数的初始网络结构和所述训练损失函数,固定所述网络结构的网络结构参数,通过训练获得网络操作权重;
[0032]基于MGDA算法构建验证损失函数;
[0033]固定所述网络操作权重,根据所述验证数据集和所述验证损失函数,通过训练获得新的网络结构参数,以得到过程网络结构;
[0034]计算语音唤醒词识别和声纹识别梯度,得到公共梯度下降方向的更新共享参数,重新进行训练,直至满足预设的第二训练停止条件,得到目标网络结构,所述目标网络结构包括所述第一目标网络结构和第二目标网络结构中的一种。
[0035]在本公开的一个实施例中,所述第一训练停止条件包括训练损失小于第一阈值或训练轮数大于第二阈值。
[0036]在本公开的一个实施例中,所述神经网络模型包括输入节点、多个中间节点和两个输出节点,中间节点包括至少两个第一目标网络结构和至少一个第二目标网络结构,所述至少两个第一目标网络结构的结构相同,一个中间节点的输入为相邻前两个中间节点的输出。
[0037]根据本公开的另一个方面,提供一种语音唤醒装置,所述装置包括:
[0038]处理模块,用于根据预先训练的神经网络模型对待识别语音的语谱图进行处理,得到所述待识别语音的声纹特征向量和唤醒词;
[0039]查询模块,用于根据预设的对应关系表,查询与所述唤醒词对应的注册唤醒词标签,并根据所述注册唤醒词标签,得到注册特征向量;
[0040]向量相似度计算模块,用于根据所述声纹特征向量和所述注册特征向量,计算向量相似度;
[0041]语音唤醒模块,用于在所述向量相似度大于预设的阈值的情况下,进行语音唤醒。
[0042]根据本公开的再一个方面,提供一种电子设备,包括:
[0043]处理器;以及
[0044]存储器,用于存储所述处理器的可执行指令;
[0045]其中,所述处理器配置为经由执行所述可执行指令来执行上述的语音唤醒方法。
[0046]根据本公开的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音唤醒方法。
[0047]根据本公开的又一个方面,提供一种计算机程序产品,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或所述计算机指令由处理器加载并执行,以使计算机实现上述任一所述的语音唤醒方法。
[0048]本公开的实施例所提供的语音唤醒方法、装置、电子设备和计算机可读存储介质,将待识别语音的语谱图输入到预先训练的神经网络模型,得到待识别语音的声纹特征向量和唤醒词,利用一个神经网络模型同时实现声纹识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括:根据预先训练的神经网络模型对待识别语音的语谱图进行处理,得到所述待识别语音的声纹特征向量和唤醒词;根据预设的对应关系表,查询与所述唤醒词对应的注册唤醒词标签,并根据所述注册唤醒词标签,得到注册特征向量;根据所述声纹特征向量和所述注册特征向量,计算向量相似度;在所述向量相似度大于预设的阈值的情况下,进行语音唤醒。2.根据权利要求1所述的语音唤醒方法,其特征在于,在根据预先训练的神经网络模型对待识别语音的语谱图进行处理,得到所述待识别语音的声纹特征向量和唤醒词之前,所述方法还包括:获取注册语音的语谱图;根据预先训练的神经网络模型对所述注册语音的语谱图进行处理,得到注册特征向量和注册唤醒词标签;根据所述注册特征向量和所述注册唤醒词标签构建所述对应关系表。3.根据权利要求1所述的语音唤醒方法,其特征在于,在根据预先训练的神经网络模型对待识别语音的语谱图进行处理,得到所述待识别语音的声纹特征向量和唤醒词之前,所述方法还包括:去除待识别语音中的静默音,得到有效待识别语音;当所述有效待识别语音的有效音频时长大于或等于预设的时长阈值时,对所述有效待识别语音进行处理,得到所述待识别语音的语谱图。4.根据权利要求3所述的语音唤醒方法,其特征在于,所述方法还包括:当所述有效待识别语音的有效音频时长小于预设的时长阈值时,语音唤醒失败。5.根据权利要求1所述的语音唤醒方法,其特征在于,所述根据预先训练的神经网络模型对待识别语音的语谱图进行处理,得到所述待识别语音的声纹特征向量和唤醒词之前,所述方法还包括:将待识别语音分割成多个时长为第一时长的语音文件,所述语音文件的帧长为第二时长、帧移为第三时长;将所述语音文件转化为语谱图。6.根据权利要求2所述的语音唤醒方法,其特征在于,在根据预先训练的神经网络模型对待识别语音的语谱图进行处理,得到所述待识别语音的声纹特征向量和唤醒词之前,所述方法还包括:对获取到的语音数据集进行处理,得到所述语音数据集的语谱图;根据所述语音数据集的语谱图和对应的标签,训练初始神经网络模型,其中,所述初始神经网络模型包括第一目标网络结构和第二目标网络结构,若满足预设的第一训练停止条件,则将所述初始神经网络模型作为目标神经网络模型。7.根据权利要求6所述的语音唤醒方法,其特征在于,所述语音数据集的语谱图包括用于...

【专利技术属性】
技术研发人员:成莎莎赵德欣沈浩杨杰李晓宇
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1