语音唤醒方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:36645648 阅读:22 留言:0更新日期:2023-02-18 13:05
本申请提供一种语音唤醒方法、装置、电子设备及可读存储介质,所述方法包括:获取音频数据以及所述音频数据中的目标音频帧,所述目标音频帧包括所述音频数据中包含人声的音频帧;提取所述目标音频帧的声学特征;使用预先训练的神经网络模型对所述声学特征进行识别,以获取所述音频数据的识别结果;基于所述识别结果获取所述音频数据的置信度;在所述置信度大于预设阈值的情况下,唤醒目标设备。本申请可以提高语音唤醒的实时性。可以提高语音唤醒的实时性。可以提高语音唤醒的实时性。

【技术实现步骤摘要】
语音唤醒方法、装置、电子设备及可读存储介质


[0001]本申请涉及人工智能
,尤其涉及一种语音唤醒方法、装置、电子设备及可读存储介质。

技术介绍

[0002]语音唤醒主要应用在语音交互场景,解决不方便触摸但是又需要交互的情况。工作状态的设备会一直处理收到的音频信息,将所有声音都当作有效信息处理,就会导致乱搭话的情况。而语音唤醒就成功的避开了这个问题,在只有用户叫名字的时候工作,其他时间休眠。因此语音唤醒需要在连续语流中实时检测出说话人特定片段,现有方案使用带有注意力模块的声学模型进行声学建模,但是注意力模块的计算量大,时间延迟高,导致语音唤醒的实时性较差。

技术实现思路

[0003]本申请提供一种语音唤醒方法、装置、电子设备及可读存储介质,以解决语音唤醒的实时性较差的问题。
[0004]第一方面,本申请实施例提供了一种语音唤醒方法,包括:
[0005]获取音频数据以及所述音频数据中的目标音频帧,所述目标音频帧包括所述音频数据中包含人声的音频帧;
[0006]提取所述目标音频帧的声学特征;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括:获取音频数据以及所述音频数据中的目标音频帧,所述目标音频帧包括所述音频数据中包含人声的音频帧;提取所述目标音频帧的声学特征;使用预先训练的神经网络模型对所述声学特征进行识别,以获取所述音频数据的识别结果;基于所述识别结果获取所述音频数据的置信度;在所述置信度大于预设阈值的情况下,唤醒目标设备。2.如权利要求1所述的方法,其特征在于,所述神经网络模型包括第一循环神经网络变换器模型;所述使用预先训练的神经网络模型对所述声学特征进行识别,以获取所述音频数据的识别结果,包括:使用预先训练的所述第一循环神经网络变换器模型对所述声学特征进行识别,以获取所述音频数据的拼音序列。3.如权利要求2所述的方法,其特征在于,所述神经网络模型还包括第二循环神经网络变换器模型;所述使用预先训练的神经网络模型对所述声学特征进行识别,以获取所述音频数据的识别结果,还包括:使用预先训练的所述第二循环神经网络变换器模型对所述拼音序列进行识别,以获取所述音频数据的文字序列;所述使用预先训练的神经网络模型对所述声学特征进行识别,以获取所述音频数据的识别结果之后,所述方法还包括:输出所述文字序列。4.如权利要求1所述的方法,其特征在于,所述识别结果包括第一唤醒词;所述使用预先训练的神经网络模型对所述声学特征进行识别,以获取所述音频数据的识别结果之后,所述方法还包括:获取唤醒词集合;若所述第一唤醒词包括第二唤醒词,唤醒所述目标设备,其中,所述第二唤醒词属于所述唤醒词集合。5.如权利要求4所述的方法,其特征在于,所述基于所述识别结果获取所述音频数据的置信度,包括:若所述第一唤醒词不包括所述第二唤醒词,基于所述识别结果获取所述音频数据的置信度;所述基于所述识别结果获取所述音频数据的置信度之后,所述方法还包括:在所述置信度小于或等于所述预设阈值的情况下,获取所述唤醒词集合...

【专利技术属性】
技术研发人员:潘昕侯雷静张世磊邓超冯俊兰
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1