【技术实现步骤摘要】
音频识别方法、装置、存储介质及电子设备
[0001]本申请涉及语音识别
,具体而言,涉及一种音频识别方法、装置、存储介质及电子设备。
技术介绍
[0002]随着人工智能的飞速发展,音频识别技术在多个场景中得到了广泛的应用,例如车载智能终端和手机语音助手等,为用户提供了更为方便的人机交互方式,提高了用户的使用体验。
[0003]音频识别方法涉及到了语音检测、语音唤醒和命令词识别等功能。现有技术通常为每个功能分别设置单独的神经网络模型,这使得各个功能模块相互独立存在,对系统的计算资源的需求量较大,导致系统的硬件成本较高,系统响应的延迟较大,使得用户的使用体验差。
技术实现思路
[0004]本申请提供一种音频识别方法、装置、存储介质及电子设备,用于解决现有的音频识别方法对系统的计算资源需求量较大,导致系统的硬件成本较高,系统响应的延迟较大,用户体验差的技术问题。
[0005]本申请提供一种音频识别方法,包括:
[0006]获取待识别音频;
[0007]将所述待识别音频输入音频识 ...
【技术保护点】
【技术特征摘要】
1.一种音频识别方法,其特征在于,包括:获取待识别音频;将所述待识别音频输入音频识别模型,得到所述音频识别模型输出的音频识别结果;其中,所述音频识别结果包括唤醒词识别结果和/或命令词识别结果;所述音频识别模型包括特征提取层、语音检测层、唤醒词识别层和命令词识别层;所述语音检测层、所述唤醒词识别层和所述命令词识别层分别与所述特征提取层连接;所述特征提取层用于提取所述待识别音频的声学识别特征;所述语音检测层用于基于所述声学识别特征,确定所述待识别音频对应的待识别语音帧;所述唤醒词识别层用于基于所述声学识别特征,确定所述待识别音频对应的唤醒词识别结果;所述命令词识别层用于基于所述声学识别特征,确定所述待识别音频对应的命令词识别结果。2.根据权利要求1所述的音频识别方法,其特征在于,所述将所述待识别音频输入音频识别模型,得到所述音频识别模型输出的音频识别结果,包括:将所述待识别音频输入至所述特征提取层,得到所述特征提取层输出的多个待识别音频帧,以及各个待识别音频帧的声学识别特征;将所述各个待识别音频帧的声学识别特征输入至所述语音检测层,得到所述语音检测层输出的各个待识别音频帧的语音检测结果;基于各个待识别音频帧的语音检测结果,确定所述多个待识别音频帧中的待识别语音帧;基于目标语音交互系统的唤醒状态,将所述待识别语音帧的声学识别特征输入至所述唤醒词识别层和/或所述命令词识别层,得到所述音频识别结果。3.根据权利要求2所述的音频识别方法,其特征在于,所述基于目标语音交互系统的唤醒状态,将所述待识别语音帧的声学识别特征输入至所述唤醒词识别层和/或所述命令词识别层,得到所述音频识别结果,包括:在所述目标语音交互系统的唤醒状态为已唤醒的情况下,将所述待识别语音帧的声学识别特征输入至所述命令词识别层,得到所述命令词识别层输出的第一命令词识别结果;将所述第一命令词识别结果作为所述音频识别结果。4.根据权利要求2所述的音频识别方法,其特征在于,所述基于目标语音交互系统的唤醒状态,将所述待识别语音帧的声学识别特征输入至所述唤醒词识别层和/或所述命令词识别层,得到所述音频识别结果,包括:在所述目标语音交互系统的唤醒状态为未唤醒的情况下,将所述待识别语言帧的声学识别特征输入至所述唤醒词识别层,得到所述唤醒词识别层输出的唤醒词识别结果,以及所述唤醒词识别结果对应的唤醒识别语音帧;基于所述唤醒词识别结果对所述目标语音交互系统进行唤醒,在所述目标语音交互系统的唤醒状态由未唤醒切换至已唤醒的情况下,基于所述待识别语音帧和所述唤醒识别语音帧,确定命令词待识别语音帧,并将所述命令词待识别语音帧的声学识别特征输入至所述命令词识别层...
【专利技术属性】
技术研发人员:李林峰,牛坤,黄海荣,夏杰,
申请(专利权)人:湖北星纪时代科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。