语音识别方法、装置、设备以及计算机可读存储介质制造方法及图纸

技术编号：23769073 阅读：38 留言：0更新日期：2020-04-11 21:41

本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从第二麦克风采集的第二语音信号，其中麦克风阵列包括至少两个麦克风，例如两个、三个或者六个麦克风等。方法还包括通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征，然后基于所提取的增强特征来获得语音识别结果。不同于传统的基于数字信号处理的语音增强方式，本公开的实施例通过神经网络来直接提取多通道语音信号的增强特征，能够解决语音增强和语音识别优化目标不一致的问题，从而能够联合优化语音增强和语音识别等目标，实现了语音增强和识别的端到端建模，提高了语音识别的准确率。

Speech recognition method, device, equipment and computer readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、设备以及计算机可读存储介质
本公开的实施例总体上涉及计算机
，并且更具体地涉及语音

技术介绍
语音识别是指通过计算机把语音信号转换为对应的文本或字符的过程，是实现人与机器交互的主要途径之一。近年来，随着深度学习技术在语音识别领域的广泛引用，语音识别的准确率得到了极大的提升。此外，由于智能设备的不断普及，使用语音进行识别的场合已经变得非常丰富。例如，语音识别技术已经广泛应用于智能家居、车载语音、智能办公等行业和场景。语音识别技术结合自然语言处理和语音合成等技术，可以产生更多复杂应用，例如智能音箱、会议同声传译、智能客服助理等。根据声源与拾取器之间距离，语音识别可以分为近场语音识别和远场语音识别。近场语音识别是指使得计算机能够在近距离条件下识别语音，例如在使用语音输入法的过程中。远场语音识别是指使得能够在远距离条件下识别语音，例如在智能音箱或者车载导航的过程中。在远场语音识别场景中，由于真实环境中存在大量的环境噪声和混响等，导致拾取信号的质量下降，因而远场语音识别的准确率比近场语音识别的准确率要低。在远场环境下，目标声源距离拾音器较远致使目标信号衰减严重，加上环境嘈杂并且干扰信号众多，最终导致信噪比较低，语音识别性能较差。一般来说，用户站在几米远处与智能音箱进行语音交互就是一个典型的远场语音识别应用场景。
技术实现思路
根据本公开的示例实施例，提供了一种语音识别方法、装置、设备以及计算机可读存储介质。在本公开的第一方面中，提供了一种语音识别方法。该方...

【技术保护点】
1.一种语音识别方法，包括：/n获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从所述麦克风阵列中的第二麦克风采集的第二语音信号，所述第二麦克风不同于所述第一麦克风；/n通过神经网络提取与所述第一语音信号的和所述第二语音信号相关联的增强特征；以及/n基于所述增强特征，获得语音识别结果。/n

【技术特征摘要】
1.一种语音识别方法，包括：
获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从所述麦克风阵列中的第二麦克风采集的第二语音信号，所述第二麦克风不同于所述第一麦克风；
通过神经网络提取与所述第一语音信号的和所述第二语音信号相关联的增强特征；以及
基于所述增强特征，获得语音识别结果。

2.根据权利要求1所述的方法，其中通过神经网络提取与所述第一语音信号的和所述第二语音信号相关联的增强特征包括：
对所述第一语音信号和所述第二语音信号分别进行复数傅里叶变换；
通过复数卷积神经网络对经变换的第一语音信号和第二语音信号进行复数卷积、复数偏置和复数线性变换操作以获得复数特征；以及
将所述复数特征转换成实数形式的所述增强特征。

3.根据权利要求2所述的方法，其中获得语音识别结果包括：
由流式多级的截断注意力模型基于所述增强特征来确定与所述第一语音信号和所述第二语音信号相对应的字符输出。

4.根据权利要求3所述的方法，其中获得语音识别结果还包括：
基于预定的大小，对所述增强特征进行压缩；以及
向所述流式多级的截断注意力模型提供压缩后的增强特征。

5.根据权利要求2所述的方法，还包括：
基于所述增强特征，确定与所述第一语音信号和所述第二语音信号相关联的目标声源的方向；以及
点亮与所确定的方向相关联的提示灯。

6.根据权利要求2所述的方法，还包括：
基于所述增强特征，确定所述第一语音信号和所述第二语音信号是否涉及唤醒词；以及
根据确定所述第一语音信号和所述第二语音信号涉及唤醒词，启动字符识别过程。

7.根据权利要求1所述的方法，其中通过神经网络提取与所述第一语音信号的和所述第二语音信号相关联的增强特征包括：
获得从所述麦克风阵列中的第三麦克风采集的第三语音信号；以及
通过神经网络提取与所述第一语音信号的、所述第二语音信号和第三语音信号相关联的增强特征。

8.根据权利要求1所述的方法，还包括：
获得与所述麦克风阵列中的麦克风相同数目的多通道远场语音信号，所述多通道远场语音信号至少包括第一远场语音信号和第二远场语音信号；以及
使用所述多通道远场语音信号来训练端到端语音增强和识别一体化模型。

9.根据权利要求8所述的方法，其中获得与所述麦克风阵列中的麦克风相同数目的多通道远场语音信号包括：
基于近场语音信号，通过随机加噪实时模拟所述多通道远场语音信号。

10.根据权利要求9所述的方法，其中通过随机加噪实时模拟所述多通道远场语音信号包括：
随机设置以下模拟参数：房间的配置、麦克风阵列在所述房间中的位置、目标声源在所述房间中的位置、噪声源在所述房间中的位置，所述房间的配置包括长宽高和墙壁反射系数。

11.根据权利要求10所述的方法，其中通过随机加噪实时模拟所述多通道远场语音信号还包括：
基于所述模拟参数，生成针对所述近场语音信号的第一组冲击响应以及针对随机选择的噪声信号的第二组冲击响应。

12.根据权利要求11所述的方法，其中通过随机加噪实时模拟所述多通道远场语音信号还包括：
基于所述近场语音信号、所述第一组冲击响应、所述噪声信号、所述第二组冲击响应以及信噪比，生成所述多通道远场语音信号。

13.一种语音识别装置，包括：
语音信号获得模块，被配置为获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从所述麦克风阵列中的第二麦克风采集的第二语音信号，所述第二麦克风不同于所述第一麦克风；
增强特征提取模块，被配置为通过神经网络提取与所述第一语音信号的和所述第二语音信号相关联的增强特征；以及
语音识别模块，被配置为基于所述...

【专利技术属性】
技术研发人员：张策，黄斌，李鑫，白锦峰，陈旭，贾磊，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人