语音识别方法、装置、设备以及计算机可读存储介质制造方法及图纸

技术编号:23769073 阅读:38 留言:0更新日期:2020-04-11 21:41
本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从第二麦克风采集的第二语音信号,其中麦克风阵列包括至少两个麦克风,例如两个、三个或者六个麦克风等。方法还包括通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征,然后基于所提取的增强特征来获得语音识别结果。不同于传统的基于数字信号处理的语音增强方式,本公开的实施例通过神经网络来直接提取多通道语音信号的增强特征,能够解决语音增强和语音识别优化目标不一致的问题,从而能够联合优化语音增强和语音识别等目标,实现了语音增强和识别的端到端建模,提高了语音识别的准确率。

Speech recognition method, device, equipment and computer readable storage medium

【技术实现步骤摘要】
语音识别方法、装置、设备以及计算机可读存储介质
本公开的实施例总体上涉及计算机
,并且更具体地涉及语音

技术介绍
语音识别是指通过计算机把语音信号转换为对应的文本或字符的过程,是实现人与机器交互的主要途径之一。近年来,随着深度学习技术在语音识别领域的广泛引用,语音识别的准确率得到了极大的提升。此外,由于智能设备的不断普及,使用语音进行识别的场合已经变得非常丰富。例如,语音识别技术已经广泛应用于智能家居、车载语音、智能办公等行业和场景。语音识别技术结合自然语言处理和语音合成等技术,可以产生更多复杂应用,例如智能音箱、会议同声传译、智能客服助理等。根据声源与拾取器之间距离,语音识别可以分为近场语音识别和远场语音识别。近场语音识别是指使得计算机能够在近距离条件下识别语音,例如在使用语音输入法的过程中。远场语音识别是指使得能够在远距离条件下识别语音,例如在智能音箱或者车载导航的过程中。在远场语音识别场景中,由于真实环境中存在大量的环境噪声和混响等,导致拾取信号的质量下降,因而远场语音识别的准确率比近场语音识别的准确率要低。在远场环境下,目标声源距离拾音器较远致使目标信号衰减严重,加上环境嘈杂并且干扰信号众多,最终导致信噪比较低,语音识别性能较差。一般来说,用户站在几米远处与智能音箱进行语音交互就是一个典型的远场语音识别应用场景。
技术实现思路
根据本公开的示例实施例,提供了一种语音识别方法、装置、设备以及计算机可读存储介质。在本公开的第一方面中,提供了一种语音识别方法。该方法包括:获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从麦克风阵列中的第二麦克风采集的第二语音信号,其中第二麦克风不同于第一麦克风;通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征;以及基于增强特征获得语音识别结果。在本公开的第二方面中,提供了一种语音识别装置。该装置包括:语音信号获得模块,被配置为获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从麦克风阵列中的第二麦克风采集的第二语音信号,其中第二麦克风不同于第一麦克风;增强特征提取模块,被配置为通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征;以及语音识别模块,被配置为基于增强特征获得语音识别结果。在本公开的第三方面中,提供了一种电子设备,其包括一个或多个处理器以及存储装置,其中存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行,使得电子设备实现根据本公开的实施例的各种方法和/或过程。在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的实施例的各种方法和/或过程。应当理解,本
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。附图说明结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了传统的语音识别过程的示意图;图2示出了根据本公开的实施例的示例语音识别场景的示意图;图3示出了根据本公开的实施例的语音识别方法的流程图;图4示出了根据本公开的实施例的语音增强和识别一体化模型的架构的示意图;图5示出了根据本公开的实施例的基于复数卷积神经网络的语音增强和识别一体化模型的处理过程的示意图;图6示出了根据本公开的实时模拟远场语音信号的过程的示意图;图7示出了根据本公开的实施例的语音识别装置的框图;以及图8示出了能够实施本公开的多个实施例的电子设备的框图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。典型的语音识别场景包括目标声源、非目标声源(例如噪声源)、拾音器(例如麦克风或麦克风阵列)、以及语音识别软件系统。以家居场景下的智能音箱产品为例,目标声源是朝着智能音箱发出声音的用户;非目标声源是周围环境的声音干扰,例如家电噪声等;拾音器和语音识别软件系统是智能音箱的硬件和软件部分。在拾音器拾取到的信号中,来自目标声源的信号被称为目标信号,来自非目标声源的信号被称为干扰信号。目标信号强度与干扰信号强度的比值被称为信噪比。目前,语音识别技术在高信噪比场景(例如近场语音识别场景)下表现良好,但在低信噪比场景下(远场语音识别场景),往往表现不稳定。为了提高远场语音识别的准确率,通常会使用麦克风阵列作为拾音器,以便提高语音采集的质量。然后,利用多通道语音信号处理技术,增强目标信号,提升语音识别精度。图1示出了传统的语音识别过程的示意图,针对所获得的语音信号110,在框120处通过数字信号处理来对语音信号110进行增强,在框130处,对增强后的语音信号进行语音识别,并获得识别结果140。在训练过程中,后端语音识别利用增强后的语音信号来训练后端识别模型。传统的前端语音增强目的是利用数字信号处理技术来增强目标信号,得到更加清晰的语音。前端语音增强通常包括到达方向估计(DOA)和波束成形(BF)。DOA技术主要用于估计目标声源的方向,BF技术则利用目标声源的方位信息来增强目标信号,抑制干扰信号。常用的DOA技术包括基于到达时延的定向算法、基于空间谱估计的定向算法等。常用的BF技术有最小方差无畸变响应波束成形(MVDRBF)、线性约束最小方差波束成形(LCMVBF)和广义旁瓣消除波束成形(GSCBF)等。由此可见,传统的前端语音增强本质上都是保护目标声源方向信号(例如来自目标扇区内的语音),并尽可能的抑制非目标方向信号(例如来自目标扇区外的语音)。此外,一些改进方法试图通过其他技术改进前端语音增强,然而这些改进方法仍然从信号处理的Filter-and-Sum方法出发,需要假设目标声源和噪声源的方位不一致,通过空间滤波和频域滤波,从多通道语音中抽取出多个方向的特征,其本质上还是依赖于传统的数字信号处理技术。然而,传统的基于数字信号处理的语音增强方法存在一些缺陷,致使语音识别的错误率相对较高。一方面,前端语音增强和后端训练优化的目标的不统一,前端语音增强过程的优化过程独立于后端识别过程,其优化目标更多是从信噪比的角度,保留目标信号,抑制干扰噪声。该优化目标与后端识别的最终目标(提高语音识别准确率)本文档来自技高网
...

【技术保护点】
1.一种语音识别方法,包括:/n获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从所述麦克风阵列中的第二麦克风采集的第二语音信号,所述第二麦克风不同于所述第一麦克风;/n通过神经网络提取与所述第一语音信号的和所述第二语音信号相关联的增强特征;以及/n基于所述增强特征,获得语音识别结果。/n

【技术特征摘要】
1.一种语音识别方法,包括:
获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从所述麦克风阵列中的第二麦克风采集的第二语音信号,所述第二麦克风不同于所述第一麦克风;
通过神经网络提取与所述第一语音信号的和所述第二语音信号相关联的增强特征;以及
基于所述增强特征,获得语音识别结果。


2.根据权利要求1所述的方法,其中通过神经网络提取与所述第一语音信号的和所述第二语音信号相关联的增强特征包括:
对所述第一语音信号和所述第二语音信号分别进行复数傅里叶变换;
通过复数卷积神经网络对经变换的第一语音信号和第二语音信号进行复数卷积、复数偏置和复数线性变换操作以获得复数特征;以及
将所述复数特征转换成实数形式的所述增强特征。


3.根据权利要求2所述的方法,其中获得语音识别结果包括:
由流式多级的截断注意力模型基于所述增强特征来确定与所述第一语音信号和所述第二语音信号相对应的字符输出。


4.根据权利要求3所述的方法,其中获得语音识别结果还包括:
基于预定的大小,对所述增强特征进行压缩;以及
向所述流式多级的截断注意力模型提供压缩后的增强特征。


5.根据权利要求2所述的方法,还包括:
基于所述增强特征,确定与所述第一语音信号和所述第二语音信号相关联的目标声源的方向;以及
点亮与所确定的方向相关联的提示灯。


6.根据权利要求2所述的方法,还包括:
基于所述增强特征,确定所述第一语音信号和所述第二语音信号是否涉及唤醒词;以及
根据确定所述第一语音信号和所述第二语音信号涉及唤醒词,启动字符识别过程。


7.根据权利要求1所述的方法,其中通过神经网络提取与所述第一语音信号的和所述第二语音信号相关联的增强特征包括:
获得从所述麦克风阵列中的第三麦克风采集的第三语音信号;以及
通过神经网络提取与所述第一语音信号的、所述第二语音信号和第三语音信号相关联的增强特征。


8.根据权利要求1所述的方法,还包括:
获得与所述麦克风阵列中的麦克风相同数目的多通道远场语音信号,所述多通道远场语音信号至少包括第一远场语音信号和第二远场语音信号;以及
使用所述多通道远场语音信号来训练端到端语音增强和识别一体化模型。


9.根据权利要求8所述的方法,其中获得与所述麦克风阵列中的麦克风相同数目的多通道远场语音信号包括:
基于近场语音信号,通过随机加噪实时模拟所述多通道远场语音信号。


10.根据权利要求9所述的方法,其中通过随机加噪实时模拟所述多通道远场语音信号包括:
随机设置以下模拟参数:房间的配置、麦克风阵列在所述房间中的位置、目标声源在所述房间中的位置、噪声源在所述房间中的位置,所述房间的配置包括长宽高和墙壁反射系数。


11.根据权利要求10所述的方法,其中通过随机加噪实时模拟所述多通道远场语音信号还包括:
基于所述模拟参数,生成针对所述近场语音信号的第一组冲击响应以及针对随机选择的噪声信号的第二组冲击响应。


12.根据权利要求11所述的方法,其中通过随机加噪实时模拟所述多通道远场语音信号还包括:
基于所述近场语音信号、所述第一组冲击响应、所述噪声信号、所述第二组冲击响应以及信噪比,生成所述多通道远场语音信号。


13.一种语音识别装置,包括:
语音信号获得模块,被配置为获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从所述麦克风阵列中的第二麦克风采集的第二语音信号,所述第二麦克风不同于所述第一麦克风;
增强特征提取模块,被配置为通过神经网络提取与所述第一语音信号的和所述第二语音信号相关联的增强特征;以及
语音识别模块,被配置为基于所述...

【专利技术属性】
技术研发人员:张策黄斌李鑫白锦峰陈旭贾磊
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1