语音识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37045874 阅读:13 留言:0更新日期:2023-03-29 19:24
本发明专利技术提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:获取麦克风信号;基于所述麦克风信号中各波束之间的相关度,确定所述麦克风信号的目标波束,基于所述麦克风信号中的噪声信号,对所述目标波束进行降噪,得到增强目标信号;对所述增强目标信号进行语音识别。本发明专利技术提供的方法、装置、电子设备和存储介质,基于麦克风信号中各波束之间的相关度,确定麦克风信号的目标波束,并应用降噪后的目标波束进行语音识别,由于波束成形时充分参考了各波束之间共性和差异性,由此获取到更加准确可靠的目标波束,进而保证基于此实现的语音识别的准确性和可靠性。现的语音识别的准确性和可靠性。现的语音识别的准确性和可靠性。

【技术实现步骤摘要】
语音识别方法、装置、电子设备和存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种语音识别方法、装置、电子设备和存储介质。

技术介绍

[0002]目前,语音识别技术在低信噪比场景下,例如识别远场语音识别场景下,识别准确率并不理想。
[0003]为了提高语音信号处理质量,从而提高低信噪比场景下的语音识别率,主流的远场语音识别系统通常是由一个前端语音增强模块和一个后端语音识别声学建模模型串联而成。其中,前端语音增强模块可以利用深度神经网络实现MVDR(Minimum Variance Distortionless Response,最小方差无失真响应)或者GSC(Generalized Sidelobe Canceller,广义旁瓣相消器),以实现波束成形。
[0004]然而,目前利用深度神经网络实现波束成形的方法设计的网络结构较为简单,无法充分应用直接采集的麦克风信号中涵盖的各类信息,导致语音识别的优化效果不佳。

技术实现思路

[0005]本专利技术提供一种语音识别方法、装置、电子设备和存储介质,用以解决现有技术中低信噪比场景下的语音识别效果不佳的缺陷。
[0006]本专利技术提供一种语音识别方法,包括:
[0007]获取麦克风信号;
[0008]基于所述麦克风信号中各波束之间的相关度,确定所述麦克风信号的目标波束,基于所述麦克风信号中的噪声信号,对所述目标波束进行降噪,得到增强目标信号;
[0009]对所述增强目标信号进行语音识别。
>[0010]根据本专利技术提供的一种语音识别方法,所述基于所述麦克风信号中各波束之间的相关度,确定所述麦克风信号的目标波束,包括:
[0011]基于所述各波束之间的相关度,确定所述各波束的重要度;
[0012]基于所述各波束的重要度,对所述各波束进行加权求和,得到所述目标波束。
[0013]根据本专利技术提供的一种语音识别方法,所述噪声信号的确定步骤包括:
[0014]基于所述重要度最高的波束,确定波达方向;
[0015]基于所述目标波束和所述波达方向,对所述麦克风信号进行噪声估计,得到所述麦克风信号的噪声信号。
[0016]根据本专利技术提供的一种语音识别方法,所述对所述增强目标信号进行语音识别,包括:
[0017]基于所述噪声信号,对所述增强目标信号进行语音识别。
[0018]根据本专利技术提供的一种语音识别方法,所述麦克风信号中的各波束的确定步骤包括:
[0019]对所述麦克风信号进行时频变换,得到多通道的频域信号;
[0020]基于所述多通道的频域信号,生成多个不同方向上的固定波束作为各波束。
[0021]根据本专利技术提供的一种语音识别方法,所述基于所述麦克风信号中各波束之间的相关度,确定所述麦克风信号的目标波束,基于所述麦克风信号中的噪声信号,对所述目标波束进行降噪,得到增强目标信号,包括:
[0022]基于语音增强模块,应用麦克风信号中各波束之间的相关度,确定所述麦克风信号的目标波束,并应用所述麦克风信号中的噪声信号,对所述目标波束进行降噪,得到增强目标信号;
[0023]所述对所述增强目标信号进行语音识别,包括:
[0024]基于语音识别模块,对所述增强目标信号进行语音识别;
[0025]所述语音增强模块和所述语音识别模块构成一体化模型,所述一体化模型基于样本麦克风信号和所述样本麦克风信号的识别文本训练得到。
[0026]根据本专利技术提供的一种语音识别方法,所述一体化模型基于样本麦克风信号、所述样本麦克风信号的识别文本,以及所述样本麦克风信号的目标波束和/或噪声信号训练得到。
[0027]本专利技术还提供一种语音识别装置,包括:
[0028]获取单元,用于获取麦克风信号;
[0029]波束成形单元,用于基于所述麦克风信号中各波束之间的相关度,确定所述麦克风信号的目标波束,基于所述麦克风信号中的噪声信号,对所述目标波束进行降噪,得到增强目标信号;
[0030]识别单元,用于对所述增强目标信号进行语音识别。
[0031]本专利技术还提供一种电子设备,包括麦克风、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;
[0032]所述麦克风用于采集麦克风信号;
[0033]所述处理器执行所述程序时实现基于所述麦克风信号中各波束之间的相关度,确定所述麦克风信号的目标波束,基于所述麦克风信号中的噪声信号,对所述目标波束进行降噪,得到增强目标信号;对所述增强目标信号进行语音识别。
[0034]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
[0035]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
[0036]本专利技术提供的语音识别方法、装置、电子设备和存储介质,基于麦克风信号中各波束之间的相关度,确定麦克风信号的目标波束,并应用降噪后的目标波束进行语音识别,由于波束成形时充分参考了各波束之间共性和差异性,由此获取到更加准确可靠的目标波束,进而保证基于此实现的语音识别的准确性和可靠性。
附图说明
[0037]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一
些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1是本专利技术提供的语音识别方法的流程示意图之一;
[0039]图2是本专利技术提供的广义旁瓣相消器的结构示意图;
[0040]图3是本专利技术提供的语音识别方法的流程示意图之二;
[0041]图4是本专利技术提供的语音识别装置的结构示意图;
[0042]图5是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0043]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0044]远场语音识别是一个典型的低信噪比场景,当目标声源距离拾声器较远时,接收到的目标声源信号在传输过程中逐渐衰减,加上周围环境嘈杂,干扰声源信号众多,导致最终拾声器收录的语音信号信噪比较低,识别结果较差。远场语音识别通常是指人距离麦克风3米到5米处讲话,常见的场景有会议室、车载场景、智能家居等。
[0045]在远场语音识别中,一般使用麦克风阵列作为拾声器,引入麦克风阵列技术将目标语音信号提取出来,从而提升其识别的准确率。麦克风阵列由一组按一定几何结构(常用线形、环形本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取麦克风信号;基于所述麦克风信号中各波束之间的相关度,确定所述麦克风信号的目标波束,基于所述麦克风信号中的噪声信号,对所述目标波束进行降噪,得到增强目标信号;对所述增强目标信号进行语音识别。2.根据权利要求1所述的语音识别方法,其特征在于,所述基于所述麦克风信号中各波束之间的相关度,确定所述麦克风信号的目标波束,包括:基于所述各波束之间的相关度,确定所述各波束的重要度;基于所述各波束的重要度,对所述各波束进行加权求和,得到所述目标波束。3.根据权利要求2所述的语音识别方法,其特征在于,所述噪声信号的确定步骤包括:基于所述重要度最高的波束,确定波达方向;基于所述目标波束和所述波达方向,对所述麦克风信号进行噪声估计,得到所述麦克风信号的噪声信号。4.根据权利要求1所述的语音识别方法,其特征在于,所述对所述增强目标信号进行语音识别,包括:基于所述噪声信号,对所述增强目标信号进行语音识别。5.根据权利要求1所述的语音识别方法,其特征在于,所述麦克风信号中的各波束的确定步骤包括:对所述麦克风信号进行时频变换,得到多通道的频域信号;基于所述多通道的频域信号,生成多个不同方向上的固定波束作为各波束。6.根据权利要求1至5中任一项所述的语音识别方法,其特征在于,所述基于所述麦克风信号中各波束之间的相关度,确定所述麦克风信号的目标波束,基于所述麦克风信号中的噪声信号,对所述目标波束进行降噪,得到增强目标信号,包括:基于语音增强模块,应用麦克风信号中各波束...

【专利技术属性】
技术研发人员:柴丽
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1