语音增强方法、装置及设备制造方法及图纸

技术编号:36073067 阅读:15 留言:0更新日期:2022-12-24 10:43
本申请公开了提供的语音增强方法、语音增强模型构建方法和会议设备。其中,语音增强方法通过构建基于听觉感知启发的神经网络结构的语音增强模型;采集声音信号;获取所述声音信号的经过频带压缩的高频信号;通过所述模型,根据所述声音信号的未压缩频带的低频信号和经过频带压缩的高频信号,获取频域上的复数理想比值掩蔽;根据所述掩蔽和所述声音信号,获取语音增强信号。采用这种方式,使得引用听觉感知启发的频带压缩处理,频带不均匀分布,这样在不损失效果性能(语音辨识度)的前提下,可以有效减少神经网络参数量,达到网络模型参数小,计算量小,更适用于实时语音通信,尤其是硬件资源有限的设备上。硬件资源有限的设备上。硬件资源有限的设备上。

【技术实现步骤摘要】
语音增强方法、装置及设备
[0001]本申请要求在2022年3月22日提交中国专利局、申请号为202210284720X、专利技术名称为“语音增强方法、装置及设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。


[0002]本申请涉及语音处理
,具体涉及语音增强方法和装置,语音增强模型构建方法和装置,会议终端。

技术介绍

[0003]随着音视频通信系统的普及,不可避免地会碰到各式各样复杂的房间声学环境,尤其是不同空间(房间,会议室)的不同混响,不同类型的环境噪音(稳态噪音,非稳态噪音),实时语音增强技术成为目前行业亟需解决的难题,尤其是在单通道,硬件资源有限的情况下。
[0004]单通道实时语音增强,旨在去除语音中的干扰音频,音视频通信场景下通常包括环境噪音,尤其是非稳态噪音,以及空间里的混响效应,从而提高语音辨识度。相比于传统的单通道语音增强方案,基于深度学习的算法有着更高效的抑制非稳态噪音和去除后混响效应(latereverberation),但代价是神经网络模型过多的参数量与过高的计算复杂度,阻碍了神经网络框架在低资源端侧的部署应用。
[0005]综上所述,基于深度学习的实时语音增强技术已经广泛应用于音视频产品,如何做到低资源、低参数、低计算量仍是行业需攻克的方向。

技术实现思路

[0006]本申请提供语音增强方法,以解决现有技术存在的消耗较多计算资源、且无法应用于低资源设备的问题。本申请另外提供语音增强装置,会议终端。
[0007]本申请提供一种语音增强方法,包括:
[0008]构建基于听觉感知启发的神经网络结构的语音增强模型;所述基于听觉感知启发的神经网络结构是指输入数据包括未压缩频带的低频信号和经过频带压缩的高频信号的神经网络结构;
[0009]采集声音信号;
[0010]获取所述声音信号的经过频带压缩的高频信号;
[0011]通过所述模型,根据所述声音信号的未压缩频带的低频信号和经过频带压缩的高频信号,获取频域上的复数理想比值掩蔽;
[0012]根据所述掩蔽和所述声音信号,获取语音增强信号。
[0013]可选的,所述经过频带压缩的高频信号包括:梅尔滤波器组,Bark滤波器组,等效矩形带宽ERB滤波器组。
[0014]可选的,所述根据所述掩蔽和所述声音信号,获取语音增强信号,包括:
[0015]根据所述掩蔽和所述声音信号,获取第一语音增强信号;
[0016]对所述第一语音增强信号包括的高频信号进行频带扩展处理。
[0017]可选的,还包括:
[0018]将所述声音信号转换为时频域声音信号;
[0019]所述获取所述声音信号的经过频带压缩的高频信号,包括:
[0020]获取所述时频域声音信号的经过频带压缩的高频信号;
[0021]所述通过所述模型,根据所述声音信号的未压缩频带的低频信号和经过频带压缩的高频信号,获取频域上的复数理想比值掩蔽,包括:
[0022]通过所述模型,根据所述时频域声音信号的未压缩频带的低频信号和经过频带压缩的高频信号,获取频域上的复数理想比值掩蔽;
[0023]所述方法还包括:
[0024]将所述语音增强信号转化为时域语音增强信号。
[0025]可选的,所述声音信号包括:单通道声音信号。
[0026]本申请还提供一种语音处理装置,包括:
[0027]模型构建单元,用于构建基于听觉感知启发的神经网络结构的语音增强模型;所述基于听觉感知启发的神经网络结构是指输入数据包括未压缩频带的低频信号和经过频带压缩的高频信号的神经网络结构;
[0028]声音信号采集单元,用于采集声音信号;
[0029]高频信号频带压缩单元,用于获取所述声音信号的经过频带压缩的高频信号;
[0030]模型预测单元,用于通过所述模型,根据所述声音信号的未压缩频带的低频信号和经过频带压缩的高频信号,获取频域上的复数理想比值掩蔽;
[0031]语音增强信号获取单元,用于根据所述掩蔽和所述声音信号,获取语音增强信号。
[0032]可选的,所述语音增强信号获取单元,具体用于根据所述掩蔽和所述声音信号,获取第一语音增强信号;对所述第一语音增强信号包括的高频信号进行频带扩展处理。
[0033]可选的,还包括:
[0034]时频域转换单元,用于将所述声音信号转换为时频域声音信号;
[0035]所述高频信号频带压缩单元,具体用于获取所述时频域声音信号的经过频带压缩的高频信号;
[0036]所述模型预测单元,具体用于通过所述模型,根据所述时频域声音信号的未压缩频带的低频信号和经过频带压缩的高频信号,获取频域上的复数理想比值掩蔽;
[0037]逆向时频域转换单元,用于将所述语音增强信号转化为时域语音增强信号。
[0038]本申请还提供一种会议设备,包括:
[0039]扬声器;
[0040]麦克风阵列;
[0041]处理器;以及
[0042]存储器,用于存储实现上述语音增强方法的程序,该终端通电并通过所述处理器运行该方法的程序。
[0043]本申请还提供一种语音增强模型构建方法,包括:
[0044]获取训练数据集;所述训练数据包括带噪声音信号和语音增强信号,所述带噪声
音信号包括未压缩频带的低频信号和经过频带压缩的高频信号;
[0045]构建语音增强模型的网络结构;
[0046]根据所述训练数据集,对所述语音增强模型的网络参数进行训练。
[0047]本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
[0048]本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
[0049]与现有技术相比,本申请具有以下优点:
[0050]本申请实施例提供的语音增强方法,通过构建基于听觉感知启发的神经网络结构的语音增强模型;所述基于听觉感知启发的神经网络结构是指输入数据包括未压缩频带的低频信号和经过频带压缩的高频信号的神经网络结构;采集声音信号;获取所述声音信号的经过频带压缩的高频信号;通过所述模型,根据所述声音信号的未压缩频带的低频信号和经过频带压缩的高频信号,获取频域上的复数理想比值掩蔽;根据所述掩蔽和所述声音信号,获取语音增强信号。采用这种方式,使得引用听觉感知启发的频带压缩处理,频带不均匀分布,这样在不损失效果性能(语音辨识度)的前提下,可以有效减少神经网络参数量,达到网络模型参数小,计算量小,更适用于实时语音通信,尤其是硬件资源有限的设备上。
附图说明
[0051]图1本申请提供的语音增强方法的实施例的流程示意图;
[0052]图2本申请提供的语音增强方法的实施例的具体流程示意图;
[0053]图3本申请提供的语音增强方法的实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法,其特征在于,包括:构建基于听觉感知启发的神经网络结构的语音增强模型;所述基于听觉感知启发的神经网络结构是指输入数据包括未压缩频带的低频信号和经过频带压缩的高频信号的神经网络结构;采集声音信号;获取所述声音信号的经过频带压缩的高频信号;通过所述模型,根据所述声音信号的未压缩频带的低频信号和经过频带压缩的高频信号,获取频域上的复数理想比值掩蔽;根据所述掩蔽和所述声音信号,获取语音增强信号。2.根据权利要求1所述的方法,其特征在于,所述经过频带压缩的高频信号包括:梅尔滤波器组,Bark滤波器组,等效矩形带宽ERB滤波器组。3.根据权利要求1所述的方法,其特征在于,所述根据所述掩蔽和所述声音信号,获取语音增强信号,包括:根据所述掩蔽和所述声音信号,获取第一语音增强信号;对所述第一语音增强信号包括的高频信号进行频带扩展处理。4.根据权利要求1所述的方法,其特征在于,还包括:将所述声音信号转换为时频域声音信号;所述获取所述声音信号的经过频带压缩的高频信号,包括:获取所述时频域声音信号的经过频带压缩的高频信号;所述通过所述模型,根据所述声音信号的未压缩频带的低频信号和经过频带压缩的高频信号,获取频域上的复数理想比值掩蔽,包括:通过所述模型,根据所述时频域声音信号的未压缩频带的低频信号和经过频带压缩的高频信号,获取频域上的复数理想比值掩蔽;所述方法还包括:将所述语音增强信号转化为时域语音增强信号。5.根据权利要求1所述的方法,其特征在于,所述声音信号包括:单通道声音信号。6.一种语音处理装置,其特征在于,包括:模型构建单元,用于构建基于听觉感知启发的神经网络结构的语音增强模型;所述基于听觉感知启发的...

【专利技术属性】
技术研发人员:熊飞飞冯津伟
申请(专利权)人:钉钉中国信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1