语音增强方法、装置及设备制造方法及图纸

技术编号：36073067 阅读：15 留言：0更新日期：2022-12-24 10:43

本申请公开了提供的语音增强方法、语音增强模型构建方法和会议设备。其中，语音增强方法通过构建基于听觉感知启发的神经网络结构的语音增强模型；采集声音信号；获取所述声音信号的经过频带压缩的高频信号；通过所述模型，根据所述声音信号的未压缩频带的低频信号和经过频带压缩的高频信号，获取频域上的复数理想比值掩蔽；根据所述掩蔽和所述声音信号，获取语音增强信号。采用这种方式，使得引用听觉感知启发的频带压缩处理，频带不均匀分布，这样在不损失效果性能(语音辨识度)的前提下，可以有效减少神经网络参数量，达到网络模型参数小，计算量小，更适用于实时语音通信，尤其是硬件资源有限的设备上。硬件资源有限的设备上。硬件资源有限的设备上。

全部详细技术资料下载

【技术实现步骤摘要】
语音增强方法、装置及设备
[0001]本申请要求在2022年3月22日提交中国专利局、申请号为202210284720X、专利技术名称为“语音增强方法、装置及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

[0002]本申请涉及语音处理
，具体涉及语音增强方法和装置，语音增强模型构建方法和装置，会议终端。

技术介绍

[0003]随着音视频通信系统的普及，不可避免地会碰到各式各样复杂的房间声学环境，尤其是不同空间(房间，会议室)的不同混响，不同类型的环境噪音(稳态噪音，非稳态噪音)，实时语音增强技术成为目前行业亟需解决的难题，尤其是在单通道，硬件资源有限的情况下。
[0004]单通道实时语音增强，旨在去除语音中的干扰音频，音视频通信场景下通常包括环境噪音，尤其是非稳态噪音，以及空间里的混响效应，从而提高语音辨识度。相比于传统的单通道语音增强方案，基于深度学习的算法有着更高效的抑制非稳态噪音和去除后混响效应(latereverberation)，但代价是神经网络模型过多的参数量与过高的计算复杂度，阻碍了神经网络框架在低资源端侧的部署应用。
[0005]综上所述，基于深度学习的实时语音增强技术已经广泛应用于音视频产品，如何做到低资源、低参数、低计算量仍是行业需攻克的方向。

技术实现思路

[0006]本申请提供语音增强方法，以解决现有技术存在的消耗较多计算资源、且无法应用于低资源设备的问题。本申请另外提供语音增强装置，会议终端。
[0007]本申请提供一...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法，其特征在于，包括：构建基于听觉感知启发的神经网络结构的语音增强模型；所述基于听觉感知启发的神经网络结构是指输入数据包括未压缩频带的低频信号和经过频带压缩的高频信号的神经网络结构；采集声音信号；获取所述声音信号的经过频带压缩的高频信号；通过所述模型，根据所述声音信号的未压缩频带的低频信号和经过频带压缩的高频信号，获取频域上的复数理想比值掩蔽；根据所述掩蔽和所述声音信号，获取语音增强信号。2.根据权利要求1所述的方法，其特征在于，所述经过频带压缩的高频信号包括：梅尔滤波器组，Bark滤波器组，等效矩形带宽ERB滤波器组。3.根据权利要求1所述的方法，其特征在于，所述根据所述掩蔽和所述声音信号，获取语音增强信号，包括：根据所述掩蔽和所述声音信号，获取第一语音增强信号；对所述第一语音增强信号包括的高频信号进行频带扩展处理。4.根据权利要求1所述的方法，其特征在于，还包括：将所述声音信号转换为时频域声音信号；所述获取所述声音信号的经过频带压缩的高频信号，包括：获取所述时频域声音信号的经过频带压缩的高频信号；所述通过所述模型，根据所述声音信号的未压缩频带的低频信号和经过频带压缩的高频信号，获取频域上的复数理想比值掩蔽，包括：通过所述模型，根据所述时频域声音信号的未压缩频带的低频信号和经过频带压缩的高频信号，获取频域上的复数理想比值掩蔽；所述方法还包括：将所述语音增强信号转化为时域语音增强信号。5.根据权利要求1所述的方法，其特征在于，所述声音信号包括：单通道声音信号。6.一种语音处理装置，其特征在于，包括：模型构建单元，用于构建基于听觉感知启发的神经网络结构的语音增强模型；所述基于听觉感知启发的...

【专利技术属性】
技术研发人员：熊飞飞，冯津伟，
申请(专利权)人：钉钉中国信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人