语音增强模型的构建方法及系统、语音增强方法及系统技术方案

技术编号：30059508 阅读：21 留言：0更新日期：2021-09-15 11:04

本发明专利技术公开一种语音增强模型的构建方法及系统，还公开一种利用所构建的语音增强模型实现的语音增强方法及系统，其中构建方法包括基于相对应的纯净语音和带噪语音迭代训练语音增强网络的迭代训练步骤，具体为：将带噪语音输入至所述语音增强网络，由所述语音增强网络输出相应的估计语音；计算相对应的纯净语音和估计语音之间的幅度平方相干度；计算所述估计语音的能量谱密度数据；获取预设的听觉滤波器，基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度；基于所述语音清晰度更新所述语音增强网络。本申请基于所述语音清晰度对模型参数进行更新，使训练所得的模型降噪结果更清晰可懂。懂。懂。

全部详细技术资料下载

【技术实现步骤摘要】
语音增强模型的构建方法及系统、语音增强方法及系统

[0001]本专利技术涉及声学
，尤其涉及一种基于人类感知的语音增强技术。

技术介绍

[0002]随着深度学习技术的快速发展，神经网络模型广泛应用于语音降噪场景，如语音增强生成对抗网络SEGAN以及著名的音频处理网络wavenet；但现有基于神经网络的降噪算法对复杂场景下的带噪语音进行降噪时，所得去噪语音的语音可懂度和清晰度较差，尤其在非稳定噪声的情况下，易出现严重的消声现象和非稳定噪声残留，严重影响去噪语音的质量。

技术实现思路

[0003]本专利技术针对现有基于神经网络的降噪算法降噪所得的去噪语音清晰度和可懂度差的缺点，提出一种语音增强模型的构建技术，还提出一种基于所构建的语音增强模型实现的语音增强技术。
[0004]为了解决上述技术问题，本专利技术通过下述技术方案得以解决：一种语音增强模型的构建方法，基于训练样本对迭代训练语音增强网络，获得语音增强模型，所述训练样本对包括相对应的纯净语音和带噪语音，迭代训练包括以下步骤：将带噪语音输入至所述语音增强网络，由所述语音增强网络输出相应的估计语音；计算相对应的纯净语音和估计语音之间的幅度平方相干度；计算所述估计语音的能量谱密度数据；获取预设的听觉滤波器，例如可采用现有已公开的ro
‑
ex filter听觉滤波器。
[0005]基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度；基于所述语音清晰度更新所述语音增强网络。
[...

【技术保护点】

【技术特征摘要】
1.一种语音增强模型的构建方法，其特征在于，基于训练样本对迭代训练语音增强网络，获得语音增强模型，所述训练样本对包括相对应的纯净语音和带噪语音，迭代训练包括以下步骤：将带噪语音输入至所述语音增强网络，由所述语音增强网络输出相应的估计语音；计算相对应的纯净语音和估计语音之间的幅度平方相干度；计算所述估计语音的能量谱密度数据；获取预设的听觉滤波器，基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度；基于所述语音清晰度更新所述语音增强网络。2.根据权利要求1所述的语音增强模型的构建方法，其特征在于：所述估计语音包括若干估计语音帧；所述听觉滤波器设有若干个临界频带；基于所述幅度平方相干度、所述听觉滤波器和能量谱密度数据计算估计语音帧在各临界频带上的信噪比失真率；基于所述信噪比失真率计算各估计语音帧的语音清晰度，获得相应的帧清晰度；基于各帧清晰度生成对应估计语音的语音清晰度。3.根据权利要求2所述的语音增强模型的构建方法，其特征在于，所述信噪比失真率的计算公式为：其中，SDR表示M个估计语音帧分别在j个临界频带上的信噪比失真率，M表示估计语音帧的总帧数，W
j
表示听觉滤波器，表示幅度平方相干度，S
yy
（k）表示能量谱密度数据，K表示频点的总数，k表示频点下标。4.根据权利要求2或3所述的语音增强模型的构建方法，其特征在于：所述纯净语音包括若干纯净语音帧；基于声音分贝值对纯净语音帧进行分组，获得若干个纯净语音帧集，并构建与所述纯净语音帧集相对应的估计语音帧集；基于估计语音帧集中各估计语音帧的帧清晰度，计算所述估计语音帧集所对应的语音清晰度，获得相应的段清晰度；对各段清晰度进行加权计算，获得对应估计语音的语音清晰度。5.根据权利要求4所述的语音增强模型的构建方法，其特征在于：计算各纯净语音帧的短时平均幅度，获得相应的帧幅度数据；基于所述帧幅度数据，计算各纯净语音帧集所对应的整体短时平均幅度，获得段幅度...

【专利技术属性】
技术研发人员：高旭博，
申请(专利权)人：杭州雄迈集成电路技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人