语音增强方法、模型训练方法以及相关设备技术

技术编号：31456307 阅读：22 留言：0更新日期：2021-12-18 11:22

本公开提供一种语音增强方法、模型训练方法以及相关设备。语音增强模型包括语音预测神经网络模块、噪声估计神经网络模块以及线性滤波模块，模型训练方法包括：获取训练集中各语音对的带噪语音幅度谱以及纯净语音幅度谱；根据带噪语音幅度谱获得第一特征集以及第二特征集；将第一特征集输入语音预测神经网络模块，以输出第一准估计纯净语音幅度谱以及预测误差；将第二特征集输入噪声估计神经网络模块，以输出估计噪声能量；将第一准估计纯净语音幅度谱、预测误差、估计噪声能量输入线性滤波模块，线性滤波模块用于输出估计纯净语音幅度谱；根据纯净语音幅度谱以及估计纯净语音幅度谱计算模型损失，以训练语音增强模型。本公开实现语音增强的优化。开实现语音增强的优化。开实现语音增强的优化。

全部详细技术资料下载

【技术实现步骤摘要】
语音增强方法、模型训练方法以及相关设备

[0001]本公开涉及互联网
，具体地说，涉及一种语音增强方法、模型训练方法以及相关设备。

技术介绍

[0002]随着语音识别技术的高速发展，语音识别技术已被应用于智能硬件、智能电话客服等多种场景，因为其识别结果准确性与工作效率和用户交互体验息息相关，人们对语音识别的效果的要求也越来越高。目前，由于语音识别的应用场景基本都与用户日常生活需求和工作需求有关，无法保证输入语音信号是纯净、无噪音的语音，导致在识别一些背景环境有噪音的语音时，噪音干扰了语音信号的质量，导致识别结果不准确，影响了用户在人机交互、音频文字转写的过程中的效率。因此，针对解决复杂噪声环境中的音频噪音干扰的语音增强技术成为了语音识别技术中的关键部分。
[0003]语音增强技术目的是对包含噪音的语音进行处理，并输出处理后的纯净语音音频。其主要手段可分为两大类：基于信号处理的线性滤波方法，如维纳滤波、卡尔曼滤波、基于最小均方误差的滤波器等；和基于机器学习的方法，如基于递归神经网络、基于卷积神经网络，基于卷积r/>‑
递本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音增强模型训练方法，其特征在于，所述语音增强模型包括语音预测神经网络模块、噪声估计神经网络模块以及线性滤波模块，所述语音增强模型训练方法，包括：获取语音训练集中各语音对的带噪语音幅度谱以及纯净语音幅度谱，所述语音对包括关联的纯净语音信号以及带噪语音信号；根据所述带噪语音幅度谱获得第一特征集以及第二特征集；将所述第一特征集输入所述语音预测神经网络模块，所述语音预测神经网络模块用于输出第一准估计纯净语音幅度谱以及预测误差；将所述第二特征集输入所述噪声估计神经网络模块，所述噪声估计神经网络模块用于输出估计噪声能量；将所述语音预测神经网络模块输出的第一准估计纯净语音幅度谱以及预测误差、所述噪声估计神经网络模块输出的估计噪声能量输入所述线性滤波模块，所述线性滤波模块用于输出估计纯净语音幅度谱；根据所述纯净语音幅度谱以及所述估计纯净语音幅度谱计算模型损失，并根据模型损失训练所述语音增强模型。2.如权利要求1所述的语音增强模型训练方法，其特征在于，所述获取语音训练集中各语音对的带噪语音幅度谱以及纯净语音幅度谱包括：对所述语音对的纯净语音信号执行时域到频域的变换步骤；对所述语音对的带噪语音信号执行时域到频域的变换步骤，所述时域到频域的变换步骤包括：对待处理语音信号进行分帧；对所述待处理语音信号的各帧进行傅里叶变换，获得各帧的帧傅里叶谱；按时间轴拼接所述待处理语音信号的各帧的帧傅里叶谱，获得所述待处理语音信号的傅里叶谱；基于所述待处理语音信号的傅里叶谱的各频点的幅度，生成所述待处理语音信号的幅度谱。3.如权利要求1所述的语音增强模型训练方法，其特征在于，所述语音预测神经网络模块为时间序列神经网络模型，所述第一特征集为多个连续帧的噪声幅度谱序列，所述语音预测神经网络模块输出的所述第一准估计纯净语音幅度谱为与所述噪声幅度谱序列具有相同维度的第一准估计纯净语音幅度谱序列，所述语音预测神经网络模块输出的所述预测误差为与所述噪声幅度谱序列具有相同维度的预测误差序列。4.如权利要求1所述的语音增强模型训练方法，其特征在于，所述噪声估计神经网络模块为多层全连接网络模型，所述第二特征集包括当前帧以及当前帧的领域窗口的带噪语音幅度谱。5.如权利要求1所述的语音增强模型训练方法，其特征在于，所述线性滤波模块包括维纳滤波模块、卡尔曼增益计算模块以及线性组合模块，所述维纳滤波模块用于根据所述噪声估计神经网络模块输出的估计噪声能量以及所述第二特征集，输出纯净语音幅度谱的维纳滤波解，作为第二准估计纯净语音幅度谱；所述卡尔曼增益计算模块用于根据所述语音预测神经网络模块输出的预测误差以及
所述噪声估计神经网络模块输出的估计噪声能量，输出最优卡尔曼增益G；所述线性组合模块用于根据所述最优卡尔曼增益G，计算所述语音预测神经网络模块输出的第一准估计纯净语音幅度谱以及所述第二准估计纯净语音幅度谱的线性组合结果，作为所述估计纯净语音幅度谱。6.如权利要求5所述的语音增强模型训练方法，其特征在于，根据所述最优卡尔曼增益G，计算所述语音预测神经网络模块输出的第一准估计纯净语音幅度谱以及所述第二准估计纯净语音幅度谱的线性组合结果，作为所述估计纯净语音幅度谱包括：将(1

【专利技术属性】
技术研发人员：雪巍，蔡玉玉，吴俊仪，全刚，张超，杨帆，丁国宏，何晓冬，
申请(专利权)人：北京京东世纪贸易有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人