语音降噪的模型训练方法、语音降噪方法、装置及介质制造方法及图纸

技术编号：35007595 阅读：33 留言：0更新日期：2022-09-21 14:58

本申请公开了一种语音降噪的模型训练方法、语音降噪方法、装置及介质，属于语音编解码技术领域。该方法包括对预先获取的纯净语音与噪声进行声音混合，获取混合语音；对纯净语音与混合语音进行特征提取，获取理想子带增益与混合语音对应的倒谱系数；以及利用理想子带增益与倒谱系数对预设的神经网络进行训练，获取语音降噪模型。本申请提供一种语音降噪模型，通过将该语音降噪模型插入蓝牙编码器中，在编码过程中实现语音降噪的目的；在语音降噪的过程中，利用蓝牙编码器自身的时频转换模块获取谱系数，再进行后续的降噪步骤，使得本方案的降噪过程达到节省码率、减少系统的运算量、加快编码效率的效果。快编码效率的效果。快编码效率的效果。

全部详细技术资料下载

【技术实现步骤摘要】
语音降噪的模型训练方法、语音降噪方法、装置及介质

[0001]本申请涉及语音编解码
，特别涉及一种语音降噪的模型训练方法、语音降噪方法、装置及介质。

技术介绍

[0002]由于在蓝牙语音通信的过程中需要对语音信息进行降噪，以提高语音通信的音质与用户体验效果；在相关技术中，存在三种降噪方式，方法一：使用谱减法对语音信息进行降噪处理，其具体的实施方案为通过傅里叶变换对语音信息进行时频变换，将时域的语音信息转换为频域数据；在频域对数据进行噪声估计与消除，即在静音或纯噪声状态下，基于频谱系数估计噪声谱，并将噪声谱减去，得到更新的谱系数；再通过傅里叶逆变换转回时域；最后通过重叠相加的方式获得平滑的降噪语音信息，并将其输出。
[0003]方法二：在文献
‘
A Regression Approach to Speech Enhancement Based on Deep Neural Networks，Yong Xu,Jun Du,Li
‑
Rong Dai,and Chin
‑
Hui Lee
’
中，其基于深度神经网络DNN实现了降噪效果，此算法使用信号的幅度谱作为特征，以此学习带噪语音与纯净语音间的非线性映射关系，其降噪效果要明显优于传统的谱减法。
[0004]方法三：在文献
‘
A Hybrid DSP Deep Learning Approach to Real
‑
Time Full
‑/>Band Speech Enhancement,Jean
‑
Marc Valin
’
中，提出了一种更高效的基于循环神经网络RNN的降噪方法，基于循环神经网络可以有效地利用音频相邻帧之间的相关性，而且使用基于Bark子带的特征提取，将一帧信号的谱系数划分为22个子带，极大的降低了特征的数量，相应的降低了神经网络的复杂度。
[0005]然而，方法一的谱减法虽然对存在平稳噪声的语音数据具有很好的降噪效果，但却对存在非平稳噪声的语音数据无能为力。方法二的基于深度神经网络DNN的方法的不足之处在于，特征提取以频点为单位进行计算，使用了三层深度神经网络。语音信号的每一帧进行DFT(离散傅里叶变换)后被分为1024个频点，各频点对应的幅值被用作神经网络的输入特征。网络中的每个隐含层包含2048个节点，需要超过一千万个权重值。不仅需要占用很大的存储空间，而且运算量很大，较难部署在低功耗蓝牙设备。方法三的不足之处在于其时频变换的方式依旧是利用快速傅里叶变换与快速傅里叶逆变换，该方式的运算量与存储量都比较大不利于在低功耗嵌入式设备部署，并且该方式中对基因频率的分析与滤波、循环神经网络过程中均使得系统的复杂度提升。
[0006]基于上述的降噪方式，将其应用在蓝牙语音通信中时，典型的用法如图1所示，即是在音频编码前加入噪声消除的模块，先执行噪声消除，再进行音频编码，并通过蓝牙发射器发射出去，蓝牙接收器接收音频数据，并执行解码播放。
[0007]但是，上述几种方法共有的缺点是会增加系统端到端的延时，为了使得降噪后的语音帧与帧之间的数据比较平滑，上述噪声消除方法都采用了重叠相加法，以帧长10ms为例，其造成的算法延时也在10ms左右；然而，无论是经典蓝牙还是低功耗蓝牙，对于延迟的要求都比较高，上述增加的延时使得此方法在很多场景降低了用户体验，如直播、游戏等。

技术实现思路

[0008]本申请主要提供一种语音降噪的模型训练方法、语音降噪方法、装置及介质，用以解决现有技术存在的运算量大、存储量大以及增加系统端到端的延迟，使得用户体验降低的问题。
[0009]为了实现上述目的，本申请采用的一个技术方案是：提供一种语音降噪的模型训练方法，其包括：对预先获取的纯净语音与噪声进行声音混合，获取混合语音；对纯净语音与混合语音进行特征提取，获取理想子带增益与混合语音对应的倒谱系数；以及利用理想子带增益与倒谱系数对预设的神经网络进行训练，获取语音降噪模型。
[0010]本申请采用的另一个技术方案是：提供一种语音降噪方法，其包括：根据蓝牙发射端自身的编码器对蓝牙发射端采集到的语音信息进行特征提取，获取语音信息对应频域的语音谱系数；将语音谱系数输入预训练的语音降噪模型中，输出语音特征对应的降噪子带增益，其中语音降噪模型的预训练过程包括，对预先获取的纯净语音与噪声进行声音混合，获取混合语音，对纯净语音与混合语音进行特征提取，获取理想子带增益与混合语音对应的倒谱系数，利用理想子带增益与倒谱系数对预设的神经网络进行训练，获取语音降噪模型；根据降噪子带增益与语音谱系数计算语音信息对应的降噪谱系数；利用编码器对降噪谱系数进行剩余的编码步骤并发送至蓝牙接收端，利用蓝牙接收端对编码器输出的码流进行解码，获取降噪谱系数对应的降噪语音，其中蓝牙发射端与蓝牙接收端进行蓝牙连接。
[0011]本申请采用的另一个技术方案是：提供一种语音降噪装置，其包括：第一特征提取模块，其用于根据蓝牙发射端自身的编码器对蓝牙发射端采集到的语音信息进行特征提取，获取语音信息对应频域的语音谱系数；语音降噪模块，其用于将语音谱系数输入预训练的语音降噪模型中，输出语音特征对应的降噪子带增益，其中语音降噪模型的预训练过程包括，混合语音获取模块，其用于对预先获取的纯净语音与噪声进行声音混合，获取混合语音，第二特征提取模块，其用于对纯净语音与混合语音进行特征提取，获取理想子带增益与混合语音对应的倒谱系数，模型训练模块，其用于利用理想子带增益与倒谱系数对预设的神经网络进行训练，获取语音降噪模型；以及降噪谱系数获取模块，其用于根据降噪子带增益与语音谱系数计算语音信息对应的降噪谱系数；后续编解码模块，其用于利用编码器对降噪谱系数进行剩余的编码步骤并发送至蓝牙接收端，利用蓝牙接收端对编码器输出的码流进行解码，获取降噪谱系数对应的降噪语音，其中蓝牙发射端与蓝牙接收端进行蓝牙连接。
[0012]本申请采用的另一个技术方案是：提供一种计算机设备，其包括：至少一个处理器；以及与至少一个处理器进行通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的计算机指令，至少一个处理器操作计算机指令以执行方案一中的语音降噪的模型训练方法或方案三中的语音降噪方法。
[0013]本申请采用的另一个技术方案是：提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被操作以执行方案一中的语音降噪的模型训练方法或方案三中的语音降噪方法。
[0014]本申请的技术方案可以达到的有益效果是：本申请提供一种语音降噪模型，通过将该语音降噪模型插入蓝牙编码器中，在编码过程中实现语音降噪的目的；在语音降噪的过程中，利用蓝牙编码器自身的时频转换模块获取谱系数，再进行后续的降噪步骤，使得本
方案的降噪过程在不增加算法延迟的情况下，达到节省码率、减少系统的运算量、加快编码效率的效果。
附图说明
[0015]为了更清楚地说明本申请实施本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音降噪的模型训练方法，其特征在于，包括：对预先获取的纯净语音与噪声进行声音混合，获取混合语音；对所述纯净语音与所述混合语音进行特征提取，获取理想子带增益与所述混合语音对应的倒谱系数；以及利用所述理想子带增益与所述倒谱系数对预设的神经网络进行训练，获取语音降噪模型。2.根据权利要求1所述的语音降噪的模型训练方法，其特征在于，所述对预先获取的纯净语音与噪声进行声音混合，获取混合语音，进一步包括：将所述纯净语音中的单帧纯净语音与所述噪声中的单帧噪声相加，获取单帧混合语音，其中所述混合语音包括单帧混合语音。3.根据权利要求1所述的语音降噪的模型训练方法，其特征在于，所述对所述纯净语音与所述混合语音进行特征提取，获取理想子带增益与所述混合语音对应的倒谱系数，进一步包括：根据LC3编码器中自身的低延迟改进型离散余弦变换模块，对所述纯净语音与所述混合语音分别进行变换，获取所述纯净语音对应的纯净谱系数与所述混合语音对应的混合谱系数；分别对所述纯净谱系数与所述混合谱系数进行子带划分，并计算所述子带的子带能量，其中所述子带能量包括纯净子带能量与混合子带能量；根据所述纯净子带能量与所述混合子带能量，计算获取所述理想子带增益。4.根据权利要求3所述的语音降噪的模型训练方法，其特征在于，所述对所述纯净语音与所述混合语音进行特征提取，获取理想子带增益与所述混合语音对应的倒谱系数，还包括：对所述混合子带能量进行对数变换获取所述混合子带能量对应的能量对数；将所述能量对数进行离散余弦变换获取所述倒谱系数。5.根据权利要求3或4所述的语音降噪的模型训练方法，其特征在于，所述分别对所述纯净谱系数与所述混合谱系数进行子带划分，并计算所述子带的子带能量，进一步包括：根据预设频率分别对所述纯净谱系数与所述混合谱系数进行子带划分，获取所述纯净谱系数对应的多个纯净子带谱系数与所述混合谱系数对应的多个混合子带谱系数；分别计算所述纯净子带谱系数与所述混合子带谱系数对应的伪谱系数，其中所述伪谱系数包括所述纯净子带谱系数对应的纯净子带伪谱系数与所述混合子带谱系数对应的混合子带伪谱系数；根据所述伪谱系数分别计算所述纯净子带能量与所述混合子带能量。6.根据权利要求3或4所述的语音降噪的模型训练方法，其特征在于，所述利用所述理想子带增益与所述倒谱系数对预设的神经网络进行训练，获取语音降噪模型，进一步包括：将所述倒谱系数输入所述神经网络模型中，获取所述倒谱系数对应的降噪子带增益；计算所述降噪子带增益与所述理想子带增益之间的第N损失函数；若所述第N损失函数小于或等于预设损失阈值，则将所述神经网络模型确定为所述语音降噪模型；若所述第N损失函数大于预设损失阈值，则对所述神经网络模型中的相关参数进行调
整，获取所述语音降噪模型。7.根据权利要求6所述...

【专利技术属性】
技术研发人员：李强，王尧，叶东翔，朱勇，
申请(专利权)人：北京百瑞互联技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人