语音降噪模型的训练方法、语音降噪方法和相关设备技术

技术编号：32349729 阅读：14 留言：0更新日期：2022-02-20 02:14

本申请提供了一种语音降噪模型的训练方法、语音降噪方法和相关设备，首先获取带噪语音和干净语音，然后将带噪语音和干净语音作为训练样本输入神经网络进行模型训练。带噪语音经过神经网络处理为第一降噪语音，基于第一降噪语音和干净语音计算得到第一损失值，基于降噪语音的第一降噪实部频域、第一降噪虚部频域与干净语音的干净实部频域、干净虚部频域计算得到第二损失值；通过第一损失值和第二损失值加权计算后的损失值总和对神经网络的参数进行优化，迭代循环至模型收敛，得到语音降噪模型。本申请通过使用不同类型、不同权值的第一损失值和第二损失值综合对神经网络的参数进行优化，从而有效提升语音降噪模型的降噪效果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
语音降噪模型的训练方法、语音降噪方法和相关设备

[0001]本申请涉及语音降噪
，特别涉及一种语音降噪模型的训练方法、语音降噪方法和相关设备。

技术介绍

[0002]语音降噪技术被广泛应用于耳机、会议室终端、智能终端等场景，现有语音降噪技术通常使用cnn+rnn的网络结构训练得到的降噪模型对带噪语音进行降噪，不仅对应用硬件设备的资源需求较高，且实际降噪效果不如人意。

技术实现思路

[0003]本申请的主要目的为提供一种语音降噪模型的训练方法、语音降噪方法和相关设备，旨在解决现有的语音降噪方法实际降噪效果较差的弊端。
[0004]为实现上述目的，本申请提供了一种语音降噪模型的训练方法，包括：获取带噪语音和干净语音；将所述带噪语音和所述干净语音作为训练样本输入神经网络进行模型训练；模型训练过程中，所述带噪语音经过所述神经网络处理为第一降噪语音，并基于所述第一降噪语音和所述干净语音通过si
‑
snr计算得到第一损失值，基于所述降噪语音的第一降噪实部频域、第一降噪虚部频域与所述干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值；通过所述第一损失值和所述第二损失值加权计算后的损失值总和对所述神经网络的参数进行优化，迭代循环至模型收敛，得到所述语音降噪模型。
[0005]本申请还提供了一种语音降噪方法，包括：采集用户语音；将所述用户语音输入语音降噪模型进行处理，得到第二降噪语音，其中，所述语音降噪模型为如上所述的语音降噪模型的训练方法训练得到的模型。...

【技术保护点】

【技术特征摘要】
1.一种语音降噪模型的训练方法，其特征在于，包括：获取带噪语音和干净语音；将所述带噪语音和所述干净语音作为训练样本输入神经网络进行模型训练；模型训练过程中，所述带噪语音经过所述神经网络处理为第一降噪语音，并基于所述第一降噪语音和所述干净语音通过si
‑
snr计算得到第一损失值，基于所述降噪语音的第一降噪实部频域、第一降噪虚部频域与所述干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值；通过所述第一损失值和所述第二损失值加权计算后的损失值总和对所述神经网络的参数进行优化，迭代循环至模型收敛，得到所述语音降噪模型。2.一种语音降噪方法，其特征在于，包括：采集用户语音；将所述用户语音输入语音降噪模型进行处理，得到第二降噪语音，其中，所述语音降噪模型为权利要求1所述的语音降噪模型的训练方法训练得到的模型。3.根据权利要求2所述的语音降噪方法，其特征在于，所述将所述用户语音输入语音降噪模型进行处理，得到第二降噪语音的步骤，包括：对所述用户语音进行短时傅里叶变换和压缩，得到若干帧音频数据各自对应的音频张量；基于语音时序的相关性，使用预设数量的历史帧音频张量对当前帧初始音频张量进行加权学习，得到当前帧最终音频张量；将所述当前帧最终音频张量映射到预设频率维度，学习得到对应的复掩膜；利用所述复掩膜对所述用户语音进行增强处理，得到第二降噪实部频域和第二降噪虚部频域；根据所述第二降噪实部频域和所述第二降噪虚部频域进行短时傅里叶逆变换，得到所述第二降噪语音。4.根据权利要求3所述的语音降噪方法，其特征在于，所述对所述用户语音进行短时傅里叶变换和压缩，得到若干帧音频数据各自对应的音频张量的步骤，包括：按照预设采样率对所述用户语音进行短时傅里叶变换，并按照预设输入形式设置输入特征，得到所述用户语音包含的各帧音频数据分别对应的初始音频张量；通过二维卷积网络函数对各所述初始音频张量进行压缩，得到一次音频张量；使用reshape方法合并各所述一次音频张量的维度，得到各所述一次音频张量分别对应的二次音频张量；将各所述二次音频张量分别压缩至预设维度，得到各所述音频张量。5.根据权利要求3所述的语音降噪方法，其特征在于，所述基于语音时序的相关性，使用预设数量的历史帧音频张量对当前帧初始音频张量进行加权学习，得到当前帧最终音频张量的步骤，包括：将预设数量具有连续时序性的历史帧音频张量与当前帧初始音频张量进行拼接，得到拼接张量；所述当前帧初始音频张量通过所述拼接张量的权值学习对应维度的权值，并在所述拼接张量对应的维度上进行求和或求均，得到所述当前帧最终音频张量。

【专利技术属性】
技术研发人员：李杰，王广新，杨汉丹，
申请(专利权)人：深圳市友杰智新科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人