语音处理方法技术

技术编号：39426183 阅读：7 留言：0更新日期：2023-11-19 16:12

本申请公开了一种语音处理方法，其特征在于，该方法包括：获取通话语音的初始语音特征；将所述初始语音特征输入至预先训练的语音增强模型，得到所述语音增强模型输出的目标语音特征，所述语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到；根据所述目标语音特征，计算出去除噪声和混响的目标语音

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法、装置、存储介质及计算机设备

[0001]本申请涉及语音识别
，更具体地，涉及一种语音处理方法
、
装置
、
存储介质及计算机设备
。

技术介绍

[0002]语音增强
(Speech Enhancement)
其本质就是语音降噪，日常生活中，麦克风采集的语音通常是带有不同噪声的“污染”语音，语音增强的主要目的就是从这些被“污染”的带噪语音中恢复出我们想要的干净语音，从而有效抑制各种干扰信号，增强目标语音信号，这样不仅可以提高语音话音质量，还有助于提高语音识别的性能
。
[0003]语音增强的应用领域包括视频会议和语音识别等，是许多语音编码和识别系统的预处理模块，通常可以分为近场语音增强和远场语音增强
。
在复杂的语音采集环境下，由于噪声和混响会同时存在，现有的语音增强采用基于两级网络的降噪去混响方案，然而，该两级网络较大的计算量使得语音增强无法满足实际应用的性能需求
。

技术实现思路

[0004]本申请实施例提供一种语音处理方法
、
装置
、
存储介质以及计算机设备
。
旨在提升语音增强的性能
。
[0005]一方面，本申请实施例提供一种语音处理方法，该方法包括：获取通话语音的初始语音特征；将初始语音特征输入至预先训练的语音增强模型，得到语音增强模型输出的目标语音特征，语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的...

【技术保护点】

【技术特征摘要】
1.
一种语音处理方法，其特征在于，所述方法包括：获取通话语音的初始语音特征；将所述初始语音特征输入至预先训练的语音增强模型，得到所述语音增强模型输出的目标语音特征，所述语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到；根据所述目标语音特征，计算出去除噪声和混响的目标语音
。2.
根据权利要求1所述的方法，其特征在于，所述语音增强模型通过如下步骤训练得到：获取训练样本集合，所述训练样本集合包括噪声语音特征
、
干净语音标签
、
噪声语音标签以及深度聚类标注；获取预设增强网络，所述预设增强网络包括隐藏层
、
深度聚类层以及掩码推断层；通过所述训练样本集合对预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件，得到训练后的目标增强网络作为所述语音增强模型
。3.
根据权利要求2所述的方法，其特征在于，所述掩码推断层包括语音掩码推断层以及噪声掩码推断层，所述通过所述训练样本集合对预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件，包括：将所述噪声语音特征输入所述隐藏层，通过所述隐藏层生成中间训练特征；将所述中间训练特征输入所述深度聚类层，通过所述深度聚类层生成聚类训练标注；将所述中间训练特征输入所述语音掩码推断层，通过所述语音掩码推断层生成干净语音训练特征；将所述中间训练特征输入所述噪声掩码推断层，通过所述噪声掩码推断层生成噪声语音训练特征；根据所述干净语音标签
、
所述噪声语音标签
、
所述深度聚类标注
、
所述干净语音训练特征
、
所述噪声语音训练特征以及所述聚类训练标注构建目标损失函数，并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件
。4.
根据权利要求3所述的方法，其特征在于，所述根据所述干净语音标签
、
所述噪声语音标签
、
所述深度聚类标注
、
所述干净语音训练特征
、
所述噪声语音训练特征以及所述聚类训练标注构建目标损失函数，并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件，包括：根据所述聚类训练标注和所述深度聚类标注，确定第一损失函数；根据所述干净语音训练特征和所述干净语音标签，确定第二损失函数；根据所述噪声语音训练特征和所述噪声语音标签，确定第三损失函数；根据所述第一损失函数，所述第二损失函数和所述第三损失函数，构建所述预设增强网络的目标损失函数，并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件
。5.
根据权利要求4所述的方法，其特征在于，所述干净语音标签包括第一干净语音标签，所述根据所述干净语音训练特征和所述干净语音标签，确定第二损失函数，包括：根据所述干净语音训练特征和所述第一干净语音标签，确定噪声去除损失函数；
将所述噪声去除损失函数作为第二损失函数，所述第一干净语音标签为基于不带噪声带混响的语音获取的语音标签
。6.
根据权利要求4所述的方法，其特征在于，所述干净语音标签包括第二干净语音标签，所述根据所述干净语音训练特征和所述干净语音标签，确定第二损失函数，包括：根据所述干净语音训练特征和所述第二干净语音标签，确定混响去除损失函数；将所述混响去除损失函数作为第二损失函数，所述第二干净语音标签为基于不带噪声不带混响的语音获取的语音标签
。7.
根据权利要求5或6所述的方法，其特征在于，所述根据所述第一损失函数，所述第二损失函数和所述第三损失函数，构建所述预设增强网络的目标损失函数，并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件，包括：获取应用场景属性；根据所述应用场景属性确定对应的分布训练策略；基于所述分布训练策略，根据所述第一损失函数，所述第二损失函数和所述第三损失函数，构建所述预设增强网络的目标损失函数，并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件
。8.
根据权利要求7所述的方法，其特征在于，所述分布训练策略包括第一分布训练策略，所述基于所述分布训练策略，根据所述第一损失函数，所述第二损失函数和所...

【专利技术属性】
技术研发人员：黄俊，王燕南，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人