语音处理方法技术

技术编号:39426183 阅读:7 留言:0更新日期:2023-11-19 16:12
本申请公开了一种语音处理方法,其特征在于,该方法包括:获取通话语音的初始语音特征;将所述初始语音特征输入至预先训练的语音增强模型,得到所述语音增强模型输出的目标语音特征,所述语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到;根据所述目标语音特征,计算出去除噪声和混响的目标语音

【技术实现步骤摘要】
语音处理方法、装置、存储介质及计算机设备


[0001]本申请涉及语音识别
,更具体地,涉及一种语音处理方法

装置

存储介质及计算机设备


技术介绍

[0002]语音增强
(Speech Enhancement)
其本质就是语音降噪,日常生活中,麦克风采集的语音通常是带有不同噪声的“污染”语音,语音增强的主要目的就是从这些被“污染”的带噪语音中恢复出我们想要的干净语音,从而有效抑制各种干扰信号,增强目标语音信号,这样不仅可以提高语音话音质量,还有助于提高语音识别的性能

[0003]语音增强的应用领域包括视频会议和语音识别等,是许多语音编码和识别系统的预处理模块,通常可以分为近场语音增强和远场语音增强

在复杂的语音采集环境下,由于噪声和混响会同时存在,现有的语音增强采用基于两级网络的降噪去混响方案,然而,该两级网络较大的计算量使得语音增强无法满足实际应用的性能需求


技术实现思路

[0004]本申请实施例提供一种语音处理方法

装置

存储介质以及计算机设备

旨在提升语音增强的性能

[0005]一方面,本申请实施例提供一种语音处理方法,该方法包括:获取通话语音的初始语音特征;将初始语音特征输入至预先训练的语音增强模型,得到语音增强模型输出的目标语音特征,语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到;根据目标语音特征,计算出去除噪声和混响的目标语音

[0006]另一方面,本申请实施例还提供一种语音处理装置,该装置包括:获取模块,用于获取通话语音的初始语音特征;增强模块,用于将初始语音特征输入至预先训练的语音增强模型,得到语音增强模型输出的目标语音特征,语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到;计算模型,用于根据目标语音特征,计算出去除噪声和混响的目标语音

[0007]另一方面,本申请实施例还提供一种计算机设备,该计算机设备包括处理器以及存储器,存储器存储有计算机程序指令,计算机程序指令被处理器调用时执行上述的语音处理方法

[0008]另一方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有程序代码,其中,在所述程序代码被处理器运行时执行上述的语音处理方法

[0009]另一方面,本申请实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在存储介质中

计算机设备的处理器从存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机执行上述语音处理方法中的步骤

[0010]本申请提供的一种语音处理方法,可以获取通话语音的初始语音特征,并将初始
语音特征输入至预先训练的语音增强模型,得到语音增强模型输出的目标语音特征,该语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到,进一步地,根据目标语音特征,计算出去除噪声和混响的目标语音

如此,通过两种不同的损失函数对预先设置的语音增强模型进行模型训练,引导模型高效地对语音特征中的噪声和混响进行去除,在降低模型计算资源的同时,提高语音增强的性能

附图说明
[0011]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0012]图1示出了本申请实施例提供的一种常用降噪和去混响的方法示意图

[0013]图2示出了本申请实施例提供的一种语音处理系统的架构示意图

[0014]图3示出了本申请实施例提供的一种语音处理方法的流程示意图

[0015]图4示出了本申请实施例提供的一种语音处理方法的应用场景示意图

[0016]图5示出了本申请实施例提供的一种语音增强模型的架构示意图

[0017]图6示出了本申请实施例提供的另一种语音处理方法的流程示意图

[0018]图7示出了本申请实施例提供的一种语音特征提取的流程示意图

[0019]图8示出了本申请实施例提供的一种预设增强网络的架构示意图

[0020]图9示出了本申请实施例提供的一种语音处理装置的模块框图

[0021]图
10
是本申请实施例提供的一种计算机设备的模块框图

[0022]图
11
是本申请实施例提供的一种计算机可读存储介质的模块框图

具体实施方式
[0023]下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件

下面通过参考附图描述的实施方式是示例性地,仅用于解释本申请,而不能理解为对本申请的限制

[0024]为了使本
的人员更好地理解本申请的方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚

完整的描述

显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例

基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围

[0025]日常生活中,经常会遇到在噪声干扰下进行语音通信的问题

例如在汽车

火车上使用移动电话,环境的喧闹声,以及多人视频会议时麦克风采集的带有噪声的远端语音等,因此需要借助语音增强技术从带噪语音信号中提取尽可能纯净的原始语音

根据通话场景的不同,用户利用客户端进行的通话类型可以包括近端通话和远端通话,但客户端的近端通话只适合单人或者人数较少的近距离通话,且音视频体验一般

[0026]为了提升用户体验,工业上侧重于研究大屏通信设备下的远端通话

然而,远端通话由于通话距离更远,信噪比更低,且通话语音通常伴有噪声和混响,所以需要利用性能更好的远场语音增强来对通话语音进行降噪去混响

目前,业内主流的语音增强方案通常采
用两个模型分别进行降噪和去混响,请参阅图1,图1示出了常用的降噪和去混响的两种方案,包括先降噪后去混响和先去混响后降噪

[0027]例如,将麦克风阵列分为不同子集,每个子集通过第一级的语音增强网络,得到每个麦克风增强后的语音,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语音处理方法,其特征在于,所述方法包括:获取通话语音的初始语音特征;将所述初始语音特征输入至预先训练的语音增强模型,得到所述语音增强模型输出的目标语音特征,所述语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到;根据所述目标语音特征,计算出去除噪声和混响的目标语音
。2.
根据权利要求1所述的方法,其特征在于,所述语音增强模型通过如下步骤训练得到:获取训练样本集合,所述训练样本集合包括噪声语音特征

干净语音标签

噪声语音标签以及深度聚类标注;获取预设增强网络,所述预设增强网络包括隐藏层

深度聚类层以及掩码推断层;通过所述训练样本集合对预设增强网络分步进行噪声去除训练以及混响去除训练,直至所述预设增强网络满足预设条件,得到训练后的目标增强网络作为所述语音增强模型
。3.
根据权利要求2所述的方法,其特征在于,所述掩码推断层包括语音掩码推断层以及噪声掩码推断层,所述通过所述训练样本集合对预设增强网络分步进行噪声去除训练以及混响去除训练,直至所述预设增强网络满足预设条件,包括:将所述噪声语音特征输入所述隐藏层,通过所述隐藏层生成中间训练特征;将所述中间训练特征输入所述深度聚类层,通过所述深度聚类层生成聚类训练标注;将所述中间训练特征输入所述语音掩码推断层,通过所述语音掩码推断层生成干净语音训练特征;将所述中间训练特征输入所述噪声掩码推断层,通过所述噪声掩码推断层生成噪声语音训练特征;根据所述干净语音标签

所述噪声语音标签

所述深度聚类标注

所述干净语音训练特征

所述噪声语音训练特征以及所述聚类训练标注构建目标损失函数,并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练,直至所述预设增强网络满足预设条件
。4.
根据权利要求3所述的方法,其特征在于,所述根据所述干净语音标签

所述噪声语音标签

所述深度聚类标注

所述干净语音训练特征

所述噪声语音训练特征以及所述聚类训练标注构建目标损失函数,并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练,直至所述预设增强网络满足预设条件,包括:根据所述聚类训练标注和所述深度聚类标注,确定第一损失函数;根据所述干净语音训练特征和所述干净语音标签,确定第二损失函数;根据所述噪声语音训练特征和所述噪声语音标签,确定第三损失函数;根据所述第一损失函数,所述第二损失函数和所述第三损失函数,构建所述预设增强网络的目标损失函数,并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练,直至所述预设增强网络满足预设条件
。5.
根据权利要求4所述的方法,其特征在于,所述干净语音标签包括第一干净语音标签,所述根据所述干净语音训练特征和所述干净语音标签,确定第二损失函数,包括:根据所述干净语音训练特征和所述第一干净语音标签,确定噪声去除损失函数;
将所述噪声去除损失函数作为第二损失函数,所述第一干净语音标签为基于不带噪声带混响的语音获取的语音标签
。6.
根据权利要求4所述的方法,其特征在于,所述干净语音标签包括第二干净语音标签,所述根据所述干净语音训练特征和所述干净语音标签,确定第二损失函数,包括:根据所述干净语音训练特征和所述第二干净语音标签,确定混响去除损失函数;将所述混响去除损失函数作为第二损失函数,所述第二干净语音标签为基于不带噪声不带混响的语音获取的语音标签
。7.
根据权利要求5或6所述的方法,其特征在于,所述根据所述第一损失函数,所述第二损失函数和所述第三损失函数,构建所述预设增强网络的目标损失函数,并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练,直至所述预设增强网络满足预设条件,包括:获取应用场景属性;根据所述应用场景属性确定对应的分布训练策略;基于所述分布训练策略,根据所述第一损失函数,所述第二损失函数和所述第三损失函数,构建所述预设增强网络的目标损失函数,并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练,直至所述预设增强网络满足预设条件
。8.
根据权利要求7所述的方法,其特征在于,所述分布训练策略包括第一分布训练策略,所述基于所述分布训练策略,根据所述第一损失函数,所述第二损失函数和所...

【专利技术属性】
技术研发人员:黄俊王燕南
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1