语音增强模型的训练方法和装置及语音增强方法和装置制造方法及图纸

技术编号:31504084 阅读:20 留言:0更新日期:2021-12-22 23:32
本申请涉及语音处理技术领域,提供了一种语音增强模型的训练方法和装置及语音增强方法和装置。所述语音增强模型的训练方法包括:获取语音训练集;其中,语音训练集中包括含噪语音样本和纯净语音样本;获取含噪语音样本对应的幅度谱输入生成网络,获取增强语音幅度谱;获取纯净语音样本对应的幅度谱和增强语音幅度谱输入判别网络,获取判别结果;根据增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果与优化目标调整生成网络和判别网络的网络参数,生成语音增强模型。采用本方法能够提高语音增强模型的性能,进而提升语音增强的效果。果。果。

【技术实现步骤摘要】
语音增强模型的训练方法和装置及语音增强方法和装置


[0001]本申请涉及语音处理
,特别是涉及一种语音增强模型的训练方法和装置及语音增强方法和装置。

技术介绍

[0002]语音作为人类沟通与感知的媒介之一,不论是人与人之间的交流,还是人与机器之间的交互应用都起着不可忽视的作用。然而,实际中用户所感知的大多数语音信号通常是包含有背景噪声和干扰声源的,如在喧嚣的舞会上,用户的交流过程中接收到的声音不仅包括对方说话人的目标语音,还包含舞会现场的背景噪声以及其他说话人的干扰声源,即典型的“鸡尾酒舞会”问题,人耳凭借着其特有的听觉机制,可以清晰地判断出对方说话人的目标语音的内容。
[0003]然而,随着智能语音技术的不断发展,比如智能音箱等人机语音交互设备,需要进行语音增强后进行语音播放或者处理,语音增强通常也称为语音降噪,即从含噪语音中消除噪声信号而不使目标语音信号失真,是一项提升语音质量和可懂度的任务,在语音、音频、声学应用中起着重要的作用。
[0004]相关技术中,传统语音增强方法如谱减法、维纳滤波器法等大多数是通过对噪声进行估计或构建噪声模型来进行语音增强。在常用的谱减法中,通过将含噪信号的功率谱减去估计的噪声信号的功率谱,得到目标语音信号的功率谱,开方后得到目标语音信号的幅度谱估计,将其相位恢复后再采用逆傅里叶变换恢复出目标语音信号的时域波形。
[0005]然而,采用相关技术的方法,由于大多数是对噪声信号进行建模,因此假设背景噪声环境相对目标语音存在区域具有近似平稳性,借此来利用无语音段的噪声谱估计有语音段的噪声谱,此外,还假设了噪声信号与目标语音信号是互不相关的,且在频域上为加性关系。然而在实际应用中,背景噪声信号并不满足这两点假设,因此增强后的语音信号通常具有背景噪声的干扰。

技术实现思路

[0006]基于此,有必要针对上述技术问题,提供了一种语音增强模型的训练方法和装置及语音增强方法和装置。
[0007]本申请实施例提供了一种语音增强模型的训练方法,所述方法包括:
[0008]获取语音训练集;其中,所述语音训练集中包括含噪语音样本和纯净语音样本;
[0009]获取所述含噪语音样本对应的幅度谱输入生成网络,获取增强语音幅度谱;
[0010]获取所述纯净语音样本对应的幅度谱和所述增强语音幅度谱输入判别网络,获取判别结果;
[0011]根据所述增强语音幅度谱、所述纯净语音样本对应的幅度谱、所述判别结果与优化目标调整所述生成网络和所述判别网络的网络参数,生成语音增强模型。
[0012]在一个实施例中,所述方法还包括:
[0013]按照预设时长和采样频率在多个场景下采集第一数量的背景噪声,构建原始背景噪声数据集;
[0014]按照所述时长和所述采样频率在所述多个场景下采集第二数量的用户语音数据,构建真实含噪语音数据集;
[0015]按照所述时长和所述采样频率在无噪声环境下采集第三数量的用户语音数据,构建纯净语音数据集;
[0016]将所述原始背景噪声数据集和所述纯净语音数据进行加性混合,获取生成含噪语音数据集;
[0017]根据所述真实含噪语音数据集、所述纯净语音数据集和所述生成含噪语音数据集,构建语音增强数据集,并按照预设比例将所述语音增强数据集划分为所述语音训练集和语音测试集。
[0018]在一个实施例中,所述获取所述含噪语音样本对应的幅度谱输入生成网络,获取增强语音幅度谱,包括:
[0019]对所述含噪语音样本进行预加重和归一化处理后,获取待训练含噪语音样本;
[0020]通过短时傅里叶变换公式对所述待训练含噪语音样本进行短时傅里叶变换,获取所述含噪语音样本对应的幅度谱;
[0021]将所述含噪语音样本对应的幅度谱分割为预设帧长的幅度谱特征图,对所述幅度谱特征图进行预设次数的卷积处理,获取所述增强语音幅度谱。
[0022]在一个实施例中,所述获取所述纯净语音样本对应的幅度谱和所述增强语音幅度谱输入判别网络,获取判别结果,包括:
[0023]对所述纯净语音样本进行预加重和归一化处理后,获取待训练纯净语音样本;
[0024]通过短时傅里叶变换公式对所述待训练纯净语音样本进行短时傅里叶变换,获取所述纯净语音样本对应的幅度谱;
[0025]根据预设帧长的所述纯净语音样本对应的幅度谱、以及所述增强语音幅度谱构建二维幅度谱特征图;
[0026]对所述二维幅度谱特征图进行预设次数反卷积处理后进入全连接处理,获取目标幅度谱特征图;
[0027]将所述目标幅度谱特征图输入分类函数,得到所述判别结果。
[0028]在一个实施例中,所述根据所述增强语音幅度谱、所述纯净语音样本对应的幅度谱、所述判别结果与优化目标调整所述生成网络和所述判别网络的网络参数,生成语音增强模型,包括:
[0029]获取所述优化目标对应的目标函数;
[0030]基于所述目标函数对所述增强语音幅度谱、所述纯净语音样本对应的幅度谱、所述判别结果进行计算损失函数值;
[0031]根据损失函数值和预设阈值更新所述生成网络的网络参数和所述判别网络的网络参数,直到所述损失函数值小于所述预设阈值时,获取更新参数后的所述生成网络和所述判别网络作为所述语音增强模型。
[0032]本申请实施例提供了一种语音增强方法,所述方法包括:
[0033]接收任一场景下的语音信号;
[0034]对所述语音信号进行语音活性检测,获取待处理语音信号;
[0035]将所述待处理语音信号预处理后进行短时傅里叶变换,获取待处理幅度谱和待处理相位谱;
[0036]将所述待处理幅度谱输入所述语音增强模型获取估计幅度谱;
[0037]根据所述估计幅度谱和所述待处理相位谱进行短时傅里叶逆变换,获取所述增强语音信号并播放。
[0038]本申请实施例提供了一种语音增强模型的训练装置,所述装置包括:
[0039]接收信号模块,用于接收任一场景下的语音信号;
[0040]检测获取模块,用于对所述语音信号进行语音活性检测,获取待处理语音信号;
[0041]变换获取模块,用于将所述待处理语音信号预处理后进行短时傅里叶变换,获取待处理幅度谱和待处理相位谱;
[0042]输入获取模块,用于将所述待处理幅度谱输入所述语音增强模型获取估计幅度谱;
[0043]获取播放模块,用于根据所述估计幅度谱和所述待处理相位谱进行短时傅里叶逆变换,获取所述增强语音信号并播放。
[0044]本申请实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请任意实施例所提供的一种语音增强模型的训练方法的步骤,以及本申请任意实施例所提供的一种语音增强方法的步骤。
[0045]本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强模型的训练方法,其特征在于,包括:获取语音训练集;其中,所述语音训练集中包括含噪语音样本和纯净语音样本;获取所述含噪语音样本对应的幅度谱输入生成网络,获取增强语音幅度谱;获取所述纯净语音样本对应的幅度谱和所述增强语音幅度谱输入判别网络,获取判别结果;根据所述增强语音幅度谱、所述纯净语音样本对应的幅度谱、所述判别结果与优化目标调整所述生成网络和所述判别网络的网络参数,生成语音增强模型。2.根据权利要求1所述的方法,其特征在于,还包括:按照预设时长和采样频率在多个场景下采集第一数量的背景噪声,构建原始背景噪声数据集;按照所述时长和所述采样频率在所述多个场景下采集第二数量的用户语音数据,构建真实含噪语音数据集;按照所述时长和所述采样频率在无噪声环境下采集第三数量的用户语音数据,构建纯净语音数据集;将所述原始背景噪声数据集和所述纯净语音数据进行加性混合,获取生成含噪语音数据集;根据所述真实含噪语音数据集、所述纯净语音数据集和所述生成含噪语音数据集,构建语音增强数据集,并按照预设比例将所述语音增强数据集划分为所述语音训练集和语音测试集。3.根据权利要求1所述的方法,其特征在于,所述获取所述含噪语音样本对应的幅度谱输入生成网络,获取增强语音幅度谱,包括:对所述含噪语音样本进行预加重和归一化处理后,获取待训练含噪语音样本;通过短时傅里叶变换公式对所述待训练含噪语音样本进行短时傅里叶变换,获取所述含噪语音样本对应的幅度谱;将所述含噪语音样本对应的幅度谱分割为预设帧长的幅度谱特征图,对所述幅度谱特征图进行预设次数的卷积处理,获取所述增强语音幅度谱。4.根据权利要求1所述的方法,其特征在于,所述获取所述纯净语音样本对应的幅度谱和所述增强语音幅度谱输入判别网络,获取判别结果,包括:对所述纯净语音样本进行预加重和归一化处理后,获取待训练纯净语音样本;通过短时傅里叶变换公式对所述待训练纯净语音样本进行短时傅里叶变换,获取所述纯净语音样本对应的幅度谱;根据预设帧长的所述纯净语音样本对应的幅度谱、以及所述增强语音幅度谱构建二维幅度谱特征图;对所述二维幅度谱特征图进行预设次数反卷积处理后进入全连接处理,获取目标幅度谱特征图;将所述目标幅度谱特征图输入分类函数,得到所述判别结果。5.根据权利要求1

4任一项所述的方法,其特征在于,所述根据所述增强语音幅度谱、所述纯净语音样本对应的幅度谱、所述判别结果与优化目标调整所述生...

【专利技术属性】
技术研发人员:张雪宋广伟
申请(专利权)人:上海闻泰信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1