语音增强评测方法、语音增强评测模型的训练方法和装置制造方法及图纸

技术编号:34022890 阅读:8 留言:0更新日期:2022-07-02 17:22
本公开关于一种语音增强评测方法、语音增强评测模型的训练方法和装置,语音增强评测方法包括:获取含噪语音样本,含噪语音样本包括原始语音样本和原始噪声样本;将含噪语音样本输入待测语音增强模型,得到增强含噪语音;将增强含噪语音、原始语音样本和原始噪声样本输入语音增强评测模型,得到预估增强语音和预估增强噪声;根据预估增强语音和预估增强噪声,确定待测语音增强模型的评测值。确定待测语音增强模型的评测值。确定待测语音增强模型的评测值。

【技术实现步骤摘要】
语音增强评测方法、语音增强评测模型的训练方法和装置


[0001]本公开涉及语音增强
,尤其涉及一种语音增强评测方法、语音增强评测模型的训练方法和装置。

技术介绍

[0002]语音增强模型是用于从含噪语音中提取尽可能纯净的原始语音的模型,但实际应用中,任何语音增强模型都会误剪切语音和(或)残留噪音,所以需要一个评测方法来评估误剪切语音和残留噪音的程度。为此,需要将待测语音增强模型输出的信号分离成语音成分和残留噪声成分两部分,以便后续进一步进行性能分析。
[0003]相关技术中存在基于SI

SNR(Scale

Invariant Source

to

Noise Ratio,尺度不变的信噪比)的评测方法,可以在求SI

SNR的过程中,将待测语音增强模型估计的信号中的语音成分和残留噪声成分分离出来。但该方式存在一个缺点,就是当估计的信号经过AGC(Automatic Gain Control,自动控制增益)之后,再用该方式分离出的语音成分和残留噪声成分就会产生比较大的误差。然而往往待测语音增强模型都会包含AGC模块,并且由于待测语音增强模型为整体黑盒无法分布测试,所以能拿到的结果多为经过了AGC之后的信号,这使得该方法并不能有效地测量待测语音增强模型的性能。

技术实现思路

[0004]本公开提供一种语音增强评测方法、语音增强评测模型的训练方法和装置,以至少解决相关技术中的如何有效测量待测语音增强模型的性能的问题,也可不解决任何上述问题。
[0005]根据本公开的一个方面,提供了一种语音增强评测模型的训练方法,所述训练方法包括:获取原始语音样本和原始噪声样本;对所述原始语音样本和所述原始噪声样本分别进行增强处理,得到增强语音样本和增强噪声样本;合并所述增强语音样本和所述增强噪声样本,得到增强样本;将所述增强样本、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型,得到预估增强语音和预估增强噪声中的至少一个;根据所述预估增强语音和所述增强语音样本确定损失,和/或根据所述预估增强噪声和所述增强噪声样本确定损失;基于所述损失调整所述语音增强评测模型的参数,以对所述语音增强评测模型进行训练。
[0006]可选地,所述对所述原始语音样本和所述原始噪声样本分别进行增强处理,得到增强语音样本和增强噪声样本,包括:获取用于模拟语音增强操作的增益数据;基于所述增益数据,对所述原始语音样本和所述原始噪声样本分别进行增强处理,得到所述增强语音样本和所述增强噪声样本。
[0007]可选地,所述增益数据是至少一个复数增益的乘积,其中,所述基于所述增益数据,对所述原始语音样本和所述原始噪声样本分别进行增强处理,得到所述增强语音样本和所述增强噪声样本,包括:将所述原始语音样本和所述原始噪声样本由时域信号转换为
频域信号;确定所述增益数据与所述原始语音样本的乘积,得到所述增强语音样本;确定所述增益数据与所述原始噪声样本的乘积,得到所述增强噪声样本。
[0008]可选地,所述将所述原始语音样本和所述原始噪声样本由时域信号转换为频域信号,包括:利用短时傅里叶变换,将所述原始语音样本和所述原始噪声样本由时域信号转换为多帧频域信号。
[0009]可选地,所述将所述增强样本、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型,得到预估增强语音和预估增强噪声中的至少一个,包括:将所述增强样本、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型,得到所述预估增强语音和所述预估增强噪声中的一个;从所述增强样本中去除所述预估增强语音和所述预估增强噪声中的一个,得到所述预估增强语音和所述预估增强噪声中的另一个。
[0010]根据本公开的另一方面,提供了一种语音增强评测方法,用于评测语音增强模型,所述语音增强评测方法包括:获取含噪语音样本,所述含噪语音样本包括原始语音样本和原始噪声样本;将所述含噪语音样本输入待测语音增强模型,得到增强含噪语音;将所述增强含噪语音、所述原始语音样本和所述原始噪声样本输入语音增强评测模型,得到预估增强语音和预估增强噪声;根据所述预估增强语音和所述预估增强噪声,确定所述待测语音增强模型的评测值。
[0011]可选地,所述含噪语音样本是合并所述原始语音样本和所述原始噪声样本得到的。
[0012]可选地,所述将所述增强含噪语音、所述原始语音样本、所述原始噪声样本输入语音增强评测模型,得到预估增强语音和预估增强噪声,包括:将所述增强含噪语音、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型,得到所述预估增强语音和所述预估增强噪声中的一个;从所述增强含噪语音中去除所述预估增强语音和所述预估增强噪声中的一个,得到所述预估增强语音和所述预估增强噪声中的另一个。
[0013]可选地,所述根据所述预估增强语音和所述预估增强噪声,确定所述待测语音增强模型的评测值,包括:根据所述预估增强语音和所述预估增强噪声,确定所述增强含噪语音的信噪比,作为所述待测语音增强模型的评测值。
[0014]可选地,所述增强含噪语音、所述预估增强语音和所述预估增强噪声均包括多帧频域信号,每帧频域信号包括多个中心频率下的复数信号,其中,所述根据所述预估增强语音和所述预估增强噪声,确定所述增强含噪语音的信噪比,包括:分别确定所述预估增强语音和所述预估增强噪声在每帧的所有中心频率的振幅之和,作为所述增强含噪语音在相应帧的语音能量和噪声能量;根据所述增强含噪语音在每帧的语音能量和噪声能量的比值,确定所述增强含噪语音在相应帧的信噪比;确定所述增强含噪语音在各个帧的信噪比的统计值,作为所述增强含噪语音的信噪比。
[0015]可选地,所述增强含噪语音、所述预估增强语音和所述预估增强噪声均为时域信号,其中,所述根据所述预估增强语音和所述预估增强噪声,确定所述增强含噪语音的信噪比,包括:分别确定所述预估增强语音和所述预估增强噪声在每个时刻的幅度值的平方和的算术平方根,作为语音能量和噪声能量;根据所述语音能量和所述噪声能量的比值,确定所述增强含噪语音的信噪比。
[0016]可选地,所述语音增强评测模型是使用根据本公开的训练方法训练得到的。
[0017]根据本公开的另一方面,提供了一种语音增强评测模型的训练装置,所述训练装置包括:获取单元,被配置为:获取原始语音样本和原始噪声样本;增强单元,被配置为:对所述原始语音样本和所述原始噪声样本分别进行增强处理,得到增强语音样本和增强噪声样本;合并单元,被配置为:合并所述增强语音样本和所述增强噪声样本,得到增强样本;分离单元,被配置为:将所述增强样本、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型,得到预估增强语音和预估增强噪声中的至少一个;计算单元,被配置为:根据所述预估增强语音和所述增强语音样本确定损失,和/或根据所述预估增强噪声和所述增强噪声样本确定损失;调参单元,被配置为:基于所述损失调整所述语音增强评测模型的参数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强评测方法,用于评测语音增强模型,其特征在于,所述语音增强评测方法包括:获取含噪语音样本,所述含噪语音样本包括原始语音样本和原始噪声样本;将所述含噪语音样本输入待测语音增强模型,得到增强含噪语音;将所述增强含噪语音、所述原始语音样本和所述原始噪声样本输入语音增强评测模型,得到预估增强语音和预估增强噪声;根据所述预估增强语音和所述预估增强噪声,确定所述待测语音增强模型的评测值。2.如权利要求1所述的语音增强评测方法,其特征在于,所述将所述增强含噪语音、所述原始语音样本、所述原始噪声样本输入语音增强评测模型,得到预估增强语音和预估增强噪声,包括:将所述增强含噪语音、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型,得到所述预估增强语音和所述预估增强噪声中的一个;从所述增强含噪语音中去除所述预估增强语音和所述预估增强噪声中的一个,得到所述预估增强语音和所述预估增强噪声中的另一个。3.如权利要求1所述的语音增强评测方法,其特征在于,所述根据所述预估增强语音和所述预估增强噪声,确定所述待测语音增强模型的评测值,包括:根据所述预估增强语音和所述预估增强噪声,确定所述增强含噪语音的信噪比,作为所述待测语音增强模型的评测值。4.如权利要求3所述的语音增强评测方法,其特征在于,所述增强含噪语音、所述预估增强语音和所述预估增强噪声均包括多帧频域信号,每帧频域信号包括多个中心频率下的复数信号,其中,所述根据所述预估增强语音和所述预估增强噪声,确定所述增强含噪语音的信噪比,包括:分别确定所述预估增强语音和所述预估增强噪声在每帧的所有中心频率的振幅之和,作为所述增强含噪语音在相应帧的语音能量和噪声能量;根据所述增强含噪语音在每帧的语音能量和噪声能量的比值,确定所述增强含噪语音在相应帧的信噪比;确定所述增强含噪语音在各个帧的信噪比的统计值,作为所述增强含噪语音的信噪比。5.一种语音增强评测模型的训练方法,其特征在于,所述训练方法包括:获取原始语音样本和原始噪声样本;对所述原始语音样本和所述原始噪声样本分别进行增强处理,得到增强语音样本和增强噪声样本;合并所述增强语音样本和所述增强噪声样本,得到增强样本;将所述增强样本、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型,得到预估增强语音和预估增强噪声中的至少一个;根据所述预估增强语音和所述增...

【专利技术属性】
技术研发人员:任新蕾马珊郑羲光罗必达张晨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1