一种语音信号信噪比估计方法、系统技术方案

技术编号:39254859 阅读:19 留言:0更新日期:2023-10-30 12:06
本发明专利技术提供了一种语音信号信噪比估计方法、系统,只需要带噪语音信号,并且可以估计瞬时信噪比,所估计的信噪比可以更好地反映应用在目标信号上的关注焦点,包括以下步骤:从输入的带噪语音信号中检测出包含语音信号的片段;对于包含语音信号的片段,估计每一帧信号中每个时频点上语音成分和噪声成分所占的比重,得到每一帧每个时频点的掩蔽值;通过累积每帧信号中所有时频点上语音成分和噪声成分的比重,基于每一帧每个时频点的掩蔽值计算每一帧信号上的瞬时信噪比;通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比。计算整个语音片段上的长时信噪比。计算整个语音片段上的长时信噪比。

【技术实现步骤摘要】
一种语音信号信噪比估计方法、系统


[0001]本专利技术涉及语音信号处理
,更具体地,涉及一种语音信号信噪比估计方法。

技术介绍

[0002]信噪比常被用来刻画所采集语音信号中噪声成分的强度,是语音信号处理领域的重要指标之一。为了计算语音信噪比,通常需要预先知道原始干净语音信号或者原始噪声信号。如果只有带噪语音信号是没办法计算信噪比的。另外,带噪语音信号的信噪比并不是一直不变的,而是随着时间变化的。因此,信噪比还分为长时信噪比和瞬时信噪比。不同应用场景下,需要计算不同的信噪比。在线情况下,瞬时信噪比通常也难以计算,因为需要实时获得原始干净语音信号或者原始噪声信号。大多数实际应用场景下,只能拿到带噪语音信号,信噪比难以准确计算,尤其是瞬时信噪比。此外,当前信噪比的计算每个频带能量都是等权重的,但是实际上低频能量在听觉上更敏感,对于语音识别系统来说影响更大。

技术实现思路

[0003]针对上述问题,本专利技术提供了一种语音信号信噪比估计方法、系统,只需要带噪语音信号,并且可以估计瞬时信噪比,所估计的信噪比可以更好地反映应用在目标信号上的关注焦点。
[0004]其技术方案是这样的:一种语音信号信噪比估计方法,包括以下步骤:
[0005]从输入的带噪语音信号中检测出包含语音信号的片段;
[0006]对于包含语音信号的片段,估计每一帧信号中每个时频点上语音成分和噪声成分所占的比重,得到每一帧每个时频点的掩蔽值;
[0007]通过累积每帧信号中所有时频点上语音成分和噪声成分的比重,基于每一帧每个时频点的掩蔽值计算每一帧信号上的瞬时信噪比;
[0008]通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比。
[0009]进一步的,采用能量阈值法、GMM建模法、SVM建模法或神经网络建模构中的任意一种构建语音活动检测模型,通过训练好的语音活动检测模型,从输入的带噪语音信号中检测出包含语音信号的片段。
[0010]进一步的,在选用神经网络建模语音活动检测模型时,采用深度神经网络模型建模语音活动检测模型。
[0011]进一步的,对于检测出包含语音信号的片段,采用时序解码算法从连续的信号流中检测语音信号的起始点和结束点。
[0012]进一步的,基于CGMM模型或者DNN模型构建时频掩蔽预测模型,将信号的频域特征输入训练好的时频掩蔽预测模型,输出每一帧上每个时频点的掩蔽值,所述掩蔽值用于表示每个时频点上语音成分和噪声成分所占的比重。
[0013]进一步的,采用理想比值掩蔽IRM值作为时频掩蔽预测模型预测的目标掩蔽值,其计算公式如下:
[0014][0015]其中:|S(i,j)|和|N(i,j)|分别为干净语音信号和噪声信号的第i时刻第j个频点上的幅度,β为可调节尺度因子。
[0016]进一步的,在采用DNN模型构建时频掩蔽预测模型时,基于IMAGE算法仿真生成的训练集数据,所述训练集数据包括干净语音信号和噪声信号以及对应的IRM掩蔽值,基于DNN模型中的深度前馈短时记忆神经网络DFSMN构建时频掩蔽预测模型,通过有监督训练方式来学习模型权重,优化损失函数,获得训练好的时频掩蔽预测模型。
[0017]进一步的,所述的通过累积每帧信号中所有时频点上语音成分和噪声成分的比重,计算每一帧信号上的瞬时信噪比,具体如下执行:
[0018]根据当前帧每个时频点的掩蔽值,估计该帧的瞬时信噪比,计算方式如下:
[0019][0020]其中:α
ij
和E
ij
分别为带噪语音信号第i帧第j个时频点上的掩蔽值和对应幅度谱能量,M为总频点数,w
j
为第j个频点的权重系数,SNR
i
表示第i帧信号上的瞬时信噪比。
[0021]进一步的,在计算瞬时信噪比时,对于75Hz~4kHz频带上的频点设置更高的权重。
[0022]进一步的,最大采样率为16kHz且FFT窗长为1024点时,频点权重w
j
设计如下式:
[0023][0024]进一步的,基于能够利用上下文信息的LSTM或DFSMN网络构建瞬时信噪比预测模型,基于训练频掩蔽预测模型的训练集数据训练瞬时信噪比预测模型,采用真实信噪比和预测信噪比的最小均方误差作为瞬时信噪比预测模型的损失函数,其中,真实信噪比通过生成带噪语音信号的干净语音信号和噪声信号来计算,优化损失函数获得训练好的瞬时信噪比预测模型,将每一帧时频点掩蔽向量和其对应的幅度谱输入训练好的瞬时信噪比预测模型,输出每个时频点的瞬时信噪比。
[0025]进一步的,对于检测为非语音信号的片段,其瞬时信噪比表示为:
[0026]如果该帧的频域幅度谱能量小于等于给定阈值E
T
,输出瞬时信噪比为0dB;如果该帧的频域幅度谱能量大于给定阈值E
T
,输出瞬时信噪比为最低信噪比SNR
low

[0027]进一步的,所述的通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比,具体如下执行:
[0028]根据每一帧的瞬时信噪比,估计包含语音的片段的长时信噪比,计算方式如下:
[0029][0030]其中:A
i
为第i帧的权重系数,N为包含语音的片段的总帧数,通过对权重系数A
i
进行调整来控制每一帧的瞬时信噪比对长时信噪比的影响。
[0031]进一步的,采用下式来设置信噪比加权系数A
i

[0032][0033]其中:E
i
表示第i帧的幅度谱能量。
[0034]进一步的,估计包含语音的片段的长时信噪比,计算方式如下:
[0035][0036]A
i
为第i帧的权重系数,N为包含语音的片段的总帧数,w
j
为第j个频点的权重系数,α
ij
和E
ij
分别为带噪语音信号第i帧第j个时频点上的掩蔽值和对应幅度谱能量
[0037]进一步的,估计包含语音的片段的长时信噪比,计算方式如下:
[0038][0039]A
i
为第i帧的权重系数,N为包含语音的片段的总帧数,w
j
为第j个频点的权重系数,α
ij
和E
ij
分别为带噪语音信号第i帧第j个时频点上的掩蔽值和对应幅度谱能量。
[0040]一种语音信号信噪比估计模型,包括:
[0041]语音活动检测模块,用于从输入的带噪语音信号中检测出包含语音信号的片段;
[0042]时频掩蔽预测模块,用于对于从语音活动检测模块检测出的包含语音信号的片段,估计每一帧信号中每个时频点上语音成分和噪声成分所占的比重,得到每一帧每个时频点的掩蔽值;
[0043]瞬时信噪比估计模块,用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音信号信噪比估计方法,其特征在于,包括以下步骤:从输入的带噪语音信号中检测出包含语音信号的片段;对于包含语音信号的片段,估计每一帧信号中每个时频点上语音成分和噪声成分所占的比重,得到每一帧每个时频点的掩蔽值;通过累积每帧信号中所有时频点上语音成分和噪声成分的比重,基于每一帧每个时频点的掩蔽值计算每一帧信号上的瞬时信噪比;通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比。2.根据权利要求1所述的一种语音信号信噪比估计方法,其特征在于:采用能量阈值法、GMM建模法、SVM建模法或神经网络建模构中的任意一种构建语音活动检测模型,通过训练好的语音活动检测模型,从输入的带噪语音信号中检测出包含语音信号的片段。3.根据权利要求1所述的一种语音信号信噪比估计方法,其特征在于:基于CGMM模型或者DNN模型构建时频掩蔽预测模型,将信号的频域特征输入训练好的时频掩蔽预测模型,输出每一帧上每个时频点的掩蔽值,所述掩蔽值用于表示每个时频点上语音成分和噪声成分所占的比重。4.根据权利要求1所述的一种语音信号信噪比估计方法,其特征在于:采用理想比值掩蔽IRM值作为时频掩蔽预测模型预测的目标掩蔽值,其计算公式如下:其中:|S(i,j)|和|N(i,j)|分别为干净语音信号和噪声信号的第i时刻第j个频点上的幅度,β为可调节尺度因子。5.根据权利要求3所述的一种语音信号信噪比估计方法,其特征在于:在采用DNN模型构建时频掩蔽预测模型时,基于IMAGE算法仿真生成的训练集数据,所述训练集数据包括干净语音信号和噪声信号以及对应的IRM掩蔽值,基于DNN模型中的深度前馈短时记忆神经网络DFSMN构建时频掩蔽预测模型,通过有监督训练方式来学习模型权重,优化损失函数,获得训练好的时频掩蔽预测模型。6.根据权利要求1所述的一种语音信号信噪比估计方法,其特征在于:所述的通过累积每帧信号中所有时频点上语音成分和噪声成分的比重,计算每一帧信号上的瞬时信噪比,具体如下执行:根据当前帧每个时频点的掩蔽值,估计该帧的瞬时信噪比,计算方式如下:其中:α
ij
和E
ij
分别为带噪语音信号第i帧第j个时频点上的掩蔽值和对应幅度谱能量,M为总频点数,w
j
为第j个频点的权重系数,SNR
i
表示第i帧信号上的瞬时信噪比。7.根据权利要求8所述的一种语音信号信噪比估计方法,其特征在于:在计算瞬时信噪比时,对于75Hz~4kHz频带上的频点设置更高的权重。8.根据权利要求7所述的一种语音信号信噪比估计方法,其特征在于:最大采样率为16kHz且FFT窗长为1024点时,频点权重w
j
设计如下式:
9.根据权利要求7所述的一种语音信号信噪比估计方法,其特征在于:基于能够利用上下文信息的LSTM或DFSMN网络构建瞬时信噪比预测模型,基于训练频掩蔽预测模型的训练集数据训练瞬时信噪比预测模型,采用真实信噪比和预测信噪比的最小均方误差作为瞬时信噪比预测模型的损失函数,其中,真实信噪比通过生成带噪语音信号的干净语音信号和噪声信号来计算,优化损失函数获得训练好的瞬时信噪比预测模型,将每一帧时频点掩蔽向量和其对应的幅度谱输入训练好的瞬...

【专利技术属性】
技术研发人员:王欢良唐浩元李志王佳珺王飞张李
申请(专利权)人:苏州奇梦者科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1