【技术实现步骤摘要】
评估语音增强算法性能的方法及装置、电子设备
本公开涉及控制
,尤其涉及一种评估语音增强算法性能的方法及装置、电子设备。
技术介绍
自动语音识别(ASR,AutomaticSpeechRecognition)是实现人机交互最为关键的技术,其所要解决的根本问题是让计算机识别出人类的语音,将语音转化为文本。为提高语音识别率,最重要的一步就是语音增强,即对语音进行降噪处理,例如让低信噪比的语音变成高信噪比,进而提高语音质量,降低识别错误率。因此,非常有必要利用语音质量评价算法去评估语音增强算法的性能参数。以语音质量评价算法采用短时可懂度(STOI,Short-TimeObjectiveIntelligibilityMeasure)为例,该STOI是通过比较纯净语音和待测降噪语音信号的频谱关系,建立了符合人耳听觉感知的语音质量客观评价模型。其中,纯净语音是指没有失真也没有噪音污染的语音。需要说明的是,STOI是针对人耳听觉的,以预测听者对目标信号的理解能力,其与主观听音测试能够达成较好的相关性,由于听者的主观听觉感受和机器识别存在差异,使STOI预测结果和后端机器识别结果两者的相关度不高。这是因为,现有STOI没有考虑到语音增强算法的特点,即语音增强算法一般无法得到完全纯净的语音参考信号,使得语音增强后的语音信号中噪声仍然过大或语音信号削弱的情况,这样后续的语音识别模型会存在一定的鲁棒性适应该特点。换言之,当参考语音信号为纯净语音时,对语音增强算法的评估结果会存在一定的误差,不利于语音增强算法性能的判断。 ...
【技术保护点】
1.一种评估语音增强算法性能的方法,其特征在于,包括:/n获取第一带噪语音信号和第二带噪语音信号,其中第一带噪语音信号由靠近发声源的近端音频采集设备采集,第二带噪语音信号由远离所述发声源的远端音频采集设备采集;/n基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号,将所述类纯净语音信号作为参考语音信号;/n利用预设的语音增强算法对所述第二带噪语音信号进行语音增强处理,获得待测降噪语音信号;/n获取所述参考语音信号和所述待测降噪语音信号的相关系数,所述相关系数用于评估所述语音增强算法。/n
【技术特征摘要】
1.一种评估语音增强算法性能的方法,其特征在于,包括:
获取第一带噪语音信号和第二带噪语音信号,其中第一带噪语音信号由靠近发声源的近端音频采集设备采集,第二带噪语音信号由远离所述发声源的远端音频采集设备采集;
基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号,将所述类纯净语音信号作为参考语音信号;
利用预设的语音增强算法对所述第二带噪语音信号进行语音增强处理,获得待测降噪语音信号;
获取所述参考语音信号和所述待测降噪语音信号的相关系数,所述相关系数用于评估所述语音增强算法。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号,将所述类纯净语音信号作为参考语音信号包括:
分别对所述第一带噪语音信号和所述第二带噪语音信号进行预处理;所述预处理包括分帧和加窗;
分别对预处理后的所述第一带噪语音信号和所述第二带噪语音信号作傅里叶变换,得到所述第一带噪语音信号和所述第二带噪语音信号的时频单元;
获取类纯净语音信号;所述类纯净语音信号与所述第一带噪语音信号、所述第一带噪语音信号与所述第二带噪语音信号的每个时频单元之间的总残差相关;
确定所述总残差最小时的类纯净语音信号作为最终的类纯净语音信号;
将所述最终的类纯净语音信号进行逆傅里叶变换,得到所述参考语音信号。
3.根据权利要求1所述的方法,其特征在于,所述获取所述参考语音信号和所述待测降噪语音信号的相关系数包括:
获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号;
对所述待测降噪语音信号的频谱包络信号进行处理,得到目标频谱包络信号;
基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数。
4.根据权利要求3所述的方法,其特征在于,所述获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号包括:
分别对所述参考语音信号和所述待测降噪语音信号进行分帧、加窗和傅里叶变换,得到第一频域信号和第二频域信号;
从所述第一频域信号中选取能量最大帧,得到第一能量值;所述第一能量值为所述能量最大帧对应能量值减去设定分贝后得到;
分别过滤所述第一频域信号和所述第二频域信号小于所述第一能量值的帧;
分别对所述第一频域信号和所述第二频域信号进行频带划分;
分别获取所述第一频域信号和所述第二频域信号的频谱包络,并采用向量表示所述频谱包络,得到频谱包络信号。
5.根据权利要求3所述的方法,其特征在于,所述基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数包括:
计算每个时频单元的相关系数;
计算所有帧对应的所有频带的相关系数的平均值,所述平均值即是所述参考语音信号和所述待测降噪语音信号的相关系数。
6.根据权利要求3所述的方法,其特征在于,还包括:
获取预设的关键词唤醒模型的输出概率;
获取所述相关系数和所述输出概率的相关程度,所述相关程度用于表征语音质量评分和所述语音识别率的相关性。
7.一种评估语音增强算法性能的装置,其特征在于,包括:
语音信号获取模块,用于获取第一带噪语音信号和第二带噪语音信号,其中第一带噪语音信号由靠近发声源的近端音频采集设备采集,第二带噪语音信号由远离所述发声源的远端音频采集设备采集;<...
【专利技术属性】
技术研发人员:杨玉红,蔡林君,相非,李世聪,冯佳倩,涂卫平,艾浩军,
申请(专利权)人:北京小米移动软件有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。