评估语音增强算法性能的方法及装置、电子设备制造方法及图纸

技术编号：23447854 阅读：19 留言：0更新日期：2020-02-28 21:31

本公开是关于一种评估语音增强算法性能的方法及装置、电子设备。一种评估语音增强算法性能的方法，包括：获取近端音频采集设备采集的第一带噪语音信号和远端音频采集设备采集的第二带噪语音信号；基于所述第一带噪语音信号和所述第二带噪语音信号估计出类纯净语音信号，将所述类纯净语音信号作为参考语音信号；以及利用预设的语音增强算法对所述第二带噪语音信号进行语音增强，获得待测降噪语音信号；基于所述参考语音信号和所述待测降噪语音信号评估所述语音增强算法。本实施例中利用类纯净语音信号作为参考语音信号，可以更逼近机器成功识别的阈值，有利于提升评估结果的准确度。

Methods, devices and electronic devices for evaluating the performance of speech enhancement algorithms

全部详细技术资料下载

【技术实现步骤摘要】
评估语音增强算法性能的方法及装置、电子设备
本公开涉及控制
，尤其涉及一种评估语音增强算法性能的方法及装置、电子设备。
技术介绍
自动语音识别(ASR，AutomaticSpeechRecognition)是实现人机交互最为关键的技术，其所要解决的根本问题是让计算机识别出人类的语音，将语音转化为文本。为提高语音识别率，最重要的一步就是语音增强，即对语音进行降噪处理，例如让低信噪比的语音变成高信噪比，进而提高语音质量，降低识别错误率。因此，非常有必要利用语音质量评价算法去评估语音增强算法的性能参数。以语音质量评价算法采用短时可懂度(STOI，Short-TimeObjectiveIntelligibilityMeasure)为例，该STOI是通过比较纯净语音和待测降噪语音信号的频谱关系，建立了符合人耳听觉感知的语音质量客观评价模型。其中，纯净语音是指没有失真也没有噪音污染的语音。需要说明的是，STOI是针对人耳听觉的，以预测听者对目标信号的理解能力，其与主观听音测试能够达成较好的相关性，由于听者的主观听觉感受和机器识别存在差异，使STOI预测结果和后端机器识别结果两者的相关度不高。这是因为，现有STOI没有考虑到语音增强算法的特点，即语音增强算法一般无法得到完全纯净的语音参考信号，使得语音增强后的语音信号中噪声仍然过大或语音信号削弱的情况，这样后续的语音识别模型会存在一定的鲁棒性适应该特点。换言之，当参考语音信号为纯净语音时，对语音增强算法的评估结果会存在一定的误差，不利于语音增强算法性能的判断。...

【技术保护点】
1.一种评估语音增强算法性能的方法，其特征在于，包括：/n获取第一带噪语音信号和第二带噪语音信号，其中第一带噪语音信号由靠近发声源的近端音频采集设备采集，第二带噪语音信号由远离所述发声源的远端音频采集设备采集；/n基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号，将所述类纯净语音信号作为参考语音信号；/n利用预设的语音增强算法对所述第二带噪语音信号进行语音增强处理，获得待测降噪语音信号；/n获取所述参考语音信号和所述待测降噪语音信号的相关系数，所述相关系数用于评估所述语音增强算法。/n

【技术特征摘要】
1.一种评估语音增强算法性能的方法，其特征在于，包括：
获取第一带噪语音信号和第二带噪语音信号，其中第一带噪语音信号由靠近发声源的近端音频采集设备采集，第二带噪语音信号由远离所述发声源的远端音频采集设备采集；
基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号，将所述类纯净语音信号作为参考语音信号；
利用预设的语音增强算法对所述第二带噪语音信号进行语音增强处理，获得待测降噪语音信号；
获取所述参考语音信号和所述待测降噪语音信号的相关系数，所述相关系数用于评估所述语音增强算法。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号，将所述类纯净语音信号作为参考语音信号包括：
分别对所述第一带噪语音信号和所述第二带噪语音信号进行预处理；所述预处理包括分帧和加窗；
分别对预处理后的所述第一带噪语音信号和所述第二带噪语音信号作傅里叶变换，得到所述第一带噪语音信号和所述第二带噪语音信号的时频单元；
获取类纯净语音信号；所述类纯净语音信号与所述第一带噪语音信号、所述第一带噪语音信号与所述第二带噪语音信号的每个时频单元之间的总残差相关；
确定所述总残差最小时的类纯净语音信号作为最终的类纯净语音信号；
将所述最终的类纯净语音信号进行逆傅里叶变换，得到所述参考语音信号。

3.根据权利要求1所述的方法，其特征在于，所述获取所述参考语音信号和所述待测降噪语音信号的相关系数包括：
获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号；
对所述待测降噪语音信号的频谱包络信号进行处理，得到目标频谱包络信号；
基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数。

4.根据权利要求3所述的方法，其特征在于，所述获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号包括：
分别对所述参考语音信号和所述待测降噪语音信号进行分帧、加窗和傅里叶变换，得到第一频域信号和第二频域信号；
从所述第一频域信号中选取能量最大帧，得到第一能量值；所述第一能量值为所述能量最大帧对应能量值减去设定分贝后得到；
分别过滤所述第一频域信号和所述第二频域信号小于所述第一能量值的帧；
分别对所述第一频域信号和所述第二频域信号进行频带划分；
分别获取所述第一频域信号和所述第二频域信号的频谱包络，并采用向量表示所述频谱包络，得到频谱包络信号。

5.根据权利要求3所述的方法，其特征在于，所述基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数包括：
计算每个时频单元的相关系数；
计算所有帧对应的所有频带的相关系数的平均值，所述平均值即是所述参考语音信号和所述待测降噪语音信号的相关系数。

6.根据权利要求3所述的方法，其特征在于，还包括：
获取预设的关键词唤醒模型的输出概率；
获取所述相关系数和所述输出概率的相关程度，所述相关程度用于表征语音质量评分和所述语音识别率的相关性。

7.一种评估语音增强算法性能的装置，其特征在于，包括：
语音信号获取模块，用于获取第一带噪语音信号和第二带噪语音信号，其中第一带噪语音信号由靠近发声源的近端音频采集设备采集，第二带噪语音信号由远离所述发声源的远端音频采集设备采集；<...

【专利技术属性】
技术研发人员：杨玉红，蔡林君，相非，李世聪，冯佳倩，涂卫平，艾浩军，
申请(专利权)人：北京小米移动软件有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人