一种基于多维特征相似度融合的全参考音频质量评价方法技术

技术编号：40277140 阅读：11 留言：0更新日期：2024-02-02 23:04

本公开提供一种基于多维特征相似度融合的全参考音频质量评价方法，包括：对参考音频和退化音频进行预处理；将预设的基于感知质量的图像质量评价算法推广处理至一维空间，并确定参考音频的一维波形与退化音频的一维波形之间的相似度；对参考音频和退化音频进行特征提取处理，并确定并采用预设的基于感知质量的图像评价算法确定每一参考音频的二维特征和退化音频的二维特征之间的相似度；将参考音频和退化音频之间的多维特征相似度分数进行融合处理，回归处理至退化音频的质量分数。通过本公开，提取丰富的音频信号特征，并将基于感知质量的图像质量评价算法应用于音频特征质量的评价中，有效评价音频的感知质量。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及音频质量评价，具体地，涉及一种基于多维特征相似度融合的全参考音频质量评价方法。

技术介绍

1、在目前的音频信号传输系统中，压缩、存储和传输技术不可避免地会导致音频信号的失真，从而降低最终用户的感知质量。因此，测量用户对音频的感知质量，从而监控并保证整个系统对用户的良好感知质量具有重要意义。最可靠的音频质量评价方法是主观音频质量评价法，即由人类听众对音频信号进行评分。虽然主观音频质量评价是对音频质量相对准确的评估，但这种方法既耗时又昂贵。在大规模和实时处理系统中自动预测感知质量中，客观音频质量评价法较为常用。客观音频质量评价方法采用算法自动化地评估音频信号的质量，减少人力资源的浪费，在实践中具有可行性。

2、简单的客观音频质量评价方法包括均方根误差(rmse)法，其能够测量两个音频信号的每个采样点之间的差异，该方法虽然计算简单，但与主观评分的一致性较低。为了提高客观音频质量评价方法的性能，需要对人类的听觉系统进行建模。pesq算法和visqol算法都是根据这种方式设计的。pesq(《a.rix,j.beerends,m.hollier,and a.hekstra,“perceptual evaluation of speech quality(pesq)-a new method for speechquality assessment of telephone networks and codecs,”in 2001ieeeinternational conference on acoustics,spee

3、尽管上述现有技术建立了声学模型以模拟人类的听觉特征，但这些方法提取的特征类型相对单一，导致预测的分数在很大程度上依赖于声学模型的建立，因此跨数据库的泛化性能较弱。

技术实现思路

1、针对现有技术中的缺陷，本公开的目的是提供一种基于多维特征相似度融合的全参考音频质量评价方法。

2、为实现上述目的，根据本公开的一个方面，提供一种基于多维特征相似度融合的全参考音频质量评价方法，包括：

3、对参考音频和退化音频进行预处理，确定经过所述预处理后的所述参考音频和所述退化音频；

4、将预设的基于感知质量的图像质量评价算法推广处理至一维空间，采用所述一维空间的所述基于感知质量的图像质量评价算法确定所述参考音频的一维波形与所述退化音频的一维波形之间的相似度；

5、对所述参考音频和所述退化音频进行特征提取处理，确定所述参考音频的二维特征和所述退化音频的二维特征，并采用所述预设的基于感知质量的图像评价算法确定每一所述参考音频的二维特征和所述退化音频的二维特征之间的相似度；

6、将所述参考音频和所述退化音频之间的多维特征相似度分数进行融合处理，并回归处理至所述退化音频的质量分数，所述多维特征相似度分数包括所述参考音频的一维波形与所述退化音频的一维波形之间的相似度的分数、每一所述参考音频的二维特征和所述退化音频的二维特征之间的相似度的分数。

7、可选地，所述预处理的方式包括：

8、对所述参考音频和所述退化音频分别进行重采样处理；

9、在时域上将所述参考音频和所述退化音频进行对齐处理；

10、将所述参考音频的电平和所述退化音频的电平调整至同一预设水平；

11、采用活动语音检测器对所述参考音频和所述退化音频中的无声部分删除，并保留音频活跃部分。

12、可选地，所述对所述参考音频和所述退化音频分别进行重采样处理，包括：

13、将所述参考音频和所述退化音频采用预设的采样频率进行重新采样。

14、可选地，所述在时域上将所述参考音频和所述退化音频进行对齐处理，包括：

15、在时域上，通过所述参考音频和所述退化音频之间的互相关函数的最大值的位置确定信号的延迟，对所述参考音频和所述退化音频进行对齐。

16、可选地，所述将所述参考音频的电平和所述退化音频的电平调整至同一预设水平，包括：

17、将所述参考音频的信号幅度的均方根值和所述退化音频的信号幅度的均方根值调整至同一预设水平。

18、可选地，所述采用活动语音检测器对所述参考音频和所述退化音频中的无声部分删除，并保留音频活跃部分，包括：

19、采用活动语音检测器检测对所述参考音频和所述退化音频进行采样处理，确定所述参考音频和所述退化音频的采样点；

20、将所述参考音频和所述退化音频的采样点中语音振幅小于预设的语音频率的部分，确定为所述无声部分并删除，并保留音频活跃部分。

21、可选地，所述一维空间的所述基于感知质量的图像质量评价算法，包括：

22、一维结构相似度指数ssim1d；

23、一维梯度幅度相似度均值gmsm1d；

24、一维梯度幅度相似度偏差gmsd1d；

25、其中，基于所述参考音频和所述退化音频之间的响度相关性与音频质量非密切相关，所述一维结构相似度指数为在结构相似度指数(ssim)的基础上删除亮度项，经过所述推广处理的所述一维结构相似度指数的分数的计算方法包括：

26、

27、其中，r表示所述参考音频，d表示所述退化音频，σr表示所述参考音频的标准差，σd表示所述退化音频的标准差，σrd表示所述参考音频和所述退化音频之间的相关系数，c1表示第一常数，c2表示第二常数，c表示所述参考音频和所述退化音频之间的对比度的相似度，s表示所述参考音频和所述退化音频之间的结构的相似度；

28、其中，基于音频波形的梯度对音频质量的退化敏感条件，采用经过推广处理的一维差分算子确定所述参考音频和所述退化音频的梯度幅度以及所述参考音频和所述退化音频之间的一维的梯度幅度相似度，确定所述参考音频和所述退化音频之间的一维梯度幅度相似度的均值和一维梯度幅度相似度的偏差；

29、所述参考音频和所述退化音频之间的一维的梯度幅度相似度的计算方法，包括：

30、

31、其中，gms1d表示所述参考音频和所述退化音频之间本文档来自技高网...

【技术保护点】

1.一种基于多维特征相似度融合的全参考音频质量评价方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预处理的方式包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述参考音频和所述退化音频分别进行重采样处理，包括：

4.根据权利要求2所述的方法，其特征在于，所述在时域上将所述参考音频和所述退化音频进行对齐处理，包括：

5.根据权利要求2所述的方法，其特征在于，所述将所述参考音频的电平和所述退化音频的电平调整至同一预设水平，包括：

6.根据权利要求2所述的方法，其特征在于，所述采用活动语音检测器对所述参考音频和所述退化音频中的无声部分删除，并保留音频活跃部分，包括：

7.根据权利要求1所述的方法，其特征在于，所述一维空间的所述基于感知质量的图像质量评价算法，包括：

8.根据权利要求1所述的方法，其特征在于，所述对所述参考音频和所述退化音频进行特征提取处理，确定所述参考音频的二维特征和所述退化音频的二维特征，并采用所述预设的基于感知质量的图像评价算法确定每一所述参考音频的二

9.根据权利要求8所述的方法，其特征在于，所述参考音频的二维特征和所述退化音频的二维特征，包括：

10.根据权利要求8所述的方法，其特征在于，所述方法还包括：

11.根据权利要求8所述的方法，其特征在于，所述将所述参考音频的二维特征进行特征块划分处理，确定所述参考音频的二维特征块，包括：

12.根据权利要求8所述的方法，其特征在于，所述根据所述参考音频的二维特征块匹配与所述退化音频中对应的二维特征块，确定参考音频-退化音频的二维特征块对，包括：

13.根据权利要求8所述的方法，其特征在于，所述基于感知质量的图像评价算法，包括：

14.根据权利要求8所述的方法，其特征在于，所述对所述参考音频和所述退化音频进行特征提取处理，确定所述参考音频的二维特征和所述退化音频的二维特征，并采用所述预设的基于感知质量的图像评价算法确定每一所述参考音频的二维特征和所述退化音频的二维特征之间的相似度，还包括：

15.根据权利要求1所述的方法，其特征在于，所述参考音频和所述退化音频之间的多维特征相似度分数，采用如下任一种或多种：

16.根据权利要求1所述的方法，其特征在于，所述回归处理采用的方式为向量回归的方式。

...

【技术特征摘要】

1.一种基于多维特征相似度融合的全参考音频质量评价方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预处理的方式包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述参考音频和所述退化音频分别进行重采样处理，包括：

4.根据权利要求2所述的方法，其特征在于，所述在时域上将所述参考音频和所述退化音频进行对齐处理，包括：

5.根据权利要求2所述的方法，其特征在于，所述将所述参考音频的电平和所述退化音频的电平调整至同一预设水平，包括：

6.根据权利要求2所述的方法，其特征在于，所述采用活动语音检测器对所述参考音频和所述退化音频中的无声部分删除，并保留音频活跃部分，包括：

7.根据权利要求1所述的方法，其特征在于，所述一维空间的所述基于感知质量的图像质量评价算法，包括：

8.根据权利要求1所述的方法，其特征在于，所述对所述参考音频和所述退化音频进行特征提取处理，确定所述参考音频的二维特征和所述退化音频的二维特征，并采用所述预设的基于感知质量的图像评价算法确定每一所述参考音频的二维特征和所述退化音频的二维特征之间的相似度，包括：

9.根据权利要求...

【专利技术属性】
技术研发人员：闵雄阔，黄凡，高世琦，朱雨欣，翟广涛，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人