当前位置: 首页 > 专利查询>上海大学专利>正文

一种无参考源的MP3音频清晰度客观评价方法技术

技术编号:4035834 阅读:293 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种无参考源的MP3音频清晰度客观评价方法。本方法直接对MP3音频进行清晰度质量客观评价,首先获取MP3立体声音频文件,从中提取影响音频清晰度质量的中高频指数MHFI(Medium-high?frequency?index),音频清晰度高则意味着音频中包含较多的中高频成分,然后对每帧音频的中高频指数求取可能性熵(Possibilistic?Entropy),熵值反映音频信息丰富程度,清晰度好的音频可能性熵值大于不清晰音频,据此将可能性熵函数作为无参考源音频清晰度评价函数,最后对熵值进行统计映射,将音频清晰度分值限定在0-5之间。实验表明,本方法可以有效度量出无参考源MP3立体声音频清晰度客观评价分值,且与主观评价分值相近,符合人耳的听觉感受。

【技术实现步骤摘要】

本专利技术涉及音频质量客观评价,特别是一种对无参考源MP3(MPEGl-layer3)音频 的清晰度客观评价方法。
技术介绍
本专利技术一种无参考源的音频清晰度客观评价技术是直接对音频系统输出信号的 清晰度质量在0-5区间进行分值评判。音频质量客观评价,从评价结构上可分为基于输入-输出的评价和基于输出的评 价。其中大部分工作集中在基于输入-输出的评价,它是以语音系统的输入信号和输出信 号之间的误差大小来判别语音质量的好坏,是一种误差度量;而基于输出的评价是仅根据 语音系统的输出信号来进行质量评价,无参考源;另一方面,从评价内容上可分为对音频整 体的综合评价及分指标(如清晰度、丰满度、明亮度、柔和度等)进行评价。基于输入-输 出的音频质量客观评价方法目前比较完善,基于输出的评价方面起步较晚且在评价内容方 面基本上是针对音频总体质量进行评价,主要有感知线性预测方法、基于模糊多类支持向 量机的评价方法、度量语谱图密度分布特征的方法等。目前还没有涉及到对输出信号分指 标进行质量评价的方法,本专利技术正是研究对无参考源MP3音频信号的清晰度指标进行客观 评价。本专利技术所提出的无参考源的音频清晰度客观评价方法,改善了主观评价费时、费 力及成本高的缺点,同时还解决了目前占据优势地位的基于输入-输出客观评价方法有时 难以提供参考信号的不利因素,可进一步为音频丰满度、明亮度等其它指标的客观评价提 供参考,同时也可将各项指标作为高层感知参数,用于MP3压缩域的语音识别与分类检索 中。
技术实现思路
本专利技术的目的在于提供一种无参考源的MP3音频清晰度客观评价方法,提供最佳 音频清晰度质量的判据。从MP3压缩数据中直接提取反映音频清晰度的特征参数-中高频 指数(MHFI),并计算MHFI的可能性熵值,通过对熵值进行统计映射,将待测音频清晰度的 分值限定在0-5分之间,实现对无参考源音频清晰度指标的客观评价。本专利技术解决其技术问题采用的技术方案为先从MP3压缩音频数据中提取中高频 指数,计算中高频指数的可能性熵值,通过统计映射得到待测音频清晰度的分值。本专利技术解决其技术问题所采用的技术方案还可以进一步完善。首先从MP3压缩音 频数据中生成修正离散余弦变换MDCT(Modified Discrete Cosine Transform)矩阵,再从 中提取有效的特征参数中高频指数,计算中高频指数的可能性熵值,通过对熵值进行统计 映射,将待测音频清晰度的分值限定在0-5分之间,实现对无参考源音频清晰度指标的客 观评价。该方法具体包括如下步骤1)MP3压缩音频的预处理包括对解码帧头,边信息读取,主数据读取,哈夫曼解码和量化四个部分;2)生成MDCT矩阵找出每一子带中的MDCT系数,对子带中系数排列,形成矩阵三 部分;3)压缩域特征参数的提取中高频指数MHFI (Medium-high frequency index);4)计算中高频指数的可能性熵(E) ..E = -∑p1inpi5)统计映射将计算所得的中高频指数可能性熵值进行统计,将其映射至0-5区 间并输出。本专利技术有益的效果是直接从MP3压缩音频数据中提取有效的特征参数,比将压 缩数据解压后再提取特征,既算法更简单,又节省计算时间;弥补了主观评价费时、费力及 成本高等缺陷,同时还解决了目前占据优势地位的基于输入_输出客观评价方法有时难以 提供参考信号的不利因素,可进一步为音频丰满度、明亮度等其它指标的客观评价提供参 考,同时也可将各项指标作为高层感知参数,用于MP3压缩域的语音识别与检索中。附图说明图1是本专利技术一种无参考源的MP3音频清晰度客观评价方法的流程图。图2是主、客观评价分值的对比图。具体实施例方式本专利技术的一个优选实例结合附图1说明如下本无参考源的MP3音频清晰度客观 评价方法,共分五步第一步MP3压缩域音频数据处理压缩域音频数据处理可分为帧头信息读取,边信息的读取,主数据读取,哈夫曼 解码和量化。1)帧头信息读取a)定义存放帧头信息的结构体;b)读取帧中同步信息;c)使解码器与数据流同步;d)确定该帧数据起始位置,存放帧头信息;2)边信息的读取a)定义存放边信息的结构体;b)由帧头结束位置确定边信息开始位置;c)存放边信息;3)主数据读取a)定义存放缩放因子的结构,存放主数据大小;b)计算主数据长度;c)申请主数据长度的内存空间;d)读取主数据;e)读取缩放因子;4)哈夫曼解码和反量化a)定义一个颗粒中存放哈夫曼解码数据的数组is ;b)根据边信息确定主数据中哈夫曼数据起始位置;c)对哈夫曼数据进行解码并将解码数据放在is 中;d)对is 中的数据进行反量化,仍存放于is 中。第二步生成MDCT系数矩阵每个颗粒的数据由32个子带构成且每一子带含有18个系数,根据频率由低到高 分布的原则,每一颗粒可形成一个32X18的矩阵。该过程如下1、找出每一子带系数a)找出is 中子带的系数Si,共32个;b)定义Si子带中的系数SSi ,每一子带系数18个。2、形成行向量a)按频率高低原则重新排列Si中系数,仍存放于SiU]中;b)将每一子带排列完成后的SiU]看作是矩阵中的行向量。3、形成矩阵a)将SiU]行向量依子带序号组合形成32X18M ;b)依照上述原则,一帧中两个颗粒的MDCT系数矩阵表示为M1 ,M2 第三步压缩域特征参数的提取所提取的压缩域特征为中高频指数MHFI (Medium-high frequency index)参数, 具体计算步骤如下a)计算MP3音频每个颗粒修正离散余弦变换系数的平方和 式中i、j表示的是边带序号和边带内系数的序号;M 为MDCT系数值。b)计算每个颗粒中高频段MDCT系数的平方和 其中系数序号区间可根据选定的中高频频段进行小范围适度调整;c)定义每个颗粒的中高频指数 MHFI (Medium-high frequency index)为 第四步计算中高频指数的可能性熵E 其中N为测试音频总的帧数,Pi为中高频指数值,由于每帧包含两个颗粒且测试音 频为MP3双声道音频数据,故每帧对应四个中高频指数值;第五步统计映射a)求整段音频中高频指数可能性熵的均值EM 式中N为音频总的帧数,Pi为中高频指数的值,由于每帧包含两个颗粒且测试音频 为MP3立体声音频数据,每帧对应四个中高频指数的值;b)将中高频指数可能性熵的均值EM映射至0-5区间并输出;首先将中高频指数可能性熵的均值进行适度放大,得SII,再通过非线性映射函数 将SII值映射至0-5区间,即得清晰度指数值AI (Articulation Index),其中常用的映射函数还包括平方函数、对数函数、截取函数、窗口函数、阈值函数、多值量化函数; AI = 10/ π ^arctan(SII)最终输出清晰度分值。实验结果本实验使用的音频资料为ΜΡ3立体声数据,其采样频率为44. IKHz0将音频资料分 为三组,每组为四段内容相同但清晰度质量主观感觉依次降低的音频数据。按照上述音频 清晰度质量客观评价方法,可以得到对应的清晰度客观评价分值,与其主观评价分值进行 数据对比结果表格如下表1 :ΜΡ3立体声音频清晰度质量主、客观评价分值对比其主、客观评价分值的对 比如图2所示。从无参考源音频清晰度本文档来自技高网...

【技术保护点】
一种无参考源的MP3音频清晰度客观评价方法,其特征在于:首先通过对MP3压缩音频部分解码得到修正离散余弦变换系数,其次对这些数据计算频域中高频指数(MHFI),然后选用可能性熵函数作为无参考MP3音频清晰度评价函数,最后对中高频指数的可能性熵值进行统计映射得到清晰度客观评价分值。

【技术特征摘要】

【专利技术属性】
技术研发人员:余小清张静石成林刘军伟万旺根
申请(专利权)人:上海大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1