一种针对流媒体音频质量的客观评测方法技术

技术编号:5199652 阅读:256 留言:0更新日期:2012-04-11 18:40
本发明专利技术为一种针对流媒体音频质量的客观评测方法,在发送端获得原始音频,在接收端获得经过网络传输后引入了编解码器、丢包、延时抖动损伤的失真音频;针对带有网络特性的失真的音频进行预处理和对齐模块处理后,经过音频质量的感知评估PEAQ输出去掉延时和抖动的失真音频;对原始音频和对齐后的失真音频进行编解码器及丢包损伤质量评测;对于失真音频和对齐后的失真音频间的延时抖动带来的损伤进行网络损伤评估的客观质量评测;把这两部分损伤的质量评测值拟合,得到原始音频和经过网络传输后的失真音频的客观评测值。

【技术实现步骤摘要】

本专利技术涉及通信网络质量的评测方法,尤其是对于流媒体音频质量的一种客观评 测方法。
技术介绍
21世纪是网络高速发展的时代,随着互联网的普及,利用网络传输音频信号的需 求也越来越大。流媒体技术的出现,在一定程度上使互联网传输音频难的局面得到改善,其 将过去传统媒体的“推”式传播,变为受众的“拉”式传播与实时传播。由于流媒体技术在 一定程度上突破了网络带宽对多媒体信息传输的限制,因此被广泛运用于网上直播、网络 会议、远程教育及企业培训等多种领域。为了更好的进行流媒体的传输,通常需要对于流媒 体质量进行评测,同时也对流媒体音频的质量评测提出了新的挑战。目前对于语音及音频质量的测试方法有两种传统的主观评测方法和评测的新方 法客观评测。主观评价是以人为主体来评价语音和音频的质量。在语音质量主观评价方法 中,MOS评分用的最为广泛,它以平均意见分来衡量语音质量,用五个等级来表示语音的质 量等级优(5分)、良G分)、一般(3分)、差O分)、坏(1分)。主观听音测试方法包括 ACR 绝对等级评定,最常用的一种听音测试方法,等级评定是基于语句组的,语句组有一组 无关的短句组成,每一个语句都通过一系列的标准处理。DCR 衰减等级评定,用于小衰减 情况,适于评价类似的数字语音处理算法、系统优化。CCR 比较等级评定,用于改进输入语 音质量,如加噪等。在音频方面,按照音频信号编、解码后质量的高低,可将音频信号的质量 评价分成两类一种为对小损伤、高质量音频信号一般采用ITU-R BS. 1116标准进行测试; 另一种为对中等损伤、中等质量的音频信号一般采用ITU-R BS. 1534(MUSHRA),它是一种双 盲的多激励音频信号听音比较测试方法,双盲指的是在待评测的语句中含有隐含的参考信 号(通常为原始的高质量音频)和隐含的失真信号(称之为锚)。其评分等级范围为0到 100,分值步进为1,每20分对应一个质量等级,分别对应质量级别的“极差”到“优异”,听 音人员对待测音频信号进行评分比较排序,并可以任意选择听音顺序和听音次数。这个测 试方法是一种多激励的对比听音测试,能够有效的区分出待测信号的质量等级。主观评价 的优点是符合人对音频质量的感觉,缺点是费时费力费钱,且灵活性不够,重复性和稳定性 较差,受人的主观影响较大等。客观评测方法在语音方面有ITU-T P. 862 (PESQ)建议,它是ITU提出的语音质量 客观评价算法之一,它针对网络中出现的可变时间延迟和系统引入的线性滤波这两方面做 了改进,是目前与主观分值相关度最高的语音质量评测客观算法,该分值在(Γ4. 5之间,通 常情况下,输出分值在l.(T4. 5之间,分值在2分或2分以下,表示语音质量比较差,难于听 懂,但是其对于音频和抖动延时较大的情况下却不能给出很好的评价;在VoIP中获得了广 泛应用的ITU-T G. 107规范(Ε模型),其优点是全面考虑了网络中如噪声回音延时编码器 性能抖动等网络损伤因素给出一个单一的得分R并且具有相当的评估准确度,且其质量等 级R值与客观MOS分的质量等级存在着一个非线性单调的映射关系,然而E-model却存在着对于大数量的可能输入参数的组合情况未经过足够的界内验证和充分的实验室测量,估 测仍处在置疑和研究的阶段等的缺点。在音频方面ITU-R综合六种已有的方法以及一些 还在发展中并且很有潜力的评价方法,最终形成了 ITU-RBS. 1387 (PEAQ)建议,其客观评价 分值称为0DG,分值范围为0到-4间,质量等级为无法感知的(0分),可感知但不恼人(-1 分),轻微的恼人(_2分),恼人的(-3分),非常恼人(-4分),然而它作为针对音频编解码 器的提出的算法,存在“训练集问题”,对于高速率及质量较好的音频能够给出很好的评价, 然而,对于质量较差(如速率较低或者丢包率很高)则不能给出与主观分值相关度较高的 评价。由于PEAQ是基于帧到帧的比较,因此对于引入了延时抖动的音频,PEAQ不能自己对 齐音频,找到原始帧对应的失真帧进行比较,因此不能给出正确的客观评测分值。
技术实现思路
本专利技术要解决的技术问题是,提供,能 够客观评测引入了编解码器、丢包、噪声等损伤的音频质量,而且还能够客观评测引入了网 络传输损伤(如延时抖动等)的失真音频的质量。本专利技术提供的,包括以下步骤第一步在发送端获得原始音频,在接收端获得经过网络传输后引入了编解码器、 丢包、延时抖动损伤的失真音频;第二步针对带有网络特性的失真的音频进行预处理和对齐模块处理后,经过音 频质量的感知评估PEAQ输出去掉延时和抖动的失真音频;第三步对原始音频和对齐后的失真音频进行编解码器及丢包损伤质量评测;第四步对于失真音频和对齐后的失真音频间的延时抖动带来的损伤进行网络损 伤评估的客观质量评测;第五步把这两部分损伤的质量评测值拟合,得到原始音频和经过网络传输后的 失真音频的客观评测值。所述第一步中对其是否有网络延时抖动以及网络延时抖动的大小进行判断方法 为根据网络延时抖动大小定义对齐模块的搜索窗大小,并将其做为对齐模块的初始搜索 窗值;并且根据划分的音频段和静默段信息,试验出传输的帧长。所述得对齐模块利用基于帧到帧的互相关的办法,在失真音频中找到对应的帧, 下一帧恢复到初始搜索窗值,如此循环,直到在失真音频中找到原始音频的每一帧的对应 帧,若没有,则调整初始搜索窗值,继续搜索,直到得到的对齐失真音频的样点数等于原始 音频的样点数,并输出对齐后的失真音频。原始音频和经过对齐模块后得到的对齐后的失真音频进行编解码器及丢包损伤 评估计算为音频质量的感知评估(PEAQ)计算。由于PEAQ的计算机制是逐帧比较的算法, 如果因为经过网络传输引入了延时抖动等因素,可能导致每帧的延时抖动并不相同,未对 齐的话会使得PEAQ后期的评测没有意义。即失真音频如果是没有对齐的音频,作为国际 标准的客观评测算法PEAQ将给不出正确的客观分值,并且通过主观实验证明,若是没有对 齐,PEAQ给出的客观分值与主观分值的相关度为-0. 3,也就是说不仅与主观分值不相关, 趋势还是相反的。因此对齐模块对于正确评测流媒体音乐质量相当重要,并且必须经过对 齐模块后,再用音频质量的感知评估计算模块来评测,才能得到与主观分值相关度较高的客观分值。所述的音频质量的感知评估(PEAQ)计算采用下述步骤第一步将输入信号从时域变换到听觉域Bark,BV依靠FFT加频域到Bark域映 射的方法,AV依靠滤波器组滤波的方法,在映射的过程中,根据还音电平对信号进行幅度调 节、利用外中耳模拟函数对信号进行加权;第二步按照心理声学理论对表示在Bark域的输入信号进行频域扩散和时域扩 散,同时计算遮蔽门限;第三步进行幅度和模式调整,并计算失真阈值;第四步利用上述三步的输出,按各输出参数的定义计算所有输出参数MOVs ;将 MOVs通过信息融合的手段合成为评价参数。所述PEAQ包括了基于快速傅立叶变换(FFT)和基于滤波器组的人耳模型。模型包 括两个版本一个是适用于高处理速度(低计算复杂度)需要的应用,被称之为基本版本。 另一个版本是适用于高准确度测试需要的应用,被称之为高级版本。高级版本的优点是,它 增加了滤波器组人耳模型的时间分辨本文档来自技高网
...

【技术保护点】
一种针对流媒体音频质量的客观评测方法,其特征在于:包括以下步骤:第一步:在发送端获得原始音频,在接收端获得经过网络传输后引入了编解码器、丢包、延时抖动损伤的失真音频;第二步:针对带有网络特性的失真的音频进行预处理和对齐模块处理后,经过音频质量的感知评估PEAQ输出去掉延时和抖动的失真音频;第三步:对原始音频和对齐后的失真音频进行编解码器及丢包损伤质量评测;第四步:对于失真音频和对齐后的失真音频间的延时抖动带来的损伤进行网络损伤评估的客观质量评测;第五步:把这两部分损伤的质量评测值拟合,得到原始音频和经过网络传输后的失真音频的客观评测值。

【技术特征摘要】
1.一种针对流媒体音频质量的客观评测方法,其特征在于包括以下步骤第一步在发送端获得原始音频,在接收端获得经过网络传输后引入了编解码器、丢 包、延时抖动损伤的失真音频;第二步针对带有网络特性的失真的音频进行预处理和对齐模块处理后,经过音频质 量的感知评估PEAQ输出去掉延时和抖动的失真音频;第三步对原始音频和对齐后的失真音频进行编解码器及丢包损伤质量评测;第四步对于失真音频和对齐后的失真音频间的延时抖动带来的损伤进行网络损伤评 估的客观质量评测;第五步把这两部分损伤的质量评测值拟合,得到原始音频和经过网络传输后的失真 音频的客观评测值。2.根据权利要求1所述的一种针对流媒体音频质量的客观评测方法,其特征在于所 述第一步中对其是否有网络延时抖动以及网络延时抖动的大小进行判断方法为根据网络 延时抖动大小定义对齐模块的搜索窗大小,并将其做为对齐模块的初始搜索窗值;并且根 据划分的音频段和静默段信息,试验出传输的帧长。3.根据权利要求1所述的一种针对流媒体音频质量的客观评测方法,其特征在于所 述得对齐模块利用基于帧到帧的互相关的办法,在失真音频中找到对应的帧,下一帧恢复 到初始搜索窗值,如此循环,直到在失真音频中找到原始音频的每一帧的对应帧,若没有, 则调整初始搜索窗值,继续搜索,直到得到的对齐失真音频的样点数等于原始音频的样点 数,并输出对齐后...

【专利技术属性】
技术研发人员:杨越谢湘魏耀都
申请(专利权)人:北京理工大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1