用于使用水平相位校正处理音频信号的音频处理器及方法技术

技术编号:14943263 阅读:70 留言:0更新日期:2017-04-01 09:34
示出用于处理音频信号(55)的音频处理器(50)。音频处理器包括:音频信号相位测量计算器(60),其用于计算用于时间帧(75a)的音频信号的相位测量(80);目标相位测量确定器(65),其用于确定用于所述时间帧(75a)的目标相位测量(85);以及相位校正器(70),其用于使用计算的相位测量(80)以及目标相位测量(85)校正用于时间帧(75a)的音频信号(55)的相位(45),以获取处理的音频信号(90)。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及用于处理音频信号的音频处理器及方法、用于对音频信号进行解码的解码器及方法以及用于对音频信号进行编码的编码器及方法。此外,描述用于确定相位校正数据、音频信号的计算器及方法以及用于执行先前提及的方法中的一个的计算机程序。换言之,本专利技术示出相位导数校正及带宽扩展(BWE)用于感知的音频编解码器或用于基于感知重要性校正QMF域中的带宽扩展信号的相位谱。
技术介绍
感知音频编码至今所见的感知音频编码遵循多个常见主题,包括时域/频域处理、冗余度缩减(熵编码)及通过感知效果的发音开发的不相关性移除的使用[1]。通常,输入信号由分析滤波器组分析,该分析滤波器组将时域信号转换为谱(时间/频率)表示。转换为谱系数允许根据信号分量的频率内容(例如具有其独特泛音结构的不同乐器)选择性地处理信号分量。平行地,关于输入信号的感知特性分析输入信号,即(特别地)计算时间相依及频率相依的掩蔽阈值。通过用于每个频带并对时间帧进行编码的绝对能量值或掩蔽信号比(MSR)形式的目标编码阈值将时间相依/频率相依掩蔽阈值传输至量化单元。对由分析滤波器组传输的谱系数进行量化以降低表示信号所需要的数据速率。此步骤意味着信息损失并将编码失真(误差、噪声)引入信号中。为了最小化此编码噪声的可听影响,根据用于每个频带及帧的目标编码阈值控制量化器步长。理想地,注入至每个频带中的编码噪声低于编码(掩蔽)阈值,且因此主观音频中的降级为不可感知的(不相干性的移除)。根据心理声学要求对频率及时间上的量化噪声的此控制导致复杂噪声成形效应,且使编码器成为感知音频编码器。随后,现代音频编码器对量化的谱数据执行熵编码(例如,霍夫曼编码、算术编码)。熵编码为无损编码步骤,其可进一步节省比特率。最后,所有的编码的谱数据及相关额外参数(旁侧信息,如例如用于每个频带的量化器设置)一起打包至比特流中,其为用于文件存储或传输的最终编码表示。带宽扩展在基于滤波器组的感知音频编码中,所消耗的比特率的主要部分通常消耗在量化的谱系数上。因此,以极低的比特率,不足的比特可用于以达到感知上未受损的再现所需的精度表示所有系数。因此,低比特率要求有效地设定对可通过感知音频编码获取的音频带宽的限制。带宽扩展[2]消除此长期存在的基本限制。带宽扩展的中心思想在于通过额外高频率处理器补充有限带宽感知编解码器,该额外高频率处理器以紧凑参数形式传输并恢复缺失的高频内容。可基于基带信号的单个边频带调制、基于如在谱带复制(SBR)[3]中使用的备份技术或基于音高移位(pitchshifting)技术的应用(例如声码器[4])生成高频内容。数字音效通常可通过应用时域技术(如同步叠加(SOLA))或频域技术(声码器)获取时间拉伸或音高移位效果。另外,已提出了在子带中应用SOLA处理的混合系统。声码器及混合系统通常因可归因于垂直相位相干性的损失的被称为相位错乱(phasiness)[8]的人为现象(artifact)而受损。一些出版物涉及通过在垂直相位相干性重要的情况下保留垂直相位相干性而对时间拉伸算法的音质的改良[6][7]。最新技术的音频编码器[1]通常通过忽略待编码信号的重要相位特性而对音频信号的感知品质作出妥协。[9]中探讨了在感知音频编码器中校正相位相干性的一般提议。然而,并非所有种类的相位相干性误差可同时校正,且并非所有相位相干性误差在感知上都是重要的。例如,在音频带宽扩展中,自最新技术无法明确哪些相位相干性有关的误差应当以最高优先权校正,及哪些误差可仅被部分校正或关于其不重要的感知影响而被完全忽略。特别地,由于音频带宽扩展的应用[2][3][4],频率上及相位对时间的相干性常常是受损的。结果为展现听觉粗糙度并可包括从原始信号中的听觉对象分裂的额外感知音调的浊音,并因此被视为原始信号之外的听觉对象。此外,声音可似乎是来自远距离,“嗡嗡声”较低,并因此唤醒少数听众参与[5]。因此,需要改进的方法。
技术实现思路
本专利技术的目标在于提供一种用于处理音频信号的改进的概念。通过独立权利要求的主题实现此目标。本专利技术基于可根据由音频处理器或解码器计算的目标相位校正音频信号的相位的发现。目标相位可被视为未处理的音频信号的相位的表示。因此,调整处理的音频信号的相位以更好地适应未处理的音频信号的相位。具有例如音频信号的时间频率表示,音频信号的相位可在子带中调整用于后续时间帧,或可在时间帧中调整用于后续频率子带。因此,发现计算器以自动检测并选择最适合的校正方法。可在不同实施例中实施或在解码器和/或编码器中共同实施所述发现。实施例示出用于处理音频信号的音频处理器,该音频处理器包括音频信号相位测量计算器,该音频信号相位测量计算器用于计算用于时间帧的音频信号的相位测量。此外,音频信号包括目标相位测量确定器,其用于确定用于所述时间帧的目标相位测量;以及相位校正器,其用于使用计算的相位测量及目标相位测量校正用于时间帧的音频信号的相位,从而获取处理的音频信号。根据另一实施例,音频信号可包括用于时间帧的多个子带信号。目标相位测量确定器用于确定用于第一子带信号的第一目标相位测量以及用于第二子带信号的第二目标相位测量。此外,音频信号相位测量计算器确定用于第一子带信号的第一相位测量及用于第二子带信号的第二相位测量。相位校正器用于使用音频信号的第一相位测量及第一目标相位测量校正第一子带信号的第一相位,并用于使用音频信号的第二相位测量及第二目标相位测量校正第二子带信号的第二相位。因此,音频处理器可包括音频信号合成器,其用于使用校正的第一子带信号及校正的第二子带信号合成校正的音频信号。根据本专利技术,音频处理器用于在水平方向上校正音频信号的相位,即时间上的校正。因此,音频信号可细分为成组的时间帧,其中可根据目标相位调整每个时间帧的相位。目标相位可以是原始音频信号的表示,其中音频处理器可以是用于解码作为原始音频信号的编码表示的音频信号的解码器的部分。可选地,如果音频信号在时间-频率表示中可用,可针对音频信号的多个子带分别地应用水平相位校正。可通过从音频信号的相位减去目标相位的相位对时间的导数与音频信号的相位的偏差,执行音频信号的相位的校正。因此,由于相位对时间的导数为频率(其中为相位),所描述的相位校正对于音频信号的每个子带执行频率调整。换言之,可减少音频信号的每个子带与目标频率的差异从而获取音频信号的较佳品质。为了确定目标相位,目标相位确定器用于获取用于当前时间帧的基本频率估计,且用于使用用于时间帧的基本频率估计计算用于时间帧的多个子带中的每个子带的频率估计。可使用音频信号的子带的总数以及抽样频率将频率估计转换为相位对时间的导数。在另一实施例中,音频处理器包括:目标相位测量确定器,其用于确定用于时间帧中的音频信号的目标相位测量;相位误差计算器,其用于使用音频信号的相位及目标相位测量的时间帧计算相位误差;以及相位校正器,其用于使用相位误差校正音频信号的相位及时间帧。根据另一实施例,音频信号在时间频率表示中可用,其中音频信号包括用于时间帧的多个子带。目标相位测量确定器确定用于第一子带信号的第一目标相位测量及用于第二子带信号的第二目标相位测量。此外,相位误差计算器形成相位误差的向量,其中向量的第一元素代表第一子带信号的相位与第一目标相位本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/21/201580036465.html" title="用于使用水平相位校正处理音频信号的音频处理器及方法原文来自X技术">用于使用水平相位校正处理音频信号的音频处理器及方法</a>

【技术保护点】
一种用于处理音频信号(55)的音频处理器(50),包括:音频信号相位测量计算器(60),用于计算用于时间帧(75a)的音频信号的相位测量(80);目标相位测量确定器(65),用于确定用于所述时间帧(75a)的目标相位测量(85);相位校正器(70),用于使用计算的相位测量(80)以及所述目标相位测量(85)校正用于所述时间帧(75a)的所述音频信号(55)的相位(45),以获取处理的音频信号(90)。

【技术特征摘要】
【国外来华专利技术】2014.07.01 EP 14175202.2;2015.01.16 EP 15151478.31.一种用于处理音频信号(55)的音频处理器(50),包括:音频信号相位测量计算器(60),用于计算用于时间帧(75a)的音频信号的相位测量(80);目标相位测量确定器(65),用于确定用于所述时间帧(75a)的目标相位测量(85);相位校正器(70),用于使用计算的相位测量(80)以及所述目标相位测量(85)校正用于所述时间帧(75a)的所述音频信号(55)的相位(45),以获取处理的音频信号(90)。2.根据权利要求1所述的音频处理器(50),其中所述音频信号(55)包括用于所述时间帧(75a)的多个子带信号(95a,b);其中所述目标相位测量确定器用于确定用于第一子带信号(95a)的第一目标相位测量(85a)以及用于第二子带信号(95b)的第二目标相位测量(85b);其中所述音频信号相位测量计算器(60)用于确定用于所述第一子带信号(95a)的第一相位测量(80a)以及用于所述第二子带信号(95b)的第二相位测量(80b);其中所述相位校正器(70)用于使用所述音频信号(55)的所述第一相位测量(80a)以及所述第一目标相位测量(85)校正所述第一子带信号(95a)的第一相位(45a),以获取处理的第一子带信号(90a),并用于使用所述音频信号(55)的所述第二相位测量(80b)以及所述第二目标相位测量(85b)校正所述第二子带信号(95b)的第二相位(45b),以获取处理的第二子带信号(90b);以及音频信号合成器(100),用于使用所述处理的第一子带信号(90a)和所述处理的第二子带信号(90b)合成所述处理的音频信号(90)。3.根据权利要求1或2所述的音频处理器(50),其中所述相位测量(80)是相位对时间的导数;其中所述音频信号相位测量计算器(60)用于针对多个子带中的每个子带(95)计算当前时间帧(75b)的相位值和未来时间帧(75c)的相位值的相位导数;其中所述相位校正器(70)用于针对所述当前时间帧(75b)的所述多个子带中的每个子带(95)计算目标相位导数(85)与所述相位对时间的导数(80)之间的偏差(105);其中使用所述偏差执行由所述相位校正器(70)执行的校正。4.根据权利要求1-3中任一项所述的音频处理器(50),其中所述相位校正器(70)用于校正在所述时间帧(75)内的所述音频信号(55)的不同子带的子带信号(95),以使得校正的子带信号(90a,b)的频率具有和谐地分配至所述音频信号(55)的基本频率的频率值。5.根据权利要求1-4中任一项所述的音频处理器(50),其中所述相位校正器(70)用于在先前时间帧(75a)、所述当前时间帧(75b)以及未来时间帧(75c)上将用于所述多个子带中的每个子带(95)的所述偏差(105)平滑化,并用于减少子带(95)内的所述偏差(105)的急剧变化。6.根据权利要求5所述的音频处理器(50),其中所述平滑化为加权平均值;其中所述相位校正器(70)用于计算在所述先前时间帧(75a)、所述当前时间帧(75b)以及所述未来时间帧(75c)上的由所述先前时间帧(75a)、所述当前时间帧(75b)以及所述未来时间帧(75c)中的所述音频信号(55)的幅度(47)加权的所述加权平均值。7.根据权利要求1-6中任一项所述的音频处理器(50),其中所述相位校正器(70)用于形成偏差(105)的向量,其中所述向量的第一元素表示用于所述多个子带中的第一子带(95a)的第一偏差(105a),且所述向量的第二元素表示用于来自所述先前时间帧(75a)至当前时间帧(75b)的所述多个子带中的第二子带(95b)的第二偏差(105b);以及其中所述相位校正器(70)用于将所述偏差(105)的向量施加于所述音频信号的相位(45),其中所述向量的第一元素被施加于所述音频信号(55)的多个子带中的第一子带(95a)中的所述音频信号(55)的相位(45a),且所述向量的第二元素被施加于所述音频信号(55)的多个子带中的第二子带(95b)中的所述音频信号(55)的相位(45b)。8.根据权利要求1-7中任一项所述的音频处理器(50),其中所述目标相位测量确定器(65)用于获取用于时间帧(75)的基本频率估计(85);其中所述目标相位测量确定器(65)用于使用用于所述时间帧(75)的基本频率计算用于所述时间帧(75)的所述多个子带中的每个子带(95)的频率估计(85)。9.根据权利要求8所述的音频处理器(50),其中所述目标相位测量确定器(65)用于使用所述音频信号(55)的子带(95)的总数及抽样频率将用于所述多个子带中的每个子带(95)的所述频率估计(85)转换为所述相位对时间的导数(85)。10.根据权利要求8或9所述的音频处理器(50),其中所述目标相位测量确定器(65)用于形成用于所述多个子带中的每个子带(95)的频率估计(85)的向量,其中所述向量的第一元素表示用于第一子带(95a)的频率估计(85a),且所述向量的第二元素表示用于第二子带(95b)的频率估计(85b);其中所述目标相位测量...

【专利技术属性】
技术研发人员:萨沙·迪施米可维利·莱迪南维利·普尔基
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1