用于使用垂直相位校正处理音频信号的音频处理器及方法技术

技术编号:15343488 阅读:117 留言:0更新日期:2017-05-17 00:28
描述用于处理音频信号(55)的音频处理器(50’)。音频处理器(50’)包括目标相位测量确定器(65’),其用于确定用于时间帧(75)中的音频信号(55)的目标相位测量(85’),相位误差计算器(200),其用于使用所述时间帧(75)中的音频信号(55)的相位以及目标相位测量(85’)计算相位误差(105’),以及相位校正器(70’),其用于使用相位误差(105’)校正时间帧中的音频信号(55)的相位。

【技术实现步骤摘要】
【国外来华专利技术】用于使用垂直相位校正处理音频信号的音频处理器及方法
本专利技术涉及用于处理音频信号的音频处理器及方法、用于对音频信号进行解码的解码器及方法以及用于对音频信号进行编码的编码器及方法。此外,描述用于确定相位校正数据、音频信号的计算器及方法以及用于执行先前提及的方法中的一个的计算机程序。换言之,本专利技术示出相位导数校正及带宽扩展(BWE)用于感知的音频编解码器或用于基于感知重要性校正QMF域中的带宽扩展信号的相位谱。
技术介绍
感知音频编码至今所见的感知音频编码遵循多个常见主题,包括时域/频域处理、冗余度缩减(熵编码)及通过感知效果的发音开发的不相关性移除的使用[1]。通常,输入信号由分析滤波器组分析,该分析滤波器组将时域信号转换为谱(时间/频率)表示。转换为谱系数允许根据信号分量的频率内容(例如具有其独特泛音结构的不同乐器)选择性地处理信号分量。平行地,关于输入信号的感知特性分析输入信号,即(特别地)计算时间相依及频率相依的掩蔽阈值。通过用于每个频带并对时间帧进行编码的绝对能量值或掩蔽信号比(MSR)形式的目标编码阈值将时间相依/频率相依掩蔽阈值传输至量化单元。对由分析滤波器组传输的谱系数进行量化以降低表示信号所需要的数据速率。此步骤意味着信息损失并将编码失真(误差、噪声)引入信号中。为了最小化此编码噪声的可听影响,根据用于每个频带及帧的目标编码阈值控制量化器步长。理想地,注入至每个频带中的编码噪声低于编码(掩蔽)阈值,且因此主观音频中的降级为不可感知的(不相干性的移除)。根据心理声学要求对频率及时间上的量化噪声的此控制导致复杂噪声成形效应,且使编码器成为感知音频编码器。随后,现代音频编码器对量化的谱数据执行熵编码(例如,霍夫曼编码、算术编码)。熵编码为无损编码步骤,其可进一步节省比特率。最后,所有的编码的谱数据及相关额外参数(旁侧信息,如例如用于每个频带的量化器设置)一起打包至比特流中,其为用于文件存储或传输的最终编码表示。带宽扩展在基于滤波器组的感知音频编码中,所消耗的比特率的主要部分通常消耗在量化的谱系数上。因此,以极低的比特率,不足的比特可用于以达到感知上未受损的再现所需的精度表示所有系数。因此,低比特率要求有效地设定对可通过感知音频编码获取的音频带宽的限制。带宽扩展[2]消除此长期存在的基本限制。带宽扩展的中心思想在于通过额外高频率处理器补充有限带宽感知编解码器,该额外高频率处理器以紧凑参数形式传输并恢复缺失的高频内容。可基于基带信号的单个边频带调制、基于如在谱带复制(SBR)[3]中使用的备份技术或基于音高移位(pitchshifting)技术的应用(例如声码器[4])生成高频内容。数字音效通常可通过应用时域技术(如同步叠加(SOLA))或频域技术(声码器)获取时间拉伸或音高移位效果。另外,已提出了在子带中应用SOLA处理的混合系统。声码器及混合系统通常因可归因于垂直相位相干性的损失的被称为相位错乱(phasiness)[8]的人为现象(artifact)而受损。一些出版物涉及通过在垂直相位相干性重要的情况下保留垂直相位相干性而对时间拉伸算法的音质的改良[6][7]。最新技术的音频编码器[1]通常通过忽略待编码信号的重要相位特性而对音频信号的感知品质作出妥协。[9]中探讨了在感知音频编码器中校正相位相干性的一般提议。然而,并非所有种类的相位相干性误差可同时校正,且并非所有相位相干性误差在感知上都是重要的。例如,在音频带宽扩展中,自最新技术无法明确哪些相位相干性有关的误差应当以最高优先权校正,及哪些误差可仅被部分校正或关于其不重要的感知影响而被完全忽略。特别地,由于音频带宽扩展的应用[2][3][4],频率上及相位对时间的相干性常常是受损的。结果为展现听觉粗糙度并可包括从原始信号中的听觉对象分裂的额外感知音调的浊音,并因此被视为原始信号之外的听觉对象。此外,声音可似乎是来自远距离,“嗡嗡声”较低,并因此唤醒少数听众参与[5]。因此,需要改进的方法。
技术实现思路
本专利技术的目标在于提供一种用于处理音频信号的改进的概念。通过独立权利要求的主题实现此目标。本专利技术基于可根据由音频处理器或解码器计算的目标相位校正音频信号的相位的发现。目标相位可被视为未处理的音频信号的相位的表示。因此,调整处理的音频信号的相位以更好地适应未处理的音频信号的相位。具有例如音频信号的时间频率表示,音频信号的相位可在子带中调整用于后续时间帧,或可在时间帧中调整用于后续频率子带。因此,发现计算器以自动检测并选择最适合的校正方法。可在不同实施例中实施或在解码器和/或编码器中共同实施所述发现。实施例示出用于处理音频信号的音频处理器,该音频处理器包括音频信号相位测量计算器,该音频信号相位测量计算器用于计算用于时间帧的音频信号的相位测量。此外,音频信号包括目标相位测量确定器,其用于确定用于所述时间帧的目标相位测量;以及相位校正器,其用于使用计算的相位测量及目标相位测量校正用于时间帧的音频信号的相位,从而获取处理的音频信号。根据另一实施例,音频信号可包括用于时间帧的多个子带信号。目标相位测量确定器用于确定用于第一子带信号的第一目标相位测量以及用于第二子带信号的第二目标相位测量。此外,音频信号相位测量计算器确定用于第一子带信号的第一相位测量及用于第二子带信号的第二相位测量。相位校正器用于使用音频信号的第一相位测量及第一目标相位测量校正第一子带信号的第一相位,并用于使用音频信号的第二相位测量及第二目标相位测量校正第二子带信号的第二相位。因此,音频处理器可包括音频信号合成器,其用于使用校正的第一子带信号及校正的第二子带信号合成校正的音频信号。根据本专利技术,音频处理器用于在水平方向上校正音频信号的相位,即时间上的校正。因此,音频信号可细分为成组的时间帧,其中可根据目标相位调整每个时间帧的相位。目标相位可以是原始音频信号的表示,其中音频处理器可以是用于解码作为原始音频信号的编码表示的音频信号的解码器的部分。可选地,如果音频信号在时间-频率表示中可用,可针对音频信号的多个子带分别地应用水平相位校正。可通过从音频信号的相位减去目标相位的相位对时间的导数与音频信号的相位的偏差,执行音频信号的相位的校正。因此,由于相位对时间的导数为频率(其中为相位),所描述的相位校正对于音频信号的每个子带执行频率调整。换言之,可减少音频信号的每个子带与目标频率的差异从而获取音频信号的较佳品质。为了确定目标相位,目标相位确定器用于获取用于当前时间帧的基本频率估计,且用于使用用于时间帧的基本频率估计计算用于时间帧的多个子带中的每个子带的频率估计。可使用音频信号的子带的总数以及抽样频率将频率估计转换为相位对时间的导数。在另一实施例中,音频处理器包括:目标相位测量确定器,其用于确定用于时间帧中的音频信号的目标相位测量;相位误差计算器,其用于使用音频信号的相位及目标相位测量的时间帧计算相位误差;以及相位校正器,其用于使用相位误差校正音频信号的相位及时间帧。根据另一实施例,音频信号在时间频率表示中可用,其中音频信号包括用于时间帧的多个子带。目标相位测量确定器确定用于第一子带信号的第一目标相位测量及用于第二子带信号的第二目标相位测量。此外,相位误差计算器形成相位误差的向量,其中向量的第本文档来自技高网
...
用于使用垂直相位校正处理音频信号的音频处理器及方法

【技术保护点】
一种用于处理音频信号(55)的音频处理器(50’),所述音频处理器(50’)包括:目标相位测量确定器(65’),用于确定用于时间帧(75)中的所述音频信号(55)的目标相位测量(85’);相位误差计算器(200),用于使用所述时间帧(75)中的所述音频信号(55)的相位以及所述目标相位测量(85’)计算相位误差(105’);以及相位校正器(70’),用于使用所述相位误差(105’)校正所述时间帧中的所述音频信号(55)的相位。

【技术特征摘要】
【国外来华专利技术】2014.07.01 EP 14175202.2;2015.01.16 EP 15151476.71.一种用于处理音频信号(55)的音频处理器(50’),所述音频处理器(50’)包括:目标相位测量确定器(65’),用于确定用于时间帧(75)中的所述音频信号(55)的目标相位测量(85’);相位误差计算器(200),用于使用所述时间帧(75)中的所述音频信号(55)的相位以及所述目标相位测量(85’)计算相位误差(105’);以及相位校正器(70’),用于使用所述相位误差(105’)校正所述时间帧中的所述音频信号(55)的相位。2.根据权利要求1所述的音频处理器(50’),其中所述音频信号(55)包括用于所述时间帧(75)的多个子带(95);其中所述目标相位测量确定器(65’)用于确定用于第一子带信号(95a)的第一目标相位测量(85a’)以及用于第二子带信号(95b)的第二目标相位测量(85b’);其中所述相位误差计算器(200)用于形成相位误差(105’)的向量,其中所述向量的第一元素表示所述第一子带信号(95a)的相位和所述第一目标相位测量(85a’)的第一偏差(105a’),且所述向量的第二元素表示所述第二子带信号(95b)的相位和所述第二目标相位测量(85b’)的第二偏差(105b’);所述音频处理器包括音频信号合成器(100),所述音频信号合成器用于使用校正的第一子带信号(90a’)和校正的第二子带信号(90b’)合成校正的音频信号(90’)。3.根据权利要求1或2所述的音频处理器(50’),其中所述多个子带(95)分为基带(30)以及频率修补(40)的集合,所述基带(30)包括所述音频信号(55)的一个子带(95),且所述频率修补(40)的集合包括在比所述基带中的至少一个子带的频率高的频率处的所述基带(30)的至少一个子带(95);其中所述相位误差计算器(200)用于计算表示所述频率修补(40)的集合中的第一修补(40a)的相位误差(105’)的向量的元素的平均值,以获取平均相位误差(105”);其中所述相位校正器(70’)用于使用加权的平均相位误差校正所述频率修补的集合中的第一及后续频率修补(40)中的子带信号(95)的相位,其中根据频率修补(40)的索引加权所述平均相位误差(105”),以获取修改的修补信号(40’)。4.根据权利要求1-3中任一项所述的音频处理器(50’),包括:音频信号相位导数计算器(210),用于计算用于基带(30)的相位对频率的导数PDF(215)的平均值;所述相位校正器(70’)用于通过将由当前子带索引加权的所述相位对频率的导数(215)的平均值与所述音频信号(55)的基带(30)中具有最高子带索引的子带信号的相位相加,计算具有优化的第一频率修补的另一修改的修补信号(40”)。5.根据权利要求1-3中任一项所述的音频处理器(50’),包括:音频信号相位导数计算器(210),用于计算用于包括比基带信号(30)更高的频率的多个子带信号的相位对频率的导数PDF(215)的平均值,以检测所述子带信号(95)中的瞬态;所述相位校正器(70’)用于通过将由当前子带索引加权的所述相位对频率的导数(215)的平均值与所述音频信号(55)的基带(30)中具有最高子带索引的子带信号的相位相加,计算具有优化的第一频率修补的另一修改的修补信号(40”)。6.根据权利要求4或5所述的音频处理器(50’),其中所述相位校正器(70’)用于通过将由当前子带(95)的子带索引加权的所述相位对频率的导数(215)的平均值与先前频率修补中具有最高子带索引的子带信号的相位相加,基于所述频率修补(40)递归地更新所述另一修改的修补信号(40”)。7.根据权利要求6所述的音频处理器(50’),其中所述相位校正器(70’)用于计算所述修改的修补信号(40’)和所述另一修改的修补信号(40”)的加权平均值,以获取组合修改的修补信号(40”’);以及其中所述相位校正器(70’)用于通过将由所述当前子带(95)的子带索引加权的所述相位对频率的导数(215)的平均值与所述组合修改的修补信号(40”’)的先前频率修补中具有最高子带索引的子带信号的相位相加,基于所述频率修补(40)递归地更新所述组合修改的修补信号(40”’)。8.根据权利要求1-7中任一项所述的音频处理器,其中所述相位校正器(70’)用于使用以第一特定加权函数加权的当前频率修补中的修补信号(40’)与以第二特定加权函数加权的当前频率修补中的所述修改的修补信号(40”)的三角平均值,计算所述修补信号(40’)和所述修改的修补信号(40”)的加权平均值。9.根据权利要求1-8中任一项所述的音频处理器(50’),其中所述相位校正器(70’)用于形成相位偏差的向量,其中使用组合修改的修补信号(40”’)以及所述音频信号(55)计算所述相位偏差。10.根据权利要求1-9中任一项所述的音频处理器(50’),其中所述目标相位测量确定器(65’)包括:数据流提取器(130’),用于从数据流(135)中提取所述音频信号(55)的当前时间帧中的峰位(230)以及峰位的基本频率(235);或者音频信号分析器(225),用于分析当前时间帧中的所述音频信号(55),以计算所述当...

【专利技术属性】
技术研发人员:萨沙·迪施米可维利·莱迪南维利·普尔基
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:德国,DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1