用于确定与音频信号的频谱增强处理有关的预定特性的装置和方法制造方法及图纸

技术编号:23563969 阅读:56 留言:0更新日期:2020-03-25 08:23
一种用于确定与音频信号的频谱增强处理有关的预定特性的装置包括被配置用于获得音频信号的频谱以及用于从频谱得出局部最大信号的推导器。装置包括被配置用于确定局部最大信号的段之间的相似性的确定器,以及包括用于取决于相似性的评估而提供指示音频信号包括预定特征的信息的处理器。

Apparatus and method for determining predetermined characteristics related to spectrum enhancement processing of audio signals

【技术实现步骤摘要】
【国外来华专利技术】用于确定与音频信号的频谱增强处理有关的预定特性的装置和方法
技术介绍
在多媒体应用中,音频信号通常使用专用感知编码方法,如MPEG1/2层3(“mp3”)、MPEG2/4高级音频编码(AAC)等被编码。当解码编码的音频信号时,可以应用各种处理方法以便重构初始被编码的音频信号。然而,由于诸如感知自适应量化的有损编码操作或诸如频谱带宽复制(SBR)的参数编码技术,有可能在解码的音频信号中获得可能是令人烦扰的伪像。很长时间以来,已经开发了感知音频编码器以首先保持原始信号的感知质量。如果编码和非编码信号在感知上是不可区分的,则这个特性被称为“感知透明度”。然而,只有在可用比特率(即,使用的数据量)足够高时才能实现透明度。近年来,认识到的是,在低比特率下,在透明意义上感知愉悦变得比接近原始信号更重要。因此,与以感知愉悦为目标的现代编码方法相比,诸如MP3或AAC等沿用已久的感知编码方案可能听起来不是最理想的。下面,简要描述一些编码伪像。鸟伪像在低比特率转换编码中,通常必须将用于频谱线的编码的量化器设置为非常粗糙的精度,使得它们的动态范围适应于信号。结果,许多频谱线由量化器的死区量化为0,或量化为值1,对应于第一量化器步长。随着时间的过去,频谱线或线群可能在0和1之间切换,从而引入不希望的时间调制。这种伪像被称为“鸟”,使人联想到鸟的吱吱叫。因此,频谱空洞和频谱岛的这种强时变存在是导致令人反感的感知伪像的不希望的编解码器行为,参见[2]和[3]。带宽限制另一种熟知的编码伪像是带宽限制。如果在低比特率编码条件下,可用的比特预算不足以容纳透明度所需的精度,则传统编解码器通常引入静态低通以限制音频带宽。这可能导致单调和沉闷的声音印象,参见[2]和[3]。音调尖峰伪像当音调噪声比被高估时,这种伪像与诸如频带复制(SBR)的人工带宽扩展方法结合出现,参见[4]。在这种情况下,音调分量以太多的能量重新创造,这导致金属声音,参见[3]。跳动伪像除了音调尖峰伪像之外,跳动伪像与人工带宽扩展一起出现。跳动产生粗糙感,并从具有接近频率距离的两个音调分量中显现出来,这可能是由SBR中使用的复制引起的,参见[3]。因此,目的是检测音频信号是否经受了能够引入伪像和/或减少这种伪像的处理。可能是伪像的来源的处理方法的示例是频带复制(SBR),其是用于在解码器侧扩展音频信号的带宽的半参数方法。在第一步骤中,通过将频谱系数从较低频率区域复制到较高频率区域来复制发送的低通信号频谱的部分。在第二步骤中,调整频谱包络。执行频谱包络的调整,使得频谱的粗略形状与给定目标匹配,而精细结构保持不变。SBR的检测是所希望的,因为从获得的信息可以得出结论:1.信号已经通过感知音频编码而被压缩(即,有损)。因此,解决上述伪像类型的增强方法的应用是适当的。2.信号的声音质量可以通过用于降低由SBR引入的伪像的可听度的专用方法来潜在地改进。这种方法受益于关于SBR在其处生效的开始频率的知识。SBR在其处生效的开始频率针对通过减轻由SBR引入的伪像改善声音质量的后处理是令人感兴趣的。因此,需要检测SBR和估计SBR的开始频率。特别地,希望确定是否需要这种增强。例如,这针对高音质的信号是不合适的,因为当音频信号具有高音质时,增强会降低声音质量。US9,117,440B2中描述了检测SBR的方法。描述的方法对使用滤波器组或时间-频率变换计算的子带信号进行操作。然后,通过互相关,即通过将相应的采样相乘并随着时间累加这些乘积,来量化多个子带之间的关系。伪像的来源的另一示例是带宽减少(BR),其也被称为带宽限制(BL)。当带宽被严重限制时,感知到声音质量的劣化,并且期望质量增强。这种质量改善可以包括带宽扩展(BWE),其应当仅在需要时应用,即,当信号的自然带宽已经被人为地严重降低时应用。[1]中描述了一种用于BWE的方法,其使用带宽的估计。通过检测在任何给定时间存在于信号中的最高频率而估计带宽。方法易于出现假阳性检测错误,因为音频信号由于生成该信号的机制仅在较低频率生成能量而可能具有有限的带宽。总之,当用于音频内容的存储空间或流带宽被限制时,感知音频编码器被广泛使用。如果应用的压缩率非常高(并且在压缩之后使用的数据率非常低),则引入了降低感知的音频质量的若干编码伪像。
技术实现思路
因此,本专利技术的目的是提供对包括由易于产生伪像的音频处理获得的特性的音频信号的增强识别,和/或提供通过对这种音频素材应用专用后处理减少这种伪像的概念。该目的通过根据独立权利要求的主题实现。根据第一方面,专利技术人已经发现,通过使用从音频信号得出的局部最大信号并且通过确定局部最大信号的段之间的相似性,可以获得与频谱增强处理有关的特性的安全且有效的识别,使得可以针对相应的音频信号实施相应的后处理,以便减少例如音调尖峰伪像和/或跳动伪像。基于对信号的评估,可以不需要指示实现的音频处理的边信息,使得模块的盲操作是可能的。根据第一方面的实施例,一种用于确定与音频信号的频谱增强处理有关的预定特性的装置包括推导器,推导器被配置用于获得音频信号的频谱以及用于得出与频谱的精细结构有关的信息。装置包括被配置用于确定频谱的精细结构中的相似性的确定器。装置还包括处理器,处理器用于根据相似性的评估提供指示音频信号包括预定特性的信息。为了在与精细结构有关的信息的段之间比较相似性,可能需要少量的计算工作。此外,可以获得指示可能已经执行了频谱增强处理的相似段的精确和安全确定。根据第一方面的进一步实施例,一种用于确定与音频信号的频谱增强处理有关的预定特性的方法包括:获得音频信号的频谱以及得出与频谱的精细结构有关的信息。方法包括确定精细结构中的相似性,诸如与精细结构有关的信息的段之间的相似性,以及包括依据相似性的评估提供指示音频信号包括预定特性的信息。根据第一方面的进一步实施例,非暂时性存储介质具有其上存储的计算机程序,计算机程序具有用于当在计算机上运行时执行这样的方法的程序代码。根据第二方面,专利技术人已经发现,通过相对于频谱的斜率评估音频信号的频谱,可以获得音频信号的安全和有效的特性描述,以便包括与人工带宽限制处理有关的特性,从而使得能够进行相应的后处理,例如,以减少或消除鸟伪像和/或带宽限制伪像。基于对信号的评估,可以不需要指示实施的音频处理的边信息,使得模块的盲操作是可能的。根据第二方面的实施例,一种用于确定与音频信号的人工带宽限制处理有关的预定特性的装置包括斜率评估器,斜率评估器被配置用于评估音频信号的频谱的斜率以获得斜率评估结果。装置还包括处理器,处理器用于根据对斜率评估结果的评估提供指示音频信号包括预定特性的信息。通过将音频信号是否包括与人工带宽限制处理有关的特性的评估基于频谱的斜率,例如频谱的下降边缘,可以获得人工带宽限制处理的精确检测,同时使用低计算工作量。根据第二方面的另一实施例,一种用于确定与音频信号的人工带宽限制处理有关的预定特性的方法包括:评估音频信本文档来自技高网
...

【技术保护点】
1.一种用于确定与音频信号(12)的频谱增强处理有关的预定特性的装置,所述装置包括:/n推导器(14),被配置用于获得所述音频信号(12)的频谱(12')以及用于得出与所述频谱(12')的精细结构有关的信息(Z(k));/n确定器(24),被配置用于确定所述精细结构中的相似性;/n处理器(32),用于取决于所述相似性的评估提供指示所述音频信号(12)包括所述预定特性的信息(34)。/n

【技术特征摘要】
【国外来华专利技术】20170331 EP 17164360.4;20170907 EP 17189988.31.一种用于确定与音频信号(12)的频谱增强处理有关的预定特性的装置,所述装置包括:
推导器(14),被配置用于获得所述音频信号(12)的频谱(12')以及用于得出与所述频谱(12')的精细结构有关的信息(Z(k));
确定器(24),被配置用于确定所述精细结构中的相似性;
处理器(32),用于取决于所述相似性的评估提供指示所述音频信号(12)包括所述预定特性的信息(34)。


2.如权利要求1所述的装置,其中所述频谱的精细结构与所述频谱的局部最大值和/或最小值有关。


3.如权利要求1或2所述的装置,其中所述推导器被配置用于从所述频谱(12')得出局部最大信号(Z(k)),以便得出与所述精细结构有关的所述信息,其中所述确定器被配置用于确定所述局部最大信号(Z(k))的段之间的相似性。


4.如前述权利要求中任一项所述的装置,还包括频谱计算器(44),所述频谱计算器(44)被配置用于接收所述音频信号(12)以及从所述音频信号(12)计算所述频谱(12')。


5.如前述权利要求中任一项所述的装置,其中所述确定器(24)被配置为使用与所述精细结构有关的所述信息的第一段和第二段确定所述相似性,其中所述第一段和所述第二段被移位所述频谱(12')的数个(τ)样本。


6.如前述权利要求中任一项所述的装置,
其中,所述确定器(24)被配置为用于确定所述相似性,以确定与所述精细结构有关的所述信息的第一段和第二段之间的相似性值(C(τ)),其中,所述第一段和第二段相对于彼此被移位关于样本的数量(τ)的参数;
其中所述确定器(24)被配置用于针对所述参数的多个值确定所述相似性值;以及
其中所述确定器被配置用于从所述相似性值或从相似性值得出的值(C(τ))中选择至少一个局部最大值(26i,mi)。


7.如权利要求6所述的装置,其中所述确定器(24)包括被配置用于对所述相似性值(C(τ))进行滤波以便获得经滤波的相似性值(H(C(τ)))的滤波器,其中所述确定器被配置用于从所述经滤波的相似性值(H(C(τ)))中选择所述至少一个局部最大值(mi)。


8.如权利要求6或7所述的装置,其中所述确定器被配置用于基于如下表示的确定规则确定所述相似性值(C(τ)):



其中C(τ)是用于所述参数τ的所述相似性值,k是从k0到kl的范围内的所述频谱中的样本并且具有l+1个样本的长度,其中Z(k)是样本k的局部最大函数。


9.如前述权利要求中任一项所述的装置,其中所述处理器(32)被配置为用于评估与和所述精细结构有关的信息有关的相似性值(C(τ))或从其得出的值(H(C(τ)))的局部最大值(26i,mi)的数量,以及用于评估局部最大值(26i,mi)的幅度,以及用于当包括至少幅度阈值(27)的最大值(26i,mi)的数量低于数量阈值时提供指示所述音频信号(12)包括所述预定特性的所述信息(34)。


10.如前述权利...

【专利技术属性】
技术研发人员:帕特里克·甘普克里斯蒂安·乌勒萨沙·迪施安东尼奥·卡拉姆伯尼欧蒂斯茱莉亚·哈文斯坦奥利弗·赫尔穆特于尔根·赫勒彼得·普罗肯
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利