使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法制造方法及图纸

技术编号:20165382 阅读:36 留言:0更新日期:2019-01-19 00:18
提供了一种用于分析音频信号的幅度频谱图的装置。该装置包括瞬时频率变化率确定器(110),其用于音频信号的幅度频谱图的多个时频区间中的每个时频区间。此外,该装置包括分类器(120),其被配置为根据所确定的每个时频区间的瞬时频率变化率,将所述时频区间分配给两个或更多个信号分量组中的信号分量组。例如,在每个时频点(b,k)处确定结构张量T(b,k)和张量分量的角度a(b,k),以计算每个时频区间的局部各向异性度量,高的局部各向异性指示打击乐声音。

【技术实现步骤摘要】
【国外来华专利技术】使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法
本专利技术涉及音频信号处理,尤其涉及使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法。
技术介绍
能够将声音分离成其谐波分量和打击乐分量的处理步骤是对许多应用有效的预处理步骤。虽然“谐波一打击乐(-残余)分离”是常用的术语,但它具有误导性,因为它意味着具有频率为基频的整数倍的正弦波的谐波结构。尽管正确的术语应该是“音调-打击乐-(残余)分离”,但为了便于理解,下面使用术语“谐波”而不是“音调”。例如,使用音乐录音的分离出的打击乐分量可以改进节拍跟踪(参见[1])、节奏分析和节奏乐器转录的质量。分离出的谐波分量适用于声调乐器的转录和和弦音检测(参见[3])。此外,谐波-打击乐分离可用于重新混音目的,例如改变两个信号分量之间的水平比(参见[4]),这会产生“更平滑”或“更有力”的整体声音感知。用于谐波-打击乐声音分离的一些方法依赖于以下假设,即,谐波声音在输入信号的幅度频谱图中具有水平结构(在时间方向上),而打击乐声音表现为垂直结构(在频率方向上)。Ono等人提出了一种方法,该方法首先通过时间/频率方向上的扩散产生谐波/打击乐增强的频谱图(参见[5])。然后,通过比较这些增强的表示,可以导出声音是谐波还是打击乐的决定。Fitzgerald发表了一种类似的方法,其中增强的频谱图是通过使用垂直方向上的中值滤波而不是扩散来计算的(参见[6]),这种方法在降低计算复杂度的同时产生类似的结果。受到正弦+瞬态+噪声(S+T+N)信号模型(参见[7]、[8]、[9])的启发,提出了旨在通过一小组参数描述各个信号分量的框架。然后,在[10]中,将Fitzgerald的方法扩展到谐波-打击乐-残余(HPR)分离。由于音频信号通常包括既不明显是谐波也不明显是打击乐的声音,因此该过程在第三个残余分量中捕获这些声音。虽然这些残余信号中的一些明显具有各向同性(既非水平也非垂直)的结构(例如噪声),但是存在着以下声音,即,这种声音虽然不具有明显的水平结构,但仍然携带音调信息并可以被感知为声音的谐波部分。一个例子是频率调制的音调,它们可能出现在小提琴演奏或人声的录音中,可以说它们具有“颤音”。由于采用了识别水平结构或垂直结构的策略,上述方法并不总是能够在其谐波分量中捕获这样的声音。在[11]中提出了一种基于非负矩阵分解的谐波-打击乐分离过程,该分离过程能够在谐波分量中捕获具有非水平频谱结构的谐波声音。但是它没有包括第三个残余分量。综上所述,最近的方法依赖于以下观察:在频谱图表示中,谐波声音产生水平结构,而打击乐声音产生垂直结构。此外,这些方法将既非水平也非垂直的结构(即,非谐波声音,非打击乐声音)与残余类别相关联。然而,这种假设不适用于频率调制的音调等信号,这些信号虽然显示波动的频谱结构,但仍然携带音调信息。结构张量是一种在图像处理中使用的工具(参见[12]、[13]),其在图像处理中应用于灰度图像,用来进行边缘和角点检测(参见[14])或估计物体的方向。结构张量已经用于音频处理中的预处理和特征提取(参见[15]、[16])。
技术实现思路
本专利技术的目的是提供用于音频信号处理的改进技术。本专利技术的目的通过根据权利要求1的装置、根据权利要求16的方法和根据权利要求17的计算机程序来实现。提供了一种用于分析音频信号的幅度频谱图的装置。该装置包括频率变化确定器,该频率变化确定器被配置为根据音频信号的幅度频谱图,为音频信号的幅度频谱图的多个时频区间中的每个时频区间确定频率变化。此外,该装置包括分类器,该分类器被配置为根据为所述多个时频区间中的每个时频区间确定的频率变化,将所述时频区间分配给两个或更多个信号分量组中的信号分量组。此外,提供了一种用于分析音频信号的幅度频谱图的方法。所述方法包括:-根据音频信号的幅度频谱图,确定音频信号的幅度频谱图的多个时频区间中的每个时频区间的频率变化,以及:-根据为所述多个时频区间中的每个时频区间确定的频率变化,将所述时频区间分配给两个或更多个信号分量组中的信号分量组。此外,提供了一种计算机程序,该计算机程序被配置为当在计算机或信号处理器上被执行时实现上述方法。附图说明在下文中,将参考附图更详细地描述本专利技术的实施例,在附图中:图1示出了根据一个实施例的用于分析音频信号的幅度频谱图的装置,图2示出了根据一个实施例的具有放大区域的歌声、响板和掌声的混合声音的频谱图,其中箭头的方向指示方向,并且其中箭头的长度指示各向异性度量,图3示出了根据一个实施例的通过使用结构张量计算的取向/各向异性值的范围,图4示出了用于合成输入信号的摘录的HPR-M和HPR-ST方法之间的比较,图5示出了根据一个实施例的装置,其中该装置包括信号发生器,以及图6示出了根据一个实施例的装置,其中该装置包括用于记录音频信号的一个或多个麦克风。具体实施方式图1示出了根据实施例的用于分析音频信号的幅度谱图的装置。该装置包括频率变化确定器110。频率变化确定器110被配置为根据音频信号的幅度频谱图来确定所述音频信号的幅度频谱图的多个时频区间中的每个时频区间的频率变化。此外,该装置包括分类器120。分类器120被配置为根据所确定的所述多个时频区间中的每个时频区间的频率变化将所述时频区间分配给两个或更多个信号分量组中的信号分量组。根据实施例,频率变化确定器110可以例如被配置为根据所述多个时频区间中的每个时频区间的角度α(b,k)确定所述时频区间的频率变化。所述时频区间的角度α(b,k)取决于所述音频信号的幅度频谱图。在实施例中,频率变化确定器110可以例如被配置为还根据所述音频信号的采样频率fs,根据分析窗口的长度N,并且根据所述分析窗口的跳大小H,来确定所述多个时频区间中的每个时频区间的频率变化。根据实施例,装置的频率变化确定器110被配置为根据以下公式来确定所述多个时频区间中的每个时频区间的频率变化。(b,k)表示所述多个时频区间中的时频区间,其中R(b,k)表示所述时频区间(b,k)的频率变化,其中b表示时间,其中k表示频率,其中fs表示所述音频信号的采样频率,其中N表示所述分析窗口的长度,其中H表示所述分析窗口的跳大小,并且其中α(b,k)表示所述时频区间(b,k)的角度,其中该角度α(b,k)取决于幅度频谱图。在实施例中,频率变化确定器110可以例如被配置为确定所述音频信号的幅度频谱图S相对于时间索引的偏导数Sb。在这样的实施例中,频率变化确定器110可以例如被配置为确定所述音频信号的幅度频谱图S相对于时间索引的偏导数Sk。此外,在这样的实施例中,频率变化确定器110被配置为根据所述音频信号的幅度频谱图S相对于时间索引的偏导数Sb,并根据所述音频信号的幅度频谱图S相对于频率索引的偏导数Sk,确定所述多个时频区间中的每个时频区间(b,k)的结构张量T(b,k)。此外,在这样的实施例中,频率变化确定器110可以例如被配置为根据所述多个时频区间中的每个时频区间(b,k)的结构张量T(b,k)确定所述时频区间(b,k)的角度α(b,k)。根据实施例,频率变化确定器110可以例如被配置为通过以下方式确定所述多个时频区间中的每个时频区间(b,k)的角度α(b,k):确定所述本文档来自技高网
...

【技术保护点】
1.一种用于分析音频信号的幅度频谱图的装置,包括:频率变化确定器(110),被配置为根据音频信号的幅度频谱图来确定所述音频信号的幅度频谱图的多个时频区间中的每个时频区间的频率变化;以及分类器(120),被配置为根据所确定的所述多个时频区间中的每个时频区间的频率变化将所述时频区间分配给两个或更多个信号分量组中的信号分量组。

【技术特征摘要】
【国外来华专利技术】2016.03.18 EP 16161251.01.一种用于分析音频信号的幅度频谱图的装置,包括:频率变化确定器(110),被配置为根据音频信号的幅度频谱图来确定所述音频信号的幅度频谱图的多个时频区间中的每个时频区间的频率变化;以及分类器(120),被配置为根据所确定的所述多个时频区间中的每个时频区间的频率变化将所述时频区间分配给两个或更多个信号分量组中的信号分量组。2.根据权利要求1所述的装置,其中,所述频率变化确定器(110)被配置为根据所述多个时频区间中的每个时频区间的角度(α(b,k))确定所述时频区间的频率变化,其中,所述时频区间的角度(α(b,k))取决于所述音频信号的幅度频谱图。3.根据权利要求2所述的装置,其中,所述频率变化确定器(110)被配置为还根据所述音频信号的采样频率(fs)、根据分析窗口的长度(N)并且根据所述分析窗口的跳大小(H),来确定所述多个时频区间中的每个时频区间的频率变化。4.根据权利要求3所述的装置,其中,所述装置的频率变化确定器(110)被配置为根据以下公式确定所述多个时频区间中的每个时频区间的频率变化:其中(b,k)表示所述多个时频区间中的时频区间,其中R(b,k)表示所述时频区间(b,k)的频率变化,其中b表示时间,其中k表示频率,其中fs表示所述音频信号的采样频率,其中N表示所述分析窗口的长度,其中H表示所述分析窗口的跳大小,以及其中α(b,k)表示所述时频区间(b,k)的角度,其中该角度α(b,k)取决于所述幅度频谱图。5.根据权利要求2至4中任一项所述的装置,其中所述频率变化确定器(110)被配置为确定所述音频信号的幅度频谱图(S)相对于时间索引的偏导数(Sb),其中所述频率变化确定器(110)被配置为确定所述音频信号的幅度频谱图(S)相对于时间索引的偏导数(Sk),以及其中所述频率变化确定器(110)被配置为根据所述音频信号的幅度频谱图(S)相对于时间索引的偏导数(Sb),并根据所述音频信号的幅度频谱图(S)相对于频率索引的偏导数(Sk),确定所述多个时频区间中的每个时频区间((b,k))的结构张量(T(b,k)),以及其中所述频率变化确定器(110)被配置为根据所述多个时频区间中的每个时频区间((b,k))的结构张量(T(b,k))确定所述时频区间((b,k))的角度(α(b,k))。6.根据权利要求5所述的装置,其中所述频率变化确定器(110)被配置为通过以下方式确定所述多个时频区间中的每个时频区间((b,k))的角度(α(b,k)):确定所述时频区间((b,k))的结构张量(T(b,k))的特征向量v(b,k)的两个分量v1(b,k)和v2(b,k),并根据以下公式来确定所述时频区间((b,k))的角度(α(b,k)):其中α(b,k)表示所述时频区间((b,k))的角度,其中b表示时间,其中k表示频率,以及其中atan()表示反正切函数。7.根据权利要求5或6所述的装置,其中所述分类器(120)被配置为根据以下公式中的至少一个来确定多个时频区间中的每个时频区间(b,k)的各向异性的度量:以及μ(b,k)+λ(b,k)≥e,其中μ(b,k)是所述时频区间(b,k)的结构张量(T(b,k))的第一特征值,λ(b,k)是所述时频区间(b,k)的结构张量(T(b,k))的第二特征值,并且其中所述分类器(120)被配置为还根据所述各向异性的度量的变化将所述多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组。8.根据权利要求7所述的装置,其中所述分类器(120)被配置为根据以下公式确定所述时频区间(b,k)的各向异性的度量:其中C(b,k)是所述时频区间(b,k)的各向异性的量度,以及其中所述分类器(120)被配置为:如果所述各向异性的度量C(b,k)小...

【专利技术属性】
技术研发人员:安德鲁斯·尼德梅尔理查德·福格萨沙·迪施梅纳德·穆勒约翰·德里德格
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:德国,DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1