使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法制造方法及图纸

技术编号：20165382 阅读：36 留言：0更新日期：2019-01-19 00:18

提供了一种用于分析音频信号的幅度频谱图的装置。该装置包括瞬时频率变化率确定器(110)，其用于音频信号的幅度频谱图的多个时频区间中的每个时频区间。此外，该装置包括分类器(120)，其被配置为根据所确定的每个时频区间的瞬时频率变化率，将所述时频区间分配给两个或更多个信号分量组中的信号分量组。例如，在每个时频点(b，k)处确定结构张量T(b，k)和张量分量的角度a(b，k)，以计算每个时频区间的局部各向异性度量，高的局部各向异性指示打击乐声音。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法
本专利技术涉及音频信号处理，尤其涉及使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法。
技术介绍
能够将声音分离成其谐波分量和打击乐分量的处理步骤是对许多应用有效的预处理步骤。虽然“谐波一打击乐(-残余)分离”是常用的术语，但它具有误导性，因为它意味着具有频率为基频的整数倍的正弦波的谐波结构。尽管正确的术语应该是“音调-打击乐-(残余)分离”，但为了便于理解，下面使用术语“谐波”而不是“音调”。例如，使用音乐录音的分离出的打击乐分量可以改进节拍跟踪(参见[1])、节奏分析和节奏乐器转录的质量。分离出的谐波分量适用于声调乐器的转录和和弦音检测(参见[3])。此外，谐波-打击乐分离可用于重新混音目的，例如改变两个信号分量之间的水平比(参见[4])，这会产生“更平滑”或“更有力”的整体声音感知。用于谐波-打击乐声音分离的一些方法依赖于以下假设，即，谐波声音在输入信号的幅度频谱图中具有水平结构(在时间方向上)，而打击乐声音表现为垂直结构(在频率方向上)。Ono等人提出了一种方法，该方法首先通过时间/频率方向上的扩散产生谐波/打击乐增强的频谱图(参见[5])。然后，通过比较这些增强的表示，可以导出声音是谐波还是打击乐的决定。Fitzgerald发表了一种类似的方法，其中增强的频谱图是通过使用垂直方向上的中值滤波而不是扩散来计算的(参见[6])，这种方法在降低计算复杂度的同时产生类似的结果。受到正弦+瞬态+噪声(S+T+N)信号模型(参见[7]、[8]、[9])的启发，提出了旨在通过一小...

【技术保护点】
1.一种用于分析音频信号的幅度频谱图的装置，包括：频率变化确定器(110)，被配置为根据音频信号的幅度频谱图来确定所述音频信号的幅度频谱图的多个时频区间中的每个时频区间的频率变化；以及分类器(120)，被配置为根据所确定的所述多个时频区间中的每个时频区间的频率变化将所述时频区间分配给两个或更多个信号分量组中的信号分量组。

【技术特征摘要】
【国外来华专利技术】2016.03.18 EP 16161251.01.一种用于分析音频信号的幅度频谱图的装置，包括：频率变化确定器(110)，被配置为根据音频信号的幅度频谱图来确定所述音频信号的幅度频谱图的多个时频区间中的每个时频区间的频率变化；以及分类器(120)，被配置为根据所确定的所述多个时频区间中的每个时频区间的频率变化将所述时频区间分配给两个或更多个信号分量组中的信号分量组。2.根据权利要求1所述的装置，其中，所述频率变化确定器(110)被配置为根据所述多个时频区间中的每个时频区间的角度(α(b，k))确定所述时频区间的频率变化，其中，所述时频区间的角度(α(b，k))取决于所述音频信号的幅度频谱图。3.根据权利要求2所述的装置，其中，所述频率变化确定器(110)被配置为还根据所述音频信号的采样频率(fs)、根据分析窗口的长度(N)并且根据所述分析窗口的跳大小(H)，来确定所述多个时频区间中的每个时频区间的频率变化。4.根据权利要求3所述的装置，其中，所述装置的频率变化确定器(110)被配置为根据以下公式确定所述多个时频区间中的每个时频区间的频率变化：其中(b，k)表示所述多个时频区间中的时频区间，其中R(b，k)表示所述时频区间(b，k)的频率变化，其中b表示时间，其中k表示频率，其中fs表示所述音频信号的采样频率，其中N表示所述分析窗口的长度，其中H表示所述分析窗口的跳大小，以及其中α(b，k)表示所述时频区间(b，k)的角度，其中该角度α(b，k)取决于所述幅度频谱图。5.根据权利要求2至4中任一项所述的装置，其中所述频率变化确定器(110)被配置为确定所述音频信号的幅度频谱图(S)相对于时间索引的偏导数(Sb)，其中所述频率变化确定器(110)被配置为确定所述音频信号的幅度频谱图(S)相对于时间索引的偏导数(Sk)，以及其中所述频率变化确定器(110)被配置为根据所述音频信号的幅度频谱图(S)相对于时间索引的偏导数(Sb)，并根据所述音频信号的幅度频谱图(S)相对于频率索引的偏导数(Sk)，确定所述多个时频区间中的每个时频区间((b，k))的结构张量(T(b，k))，以及其中所述频率变化确定器(110)被配置为根据所述多个时频区间中的每个时频区间((b，k))的结构张量(T(b，k))确定所述时频区间((b，k))的角度(α(b，k))。6.根据权利要求5所述的装置，其中所述频率变化确定器(110)被配置为通过以下方式确定所述多个时频区间中的每个时频区间((b，k))的角度(α(b，k))：确定所述时频区间((b，k))的结构张量(T(b，k))的特征向量v(b，k)的两个分量v1(b，k)和v2(b，k)，并根据以下公式来确定所述时频区间((b，k))的角度(α(b，k))：其中α(b，k)表示所述时频区间((b，k))的角度，其中b表示时间，其中k表示频率，以及其中atan()表示反正切函数。7.根据权利要求5或6所述的装置，其中所述分类器(120)被配置为根据以下公式中的至少一个来确定多个时频区间中的每个时频区间(b，k)的各向异性的度量：以及μ(b，k)+λ(b，k)≥e，其中μ(b，k)是所述时频区间(b，k)的结构张量(T(b，k))的第一特征值，λ(b，k)是所述时频区间(b，k)的结构张量(T(b，k))的第二特征值，并且其中所述分类器(120)被配置为还根据所述各向异性的度量的变化将所述多个时频区间中的每个时频区间分配给两个或更多个信号分量组中的信号分量组。8.根据权利要求7所述的装置，其中所述分类器(120)被配置为根据以下公式确定所述时频区间(b，k)的各向异性的度量：其中C(b，k)是所述时频区间(b，k)的各向异性的量度，以及其中所述分类器(120)被配置为：如果所述各向异性的度量C(b，k)小...

【专利技术属性】
技术研发人员：安德鲁斯·尼德梅尔，理查德·福格，萨沙·迪施，梅纳德·穆勒，约翰·德里德格，
申请(专利权)人：弗劳恩霍夫应用研究促进协会，
类型：发明
国别省市：德国,DE

全部详细技术资料下载我是这个专利的主人