通过使用音频频谱图上的结构张量来重构相位信息的编码制造技术

技术编号:20165415 阅读:84 留言:0更新日期:2019-01-19 00:18
提供了一种用于根据音频信号的幅度频谱图进行相位重构的装置。该装置包括:频率改变确定器(110),被配置为根据音频信号的幅度频谱图,来确定针对音频信号的幅度频谱图的多个时频段中的每个时频段的频率的改变;以及相位重构器(140),被配置为根据针对多个时频段而确定的频率的改变来产生针对多个时频段的相位值。

【技术实现步骤摘要】
【国外来华专利技术】通过使用音频频谱图上的结构张量来重构相位信息的编码
本专利技术涉及音频信号处理,具体地,涉及使用频谱图上的结构张量进行谐波-冲击-残差(harmonic-percussive-residual)声音分离的装置和方法。
技术介绍
能够将声音分离成其谐波分量和冲击分量是许多应用的有效预处理步骤。尽管“谐波-冲击(-残差)分离”是一个常用术语,但它具有误导性,因为它意味着谐波结构的正弦曲线的频率为基频的整数倍。尽管正确的术语应该是“音调-打击-(残差)分离”,但为了便于理解,下面使用术语“谐波”而不是“音调”。例如,使用音乐录音的分离的冲击分量可以导致节拍跟踪(参见[1])、节奏分析和节奏乐器的转录的质量改善。分离的谐波分量适用于音高乐器和和弦检测的转录(参见[3])。此外,谐波-冲击分离可以用于重新混合目的,例如改变两个信号分量之间的水平比(参见[4]),这会使得实现“更平滑”或“更强”的整体声音感知。用于谐波-冲击声音分离的一些方法依赖于这样的假设:在输入信号的幅度频谱图中,谐波声音具有水平结构(在时间方向上),而冲击声音表现为垂直结构(在频率方向上)。Ono等人提出了一种方法,该方法首先通过在时间/频率方向上的扩散来产生谐波/冲击增强的频谱图(参见[5])。之后通过比较这些增强的表示,可以得到声音是谐波还是冲击的决定。Fitzgerald发表了一种类似的方法,在该方法中,通过在垂直方向上使用中值滤波而不是扩散来计算增强的频谱图是(参见[6]),这产生了类似的结果,同时降低了计算复杂度。受到正弦+瞬态+噪声(S+T+N)信号模型(参见[7]、[8]、[9])的启发,得到一种旨在借助于小的参数集来描述各个信号分量的框架。然后,Fitzgerald的方法扩展到[10]中的谐波-冲击-残差(HPR)分离。由于音频信号通常由既不明显地是谐波也不明显地是冲击的声音组成,因此该过程在第三残差分量中捕获这些声音。尽管这些残差信号中的一些明显具有各向同性的(既不是水平的也不是垂直的)结构(例如,如噪声一样),但是存在不具有明显的水平结构但仍然携带音调信息并且可以被感知为声音的谐波部分的声音。一个示例是频率调制的音调,就像它们可以出现在小提琴演奏或声乐作品的录音中,据说它们具有“颤音”。由于识别水平结构或垂直结构的策略,上述方法并不总是能够在其谐波分量中捕获这样的声音。在[11]中提出了一种基于非负矩阵因子分解的谐波-冲击分离过程,该分离过程能够在谐波分量中捕获具有非水平频谱结构的谐波声音。然而,它不包括第三残差分量。综上所述,最近的方法依赖于以下观察:在频谱图表示中,谐波声音导致水平结构,而冲击声音导致垂直结构。此外,这些方法将既不水平也不垂直的结构(即,非谐波、非冲击声音)与残差类别相关联。然而,这种假设对于诸如频率调制音调等的信号不成立,这些信号显示波动的频谱结构,但仍然携带音调信息。结构张量(一种用于图像处理的工具(参见[12]、[13]))应用于灰度图像以用于边缘和角落检测(参见[14]),或估计对象的取向。结构张量已经用于音频处理中的预处理和特征提取(参见[15]、[16])。
技术实现思路
本专利技术的目的是提供用于音频信号处理的改进的构思。通过根据权利要求1所述的装置、根据权利要求18所述的系统、根据权利要求19所述的编码器、根据权利要求20所述的方法、以及根据权利要求21所述的计算机程序来实现本专利技术的目的。提供了一种用于根据音频信号的幅度频谱图进行相位重构的装置。该装置包括:频率改变确定器,被配置为根据音频信号的幅度频谱图,来确定针对音频信号的幅度频谱图的多个时频段中的每个时频段的频率的改变;以及相位重构器,被配置为根据针对多个时频段而确定的频率的改变来产生针对多个时频段的相位值。此外,提供了一种编码器,其被配置为产生音频信号的幅度频谱图以供上述装置进行相位重构。此外,提供了一种用于根据音频信号的幅度频谱图进行相位重构的方法。所述方法包括:-根据音频信号的幅度频谱图,来确定针对音频信号的幅度频谱图的多个时频段中的每个时频段的频率的改变,以及-根据针对多个时频段而确定的频率的改变来产生针对多个时频段的相位值。此外,提供了一种计算机程序,其中所述计算机程序被配置为当在计算机或信号处理器上执行时实现上述方法。附图说明以下参考附图更详细地描述本专利技术的实施例,在附图中:图1示出了根据实施例的用于分析音频信号的幅度频谱图的装置,图2示出了根据实施例的歌声、响板和掌声的混合的频谱图,其中在某一区域中对该频谱图进行了放大,在该放大区域中,箭头的取向指示方向,并且箭头的长度指示各向异性度量,图3示出了根据实施例的通过使用结构张量计算的取向/各向异性值的范围,图4示出了用于合成输入信号的摘录的HPR-M和HPR-ST方法之间的比较,图5示出了根据实施例的装置,其中该装置包括信号产生器,图6示出了根据实施例的装置,其中该装置包括用于记录音频信号的一个或多个麦克风,图7示出了根据另一实施例的用于相位重构的装置,图8示出了根据实施例的用于相位重构的装置,该装置包括信号产生器,图9示出了根据实施例的包括编码器和解码器在内的系统,其中解码器是根据实施例的用于相位重构的装置,以及图10示出了根据实施例的音频编码器和音频解码器,其使用幅度频谱进行传输。具体实施方式图1示出了根据实施例的用于分析音频信号的幅度频谱图的装置。该装置包括频率改变确定器110。频率改变确定器110被配置为根据音频信号的幅度频谱图,来确定针对音频信号的幅度频谱图的多个时频段(bin)中的每个时频段的频率的改变。此外,该装置包括分类器120。分类器120被配置为根据针对所述时频段而确定的频率的改变,向两个或更多个信号分量组中的信号分量组指派多个时频段中的每个时频段。根据实施例,频率改变确定器110可以例如被配置为根据针对多个时频段中的每个时频段的角度α(b,k),来确定针对该时频段的频率的改变。针对所述时频段的角度α(b,k)取决于音频信号的幅度频谱图。在实施例中,频率改变确定器110可以例如被配置为:进一步根据音频信号的采样频率fs、根据分析窗口的长度N、以及根据分析窗口的跳大小H,来确定针对多个时频段中的每个时频段的频率的改变。根据实施例,装置的频率改变确定器110被配置为根据下式来确定针对多个时频段中的每个时频段的频率的改变:(b,k)指示多个时频段中的时频段,其中R(b,k)指示针对所述时频段(b,k)的频率的改变,其中b指示时间,其中k指示频率,其中fs指示音频信号的采样频率,其中N指示分析窗口的长度,其中H指示分析窗口的跳大小,并且其中α(b,k)指示针对所述时频段(b,k)的角度,其中该角度α(b,k)取决于幅度频谱图。在实施例中,频率改变确定器110可以例如被配置为确定音频信号的幅度频谱图S关于时间索引的偏导数Sb。在这样的实施例中,频率改变确定器110可以例如被配置为确定音频信号的幅度频谱图S关于时间索引的偏导数Sk。此外,在这样的实施例中,频率改变确定器110被配置为:根据音频信号的幅度频谱图S关于时间索引的偏导数Sb、以及根据音频信号的幅度频谱图S关于频率索引的偏导数Sk,确定针对多个时频段中的每个时频段(b,k)的结构张量T(b,k)。此外本文档来自技高网
...

【技术保护点】
1.一种用于根据音频信号的幅度频谱图进行相位重构的装置,包括:频率改变确定器(110),被配置为根据所述音频信号的幅度频谱图,来确定针对所述音频信号的幅度频谱图的多个时频段中的每个时频段的频率的改变;以及相位重构器(140),被配置为根据针对所述多个时频段而确定的频率的改变来产生针对所述多个时频段的相位值。

【技术特征摘要】
【国外来华专利技术】2016.03.18 EP 16161230.41.一种用于根据音频信号的幅度频谱图进行相位重构的装置,包括:频率改变确定器(110),被配置为根据所述音频信号的幅度频谱图,来确定针对所述音频信号的幅度频谱图的多个时频段中的每个时频段的频率的改变;以及相位重构器(140),被配置为根据针对所述多个时频段而确定的频率的改变来产生针对所述多个时频段的相位值。2.根据权利要求1所述的装置,其中,所述相位重构器(140)被配置为:通过对所述频率的改变进行两次积分,来产生针对所述多个时频段中的每个时频段的相位值。3.根据权利要求1或2所述的装置,其中,所述相位重构器(140)被配置为:根据下式产生针对所述多个时频段的相位值:其中,b0是指示多个块中的分析块的索引,其中,b是指示所述多个块中的另外的分析块的另外的索引,其中,H指示跳大小,以及其中,φ(bH)、φb(b0)以及φbb(m)指示相位值。4.根据前述权利要求中之一所述的装置,其中,所述频率改变确定器(110)被配置为:根据针对所述多个时频段中的每个时频段的角度α(b,k),确定针对所述时频段的频率的改变,其中针对所述时频段的角度α(b,k)取决于所述音频信号的幅度频谱图。5.根据权利要求4所述的装置,其中,所述频率改变确定器(110)被配置为:进一步根据所述音频信号的采样频率(fs)、根据分析窗口的长度(N)、以及根据所述分析窗口的跳大小(H),来确定针对所述多个时频段中的每个时频段的频率的改变。6.根据权利要求5所述的装置,其中,所述装置的频率改变确定器(110)被配置为:根据下式来确定针对所述多个时频段中的每个时频段的频率的改变:其中,(b,k)指示所述多个时频段中的时频段,其中,R(b,k)指示针对所述时频段(b,k)的频率的改变,其中,b指示时间,其中,k指示频率,其中,fs指示所述音频信号的采样频率,其中,N指示所述分析窗口的长度,其中,H指示所述分析窗口的跳大小,以及其中,α(b,k)指示针对所述时频段(b,k)的角度,其中所述角度α(b,k)取决于所述幅度频谱图。7.根据权利要求4至6之一所述的装置,其中,所述频率改变确定器(110)被配置为:确定所述音频信号的幅度频谱图(S)关于时间索引的偏导数(Sb),其中,所述频率改变确定器(110)被配置为:确定所述音频信号的幅度频谱图(S)关于时间索引的偏导数(Sk),以及其中,所述频率改变确定器(110)被配置为:根据所述音频信号的幅度频谱图(S)关于所述时间索引的偏导数(Sb)、以及根据所述音频信号的幅度频谱图(S)关于频率索引的偏导数(Sk),来确定针对所述多个时频段中的每个时频段((b,k))的结构张量(T(b,k)),以及其中,所述频率改变确定器(110)被配置为:根据针对所述多个时频段中的每个时频段((b,k))的结构张量(T(b,k)),来确定针对所述时频段((b,k))的角度(α(b,k))。8.根据权利要求7所述的装置,其中,所述频率改变确定器(110)被配置为:通过确定所述多个时频段中的每个时频段((b,k))的结构张量(T(b,k))的特征向量v(b,k)的两个分量v1(b,k)和v2(b,k)、以及通过根据下式确定针对所述时频段((b,k))的角度(α(b,k)),来确定针对所述时频段((b,k))的角度(α(b,k)):其中,α(b,k)指示针对所述时频段((b,k))的角度,其中,b指示时间,其中,k指示频率,以及其中,atan()指示反正切函数。9.根据前述权利要求之一所述的装置,其中,所述相位重构器(140)被配置为:根据针对所述多个时频段而确定的频率的改变,来产生针对所述多个时频段中的每个时频段的相位值。10.根据权利要求7或8所述的装置,其中,所述相位重构器(140)被配置为:根据针对所述多个时频段中的每个时频段而确定的频率的改变,来确定针对所述多个时频段中的每个时频段(b,k)的各向异性的度量。11.根据权利要求10所述的装置,其中,所述相位重构器(140)被配置为:根据下式中的至少一个,来确定针对所述多个时频段中的每个时频段(b,k)的所述各向异性的度量:以及μ(b,k)+λ(b,k)≥e,其中,μ(b,k)是所述时频段(b,k)的结...

【专利技术属性】
技术研发人员:安德鲁斯·尼德梅尔理查德·福格萨沙·迪施
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:德国,DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1