增强的从音频编解码器的色度提取制造技术

技术编号:10280605 阅读:110 留言:0更新日期:2014-08-03 00:33
本文档涉及用于音乐信息检索(MIR)的方法和系统。特别地,本文档涉及用于从音频信号提取色度矢量的方法和系统。描述了一种用于确定音频信号(301)的采样块的色度矢量(100)的方法(900)。方法(900)包括:从基于谱带复制的音频编码器(410)的核心编码器(412)接收(901)从音频信号(301)的采样块导出的相应频率系数块,所述基于谱带复制的音频编码器(410)适于从该频率系数块产生音频信号(301)的编码的比特流(305);并且基于所接收的频率系数块来确定(904)音频信号(301)的采样块的色度矢量(100)。

【技术实现步骤摘要】
【国外来华专利技术】增强的从音频编解码器的色度提取相关申请的交叉引用本申请要求于2011年11月30日提交的美国临时专利申请N0.61/565,037的优先权,该申请的全部内容通过引用并入此。
本文档涉及用于音乐信息检索(MIR)的方法和系统。特别地,本文档涉及用于与音频信号的编码处理相结合地(例如,在音频信号的编码处理期间)从音频信号提取色度(chroma)矢量的方法和系统。
技术介绍
由于易于访问的数据的数量在过去几年里显著增加的事实,遍历可用音乐库变得越来越困难。被称为音乐信息检索(MIR)的跨学科研究领域调查了对音乐数据进行结构化和分类的解决方案,以帮助用户探查他们的媒体。例如,希望的是基于MIR的方法能够对音乐进行分类,以便提议相似类型的音乐。MIR技术可以基于指定半音随时间的能量分布的中间水平的时间-频谱表示,其被称为色度图谱(chromagram)。音频信号的色度图谱可以用于识别音频信号的和声信息(例如,关于旋律(melody)的信息和/或关于和弦(chord)的信息)。然而,色度图谱的确定典型地与显著的计算复杂度相联系。本文档设法解决了色度图谱计算方法的复杂度问题,并且描述了用于以降低的计算复杂度计算色度图谱的方法和系统。特别地,描述用于高效率地计算被感知激励的色度图谱的方法和系统。
技术实现思路
根据一方面,描述一种用于确定音频信号的米样块的色度矢量的方法。米样块可以是所谓的采样长块,其也被称为采样帧。音频信号可以是例如音轨。所述方法包括以下步骤:从音频编码器(例如,AAC(高级音频译码)或mp3编码器)接收从音频信号的采样块导出的相应的频率系数块。音频编码器可以是基于谱带复制(SBR)的音频编码器的核心编码器。举例来说,基于SBR的音频编码器的核心编码器可以是AAC或mp3编码器,更特别地,基于SBR的音频编码器可以是HE (高效率)AAC编码器或mp3PR0。可以应用本文档中所描述的方法的基于SBR的音频编码器的另一例子是MPEG-D USAC (通用语音和音频编解码器)编码器。(基于SBR的)音频编码器典型地适于从频率系数块产生音频信号的编码的比特流。为了这个目的,音频编码器可以对频率系数块进行量化,并且可以对量化后的频率系数块进行熵编码。所述方法还包括基于所接收的频率系数块来确定音频信号的采样块的色度矢量。特别地,可以从第二频率系数块确定色度矢量,第二频率系数块从所接收的频率系数块导出。在实施例中,第二频率系数块是所接收的频率系数块。在所接收的频率系数块是频率系数长块的情况下,情况可能如此。在另一实施例中,第二频率系数块对应于所估计的频率系数长块。该所估计的频率系数长块可以从所接收的频率系数块内所包括的多个短块确定。频率系数块可以是修正离散余弦变换(MDCT)系数块。时域到频域变换(以及所得的频率系数块)的其他例子是诸如MDST (修正离散正弦变换)、DFT (离散傅立叶变换)和MCLT(修正复数交叠变换)的变换。一般地说,可以使用时域到频域变换来从相应的采样块确定频率系数块。反过来,可以使用相应的逆变换从频率系数块确定采样块。MDCT是重叠变换,其意味着,在这样的情况下,从采样块以及音频信号的来自该采样块的直接邻域的另外的更多的采样确定频率系数块。特别地,可以从采样块和紧接在前的采样块确定频率系数块。采样块可以包括N个接连的短块,每个接连的短块有M个采样。换句话讲,采样块可以是(或者可以包括)N个短块的序列。以类似的方式,频率系数块可以包括N个相应的短块,每个相应的短块有M个频率系数。在实施例中,M = 128,N = 8,这意味着采样块包括MXN= 1024个采样。音频编码器可以使用短块来对瞬态音频信号进行编码,从而提高时间分辨率,同时降低频率分辨率。当从音频编码器接收到短块序列时,所述方法可以包括附加步骤以提高所接收的频率系数短块的序列的频率分辨率,从而使得能够确定全部采样块(其包括短块采样序列)的色度矢量。特别地,所述方法可以包括从N个M个频率系数的短块估计与采样块相应的频率系数长块。执行估计,以使得与N个频率系数短块相比,所估计的频率系数长块的频率分辨率提高。在这样的情况下,可以基于所估计的频率系数长块来确定音频信号的采样块的色度矢量。应指出,对于不同的聚合水平,可以以分层的方式执行估计频率系数长块的步骤。这意味着,可以将多个短块聚合为长块,并且可以将多个长块聚合为超长块,等等。结果,可以提供不同水平的频率分辨率(以及相应地,时间分辨率)。举例来说,可以从N个短块的序列确定频率系数长块(如以上所概括的那样)。在下一分层层级,可以将N2个频率系数长块的序列(其中的一些或全部可能已被从相应的N个短块的序列估计出来)转换为N2倍频率系数的超长块(以及相应地,更高频率分辨率)。就这点而论,用于从频率系数短块的序列估计频率系数长块的方法可以用于分层地提高色度矢量的频率分辨率(同时,分层地降低色度矢量的时间分辨率)。估计频率系数长块的步骤可以包括:对N个频率系数短块的相应频率系数进行交织,从而得到交织的频率系数长块。应指出,在对频率系数块进行量化和熵编码的上下文中,这样的交织可以由音频编码器(例如,核心编码器)执行。就这点而论,所述方法可替代地可以包括从音频编码器接收交织的频率系数长块的步骤。因此,交织步骤将不消耗额外的计算资源。色度矢量可以从交织的频率系数长块确定。此外,估计频率系数长块的步骤可以包括通过将(与高频区间(bin)相比,在变换的低频区间中)具有能量聚集性质(energycompaction property)的变换(例如,DCT-1I变换)应用于交织的频率系数长块来对N个频率系数短块的N个相应频率系数进行去相关。该使用能量聚集变换(例如,DCT-1I变换)的去相关方案可以被称为自适应混合变换(AHT)方案。色度矢量可以从去相关的、交织的频率系数长块确定。可替代地,估计频率系数长块的步骤可以包括将多相转换(PPC)应用于N个M个频率系数的短块。多相转换可以基于转换矩阵,该转换矩阵用于在数学上将N个M个频率系数的短块变换为准确的NXM个频率系数的长块。就这点而论,可以在数学上从由音频编码器执行的时域到频域变换(例如,MDCT)确定转换矩阵。转换矩阵可以表示N个频率系数短块到时域的逆变换与时域采样到频域的随后变换的组合,从而得到准确的NXM个频率系数的长块。多相转换可以使用转换矩阵的其中一小部分转换矩阵系数被设置为零的逼近(approximation)。举例来说,可以将转换矩阵系数的90%或更多的部分被设置为零。结果,多相转换可以以低的计算复杂度提供所估计的频率系数长块。此外,该小部分(fraction)可以用作作为复杂度的函数改变转换质量的参数。换句话讲,该小部分可以用于提供复杂度可缩放的转换。应指出,可以将AHT(以及PPC)应用于短块序列的一个或多个子集。就这点而论,估计频率系数长块可以包括形成N个频率系数短块的多个子集。这些子集可以具有L个短块的长度,从而得到N/L个子集。可以基于音频信号来选择每一子集的短块数量L,从而使AHT/PPC适应音频信号的特定特性(即,音频信号的特定帧)。在AHT的情况下,对于每个子集,可以对频率系数短块的相应频率系数进行交织,从本文档来自技高网...

【技术保护点】
一种用于确定音频信号(301)的采样块的色度矢量(100)的方法(900),所述方法(900)包括:‑从基于谱带复制的音频编码器(410)的核心编码器(412)接收(901)从音频信号(301)的采样块导出的相应频率系数块,所述核心编码器(412)适于从所述频率系数块产生音频信号(301)的编码的比特流(305);和‑基于所接收的频率系数块来确定(904)音频信号(301)的采样块的色度矢量(100)。

【技术特征摘要】
【国外来华专利技术】2011.11.30 US 61/565,0371.一种用于确定音频信号(301)的采样块的色度矢量(100)的方法(900),所述方法(900)包括: -从基于谱带复制的音频编码器(410)的核心编码器(412)接收(901)从音频信号(301)的采样块导出的相应频率系数块,所述核心编码器(412)适于从所述频率系数块产生音频信号(301)的编码的比特流(305);和 -基于所接收的频率系数块来确定(904)音频信号(301)的采样块的色度矢量(100)。2.根据权利要求1所述的方法(900),其中,所述基于谱带复制的音频编码器(410)应用下列中的任何一个:高效率高级音频译码、mp3PRO和MPEG-D USAC。3.根据前面任何一个权利要求所述的方法(900),其中,所述频率系数块是下列中的任何一个: -修正离散余弦变换系数块,修正离散余弦变换被称为MDCT ; -修正离散正弦变换系 数块,修正离散正弦变换被称为MDST ; -离散傅立叶变换系数块,离散傅立叶变换被称为DFT ;和 -修正复数重叠变换系数块,修正复数交叠变换被称为MCLT。4.根据前面任何一个权利要求所述的方法(900),其中, -采样块包括N个接连的短块,N个接连的短块中的每一个分别有M个采样; -频率系数块包括N个相应的短块,每个相应的短块分别有M个频率系数。5.根据权利要求4所述的方法(900),其中,所述方法还包括: -从N个M个频率系数的短块估计(902)与所述采样块相应的频率系数长块;其中,所估计的频率系数长块与N个频率系数短块相比具有增大的频率分辨率;和 -基于所估计的频率系数长块来确定(904)音频信号(301)的采样块的色度矢量。6.根据权利要求5所述的方法(900),其中,估计(902)频率系数长块包括对N个频率系数短块的相应频率系数进行交织,从而得到交织的频率系数长块。7.根据权利要求6所述的方法(900),其中,估计(902)频率系数长块包括通过将具有能量聚集性质的变换应用于交织的频率系数长块来对N个频率系数短块的N个相应频率系数进行去相关,所述具有能量聚集性质的变换是例如DCT-1I变换。8.根据权利要求5所述的方法(900),其中,估计(902)频率系数长块包括: -形成N个频率系数短块的多个子集,其中,每一个子集的短块的数量基于所述音频信号而被选择; -对于每个子集,对频率系数短块的相应频率系数进行交织,从而得到该子集的交织的频率系数中间块;和 -对于每个子集,将具有能量聚集性质的变换应用于该子集的交织的频率系数中间块,从而得到所述多个子集的多个估计的频率系数中间块,所述具有能量聚集性质的变换是例如DCT-1I变换。9.根据权利要求5所述的方法(900),其中,估计(902)频率系数长块包括:将多相转换应用于N个M个频率系数的短块。10.根据权利要求9所述的方法(900),其中, -所述多相转换基于转换矩阵,所述转换矩阵用于在数学上将N个M个频率系数的短块变换为准确的NXM个频率系数的长块;和-所述多相转换使用所述转换矩阵的其中一部分转换矩阵系数被设置为零的逼近。11.根据权利要求10所述的方法(900),其中,将90%或更多的一部分的所述转换矩阵系数设置为零。12.根据权利要求5所述的方法(900),其中,估计(902)频率系数长块包括: -形成N个频率系数短块的多个子集,其中,每一个子集的短块的数量L基于所述音频信号而被选择,L<N ; -将中间多相转换应用于所述多个子集,从而得到多个估计的频率系数中间块;其中,所述中间多相转换基于中间转换矩阵,所述中间转换矩阵用于在数学上将L个M个频率系数的短块变换为准确的LXM个频率系数的中间块;并且 其中,所述中间多相转换使用所述中间转换矩阵的其中一部分中间转换矩阵系数被设置为零的逼近。13.根据权利要求10至12中的任何一个所述的方法(900),其中,所述部分是可变的,从而改变所估计的频率系数块的质量。14.根据权利要求4至13中的任何一个所述的方法(900),其中,M= 128,N = 8。15.根据权利要求5至14中的任何一个所述的方法(900),还包括: -从相应的多个频率系数长块估计与多个采样块相应的频率系数超长块;其中,所估计的频率系数超长块与所述多个频率系数长块相比具有增大的频率分辨率。16.根据前面任何一个权利要求所述的方法(900),其中,确定色度矢量(100)包括将频...

【专利技术属性】
技术研发人员:A·比斯沃斯M·芬克M·舒格
申请(专利权)人:杜比国际公司
类型:发明
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利