【技术实现步骤摘要】
【国外来华专利技术】增强的从音频编解码器的色度提取相关申请的交叉引用本申请要求于2011年11月30日提交的美国临时专利申请N0.61/565,037的优先权,该申请的全部内容通过引用并入此。
本文档涉及用于音乐信息检索(MIR)的方法和系统。特别地,本文档涉及用于与音频信号的编码处理相结合地(例如,在音频信号的编码处理期间)从音频信号提取色度(chroma)矢量的方法和系统。
技术介绍
由于易于访问的数据的数量在过去几年里显著增加的事实,遍历可用音乐库变得越来越困难。被称为音乐信息检索(MIR)的跨学科研究领域调查了对音乐数据进行结构化和分类的解决方案,以帮助用户探查他们的媒体。例如,希望的是基于MIR的方法能够对音乐进行分类,以便提议相似类型的音乐。MIR技术可以基于指定半音随时间的能量分布的中间水平的时间-频谱表示,其被称为色度图谱(chromagram)。音频信号的色度图谱可以用于识别音频信号的和声信息(例如,关于旋律(melody)的信息和/或关于和弦(chord)的信息)。然而,色度图谱的确定典型地与显著的计算复杂度相联系。本文档设法解决了色度图谱计算方法的复杂度问题,并且描述了用于以降低的计算复杂度计算色度图谱的方法和系统。特别地,描述用于高效率地计算被感知激励的色度图谱的方法和系统。
技术实现思路
根据一方面,描述一种用于确定音频信号的米样块的色度矢量的方法。米样块可以是所谓的采样长块,其也被称为采样帧。音频信号可以是例如音轨。所述方法包括以下步骤:从音频编码器(例如,AAC(高级音频译码)或mp3编码器)接收从音频信号的采样块导出的相应的频率系数块。 ...
【技术保护点】
一种用于确定音频信号(301)的采样块的色度矢量(100)的方法(900),所述方法(900)包括:‑从基于谱带复制的音频编码器(410)的核心编码器(412)接收(901)从音频信号(301)的采样块导出的相应频率系数块,所述核心编码器(412)适于从所述频率系数块产生音频信号(301)的编码的比特流(305);和‑基于所接收的频率系数块来确定(904)音频信号(301)的采样块的色度矢量(100)。
【技术特征摘要】
【国外来华专利技术】2011.11.30 US 61/565,0371.一种用于确定音频信号(301)的采样块的色度矢量(100)的方法(900),所述方法(900)包括: -从基于谱带复制的音频编码器(410)的核心编码器(412)接收(901)从音频信号(301)的采样块导出的相应频率系数块,所述核心编码器(412)适于从所述频率系数块产生音频信号(301)的编码的比特流(305);和 -基于所接收的频率系数块来确定(904)音频信号(301)的采样块的色度矢量(100)。2.根据权利要求1所述的方法(900),其中,所述基于谱带复制的音频编码器(410)应用下列中的任何一个:高效率高级音频译码、mp3PRO和MPEG-D USAC。3.根据前面任何一个权利要求所述的方法(900),其中,所述频率系数块是下列中的任何一个: -修正离散余弦变换系数块,修正离散余弦变换被称为MDCT ; -修正离散正弦变换系 数块,修正离散正弦变换被称为MDST ; -离散傅立叶变换系数块,离散傅立叶变换被称为DFT ;和 -修正复数重叠变换系数块,修正复数交叠变换被称为MCLT。4.根据前面任何一个权利要求所述的方法(900),其中, -采样块包括N个接连的短块,N个接连的短块中的每一个分别有M个采样; -频率系数块包括N个相应的短块,每个相应的短块分别有M个频率系数。5.根据权利要求4所述的方法(900),其中,所述方法还包括: -从N个M个频率系数的短块估计(902)与所述采样块相应的频率系数长块;其中,所估计的频率系数长块与N个频率系数短块相比具有增大的频率分辨率;和 -基于所估计的频率系数长块来确定(904)音频信号(301)的采样块的色度矢量。6.根据权利要求5所述的方法(900),其中,估计(902)频率系数长块包括对N个频率系数短块的相应频率系数进行交织,从而得到交织的频率系数长块。7.根据权利要求6所述的方法(900),其中,估计(902)频率系数长块包括通过将具有能量聚集性质的变换应用于交织的频率系数长块来对N个频率系数短块的N个相应频率系数进行去相关,所述具有能量聚集性质的变换是例如DCT-1I变换。8.根据权利要求5所述的方法(900),其中,估计(902)频率系数长块包括: -形成N个频率系数短块的多个子集,其中,每一个子集的短块的数量基于所述音频信号而被选择; -对于每个子集,对频率系数短块的相应频率系数进行交织,从而得到该子集的交织的频率系数中间块;和 -对于每个子集,将具有能量聚集性质的变换应用于该子集的交织的频率系数中间块,从而得到所述多个子集的多个估计的频率系数中间块,所述具有能量聚集性质的变换是例如DCT-1I变换。9.根据权利要求5所述的方法(900),其中,估计(902)频率系数长块包括:将多相转换应用于N个M个频率系数的短块。10.根据权利要求9所述的方法(900),其中, -所述多相转换基于转换矩阵,所述转换矩阵用于在数学上将N个M个频率系数的短块变换为准确的NXM个频率系数的长块;和-所述多相转换使用所述转换矩阵的其中一部分转换矩阵系数被设置为零的逼近。11.根据权利要求10所述的方法(900),其中,将90%或更多的一部分的所述转换矩阵系数设置为零。12.根据权利要求5所述的方法(900),其中,估计(902)频率系数长块包括: -形成N个频率系数短块的多个子集,其中,每一个子集的短块的数量L基于所述音频信号而被选择,L<N ; -将中间多相转换应用于所述多个子集,从而得到多个估计的频率系数中间块;其中,所述中间多相转换基于中间转换矩阵,所述中间转换矩阵用于在数学上将L个M个频率系数的短块变换为准确的LXM个频率系数的中间块;并且 其中,所述中间多相转换使用所述中间转换矩阵的其中一部分中间转换矩阵系数被设置为零的逼近。13.根据权利要求10至12中的任何一个所述的方法(900),其中,所述部分是可变的,从而改变所估计的频率系数块的质量。14.根据权利要求4至13中的任何一个所述的方法(900),其中,M= 128,N = 8。15.根据权利要求5至14中的任何一个所述的方法(900),还包括: -从相应的多个频率系数长块估计与多个采样块相应的频率系数超长块;其中,所估计的频率系数超长块与所述多个频率系数长块相比具有增大的频率分辨率。16.根据前面任何一个权利要求所述的方法(900),其中,确定色度矢量(100)包括将频...
【专利技术属性】
技术研发人员:A·比斯沃斯,M·芬克,M·舒格,
申请(专利权)人:杜比国际公司,
类型:发明
国别省市:荷兰;NL
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。