音频信号分类方法和系统技术方案

技术编号:3045242 阅读:133 留言:0更新日期:2012-04-11 18:40
本发明专利技术描述了一种分类音频输入信号(1)的方法,该方法包括以下步骤:提取该音频输入信号(1)的至少一个特征(2);基于该至少一个所提取的特征(2)为该输入音频信号(1)导出特征矢量(3);以及确定该输入音频信号(1)的该特征矢量(3)落入多个类别(C1,C2,…,Cn)中的任何一个之内的概率,其中每个类别对应于特定的发行日期信息。

【技术实现步骤摘要】
【国外来华专利技术】 专利
本专利技术总体涉及一种识别音频输入信号、尤其是音乐轨道的系统和方法,本专利技术还涉及一种用于分类音频输入信号、尤其是音乐轨道的音频处理设备。专利技术背景作为广播技术、传输带宽和互联网发展的结果,并且由于消费存储设备的不断提高的容量,如今的消费者可以使用数量快速增大的多媒体内容。超过10,000个轨道的音乐集合也不例外。随着多媒体内容数量的所述增大,带来了对内容自动过滤、处理和存储的需要。从这种大音乐数据库中组织和选择音乐是非常困难的并且很消耗时间。该问题可以部分地通过包含元数据来解决,所述元数据可以被理解成以某种方式附着在实际音频数据文件上的附加信息标签。元数据有时由服务提供商提供,但是为了可以使用这些服务,消费者通常需要在线连接到该服务提供商,该服务提供商多半会对消费者所取回的数据收费。因此,从外部服务提供商取回元数据对于消费者来说并不总是具有吸引力的。当前的自动音频分类技术主要依赖于从音频中提取的相关特征,可以基于这些相关特征进行分析。例如,WO01/20483 A2描述了一种在数据库中搜索与第一段音乐相似的第二段音乐的方法。这里,该数据库由歌曲集合组成,每首歌曲与某种具有参数形式的元数据相关联。参数在第一段音乐中被识别并且被分析,以便在数据库中定位一组匹配的参数。该方法被限于定位与第一段音乐相似的第二段音乐,因此对那些不太希望听到完全相同的歌曲的用户来说仅仅具有非常有限的兴趣。最近的研究显示,人们的音乐偏好与当他们在10到20岁时流行的音乐相符。这就表示许多人偏好来自特定年代(例如80年代)的音乐。找到来自特定时期的歌曲或者找到听起来像是来自那个年代的歌曲是很困难的。并不是集合中的所有歌曲都可以有表明歌曲的发行日期的元数据,这尤其是因为元数据的使用是最近刚发展起来的,因此较老的集合将不具有该元数据。专利技术目的和概要因此,本专利技术的一个目的是提供一种方法和系统,其可以用来简单地识别音频片段的发行日期,而不需要使用元数据。为此,本专利技术提供一种根据音频输入信号的发行日期来分类音频输入信号的方法,该方法包括以下步骤提取音频输入信号的至少一个特征;基于该至少一个特征为输入音频信号导出特征矢量;以及确定该输入音频信号的特征矢量落入多个类别当中的任何一个之内的概率,其中每个类别对应于特定的发行日期信息。这里的“音频输入信号”是可以来自音频数据文件、音乐轨道、声轨、MP3音乐文件等等的信号。该音频输入信号也可以是(例如来自麦克风的)模拟信号,其优选地(但并不是必须)被转换成数字形式以便进行进一步的数字信号处理。音频信号的一个短的选段对于使用本专利技术的方法来估计其发行日期就足够了。根据上述方法的用于分类音频输入信号的发行日期的适当系统包括以下装置用于提取音频输入信号的至少一个特征的特征提取单元;用于基于该至少一个特征为输入音频信号导出特征矢量的导出单元;以及概率确定单元,其用于确定该输入音频信号的特征矢量落入多个类别当中的任何一个之内的概率,其中每个类别对应于特定的发行日期信息。所述方法和系统因此提供了一种自动估计音频输入信号的发行日期的简单方式。由此,“发行日期”一词意图表示特定的历年,其也可以表示一个时期,诸如“70年代早期”或“1998年前后”,或者表示任何其他时间点(例如特定的日期)。例如,发行日期可以是发行年,其被定义为一年,在其之前和之后可能有一段持续时间,从而定义了一定程度的不确定性,该音频信号很有可能在这之间发行。对于特定的音频信号,包含(framing)所识别的发行时期的时间跨距的总长度可以被解释为精确度的度量,即可以确定该音频信号的日期的精确度。因此,包含所识别的年份的相对较短的时间跨距将表示该相应的音频信号可以被确信地假设为来自所识别的发行时期,而较长的时间跨距将允许所提出的音频信号的产生日期具有一定程度的不确定性。通过本专利技术的适当应用,甚至可以在实际发行日期和感觉的发行日期之间做出区分。实际的发行日期就是该特定歌曲被发行的真实年份,而感觉的发行日期则是大多数听众在听到该歌曲时所联想到的年份。实际的发行日期信息对于翻唱版本和原唱版本是不同的,可以基于所提取的特征正确地估计出实际的发行日期信息。如果翻唱版本非常类似于原唱版本(也就是说翻唱版本在流派特征、风格等方面与原唱版本没有显著不同)但是很久以后才被发行,那么如果期望的话,该翻唱版本可以用感觉的发行日期来分类。独立本文档来自技高网...

【技术保护点】
一种分类音频输入信号(1)的方法,该方法包括以下步骤:    -提取该音频输入信号(1)的至少一个特征(2);    -基于该至少一个所提取的特征(2)为该输入音频信号(1)导出特征矢量(3);    -确定该输入音频信号(1)的特征矢量(3)落入多个类别(C1,C2,…,Cn)当中的任何一个之内的概率,其中每个类别对应于特定的发行日期信息。

【技术特征摘要】
【国外来华专利技术】EP 2004-4-29 04101841.7和以下的描述公开了本发明的特别有利的实施例和特征。所述“特征”是音频输入信号的描述性特征,诸如信号带宽、信号能量、频谱跌落频率、频谱质心等等。在提取所述特征之前,所述音频信号通常被转换成数字形式。然后,例如可以从音频样本的重叠帧计算所述特征。对所提取的特征执行进一步的处理,比如计算功率谱、归一化该功率谱以及计算在多个不同能量带上的能量,以便给出多个附加特征。最后,从整个特征组中产生一个特征选集,以便给出对应于该音频输入信号的特征矢量。因此,从所述输入音频信号中导出的该特征矢量可以被用于分类音频信号。为此,对该特征矢量执行分析,以便确定该特征矢量落入多个可能类别当中的任何一个之内的概率,其中每个类别对应于特定的发行日期信息。所述类别可以由点簇来图形地表示,每个点由一个特征矢量表示。所述点簇可以被理解成被安排在n维特征空间中,其中n对应于被用来计算每个特征矢量的特征的数量。每个簇是基于之前为来自一个音频信号集合的各音频信号计算的特征矢量而建立的,该音频信号集合代表关于某个发行日期的音频信号分类。为了确保分类的高成功率,该音频信号集合优选地包括分布在所有期望的发行日期类别上的足够大数量的音频信号。在本发明的一个优选实施例中,代表特定发行日期信息的类别(或者其相应的簇)可以用从先前计算的与该发行日期信息相关联的特征矢量集合中导出的模型来描述。这种模型可以例如是高斯多变量模型,其中的每个类别具有其自身的均值矢量及其自身的协方差矩阵。为了确保最佳可能的分类结果,该模型空间的维数被保持得尽可能低,同时选择给出在所得到的模型的各类别和各簇之间的最佳可能区分的特征。已知的特征分级(ranking)和维数缩减的方法可以被应用来产生最佳的特征组以供使用。该特征组被用来基于音频信号的集合而建立所述类别模型,并且随后被用来利用该模型为将被分类的任何输入音频信号计算特征矢量。多种已知的方法可用于计算音频输入信号的特征矢量落入特定类别(即对特征矢量进行分类)的概率。在本发明的一个优选实施例中采用了判别分析的方法。利用该分析方法,基于每个类别的平均值和协方差矩阵,可以使用例如Bayes规则对特征矢量进行分类以便确定特定类别包含该特征矢量的概率,并且采用先前为每个类别计算的概率密度。如果所述协方差矩阵在各类别上不同,那么所述判别函数就是二次的,从而所述判决边界在特征空间中形成二次曲面。该方法在这种情况下被称为二次判别分析。如果所述方差矩阵在各类别上是恒定的,那么所述判决边界在特征空间中形成线性曲面,并且该分析方法被称作线性判别分析。使用这些分析方法,就可以“定位”特征矢量在特征空间中的位置,这样可以确定与其最紧密相关的类别。如果该特征矢量明显地趋向位于与特定发行日期相关联的特定类别的中心,则可以假设相关联的音频输入信号在相应的日期(诸如“1970”)被发行。但是,如果该特征矢量更趋向位于该簇的边缘或边界,那么包含该发行日期的时间跨距就反映了不精确性。例如,对应于音频输入信号的发行日期或发行年份可以分别被报告为“1970±2”。特征的选择对于分类方法的成功可能具有很大的影响。因此,在本发明的一个特别优选的实施例中,被用于分类音频输入信号的特征矢量包括音频输入信号的听觉滤波器时间包络调制特征和/或心理声学特征。听觉滤波器时间包络(AFTE)调制特征可以通过使用多个特定类型的滤波器(其被称作伽马音调滤波器,其频谱形状类似于人类听觉系统的频率分辨率)对输入音频信号进行滤波而获得。对滤波后的信号执行进一步的处理,以便给出一组AFTE特征。该AFTE特征组的一个有力的属性在于,其允许标识波形频谱和包络频谱的那些包含相关信息的部分,以用于分类的目的。使用标准高斯框架来进行分类,结果显示,所述特征的时间行为对于自动音频分类来说是很重要的。此外,如果基于来自听觉感觉的模型的特征而不是基于标准特征,那么平均而言分类更好。心理声学特征是基于对粗糙度、锐度、响度等等的感觉。粗糙度是对在大约20-150Hz的范围内的时间包络调制的感觉,并且对于70Hz附近的调制表现出最大值。响度是对强度的感觉,锐度是与高频能量的频谱密度和相对强度相关的感觉。这些特征在发行年份分类中尤为有用,因为已经观察到对应于记录和混合设备的发展,音乐生产的某些质量多年来发生了改变,并且这些质量部分地由心理声学特征反映。例如,音乐的响度多年来稳定地提高,从而在确定音乐片段的起源日期时,使用响度可以产生良好的效果。这就允许这里所描述的系统被用于实际的和所感觉的发行日期分类。如上所述,音乐片段可以被感觉为源自特定时间,即便其产生和发行时间是在很久之后。可以使用上述方法来识别实际的发行日期。优选地,通过反复地调节一些特征(诸如响度等等)并且执行分类处理,也可以容易地识别感觉的发行日期。所述调节可以涉及对于各特征适配加权系数或者某种类似程序。例如,如果从响度等导出的特征被调节成反应70年代的典型水平,那么即使Abba乐曲的翻唱版本或者意欲拷贝Abba风格的音乐片段是在90年代发行的,也仍然可以被正确地识别为70年代。另一方面,本发明可以识别表现出过去流派的典型特征的音乐片段的正确发行日期,即使它是在很久以后发行的。本发明可以用于多种音频处理应用。例如,在一个优选实施例中,如上所述的用于估计音频输入信号的发行年份的分类系统可以被合并到一个音频处理设备中,该音频处理设备用于根据特定发行年份-日期来选择音频样本。该音频处理设备可以包括用于根据发行日期从数据库中选择一个或多个音乐数据文件的音乐查询系统。该音频处理设备可以解释用户输入,以便在估计发行日期之前确定将要对于从音乐数据文件中提取的音频信号的特征所执行的任何处理步骤。例如,该设备的用户可以输入参数,所述参数指定应当基于其实际发行日期来选择音乐片段,还是基于感觉的发行日期来选择音乐片段。按照这种方式,用户可以容易地建立来自一个或多个流派、来自特定的十年或时间跨距的音乐的集合,或者他可以更愿意指定特定类型的音乐,诸如60年代类型的摇滚乐,而不管其实际的发行年份。一旦对于特定的音乐片段进行了估计之后,该音频处理设备可以在本地或外部数据库中存储所述实际的和/或感觉的发行日期信息,以备将来使用。所述音频处理设备的另一个实施例包括自动DJ设备,其用于根据所期望的序列从音乐数据库中选择音乐片段。这种自动DJ设备可以是录音室、电台或电视台、迪斯科舞厅等场所中的专业设备,或者可以被合并入PC、家庭娱乐设备、PDA、移动电话等等。该自动DJ设备可以包括用于播放所选择的音乐片段的音频输出端,或者其可以连接到单独的播放音乐的装置。该自动DJ设备的特征在于其可以具有连接到远程音乐数据库(例如在因特网中)或者本地音乐数据库(例如家庭娱乐设备中的MP3文件列表)的装置。用户可以指定例如60年代风格的摇滚乐,其后是一个不同的流派(诸如70年代风格的迪斯科)。该自动DJ设备在实际的和感觉的发行日期信息的音乐数据库中搜索指定流派的音乐,并且按照所期望的顺序来编辑所述音乐片段的列表。根据本发明的分类系统可以被非常经济地实现为计算机程序。用于确定音乐输入信号的模糊度的度量的所有组件(例如滤波器组、谐振器滤波器组、能量相加单元、分级单元、节奏方案编辑器等等)可以被实现为计算机程序模块的形式。任何所需要的软件或算法可以在硬件设备的处理器上进行编码,从而现有的硬件设备可以被适配成从本发明的特征中获益。替换地,用于确定音乐输入信号的模糊度的度量的组件同样可以至少部分地利用硬件模块来实现,从而本发明可以被应用于数字和/或模拟音乐输入信号。在本发明的一个实施例中,所述音乐数据库可以处于与先前利用上述方法编辑的相关发行日期信息列表分开的存储设备中,或者二者可以都...

【专利技术属性】
技术研发人员:D布里巴特M麦克金尼
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利