导出音频输入信号的一个特征集的方法技术

技术编号:3040567 阅读:284 留言:0更新日期:2012-04-11 18:40
本发明专利技术描述一种导出音频输入信号(M)的一个特征集(S)的方法,该方法包括:识别音频输入信号(M)的大量第一阶特征(f↓[1],f↓[2],…,f↓[f]),从至少部分第一阶特征(f↓[1],f↓[2],…,f↓[f])产生大量的相关值(ρ↓[1],ρ↓[2],…,ρ↓[I]),使用相关值(ρ↓[1],ρ↓[2],…,ρ↓[I])编辑音频输入信号(M)的所述特征集(S)。本发明专利技术还描述将音频输入信号(M)分类成组的方法,以及比较音频输入信号(M,M’)以确定音频输入信号(M,M’)之间的相似性程度的方法。本发明专利技术还描述用于导出音频输入信号(M)的一个特征集(S)的系统(1),用于将音频输入信号(M)分类成组的分类系统(4),以及比较音频输入信号(M,M’)以确定音频输入信号(M,M’)之间的相似性程度的比较系统(5)。

【技术实现步骤摘要】
【国外来华专利技术】导出音频输入信号的 一个特征集的方法本专利技术涉及导出音频输入信号的 一个特征集的方法,和导出音频输 入信号的一个特征集的系统。本专利技术还涉及对音频输入信号进行分类的 方法和系统,以及比较音频输入信号的方法和系统。数字内容的存储能力正在显著地增加。在不久的未来期望可以获得具有至少一千兆字节存储容量的硬盘。作为对此的补充,诸如MPEG标 准的多媒体内容的压缩算法的演进,显著地减小每个音频或视频文件所 需存储容量的数量。结果是消费者将会能够在单个硬盘或其他存储介质 上存储许多小时的视频和音频内容。能够从数量不断增加的电台和电视 台记录视频和音频。消费者能够通过简单地从万维网即一种正在变得曰 益流行的工具,下载视频和音频内容容易地增加他的收集。而且,具有 大存储容量的便携式音乐播放器是买得起的和实际的,它允许用户在任 何时间能够访问从其进行选择的音乐的广泛选择。但是,从其进行选择的可用视频和音频数据的巨量选择不是没有问 题。例如,从具有成千上万音乐乐曲(musictrack)的大型音乐数据库组织 和选择音乐是困难并且耗时的。通过包括元数据能够部分地解决该问 题,该元数据能够被理解成以某种方式附加到实际音频数据文件的附加 信息标记。元数据有时被提供给音频文件,但是并不总是这样。当面对 耗时和令人不愉快的检索和分类问题时,用户非常可能会放弃,或者完 全不操心。在解决音乐信号的分类问题中已经作出了一些尝试,例如,WO 01/20609 A2提出一种分类系统,在该系统中根据某些诸如节奏复杂度、 清晰度、感染力等等的特征或变量对音频信号,即多首音乐或音乐乐曲 进行分类。给每首音乐分配了针对大量选择的变量的权重值,这取决于 每个变量适用于这首音乐的程度。然而,这种系统具有的缺点在于,对 音乐乐曲相似音乐片段的分类或比较的精确度并非特别高。因此,本专利技术的一个目的是提供一种更加稳定和精确的方式对音频 信号进行表征、分类或比较。为此,本专利技术提供一种,特 别用于对音频输入信号进行分类和/或将该音频输入信号与另 一个音频 信号进行比较和/或对该音频输入信号进行表征,该方法包括识别音频输 入信号的大量第一阶特征,从至少部分该第一阶特征产生大量相关值, 以及利用所述相关值编辑音频输入信号的特征集。识别的步骤可以包 括,例如,从音频输入信号提取大量第一阶特征或从数据库检索大量第 一阶特征。所述第 一 阶特征是音频输入信号的某些选取的描述性特征,可以描述信号带宽、过零率、信号响度、信号亮度、信号能量或功率谱值等等。 第一阶特征描述的其他质量可以是谱衰减频率、谱矩心等等。从音频输入信号导出的第一阶特征可以被选择为正交的,即它们可以被选为在一 定程度上彼此独立。第 一 阶特征的 一个序列可以 一起放入通常被称为 特征向量的单元中,其中特征向量中的某个位置总是被相同类型的 特征占据。从第一阶特征的选择产生的相关值,因而也被称为第二阶特征,描 述了这些第一阶特征之间的相互关联性或协方差,并且是音频输入信号 的强有力的描述符。已经表面,在第一阶特征不够时,在第二阶特征的 帮助下,常常可以对音乐乐曲进行精确的比较、分类或表征。根据本专利技术的方法的明显优点在于,可以容易地为任何音频输入信 号导出强有力的描述性特征集,并且这个特征集可以用来,例如,精确 地分类音频输入信号,或者快速和精确地识别另一个类似的音频信号。 例如,为音频信号编辑的一个优选特征集包括第一阶和第二阶特征的元 素,其不仅描述某些选择的描述性特征,而且还描述这些选择的描述性 特征之间的相互关系。用于导出音频输入信号的 一个特征集的适当系统包括识别音频输 入信号的大量第 一 阶特征的特征识别单元,用于从至少部分第 一 阶特征 产生大量相关值的相关值产生单元,和使用所述相关值编辑音频输入信 号的一个特征集的特征集编辑单元。所述特征识别单元可以例如包括特 征提取单元和/或特征检索单元。从属权利要求和接下来的描述公开了本专利技术的特别有利的实施例 和特征。音频输入信号能够源自任何适当的来源。最普遍地,音频信号可能源自可以具有大量格式中的任何一种格式的音频文件。音频文件格式的实例是未压缩的,例如(WAV),和经过无损压缩的,例如视窗媒体音 频(WMA ),以及诸如MP3 ( MPEG-1音频层3 )文件、AAC (高级音 频编译码)等等的有损压缩格式。同样,通过使用对于本领域普通技术 人员熟知的任何适当的技术数字化音频信号能够获得音频输入信号。在根据本专利技术的方法中,音频输入信号的第一阶特征(有时也被称 为观察)可能优选从给定域中的一个或多个部分提取,相关值的产生优 选地包括使用适当域中的相应部分的第 一 阶特征对来执行相关。部分能 够是例如时域中的时间帧或分段,这里时间帧就是覆盖大量音频输 入采样的时间范围。所述部分还能够是频域中的频带,或滤波器组域中 的时间/频率片。这些时间/频率片、时间帧和频带通常具有相同的 大小或持续时间。因此与音频信号部分关联的特征能够被表示为时间的 函数,频率的函数,或二者的组合,从而在一个或两个域中能够对这些 特征执行相关。在下文中,术语部分和片可以被可交换地使用。在本专利技术的进一步优选实施例中,从不同、优选相邻的时间帧提取 的第 一阶特征的相关值产生包括使用这些时间帧的第 一阶特征来执行 相关,从而该相关值描述这些相邻特征之间的相互关系。在本专利技术的一个优选实施例中,在时域中对音频输入信号的每个时 间帧提取第一阶特征,以及通过在大量相继的特征向量上,优选在特征 向量的整个范围上在 一对特征之间执行互相关产生相关值。在本专利技术的替换优选实施例中,在频域中对音频输入信号的每个时 间帧提取第 一 阶特征,以及通过在频域的频带上在两个时间帧的特征向 量的某些特征之间执行互相关计算相关值,这里两个时间帧优选,但不 必须是相邻的时间帧。换言之,对于多个时间帧中的每个时间帧,对至 少两个频带提取至少两个第 一阶特征,相关值的产生包括在时间帧和频 带上在两个特征之间执行互相关。由于特征向量的第 一 阶特征被选择成相互独立或正交的,因此它们 将是描述音频输入信号的不同方面的特征,所以将会以不同的单元来表 示。为了比较变量汇集中的不同变量之间的协方差的等级,以普通熟知 的用于计算两个变量之间的乘积矩或互相关的技术,每个变量的平均偏 差能够被除以它的标准偏差。所以,在本专利技术的特别优选的实施例中, 通过从中减去所有适当特征的中间或平均值来调节在产生相关值中使用的第一阶特征。例如,当在特征向量的整个范围上计算两个时域第一 阶特征的相关值时,在计算诸如平均偏差和标准偏差的特征变化的度量 之前,首先计算每个第一阶特征的平均值以及从第一阶特征的值减去该 平均值。类似地,当根据两个相邻的特征向量计算两个频域特征的相关 值时,在计算两个被选择的第一阶特征的乘积矩相关或互相关之前,首 先在两个特征向量的每个特征向量上计算第一阶特征的平均值并从各 自特征向量的每个第 一 阶特征值减去该平均值。可以计算大量的这些相关值,例如针对第一&第二、第一&第三、 第二&第三第一阶特征等等的每个相关值。这些相关值是描述音频输入 信号的特征对之间的协方差或相关性的值,它们可能被组合以提供音频 输入本文档来自技高网...

【技术保护点】
一种导出音频输入信号(M)的一个特征集(S)的方法,该方法包括:    -识别音频输入信号(M)的大量第一阶特征(f↓[1],f↓[2],…,f↓[f]);    -从至少部分第一阶特征(f↓[1],f↓[2],…,f↓[f])产生大量的相关值(ρ↓[1],ρ↓[2],…,ρ↓[I]);    -使用相关值(ρ↓[1],ρ↓[2],…,ρ↓[I])编辑音频输入信号(M)的所述特征集(S)。

【技术特征摘要】
【国外来华专利技术】EP 2005-10-17 05109648.51.一种导出音频输入信号(M)的一个特征集(S)的方法,该方法包括-识别音频输入信号(M)的大量第一阶特征(f1,f2,...,ff);-从至少部分第一阶特征(f1,f2,...,ff)产生大量的相关值(ρ1,ρ2,...,ρI);-使用相关值(ρ1,ρ2,...,ρI)编辑音频输入信号(M)的所述特征集(S)。2. 根据权利要求1所述的方法,其中,从音频输入信号(M)的给 定域中的一个或多个部分(tn t2, ..., t!)提取第一阶特征(fP f2,ff, fa, fb),相关值(p,, p2, Pi, P )的产生包括使用该域中的相应部分的第一阶特征(f\, f2, ff, fa, fb)对执行相关。3. 根据权利要求2所述的方法,其中,从音频输入信号(M)的不同时间帧(t!, t2, ..., 提取第一阶特征(f!, f2, ff, fa, fb),相关值(p,, p2,Pi, p )的产生包括使用不同时间帧(t t2,...,t!)的第一阶特征(f f2,…,ff, fa, fb)执行相关。4. 根据权利要求3所述的方法,其中,对于多个时间帧中的每个时间帧(t!, t2, ..., t!),提取作为时间的函数的第一阶特征向量(fvl, fv2, fvI),相关值(P!,P2,…,Pt)的产生包括在大量的特征向量(fvl, fv2, ..., fvl)上执行特征向量(fvl, fv2,…,fvl)的某些元 素之间的互相关。5. 根据权利要求3所述的方法,其中,对于多个时间帧中的每个时间帧(tp t2, t!),提取作为频率的函数的第一阶特征向量(fvl,fv2, fvI),相关值(P,,P2, ...,P!)的产生包括在频率上执行两个时间帧(th ti+1)的特征向量(fvl, fv2, fvl)的某些元素之间 的互相关。6. 根据前述权利要求任何之一所述的方法,其中,在产生相关值(PP2, P!)之前用相应的第一阶特征(fl, f2,…,ff)的平均值调节在产生相关值(PP2, P!)中使用的第一阶特征f2, ff)。7. 根据前述权利要求任何之一所述的方法,其中,所述特征集(S)包括大量的相关值(P!,P2, P!)和至少大量第一阶特征(f!,f2, ..., ff)的导出量。8. —种将音频输入信号(M)分类成组,并基于音频输入信号(M) 的所述特征集(S)确定音频输入信号(M)落入大量组的任何一个组 内的概率的方法,这里每个组表示特定...

【专利技术属性】
技术研发人员:DJ布里巴特MF麦金尼
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1