【技术实现步骤摘要】
【国外来华专利技术】音频信号分析
本专利技术涉及音频信号分析,更具体地,涉及音乐韵律分析。
技术介绍
在音乐术语中,音乐韵律包括音乐中强调或重音的循环模式。音乐韵律可以被描述为包括旋律脉冲(measurepulse)、节拍脉冲和塔特姆脉冲,分别是指在脉冲持续时间方面最长到最短的脉冲。节拍脉冲提供音乐中的基本时间单位,节拍脉冲的速率(速度)被认为是大多数人在听到一段音乐时会用脚点地的速率。在许多实际应用中,识别一段音乐中节拍脉冲的出现或者所谓的节拍跟踪是有利的。这样的应用包括音乐推荐应用,其中,在例如需要播放列表中的音乐之间的无缝混音转换的电台节目主持人(DJ)应用中以自动循环技术搜索与基准音轨相似的音乐。节拍跟踪系统和方法生成节拍序列,其包括在一段音乐或其一部分中节拍的时间位置。以下的术语有助于理解将在后面描述的某些概念。音高:音符的基频(fo)的生理相关性。色度(chroma),也称为音高集合:用整数个八度音阶分隔的音乐音高属于常见的音高集合。在西方音乐中使用12个音高集合。节拍或节拍法(tactus):音乐中的基本时间单位,它可被认为是大多数人在听到一段音乐时会用脚点地的速率。这个词也用于表示属于单个节拍的音乐部分。速度:节拍或节拍法脉冲的速率,通常以每分钟节拍(BPM)的单位表示。小节或旋律:定义为指定数量的具有指定持续时间的节拍的时间段。例如,在具有4/4拍号的音乐中,每个小节包括4个节拍。重音或基于重音的音频分析:分析音频信号以检测音乐中的事件和/或变化,包括但不限于所有离散声音事件的开始,特别是长而高的声音的开始、音色的响度的突然变化及和声变化。在下文给出进一步的 ...
【技术保护点】
一种装置,包括:第一重音信号模块,用于生成表示音频信号中的音乐重音的第一重音信号(a1);第二重音信号模块,用于生成表示所述音频信号中的音乐重音的不同的第二重音信号(a2);第一节拍跟踪模块,用于根据所述第一重音信号估计第一节拍时间序列(b1);第二节拍跟踪模块,用于根据所述第二重音信号估计第二节拍时间序列(b2);以及序列选择器,用于识别所述第一节拍时间序列(b1)和所述第二节拍时间序列(b2)中的哪一个与所述重音信号的一个或两者中的峰值最接近一致。
【技术特征摘要】
【国外来华专利技术】1.一种用于音频信号分析的装置,其被配置为:第一重音信号模块,用于生成表示音频信号中的音乐重音的第一重音信号(a1);速度估计器,其被配置为使用所述第一重音信号(a1)来生成所述音频信号的估计速度(BPMest);第二重音信号模块,用于生成表示所述音频信号中的音乐重音的不同的第二重音信号(a2);第一节拍跟踪模块,用于根据所述第一重音信号(a1)和所述估计速度(BPMest)来估计第一节拍时间序列(b1);用于对所述估计速度(BPMest)执行向上取整函数和向下取整函数以分别生成向上取整的速度估计(ceil(BPMest))和向下取整的速度估计(floor(BPMest))的装置,其中,第二节拍跟踪模块被配置为使用所述第二重音信号(a2)和所述向上取整的速度估计来生成第二节拍时间序列(b2),并使用所述第二重音信号(a2)和所述向下取整的速度估计来生成第三节拍时间序列(b3);以及序列选择器,用于识别所述第一节拍时间序列(b1)、所述第二节拍时间序列(b2)和所述第三节拍时间序列(b3)中的哪一个与所述重音信号的一个或两者中的峰值最接近一致。2.根据权利要求1所述的装置,其中,所述第一重音信号模块被配置为通过基于基频(f0)突出度分析来提取色度重音特征,生成所述第一重音信号(a1)。3.根据权利要求1所述的装置,其中,所述第二重音信号模块被配置为使用所述音频信号的带宽的预定子带来生成所述第二重音信号(a2)。4.根据权利要求3所述的装置,其中,所述第二重音信号模块被配置为使用低于200Hz的预定子带来生成所述第二重音信号(a2)。5.根据权利要求3所述的装置,其中,所述第二重音信号模块被配置为通过执行所述音频信号的多速率滤波器组分解以及使用来自预定的一个滤波器的输出来生成所述重音信号,生成所述第二重音信号(a2)。6.根据权利要求1所述的装置,其中,所述第二节拍跟踪模块被配置为对于所述向上取整的速度估计和所述向下取整的速度估计中的每一个,使用所述估计来生成初始节拍时间序列(bt),将其与基准节拍时间序列(bi)进行比较,以及使用预定的相似度算法生成所述第二节拍时间序列和所述第三节拍时间序列。7.根据权利要求6所述的装置,其中,由所述第二节拍跟踪模块使用的所述预定的相似度算法包括在偏移位置的范围上比较所述初始节拍时间序列(bt)和所述基准节拍时间序列(bi)以识别所述范围内的最佳匹配,所生成的第二/第三节拍时间序列包括导致所述最佳匹配的所述基准节拍时间序列(bi)的偏移版本。8.根据权利要求6或7所述的装置,其中,所述基准节拍时间序列(bi)具有恒定的节拍间隔。9.根据权利要求8所述的装置,其中,所述基准节拍时间序列(bi)在t=0,1/(X/60),2/(X/60)......n/(X/60)时生成,其中,X是所述估计速度的整数表示,n是整数。10.根据权利要求7所述的装置,其中,在所述算法中使用的所述偏移位置的范围在0到1.1/(X/60)之间,其中,X是所述估计速度的整数表示。11.根据权利要求7所述的装置,其中,在所述算法中用于比较的所述偏移位置具有0.1/(BPMest/60)的步长。12.根据权利要求1所述的装置,其中,所述序列选择器被配置为识别所述节拍时间序列中的哪一个与所述第二重音信号中的峰值最接近一致。13.根据权利要求1所述的装置,其中,所述序列选择器被配置为对于所述节拍时间序列中的每一个,计算概括统计量或值,并选择导致最大概括统计量或值的节拍时间序列,其中,所述概括统计量或值依赖于在所述序列中的节拍时间处或者在所述节拍时间附近发生的所述重音信号或每个重音信号的值。14.根据权利要求13所述的装置,其中,所述序列选择器被配置为对于所述节拍时间序列中的每一个,计算在所述序列中的节拍时间处或者在所述节拍时间附近发生的所述重音信号或每个重音信号的平均值,并选择导致最大平均值的节拍时间序列。15.根据权利要求1所述的装置,包括:用于接收多个视频片段的装置,其中,每个视频片段各自具有包括共同内容的音频信号;以及视频编辑模块,用于使用在所选择的节拍序列中的节拍来识别用于所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。