当前位置: 首页 > 专利查询>诺基亚公司专利>正文

音频信号分析制造技术

技术编号:11469052 阅读:105 留言:0更新日期:2015-05-18 02:10
提供一种服务器系统(500)用于接收在服务器系统处处理的具有相关联的音轨/音乐轨道的视频片段。该系统包括第一节拍跟踪模块,用于使用信号的速度估计和色度重音信息从音频信号中生成第一节拍时间序列。对速度估计应用向上取整函数和向下取整函数以提供整数版本,这些整数版本随后被分别应用于从音频信号的较低频率子带中导出的另一个重音信号以生成第二和第三节拍时间序列。然后,选择模块将节拍时间序列中的每一个与该另一个重音信号进行比较以识别最佳匹配。

【技术实现步骤摘要】
【国外来华专利技术】音频信号分析
本专利技术涉及音频信号分析,更具体地,涉及音乐韵律分析。
技术介绍
在音乐术语中,音乐韵律包括音乐中强调或重音的循环模式。音乐韵律可以被描述为包括旋律脉冲(measurepulse)、节拍脉冲和塔特姆脉冲,分别是指在脉冲持续时间方面最长到最短的脉冲。节拍脉冲提供音乐中的基本时间单位,节拍脉冲的速率(速度)被认为是大多数人在听到一段音乐时会用脚点地的速率。在许多实际应用中,识别一段音乐中节拍脉冲的出现或者所谓的节拍跟踪是有利的。这样的应用包括音乐推荐应用,其中,在例如需要播放列表中的音乐之间的无缝混音转换的电台节目主持人(DJ)应用中以自动循环技术搜索与基准音轨相似的音乐。节拍跟踪系统和方法生成节拍序列,其包括在一段音乐或其一部分中节拍的时间位置。以下的术语有助于理解将在后面描述的某些概念。音高:音符的基频(fo)的生理相关性。色度(chroma),也称为音高集合:用整数个八度音阶分隔的音乐音高属于常见的音高集合。在西方音乐中使用12个音高集合。节拍或节拍法(tactus):音乐中的基本时间单位,它可被认为是大多数人在听到一段音乐时会用脚点地的速率。这个词也用于表示属于单个节拍的音乐部分。速度:节拍或节拍法脉冲的速率,通常以每分钟节拍(BPM)的单位表示。小节或旋律:定义为指定数量的具有指定持续时间的节拍的时间段。例如,在具有4/4拍号的音乐中,每个小节包括4个节拍。重音或基于重音的音频分析:分析音频信号以检测音乐中的事件和/或变化,包括但不限于所有离散声音事件的开始,特别是长而高的声音的开始、音色的响度的突然变化及和声变化。在下文给出进一步的细节。人们相信人类是通过从重音中推断规律的脉冲模式来感知音乐韵律的,其中重音是音乐中被强调的时刻。音乐中的不同事件导致重音。示例包括响度或音色的变化、和声变化以及一般的所有声音事件的开始。特别地,长而高的声音的开始导致重音。自动的速度、节拍或强拍估计器可尝试在一定程度上模仿人类对音乐韵律的感知。这可包含以下步骤:测量音乐强调、执行对一个或多个脉冲的周期估计、找出所估计的脉冲的相位、以及选择与速度对应的韵律水平或者一些其它感兴趣的韵律水平。由于重音与音乐中的事件有关,因此,基于重音的音频分析是指对音乐中的事件和/或变化的检测。这种变化可能与信号的响度、频谱和/或音高内容的变化有关。作为一个示例,基于重音的分析可能与例如使用色度特征从信号中检测频谱变化、从信号中计算新的或起始点检测函数、从信号中检测离散的起始点或者检测信号的音高和/或和声内容的变化有关。在执行频谱变化检测时,可以使用各种变换或滤波器组分解,诸如快速傅里叶变换或多速率滤波器组、或者甚至基频fo或音高突出度估计器。作为简单的示例,重音检测可通过在信号上以短帧计算信号在一组频带上的短时能量、然后计算每两个相邻帧之间的差(诸如欧几里得距离)来执行。为了增加针对各种音乐类型的鲁棒性,已经开发了很多不同的重音信号分析方法。以下将要描述的系统和方法利用在以下公开物中描述的背景知识,这些公开物在此通过引用结合。[1]CemgilA.T.等"Ontempotracking:tempogramrepresentationandKalmanfiltering."J.NewMusicResearch,2001.[2]Eronen,A.和Klapuri,A.,"MusicTempoEstimationwithk-NNregression,"IEEETrans.Audio,SpeechandLanguageProcessing,Vol.18,No.1,Jan2010.[3]Seppanen,Eronen,Hiipakka."JointBeat&TatumTrackingfromMusicSignals",InternationalConferenceonMusicInformationRetrieval,ISMIR2006andJarnoSeppanen,AnttiEronen,JarmoHiipakka:Method,apparatusandcomputerprogramproductforprovidingrhythminformationfromanaudiosignal.NokiaNovember2009:US7612275.[4]AnttiEronen和TimoKosonen"Creatingandsharingvariationsofamusicfile"-UnitedStatesPatentApplication20070261537.[5]Klapuri,A.,Eronen,A.,Astola,J.,"Analysisofthemeterofacousticmusicalsignals,"IEEETrans.Audio,Speech,andLanguageProcessing,Vol.14,No.1,2006.[6]Jehan,CreatingMusicbyListening,PhDThesis,MIT,2005.http://web.media.mit.edu/~tristan/phd/pdf/Tristan_PhD_MIT.pdf[7]D.Ellis,"BeatTrackingbyDynamicProgramming",J.NewMusicResearch,SpecialIssueonBeatandTempoExtraction,vol.36no.1,March2007,pp.51-60.(10pp)DOI:10.1080/09298210701653344.[8]A.Klapuri,"Multiplefundamentalfrequencyestimationbysummingharmonicamplitudes,"inProc.7thInt.Conf.MusicInf.Retrieval(ISMIR-06),Victoria,Canada,2006.
技术实现思路
本专利技术的第一个方面提供了一种装置,其包括:第一重音信号模块,用于生成表示音频信号中的音乐重音的第一重音信号(a1);第二重音信号模块,用于生成表示所述音频信号中的音乐重音的不同的第二重音信号(a2);第一节拍跟踪模块,用于根据所述第一重音信号估计第一节拍时间序列(b1);第二节拍跟踪模块,用于根据所述第二重音信号估计第二节拍时间序列(b2);以及序列选择器,用于识别所述第一节拍时间序列(b1)和所述第二节拍时间序列(b2)中的哪一个与所述重音信号的一个或两者中的峰值最接近一致。该装置提供了用于识别音乐信号中的节拍位置的稳健且在计算上简单的系统和方法。特别地,该装置提供了在从电子音乐到古典和摇滚音乐的音乐风格的范围上的节拍跟踪的稳健且准确的方式。特别地,电子舞蹈音乐被更准确地处理。第一重音信号模块可被配置为通过基于基频(f0)突出度分析而提取色度重音特征,生成第一重音信号(a1)该装置可以进一步包括速度估计器,其被配置为使用第一重音信号(a1)生成音频信号的估计速度(BPMest)。第一节拍跟踪模块可被配置为使用第一重音信号(a1)和估计速度(BPMest)估计第一节拍时间序列。第二重音信号模块可被配置为使用音频信号的本文档来自技高网
...

【技术保护点】
一种装置,包括:第一重音信号模块,用于生成表示音频信号中的音乐重音的第一重音信号(a1);第二重音信号模块,用于生成表示所述音频信号中的音乐重音的不同的第二重音信号(a2);第一节拍跟踪模块,用于根据所述第一重音信号估计第一节拍时间序列(b1);第二节拍跟踪模块,用于根据所述第二重音信号估计第二节拍时间序列(b2);以及序列选择器,用于识别所述第一节拍时间序列(b1)和所述第二节拍时间序列(b2)中的哪一个与所述重音信号的一个或两者中的峰值最接近一致。

【技术特征摘要】
【国外来华专利技术】1.一种用于音频信号分析的装置,其被配置为:第一重音信号模块,用于生成表示音频信号中的音乐重音的第一重音信号(a1);速度估计器,其被配置为使用所述第一重音信号(a1)来生成所述音频信号的估计速度(BPMest);第二重音信号模块,用于生成表示所述音频信号中的音乐重音的不同的第二重音信号(a2);第一节拍跟踪模块,用于根据所述第一重音信号(a1)和所述估计速度(BPMest)来估计第一节拍时间序列(b1);用于对所述估计速度(BPMest)执行向上取整函数和向下取整函数以分别生成向上取整的速度估计(ceil(BPMest))和向下取整的速度估计(floor(BPMest))的装置,其中,第二节拍跟踪模块被配置为使用所述第二重音信号(a2)和所述向上取整的速度估计来生成第二节拍时间序列(b2),并使用所述第二重音信号(a2)和所述向下取整的速度估计来生成第三节拍时间序列(b3);以及序列选择器,用于识别所述第一节拍时间序列(b1)、所述第二节拍时间序列(b2)和所述第三节拍时间序列(b3)中的哪一个与所述重音信号的一个或两者中的峰值最接近一致。2.根据权利要求1所述的装置,其中,所述第一重音信号模块被配置为通过基于基频(f0)突出度分析来提取色度重音特征,生成所述第一重音信号(a1)。3.根据权利要求1所述的装置,其中,所述第二重音信号模块被配置为使用所述音频信号的带宽的预定子带来生成所述第二重音信号(a2)。4.根据权利要求3所述的装置,其中,所述第二重音信号模块被配置为使用低于200Hz的预定子带来生成所述第二重音信号(a2)。5.根据权利要求3所述的装置,其中,所述第二重音信号模块被配置为通过执行所述音频信号的多速率滤波器组分解以及使用来自预定的一个滤波器的输出来生成所述重音信号,生成所述第二重音信号(a2)。6.根据权利要求1所述的装置,其中,所述第二节拍跟踪模块被配置为对于所述向上取整的速度估计和所述向下取整的速度估计中的每一个,使用所述估计来生成初始节拍时间序列(bt),将其与基准节拍时间序列(bi)进行比较,以及使用预定的相似度算法生成所述第二节拍时间序列和所述第三节拍时间序列。7.根据权利要求6所述的装置,其中,由所述第二节拍跟踪模块使用的所述预定的相似度算法包括在偏移位置的范围上比较所述初始节拍时间序列(bt)和所述基准节拍时间序列(bi)以识别所述范围内的最佳匹配,所生成的第二/第三节拍时间序列包括导致所述最佳匹配的所述基准节拍时间序列(bi)的偏移版本。8.根据权利要求6或7所述的装置,其中,所述基准节拍时间序列(bi)具有恒定的节拍间隔。9.根据权利要求8所述的装置,其中,所述基准节拍时间序列(bi)在t=0,1/(X/60),2/(X/60)......n/(X/60)时生成,其中,X是所述估计速度的整数表示,n是整数。10.根据权利要求7所述的装置,其中,在所述算法中使用的所述偏移位置的范围在0到1.1/(X/60)之间,其中,X是所述估计速度的整数表示。11.根据权利要求7所述的装置,其中,在所述算法中用于比较的所述偏移位置具有0.1/(BPMest/60)的步长。12.根据权利要求1所述的装置,其中,所述序列选择器被配置为识别所述节拍时间序列中的哪一个与所述第二重音信号中的峰值最接近一致。13.根据权利要求1所述的装置,其中,所述序列选择器被配置为对于所述节拍时间序列中的每一个,计算概括统计量或值,并选择导致最大概括统计量或值的节拍时间序列,其中,所述概括统计量或值依赖于在所述序列中的节拍时间处或者在所述节拍时间附近发生的所述重音信号或每个重音信号的值。14.根据权利要求13所述的装置,其中,所述序列选择器被配置为对于所述节拍时间序列中的每一个,计算在所述序列中的节拍时间处或者在所述节拍时间附近发生的所述重音信号或每个重音信号的平均值,并选择导致最大平均值的节拍时间序列。15.根据权利要求1所述的装置,包括:用于接收多个视频片段的装置,其中,每个视频片段各自具有包括共同内容的音频信号;以及视频编辑模块,用于使用在所选择的节拍序列中的节拍来识别用于所述...

【专利技术属性】
技术研发人员:A·J·埃罗宁
申请(专利权)人:诺基亚公司
类型:发明
国别省市:芬兰;FI

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1