对音频信号进行歌曲检测的方法和设备技术

技术编号:8387586 阅读:190 留言:0更新日期:2013-03-07 08:16
描述了对音频信号进行歌曲检测的方法和设备。音频信号的片段被分类为包括音乐的类别。音乐片段的类边界被检测为第一类型的候选边界。导出包含非交叠部分的组合。每个部分满足下列条件:1)包含长于预定最小歌曲时长的至少一个音乐分段,2)短于预定最大歌曲时长,3)开始和结束于音乐片段,以及4)每个部分中音乐片段的比例大于预定最小比例。通过这种方式,能够获得音频信号中各种可能的歌曲划分以供检查。

【技术实现步骤摘要】
对音频信号进行歌曲检测的方法和设备
本专利技术涉及音频信号处理。更具体地,本专利技术的实施例涉及对音频信号进行歌曲检测的方法和设备。
技术介绍
在许多音频应用中,音频信号被记录下来。例如在移动电话、平板计算机或其它便携设备的调频(FM)录音应用中,能够响应用户对录音按钮的操作或基于预订来记录FM节目。所记录的音频信号可包含歌曲(song)、话音(speech)(包含话音叠加音乐(speech-over-music))、噪声、静音等等。用户可能希望仅保存所记录的音频信号中的单独的歌曲。已经提出了根据音频信号中音频分段(segment)的重复出现来从音频信号中检测歌曲的方案,其中假定重复的长音频分段是歌曲,而话音很少多次重复。在来自PopCatcherAB,Hastholmsvagen28,5tr,13140Nacka,SWEDEN的PopCatcher因特网广播录音机应用(InternetRadioRecorderApplication)中能够看到这种方案的示例性实现,这里通过引用将其合并进来以用于各种目的。本章节中描述的方案是能够采用的方案,但不一定是先前已经构思或采用的方案。因此,除非另外指出,不应仅因为被包含在本章节中就假定本章节描述的任何方案适合作为现有技术。类似地,根据本章节而关于一个或更多个方案发现的问题不应被假定为任何现有技术中已经认识到的问题,除非另外指出。
技术实现思路
根据本专利技术一个实施例,提供了一种对音频信号进行歌曲检测的方法。音频信号的片段被分类为包括音乐的类别。音乐片段的类边界被检测为第一类型的候选边界。每个音乐分段内的每个位置被检测为第二类型的候选边界,其中在关于该位置布置的两个第一窗口之间的内容相异度高于第一阈值的情况下,检测到该位置。导出包含由候选边界限定的一个或更多个非交叠部分的至少一个组合。每个部分满足下列条件:1)包含长于预定最小歌曲时长的至少一个音乐分段,以作为候选歌曲,2)短于预定最大歌曲时长,3)开始和结束于音乐片段,以及4)每个部分中音乐片段的比例大于预定最小比例。根据本专利技术另一个实施例,提供了一种对音频信号进行歌曲检测的设备。设备包含分类单元、边界检测器和歌曲搜索器。分类单元把音频信号的片段分类为包括音乐的类别。边界检测器检测音乐片段的类边界以作为第一类型的候选边界,并且检测每个音乐分段内的每个位置以作为第二类型的候选边界,其中在关于该位置布置的两个第一窗口之间的内容相异度高于第一阈值的情况下,检测到该位置。歌曲搜索器导出包含由候选边界限定的一个或更多个非交叠部分的至少一个组合。每个部分满足下列条件:1)包含长于预定最小歌曲时长的至少一个音乐分段,以作为候选歌曲,2)短于预定最大歌曲时长,3)开始和结束于音乐片段,以及4)每个部分中音乐片段的比例大于预定最小比例。下面参考附图详细描述本专利技术的进一步特性和优点,以及本专利技术各个实施例的结构和操作。应当注意,本专利技术不限于这里描述的具体实施例。在这里出现这样的实施例只是出于说明的目的。相关领域技术人员根据这里包含的指导会想到其它实施例。附图说明在附图中通过例子图解本专利技术,但这些例子不对本专利技术产生限制,图中用类似的附图标记表示类似的元件,其中:图1是图示根据本专利技术一个实施例的用于对音频信号进行歌曲检测的示例设备的框图;图2A是图示候选边界的检测的示意图;图2B示出在1小时音频信号上计算的K-L散度(KLD,Kullback-LeiblerDivergence)序列的示例;图3是图示计算内容一致性距离的示例方法的示意图;图4是图示分类结果和候选边界的示例的示意图;图5是图示根据本专利技术一个实施例的对音频信号进行歌曲检测的示例方法的流程图;图6是图示根据本专利技术一个实施例的用于对音频信号进行歌曲检测的示例设备的框图;图7是图示对数似然差ΔBIC(t)和贝叶斯信息准则(BIC,BayesianInformationCriteria)窗口之间的关系的示意图;图8是图示根据本专利技术一个实施例的对音频信号进行歌曲检测的示例方法的流程图;而图9是图示用于实现本专利技术的各个方面的示例性系统的框图。具体实施方式下面参考附图描述本专利技术实施例。应当注意,出于清楚的目的,在附图和描述中省略了有关所属
的技术人员知道但是与本专利技术无关的部分和过程的表示和说明。本领域的技术人员可以理解,本专利技术的各方面可以被实施为系统(例如,在线数字媒体商店、云计算服务、流媒体服务、电信网络等等)、装置(例如,蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒或数字视频录像机、或任何媒体播放器)、方法或计算机程序产品。因此,本专利技术可以具体实现为以下形式,即,可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例,本文可以一般称为″电路″、″模块″或″系统″。此外,本专利技术的各个方面可以采取体现为一或多个计算机可读介质的计算机程序产品的形式,该计算机可读介质上面体现有计算机可读程序代码。可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是--但不限于--电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式,包括但不限于电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。体现在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。用于执行本专利技术各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言,诸如″C″程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。以下参照按照本专利技术实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本专利技术的各个方面。应当本文档来自技高网
...
对音频信号进行歌曲检测的方法和设备

【技术保护点】
一种对音频信号进行歌曲检测的方法,包括:把音频信号的片段分类为包括音乐的类别;检测音乐片段的类边界以作为候选边界;以及导出包含由所述候选边界限定的一个或更多个非交叠部分的至少一个组合,其中每个所述部分满足下列条件:1)包含长于预定最小歌曲时长的至少一个音乐分段,以作为候选歌曲,2)短于预定最大歌曲时长,3)开始和结束于音乐片段,以及4)每个所述部分中所述音乐片段的比例大于预定最小比例。

【技术特征摘要】
1.一种对音频信号进行歌曲检测的方法,包括:把音频信号的片段分类为包括音乐的类别;检测音乐片段的类边界以作为第一类型的候选边界;检测每个音乐分段内的每个位置以作为第二类型的候选边界,其中在关于所述位置布置的两个第一窗口之间的内容相异度高于第一阈值的情况下,检测到所述位置;以及导出包含由所述候选边界限定的一个或更多个非交叠部分的至少一个组合,其中每个所述部分满足下列条件:1)包含长于预定最小歌曲时长的至少一个音乐分段,以作为候选歌曲,2)短于预定最大歌曲时长,3)开始和结束于音乐片段,以及4)每个所述部分中所述音乐片段的比例大于预定最小比例。2.如权利要求1所述的方法,其中所述类别还包括话音,并且所述检测还包括:在音频信号中搜索两个重复部分[t1,t2]和[t1+l,t2+l],其中l短于所述预定最大歌曲时长;如果部分[t1,t2+l]中的一个所述候选边界在音乐分段内,则移除所述候选边界;如果由两个所述候选边界限定的部分[t1,t2+l]中的话音分段具有小于第二阈值的长度,则将这两个候选边界识别为要移除的;以及移除所有所述要移除的候选边界,或者,把一个或更多个对的限定音乐分段的两个要移除的候选边界改变为第二类型,并且移除其余的要移除的候选边界。3.如权利要求1所述的方法,其中所述检测还包括:计算围绕每个所述候选边界、长于所述第一窗口的两个第二窗口之间的至少一个内容一致性距离,其中用于计算所述至少一个内容一致性距离的特征至少部分地互不相同;对于每个所述候选边界,根据所述至少一个相应内容一致性距离计算所述候选边界是歌曲的真实边界的第一可能性;以及如果所述第一可能性指示所述候选边界是假边界,如果所述候选边界在音乐分段内,则在仅包含所述候选边界并且由两个候选边界限定的音乐分段具有小于所述预定最大歌曲时长的长度的情况下移除所述候选边界;如果由所述候选边界和另一个候选边界限定的话音分段具有小于第三阈值的长度,则将这两个候选边界识别为要移除的;以及移除所有所述要移除的候选边界,或者,把一个或更多个对的限定音乐分段的两个要移除的候选边界改变为第二类型,并且移除其余的要移除的候选边界。4.如权利要求1所述的方法,其中通过下述操作导出所述至少一个组合中的每个:把由两个连续候选边界t1和t2限定并且长于所述预定最小歌曲时长的每个音乐分段检测为所述候选歌曲;以及通过把所述候选歌曲[t1,t2]或其扩展包含为部分来形成所述组合,其中通过下述操作中的至少之一来获得每个扩展:沿左方向把所述候选歌曲[t1,t2]的边界t1延伸到音乐分段[t1-l1,t1-l2]的候选边界t1-l1;以及沿右方向把所述候选歌曲[t1,t2]的边界t2延伸到音乐分段[t2+l3,t2+t4]的候选边界t2+l4。5.如权利要求1或4所述的方法,还包括:用基于歌曲时长、歌曲间间隔和歌曲概率中至少之一训练的评估模型来评估所述至少一个组合的、分隔各部分的所有间隔代表真实歌曲划分的第二可能性;以及选择所述至少一个组合中具有最高第二可能性的组合。6.如权利要求5所述的方法,其中所述第二可能性被计算为用于分隔相应组合中一个或更多个部分的所有间隔[e,s]的置信度P([e,s])的平均值或乘积,其中如果一个间隔[e,s]分隔两个相邻部分[s1,e]和[s,e2],则置信度P([e,s])被计算为以及如果相应组合中仅存在一个部分[x,y],则置信度P([e,s])被计算为P([e,s])=Pdur([x,y])Psong([x,y]),其中Pdur()是预先训练的歌曲时长模型,Pns()是预先训练的非歌曲时长模型,其是作为伽玛(Gamma)分布来估计的,Psong()是指示一个部分是真实歌曲的概率的歌曲概率模型,α和β是处理不同概率分布的不同尺度的平滑系数。7.如权利要求5所述的方法,其中所述分类还包括计算每个所述片段中的帧的帧级特征,并且其中所述选择还包括:对于所选择的组合的所述至少一个部分的每个边界,根据基于贝叶斯信息准则(BIC)的方法,针对以所述边界为中心的BIC窗口中的每个帧位置t,计算对数似然差ΔBIC(t);以及把所述边界调整到对应于峰值ΔBIC(t)的帧位置t。8.如权利要求5所述的方法,其中所述分类还包括计算每个所述片段中的帧的帧级特征,并且其中所述选择还包括:对于所选择的组合中的所述至少一个部分的每个边界,针对以所述边界为中心的BIC窗口中的每个帧位置t计算一个值RΔBIC(t|b)=ΔBIC(t)·Pst(|t-b|),其中ΔBIC(t)是根据基于贝叶斯信息准则(BIC)的方法计算的对数似然差,Pst()是根据零均值高斯分布的偏移时长模型;以及把所述边界调整到对应于最高峰值RΔBIC(t)的帧位置t。9.如权利要求1所述的方法,其中所述至少一个组合包含不止一个组合,并且其中所述导出还包括将所述组合分为不同的组,其中每个组中的每个组合包含相同的候选歌曲,并且所述组合中的每个部分与相同组的其它组合中的一个部分包含相同的候选歌曲,并且其中对于属于不同组的每两个组合,这两个组合之一中的至少一个部分不与这两个组合中另一个内的每个部分包含相同的候选歌曲。10.一种对音频信号进行歌曲检测的设备,包括:分类单元,其把音频信号的片段分类为包括音乐的...

【专利技术属性】
技术研发人员:芦烈克劳斯·鲍尔
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术