【技术实现步骤摘要】
对音频信号进行歌曲检测的方法和设备
本专利技术涉及音频信号处理。更具体地,本专利技术的实施例涉及对音频信号进行歌曲检测的方法和设备。
技术介绍
在许多音频应用中,音频信号被记录下来。例如在移动电话、平板计算机或其它便携设备的调频(FM)录音应用中,能够响应用户对录音按钮的操作或基于预订来记录FM节目。所记录的音频信号可包含歌曲(song)、话音(speech)(包含话音叠加音乐(speech-over-music))、噪声、静音等等。用户可能希望仅保存所记录的音频信号中的单独的歌曲。已经提出了根据音频信号中音频分段(segment)的重复出现来从音频信号中检测歌曲的方案,其中假定重复的长音频分段是歌曲,而话音很少多次重复。在来自PopCatcherAB,Hastholmsvagen28,5tr,13140Nacka,SWEDEN的PopCatcher因特网广播录音机应用(InternetRadioRecorderApplication)中能够看到这种方案的示例性实现,这里通过引用将其合并进来以用于各种目的。本章节中描述的方案是能够采用的方案,但不一定是先前已经构思或采用的方案。因此,除非另外指出,不应仅因为被包含在本章节中就假定本章节描述的任何方案适合作为现有技术。类似地,根据本章节而关于一个或更多个方案发现的问题不应被假定为任何现有技术中已经认识到的问题,除非另外指出。
技术实现思路
根据本专利技术一个实施例,提供了一种对音频信号进行歌曲检测的方法。音频信号的片段被分类为包括音乐的类别。音乐片段的类边界被检测为第一类型的候选边界。每个音乐分段内的每个位置被检 ...
【技术保护点】
一种对音频信号进行歌曲检测的方法,包括:把音频信号的片段分类为包括音乐的类别;检测音乐片段的类边界以作为候选边界;以及导出包含由所述候选边界限定的一个或更多个非交叠部分的至少一个组合,其中每个所述部分满足下列条件:1)包含长于预定最小歌曲时长的至少一个音乐分段,以作为候选歌曲,2)短于预定最大歌曲时长,3)开始和结束于音乐片段,以及4)每个所述部分中所述音乐片段的比例大于预定最小比例。
【技术特征摘要】
1.一种对音频信号进行歌曲检测的方法,包括:把音频信号的片段分类为包括音乐的类别;检测音乐片段的类边界以作为第一类型的候选边界;检测每个音乐分段内的每个位置以作为第二类型的候选边界,其中在关于所述位置布置的两个第一窗口之间的内容相异度高于第一阈值的情况下,检测到所述位置;以及导出包含由所述候选边界限定的一个或更多个非交叠部分的至少一个组合,其中每个所述部分满足下列条件:1)包含长于预定最小歌曲时长的至少一个音乐分段,以作为候选歌曲,2)短于预定最大歌曲时长,3)开始和结束于音乐片段,以及4)每个所述部分中所述音乐片段的比例大于预定最小比例。2.如权利要求1所述的方法,其中所述类别还包括话音,并且所述检测还包括:在音频信号中搜索两个重复部分[t1,t2]和[t1+l,t2+l],其中l短于所述预定最大歌曲时长;如果部分[t1,t2+l]中的一个所述候选边界在音乐分段内,则移除所述候选边界;如果由两个所述候选边界限定的部分[t1,t2+l]中的话音分段具有小于第二阈值的长度,则将这两个候选边界识别为要移除的;以及移除所有所述要移除的候选边界,或者,把一个或更多个对的限定音乐分段的两个要移除的候选边界改变为第二类型,并且移除其余的要移除的候选边界。3.如权利要求1所述的方法,其中所述检测还包括:计算围绕每个所述候选边界、长于所述第一窗口的两个第二窗口之间的至少一个内容一致性距离,其中用于计算所述至少一个内容一致性距离的特征至少部分地互不相同;对于每个所述候选边界,根据所述至少一个相应内容一致性距离计算所述候选边界是歌曲的真实边界的第一可能性;以及如果所述第一可能性指示所述候选边界是假边界,如果所述候选边界在音乐分段内,则在仅包含所述候选边界并且由两个候选边界限定的音乐分段具有小于所述预定最大歌曲时长的长度的情况下移除所述候选边界;如果由所述候选边界和另一个候选边界限定的话音分段具有小于第三阈值的长度,则将这两个候选边界识别为要移除的;以及移除所有所述要移除的候选边界,或者,把一个或更多个对的限定音乐分段的两个要移除的候选边界改变为第二类型,并且移除其余的要移除的候选边界。4.如权利要求1所述的方法,其中通过下述操作导出所述至少一个组合中的每个:把由两个连续候选边界t1和t2限定并且长于所述预定最小歌曲时长的每个音乐分段检测为所述候选歌曲;以及通过把所述候选歌曲[t1,t2]或其扩展包含为部分来形成所述组合,其中通过下述操作中的至少之一来获得每个扩展:沿左方向把所述候选歌曲[t1,t2]的边界t1延伸到音乐分段[t1-l1,t1-l2]的候选边界t1-l1;以及沿右方向把所述候选歌曲[t1,t2]的边界t2延伸到音乐分段[t2+l3,t2+t4]的候选边界t2+l4。5.如权利要求1或4所述的方法,还包括:用基于歌曲时长、歌曲间间隔和歌曲概率中至少之一训练的评估模型来评估所述至少一个组合的、分隔各部分的所有间隔代表真实歌曲划分的第二可能性;以及选择所述至少一个组合中具有最高第二可能性的组合。6.如权利要求5所述的方法,其中所述第二可能性被计算为用于分隔相应组合中一个或更多个部分的所有间隔[e,s]的置信度P([e,s])的平均值或乘积,其中如果一个间隔[e,s]分隔两个相邻部分[s1,e]和[s,e2],则置信度P([e,s])被计算为以及如果相应组合中仅存在一个部分[x,y],则置信度P([e,s])被计算为P([e,s])=Pdur([x,y])Psong([x,y]),其中Pdur()是预先训练的歌曲时长模型,Pns()是预先训练的非歌曲时长模型,其是作为伽玛(Gamma)分布来估计的,Psong()是指示一个部分是真实歌曲的概率的歌曲概率模型,α和β是处理不同概率分布的不同尺度的平滑系数。7.如权利要求5所述的方法,其中所述分类还包括计算每个所述片段中的帧的帧级特征,并且其中所述选择还包括:对于所选择的组合的所述至少一个部分的每个边界,根据基于贝叶斯信息准则(BIC)的方法,针对以所述边界为中心的BIC窗口中的每个帧位置t,计算对数似然差ΔBIC(t);以及把所述边界调整到对应于峰值ΔBIC(t)的帧位置t。8.如权利要求5所述的方法,其中所述分类还包括计算每个所述片段中的帧的帧级特征,并且其中所述选择还包括:对于所选择的组合中的所述至少一个部分的每个边界,针对以所述边界为中心的BIC窗口中的每个帧位置t计算一个值RΔBIC(t|b)=ΔBIC(t)·Pst(|t-b|),其中ΔBIC(t)是根据基于贝叶斯信息准则(BIC)的方法计算的对数似然差,Pst()是根据零均值高斯分布的偏移时长模型;以及把所述边界调整到对应于最高峰值RΔBIC(t)的帧位置t。9.如权利要求1所述的方法,其中所述至少一个组合包含不止一个组合,并且其中所述导出还包括将所述组合分为不同的组,其中每个组中的每个组合包含相同的候选歌曲,并且所述组合中的每个部分与相同组的其它组合中的一个部分包含相同的候选歌曲,并且其中对于属于不同组的每两个组合,这两个组合之一中的至少一个部分不与这两个组合中另一个内的每个部分包含相同的候选歌曲。10.一种对音频信号进行歌曲检测的设备,包括:分类单元,其把音频信号的片段分类为包括音乐的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。