副歌提取装置和方法制造方法及图纸

技术编号:14647704 阅读:74 留言:0更新日期:2017-02-16 04:41
本申请公开一种副歌提取装置和方法,其中该装置包括:预处理模块,用于对歌曲采样信号进行预滤波处理,得到预滤波处理后的信号;子带获取模块,用于将预滤波处理后的信号划分为多个子带,并获取预定带宽的子带信号;平滑处理模块,用于对所述子带信号进行平滑滤波处理,得到平滑处理后的子带信号;包络提取模块,用于提取平滑处理后的子带信号的能量包络信号,其中,能量包络信号数据与子带信号数据之间的差值最小化;副歌提取模块,用于采用最大类间方差法计算所述能量包络信号的动态阈值,并根据所述动态阈值确定副歌部分。本申请具有计算量小及准确率高的优点。

【技术实现步骤摘要】

本申请涉及声音信号处理
,尤其涉及一种歌曲的副歌提取装置和方法
技术介绍
歌曲一般分为主歌和副歌部分。目前,现有技术中检测副歌(高潮)部分的技术,大部分都是建立在提取音频特征(例如chroma特征),然后进行特征向量的相似度矩阵计算,找出重复性片段,最后结合实际情况筛选出最有可能的副歌部分。但是上述检测副歌的方法至少存在以下缺陷:1、计算量较大,非常耗时。例如,对于一首4分钟的歌曲,使用普通的PC检测副歌,处理时间大约需要3分钟以上,其中,Chroma特征提取和相似度矩阵计算大约需要1分钟,去噪处理大约需要2分钟,此外还有其它的一些计算。2、事实上,副歌部分的重复性片段,并不是完全一致的。更多的旋律变化仅仅相似,有时片段整体上会升一个调(key)、或者会延长、或者会加入一些新的乐器,伴奏和人声的变化都会影响特征值,进而影响到特征向量的相似度计算,影响准确度。3、重复性的片段不一定是副歌部分,在非副歌部分也会出现一些重复性旋律的小片段,这样也会影响副歌检测的准确率。综上所述,可知现有技术中的副歌检测技术存在计算量较大以及准确率较低的问题,因此有必要提出改进的技术手段解决上述问题。
技术实现思路
本申请的主要目的在于提供一种歌曲的副歌提取装置和方法,以克服现有技术中的副歌检测计算量较大以及准确率较低的问题。本申请实施例提供一种副歌提取装置,其包括:预处理模块,用于对歌曲采样信号进行预滤波处理,得到预滤波处理后的信号;子带获取模块,用于将预滤波处理后的信号划分为多个子带,并获取预定带宽的子带信号;平滑处理模块,用于对所述子带信号进行平滑滤波处理,得到平滑处理后的子带信号;包络提取模块,用于提取平滑处理后的子带信号的能量包络信号,其中,能量包络信号数据与子带信号数据之间的差值最小化;副歌提取模块,用于采用最大类间方差法计算所述能量包络信号的动态阈值,并根据所述动态阈值确定副歌部分。本申请实施例还提供一种副歌提取方法,其包括:对歌曲采样信号进行预滤波处理,得到预滤波处理后的信号;将预滤波处理后的信号划分为多个子带,并获取预定带宽的子带信号;对所述子带信号进行平滑滤波处理,得到平滑处理后的子带信号;提取平滑处理后的子带信号的能量包络信号,其中,能量包络信号数据与子带信号数据之间的差值最小化;采用最大类间方差法计算所述能量包络信号的动态阈值,并根据所述动态阈值确定副歌部分。根据本申请的技术方案,通过对歌曲采样信号分别进行预滤波、划分子带、平滑滤波处理、提取子带能量包络、动态调整阈值,从而确定副歌提取部分。本申请实施例具有计算量小及准确率高的优点,并具有良好的应用效果。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的副歌提取装置的结构框图;图2A至2D是根据本申请的划分子带的频谱的示意图;图3A和图3B是根据本申请的平滑处理的频谱的示意图;图4是根据本申请的能量包络提取的频谱的示意图;图5是根据本申请的动态阈值设置的频谱的示意图;图6是根据本申请的副歌检测的频谱的示意图;图7是根据本申请实施例的副歌提取方法的流程图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。根据本申请实施例,提供一种歌曲的副歌提取装置。图1是根据本申请实施例的副歌提取装置的结构框图,如图1所示,该副歌提取装置至少包括:预滤波处理模块110、子带获取模块120、平滑处理模块130、包络提取模块140和副歌提取模块150,下面详细描述各模块的结构和功能。预处理模块110用于对歌曲采样信号进行预滤波处理,得到预滤波处理后的信号。通过分析大量歌曲的频谱发现,歌曲副歌部分(高潮部分)大都能量较强,因此本申请通过对频谱图处理,突出能量显著性区域。具体地,通过对采样信号中的强频率分量分配较高的权重、对弱频率分量分配较低的权重,使强频率分量变得更强,使弱频率分量变得更弱,从而增强频谱的对比度。下面歌曲“夏日倾情”为例详细说明。首先,对歌曲采样,采样率16000Hz,单声道。通过该歌曲的频谱图可以发现,其中包括三个能量比较突出的区域,即:01:15~1:40、2:20~2:45、3:10~3:35。具体地,通过下面的公式对采样信号x[n]进行加窗短时傅里叶变换处理,其中帧长100ms,帧移50ms,选择矩形窗。短时傅里叶变换公式为:其中,w[n]为矩形窗;频率响应函数为:f(x)=x/(x+c),其中c为常数,例如可以取0.01或者其他的较小值。计算得到的预处理后的第n帧的子带信号能量和为:其中low~high对应于带宽由低到高的子带信号的傅里叶系数,Xp(n,k)=f(X(n,k))=X(n,k)/[X(n,k)+c]。经过预处理模块110的滤波处理后,频谱的显著性区域的变得更加明显,有效增强了频谱的对比度。子带获取模块120用于将预滤波处理后的信号划分为多个子带,并获取预定带宽的子带信号。在本申请的实施例中,子带获取模块120将预滤波处理后的信号划分为0~1000Hz、1000~4000Hz、4000~8000Hz等多个子带,并获取带宽为1000~4000Hz的子带信号,本申请中将1000~4000Hz的子带能量作为检测副歌部分的重要特征。参考图2A至2D,其中图2A是歌曲“夏日倾情”的全局能量谱,图2B是0~1000Hz子带能量谱,图2C是1000~4000Hz子带能量谱,图2D是4000~8000Hz子带能量谱。通过对大量歌曲的样本数据并结合图2分析得出,直接选用全局能量谱是不合适的,因为低频部分(0~1000Hz)能量都比较强,占很大比重,这会使边界变得模糊;而高频部分(4000~8000Hz)能量不稳定,没有突出副歌区域,没有利用价值;而对于1000~4000Hz部分,副歌部分有明显的增强。这是因为人声的能量主要集中在4000Hz以内,共振峰基本上都集中在这个区域。当歌曲进入副歌区域,歌手基频升高、共振峰频率提高、音量变大、能量增强,突出人声,增强情感。需要说明,上述的带宽的取值范围并不限制本申请,本申请实施例还可以选用其他的数值范围,例如800~3500Hz、900~40000Hz、1000~3500Hz等,此处不再赘述。平滑处理模块130用于对所述子带信号进行均值滤波处理以消除干扰性噪声,得到平滑处理后的子带信号。对于节奏性的打击乐器或者鼓声比较丰富的歌曲类型,它们也会像副歌部分一样,有比较明显的峰值,这会对副歌检测造成误判。这些打击乐器不同人声增强部分,它是类似间歇性、周期性、突发性的峰值等干扰性噪声。具体地,所述平滑处理模块130通过以下公式进行平滑滤波处理:其中,Xp(n)为预处理后第n帧的子带能量和,M为样本点范围,也就是通过将当前点的值由前后M各点的均值代替进行平滑滤波,在实际应用中M可以取40。本文档来自技高网...
副歌提取装置和方法

【技术保护点】
一种副歌提取装置,其特征在于,包括:预处理模块,用于对歌曲采样信号进行预滤波处理,得到预滤波处理后的信号;子带获取模块,用于将预滤波处理后的信号划分为多个子带,并获取预定带宽的子带信号;平滑处理模块,用于对所述子带信号进行平滑滤波处理,得到平滑处理后的子带信号;包络提取模块,用于提取平滑处理后的子带信号的能量包络信号,其中,能量包络信号数据与子带信号数据之间的差值最小化;副歌提取模块,用于采用最大类间方差法计算所述能量包络信号的动态阈值,并根据所述动态阈值确定副歌部分。

【技术特征摘要】
1.一种副歌提取装置,其特征在于,包括:预处理模块,用于对歌曲采样信号进行预滤波处理,得到预滤波处理后的信号;子带获取模块,用于将预滤波处理后的信号划分为多个子带,并获取预定带宽的子带信号;平滑处理模块,用于对所述子带信号进行平滑滤波处理,得到平滑处理后的子带信号;包络提取模块,用于提取平滑处理后的子带信号的能量包络信号,其中,能量包络信号数据与子带信号数据之间的差值最小化;副歌提取模块,用于采用最大类间方差法计算所述能量包络信号的动态阈值,并根据所述动态阈值确定副歌部分。2.根据权利要求1所述的装置,其特征在于,所述预滤波处理模块用于,通过对采样信号X(n)中的不同的频率分量设置对应的权重,并通过以下公式进行加窗短时傅里叶变换计算得到预滤波处理后的信号:其中w[n]为矩形窗,频率响应函数为f(x)=x/(x+c),c为常数;预滤波处理后的第n帧的子带信号能量和为:其中low~high对应于由低到高频谱的傅里叶系数,Xp(n,k)=f(X(n,k))=X(n,k)/[X(n,k)+c]。3.根据权利要求2所述的装置,其特征在于,所述平滑处理模块通过以下公式进行平滑滤波处理:Xs(n)=Σm=-MMXp(n-m)/(2*M+1),]]>其中M为样本点范围。4.根据权利要求3所述的装置,其特征在于,所述包络提取模块用于,通过多次迭代计算提取所述子带信号的能量包络信号,当满足收敛条件或者达到最大迭代次数时停止迭代计算,其中:初始的第n帧包络数据为V0(n)=-∞;初始的子带能量计算公式为:A0(n)=log(|Xs(n)|);第i次迭代计算公式为:Ai(n)=max(Ai-1(n),Vi-1(n))。5.根据权利要求4所述的装置,其特征在于,所述副歌提取模块通过以下公式计算动态阈值:使目标函数g(k)=w0w1(μ1-μ0)2最大化从而求解出动态阈值k,其中:w0表示能量包络信号中小于k的数据出现的概率,w1表示能量包络信号中大于k的数据出现的概率,μ0表示能量包络信号中小于k的数据的均值,μ1表示能量包络信号中大于k的数据的均值,pi表示第i个离散值出现的概率。6.根据权利要求1所述的装置,其特征在于,所述副歌提取模块用于,将大于所述动态阈值的子带信号所对应的歌曲部分确定为副歌部分。7.根据权利要求6所述的装置,其特征在于,所述副歌提取模块还用于根据以下设置的至少之一对确定的副歌进行处理:设置副歌在歌曲中的开始时间;设置副歌的最小时间长度...

【专利技术属性】
技术研发人员:吴威麒刘华平范义军刘力铭
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1