【技术实现步骤摘要】
本专利技术涉及通信
,具体涉及一种提取歌曲副歌的方法、装置和系统。
技术介绍
通常,一首歌曲是由一定结构性的段落组成,包括前奏、主歌、副歌、间奏等。而其中的副歌,一般会重复2至3次,其旋律和歌词都非常相似,形成了流行歌曲中通常最容易被人记忆的部分,给予听者一种歌曲达到“高潮”的感觉。因此,副歌可以称为一首歌曲当中“最具代表性”和“最吸引人”的部分。另外,副歌片段的长度明显短于整个歌曲的长度,因此副歌片段可以作为一首歌曲的有效标志。作为一首歌曲的标志,如果能够准确的提取副歌部分将会在音乐概要和彩铃等方面有很广阔的商业应用前景。但是,一首歌曲音频文件中信号的复杂性和不同歌曲之间的差异性为副歌提取带来很多的困难。现有技术中具有很多提取副歌的方法,但是其效果均·不太理想,基于音高特征分布向量(即chroma特征向量)的副歌提取方法是其中的一种较为常用的方法,其方案具体可以如下第一步,将音频信号分为等长的片段,每一片段称为帧,从片段中提取12维的chroma特征向量,其中,这12维的chroma特征向量代表12个不同半音量值的分布。第二步,计算chroma特征向量的相似性。第三步,通过比较不同两个片段的相似性,得到重复片段。第四步,对得到的重复片段进行分类和整合。第五步,对第四步中得到的整合后的重复片段进行修正。比如在第四步中没有考虑到基音的变化(即变调),则此时需要对第四步得到的重复片段提高音高再去提取重复片段。第六部,选择副歌部分。比如,当一个重复片段在两个较长的重复片段之间时更有可能为副歌部分;又比如,副歌部分一般含有两个重复的子部分,如果一个重复片段有两个重 ...
【技术保护点】
一种提取歌曲副歌的方法,其特征在于,包括:获取音频信号;对所述音频信号进行节拍追踪,得到节拍追踪结果;根据节拍追踪结果,以节拍为单位提取音高特征分布向量chroma特征向量;根据chroma特征向量选择副歌估计片段;根据预置条件对副歌估计片段进行评分,得到评分结果;根据评分结果从副歌估计片段中选择副歌。
【技术特征摘要】
1.一种提取歌曲副歌的方法,其特征在于,包括 获取音频信号; 对所述音频信号进行节拍追踪,得到节拍追踪结果; 根据节拍追踪结果,以节拍为单位提取音高特征分布向量chroma特征向量; 根据chroma特征向量选择副歌估计片段; 根据预置条件对副歌估计片段进行评分,得到评分结果; 根据评分结果从副歌估计片段中选择副歌。2.根据权利要求I所述的方法,其特征在于,所述根据chroma特征向量选择副歌估计片段包括 利用chroma特征向量进行自距离矩阵计算; 根据自距离矩阵中每一个元素所表示的距离大小对自距离矩阵进行二值化处理,得到二值化结果; 根据二值化结果选择副歌估计片段。3.根据权利要求2所述的方法,其特征在于, 所述利用chroma特征向量进行自距离矩阵计算包括根据音频信号的总节拍数和chroma特征向量定义自距离矩阵,从自距离矩阵的主对角线开始向左下方平移,计算每一条子对角线上所有矩阵元素的平均值,得到元素平均值,计算第一函数的极小值,其中,第一函数为一个以k为自变量,元素平均值为函数值的函数; 则所述根据自距离矩阵中每一个元素所表示的距离大小对自距离矩阵进行二值化处理,得到二值化结果包括根据第一函数的极小值获取对应的子对角线,将获取到的对角线上的矩阵元素与预置第一阈值进行比较,若矩阵元素大于所述第一阈值,则将矩阵元素设置为0,若矩阵元素小于等于所述第一阈值,则将矩阵元素设置为I ; 所述根据二值化结果选择副歌估计片段包括若连续出现I的音频信号片段的长度大于预置的第二阈值,则确定该音频信号片段为副歌估计片段。4.根据权利要求I至3中任一项所述的方法,其特征在于,所述对音频信号进行节拍追踪具体为 对音频信号进行音符开端检测,得到音符开端检测结果; 根据音符开端检测结果进行节拍追踪,使得节拍的开端尽可能与音符开端重合,并且使得两个节拍之间的时间长度恒定。5.根据权利要求4所述的方法,其特征在于,所述对音频信号进行音符开端检测,得到音符开端检测结果具体为 将音频信号划分为第一预置长度的帧; 对划分为帧的音频信号通过短时傅立叶变换映射到频域; 对映射到频域的音频信号进行频谱分析,得到音符开端检测函数。6.根据权利要求5所述的方法,其特征在于,所述根据音符开端检测结果进行节拍追踪,使得节拍的开端尽可能与音符开端重合,并且使得两个节拍之间的时间长度恒定包括 将音符开端检测函数与预置的衡量标准函数的和作为目标函数,所述衡量标准函数为用于衡量速率的一个标准;计算可以使得所述目标函数的值最大的节拍序列; 则所述根据节拍追踪结果,以节拍为单位提取chroma特征向量具体为根据所述节拍序列,以节拍为单位提取chroma特征向量。7.根据权利要求I至3中任一项所述的方法,其特征在于,所述根据节拍追踪结果,以节拍为单位提取chroma特征向量包括 将音频信号划分为第二预置长度的帧; 将每一帧内的音频信号通过傅里叶变换由时域映射到频域; 在频域中将对应于不同八度但对应同一音名频率的部...
【专利技术属性】
技术研发人员:李伟,梁达文,顾旻玮,杨素娟,
申请(专利权)人:华为技术有限公司,复旦大学,
类型:发明
国别省市: