一种流行歌曲情感综合与分类方法技术

技术编号:19145922 阅读:18 留言:0更新日期:2018-10-13 09:35
一种流行歌曲情感综合与分类方法涉及音频信息处理领域。首先,对一首音乐进行音乐副歌出现模式判别,确定不同的流行音乐模式;其次,采用一种柔性分段方法将一首歌曲分为N个片段,对每一个片段预测其愉悦度与激烈度;依据一首流行音乐的模式和N个音乐片段的愉悦度和激烈度结果,选用不同的分类器,进行整首音乐情感综合,得出整首音乐的情感标签。其优点在于采用柔性分割技术进行V/A情感演化特征提取,分别进行处理,使对不同结构流行歌曲情感分类器的训练更有针对性;采用流行歌曲结构及情感演化特征进行进行歌曲情感分类,与单纯的基于整首歌的统计特性进行综合的方法,更能反映人类对音乐的情感认知过程和特点。

An approach to sentiment synthesis and classification of pop songs

An emotion synthesis and classification method for popular songs involves the field of audio information processing. Firstly, distinguish the emergence pattern of a music chorus to determine different pop music patterns; secondly, use a flexible segmentation method to divide a song into N segments, and predict the pleasure and intensity of each segment; according to the pattern of a pop music and the pleasure and intensity of N segments of music. As a result, different classifiers were used to synthesize the emotion of the whole music, and the emotion label of the whole music was obtained. The advantage of this method is to extract V/A emotional evolutionary features by using flexible segmentation technology and deal with them separately, so that the training of emotional classifiers for pop songs with different structures can be more targeted; the emotional classification of pop songs can be carried out by using pop songs'structure and emotional evolutionary features, and the statistical characteristics based on the whole song can be summarized. The method of combination can better reflect the emotional cognition process and characteristics of human beings.

【技术实现步骤摘要】
一种流行歌曲情感综合与分类方法
本专利技术涉及音频信息处理领域的一种面向全曲的自动流行音乐情感分类方法.
技术介绍
当前针对歌曲情感分类的方法的研究对象多为处理歌曲中的一个片段,一个基本的思路是将片段划分为定长的帧,对帧直接进行情感分类然后统计歌曲片段中占主导地位的情感类型做为歌曲片段的情感类型标签。也有采用帧袋[2]的方式建模,再基于帧袋进行整段歌曲进行分类的,但这些方法没有考虑在欣赏歌曲时人类情感响应的内在特点。实际上,人们对整首歌曲的情感感知受到情感表现在歌曲不同位置出现的影响,也受到情感表现发展过程的影响,传统的帧袋特征忽略了这些因素。人们还提出了采用副歌为代表段进行歌曲情感分类的方案[3],但没有给出根据不同段落进行情感综合的方法。本专利技术基于歌曲结构规律表现和听众音乐情感识别过程的观察和分析,设计一种二阶段情感综合与分类方法来判别整首歌曲的情感标签。本专利技术的歌曲情感综合方法设计主要依据如下观察:一、歌曲情感表现在一定时间段内是稳定的;二、歌曲的不同段落对歌曲整体的情感表达贡献度是不同的,其情感演化对整首音乐的情感认知是有影响的;三、大部分歌曲的结构是遵从一定规律,也就是前奏、尾奏、副歌、主歌等的出现在歌曲的相对位置上遵从一定的规律,尽管可能有例外和不是十分严格。
技术实现思路
本专利技术给出一种对流行音乐进行自动歌曲情感综合与分类的技术方案。歌曲情感综合与分类分两阶段,首先,对一首音乐进行音乐副歌出现模式判别,确定不同的流行音乐模式;其次采用一种柔性分段方法将一首歌曲分为N个片段(N的大小与歌曲副歌出现的次数相关),对每一个片段预测其愉悦度与激烈度;其次,依据一首流行音乐的模式和N个音乐片段的愉悦度和激烈度结果,选用不同的分类器,进行整首音乐情感综合,得出整首音乐的情感标签。本专利技术将歌曲音乐情感综合分为两个阶段。第一为对一首歌的音乐片段的激烈度和愉悦度预测,形成歌曲情感演化序列。歌曲的情感演化序列是建立在歌曲分段的基础上的。为了完成对一首音乐进行分段,本专利技术首先需要进行流行歌曲结构分析,并对一首流行歌曲按副歌出现情况进行分类。流行歌曲的典型结构为前奏、主歌1、副歌、主歌2、副歌、主歌3、副歌、尾奏。不是所有的流行歌曲都严格遵从这一格式,一些歌曲有一定的变化,在主副歌之间可以有桥段等。本专利技术采用副歌识别算法进行副歌识别,副歌识别后,一首歌曲将呈现其它段,副歌,其它段,副歌交替出现的模式,其中其它段包括前奏,主歌,桥段或其组合。本专利技术根据副歌出现的重复模式将流行歌曲分为k类,分为无副歌结构,2次副歌出现,3次副歌出现,...,k次副歌出现结构,一般取k不大于5。如果歌曲模式识别器识别出副歌出现次数大于5,令k=5,将其归为与k=5的歌曲一类,并在后续处理中略掉第六次副歌出现及其后面的音乐内容。为了便于处理,本专利技术略掉最后一次副歌出现后面的歌曲内容。在流行音乐歌曲模式检测完成后,如果检测到副歌,会得到各段副歌的起止时间。然后本专利技术采用一种柔性分段策略对歌曲进行分段,将一首完整的歌曲分为N个片段。为了使一个歌曲片段内的情感表现大体稳定,每个片段的时长应不大于10s。为了对片段在歌曲中的位置有较好的区分度,N要足够大并与歌曲的副歌出现特点有关。便于处理,本专利技术设计的柔性分段方案如下:第一类为无重复副歌结构。对于无重复副歌结构,将歌曲等分为N=N1=40个片段。本专利技术假定流行歌曲的长度一般不大于400s.如果大于400s,将进行离散采样,等间距取出N1个10s的片段。对于歌曲长度L<400s的歌曲,片段长度Lc=L/N。第二类为二次重复结构。对于二次重复结构OCOC(C代表副歌片段,O代表其他类别片段),本专利技术将其它段与副歌段进行等数量分段。每个其它段O和每个副歌段C都分为M个小片段,每个小片段长度不大于10s,如果大于10s,进行10s片段的等距离采样。歌曲总共分为N=N2=4M个片段,其中M为正整数,建议取10。第三类为三次重复结构。对于三次重复结构OCOCOC,本专利技术将其它段与副歌段进行等数量分段。每个其它段O和每个副歌段C都分为M个小片段,每个小片段长度不大于10s,如果大于10s,进行10s片段的等距离采样。歌曲总共分为N=N3=6M个片段,其中M为正整数,建议取7。第四类为四次重复结构,第五类为5次及以上重复结构。对于4次重复结构OCOCOCOC,和5以上次重复结构,分段方法与前面的重复结构类似,相应分为N=N4=8M和N=N5=10M段,M分别建议取5和4。为了识别音乐片段的的情感,本专利技术基于音乐有序片段的情感数据集训练音乐片段情感预测器。音乐片段情感的预测中采用Thayer的Valence-Arousal(V-A)模型[1]来表示情感,分为愉悦度(valence)和激烈度(arousal)两个维度。愉悦度表示情感的正面和负面属性,激烈度指示情感的强烈程度(intensity)。音乐情感表示为激烈度和愉悦度指数<v,a>,v,a的取值范围为[-1,+1]之间的实数。面向音乐片段的情感预测模型是由具有稳定情感表达的音乐片段经训练所得,本专利技术称之为V/A预测器,是由音乐片段声学特征到V/A值的一个映射,其一般表示如式1,2,具体根据实施时选择的分类器而有所不同。V=fV(x1,x2,…,xi,…,xn)(1)A=fA(x1,x2,…,xi,…,xn)(2)其中xi(i=1,...,n)为音乐片段的第i个声学特征值,n为进行V/A值预测式选取的音乐声学特征数量。对于一首完整的流行歌曲,为了识别整首歌曲的情感分类,需要根据整首音乐情感表现进行综合分类。为了准确综合一首歌曲的情感,本专利技术首先识别歌曲的不同结构模式,为不同结构的歌曲训练不同的情感分类器进行歌曲情感综合与分类。本专利技术认为,结构相似的歌曲,其相对位置相同的歌曲片段在歌曲情感表现中充当的角色有一定的相似性。对于每一首歌曲,经过分片情感预测,会得到N个激烈度指数和N个愉悦度指数,这两组指数可以组合成一个序列E=<a1,v1,a2,v2,...,aN,vN>作为情感综合的输入特征。在情感综合阶段,本专利技术采用这个序列来预测一首歌曲的情感标签,此特征不但反映了整首歌曲的情感统计特性,还反映了歌曲情感表现的时序特性及不同音乐片段的情感表现。为了完成整首歌情感综合,本专利技术需要训练用于歌曲情感综合的分类器。其输入为某一类结构歌曲情感演化序列E,输出为歌曲情感标签。歌曲情感综合分类器将针对不同副歌出现模式的歌曲分别训练,得到5个歌曲情感综合分类器,与前述歌曲模式归类相对应。歌曲情感演化序列E的获取依赖于前述歌曲模式识别与歌曲分段以及A/V预测器。歌曲情感综合的分类器fj,的一般形式如式3,具体函数形式根据实施选择的分类器有所不同。fj为第j类结构对应的情感综合分类函数。Lj为采用fj所得的分类标签,Nj含义为五种结构歌曲进行分片的对应片数,fj的输入为对应结构歌曲的情感演化序列。本专利技术所提出的方法的系统框架如附图1,主要包括V/A预测器训练模块、情感分类器训练模块和歌曲情感综合分类模块。歌曲情感情感综合分类模块分两个阶段实现,第一阶段进行歌曲模式识别分割与情感演化序列生成,第二阶段采用分类器进行整首歌曲的情感综合本文档来自技高网...

【技术保护点】
1.一种流行歌曲情感综合与分类方法,其特征在于分两阶段,首先,对一首音乐进行音乐副歌出现模式判别,确定不同的流行音乐模式;其次采用一种柔性分段方法将一首歌曲分为N个片段,对每一个片段预测其愉悦度与激烈度;其次,依据一首流行音乐的模式和N个音乐片段的愉悦度和激烈度结果,选用不同的分类器,进行整首音乐情感综合,得出整首音乐的情感标签。

【技术特征摘要】
1.一种流行歌曲情感综合与分类方法,其特征在于分两阶段,首先,对一首音乐进行音乐副歌出现模式判别,确定不同的流行音乐模式;其次采用一种柔性分段方法将一首歌曲分为N个片段,对每一个片段预测其愉悦度与激烈度;其次,依据一首流行音乐的模式和N个音乐片段的愉悦度和激烈度结果,选用不同的分类器,进行整首音乐情感综合,得出整首音乐的情感标签。2.根据权利要求1所述的方法,其特征在于,对一首歌的音乐片段的激烈度和愉悦度预测,形成歌曲情感演化序列。采用副歌识别算法进行副歌识别,副歌识别后,一首歌曲将呈现其它段,副歌,其它段,副歌交替出现的模式,其中其它段包括前奏,主歌,桥段或其组合。根据副歌出现的重复模式将流行歌曲分为k类,分为无副歌结构,2次副歌出现,3次副歌出现,...,k次副歌出现结构,取k不大于5.如果歌曲模式识别器识别出副歌出现次数大于5,令k=5,将其归为与k=5的歌曲一类,并在后续处理中略掉第六次副歌出现及其后面的音乐内容。在流行音乐歌曲模式检测完成后,如果检测到副歌,会得到各段副歌的起止时间。然后采用一种柔性分段策略对歌曲进行分段,将一首完整的歌曲分为N个片段。每个片段的时长应不大于10s。设计的柔性分段方案如下:第一类为无重复副歌结构。对于无重复副歌结构,将歌曲等分为N=N1=40个片段。假定流行歌曲的长度一般不大于400s.如果大于400s,将进行离散采样,等间距取出N1个10s的片段。对于歌曲长度L<400s的歌曲,片段长度Lc=L/N。第二类为二次重复结构。对于二次重复结构OCOC,其中C代表副歌片段,O代表其他类别片段,将其它段与副歌段进行等数量分段。每个其它段O和每个副歌段C都分为M个小片段,每个小片段长度不大于10s,如果大于10s,进行10s片段的等距离采样。歌曲总共分为N=N2=4M个片段,其中M为正整数,建议取10。第三类为三次重复结构。对于三次重复结构OCOCOC,将其它段与副歌段进行等数量分段。每个其它段O和每个副歌段C都分为M个小片段,每个小片段长度不大于10s,如果大于10s,进行10s片段的等距离采样。歌曲总共分为N=N3=6M个片段,其中M为正整数,建议取7。第四类为四次重复结构,第五类为5次及以上重复结构。对于4次重复结构OCOCOCOC,和5以上次重复结构,分段方法与前面的重复结构类似,相应分为N=N4=8M和N=N5=10M段,M分别建议取5和4。3.根据权利要求1所述的方法,其特征在于,基于音乐有序片段的情感数据集训练音乐片段情感预测器。音乐片段情感的预测中采用Thayer的Valence-Arousal(V-A)模型来表示情感,分为愉悦度(valence)和激烈度(arousal)两个维度。愉悦度表示情感的正面和负面属性,激烈度指示情感的强烈程度(intensity)。音乐情感表示为激烈度和愉悦度指数<v,a>,v,a的取值范围为[-1,+1]之间的实数。面向音乐片段的情感预测模型是由具有稳定情感表达的音乐片段经训练所得,称之为V/A预测器,是由音乐片段声学特征到V/A值的一个映射,其一般表示如式1,2,具体根据实施时选择的分类器而有所不同。V=fV(x1,x2,…,xi,…,xn)(1)A=fA(x1,x2,…,xi,…,xn)(2)其中xi(i=1,...,n)为音乐片段的第i个声学特征值,n为进行V/A值预测式选取的音乐声学特征数量。对于每一首歌曲,经过分片情感预测,...

【专利技术属性】
技术研发人员:孙书韬王永滨曹轶臻王琦赵庄言
申请(专利权)人:中国传媒大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1