一种带有人声的音乐的风格迁移方法技术

技术编号:26036807 阅读:203 留言:0更新日期:2020-10-23 21:15
本发明专利技术公开了一种带有人声的音乐的风格转换方法,该方法通过提取音乐的CQT特征和梅尔频谱特征,然后采用CycleGAN对CQT特征和梅尔频谱映射的图片做风格迁移,最后通过WaveNet解码器来对迁移后的的谱图进行解码来形成音乐。最终实现并提高了带有人声的音乐风格迁移后的音频质量和风格迁移率。本发明专利技术提供一种带有人声的音乐的风格迁移方法,基于CycleGAN和WaveNet解码器,解决目前音乐的风格转换领域。大部分的图像风格转换算法在音乐的风格转换上表现糟糕。在带有人声的音乐的风格转换,算法表现的更加糟糕的问题。

【技术实现步骤摘要】
一种带有人声的音乐的风格迁移方法
本专利技术属于数据处理
,特别涉及一种带有人声的音乐的风格迁移方法。
技术介绍
过去三年来,神经风格迁移已经持续成长为了一个蓬勃发展的研究领域。这一研究领域内越来越多的活动受到了科学挑战和工业需求的推动。风格迁移在包括社交、辅助用户创作和娱乐应用都有着广阔的应用前景。音乐风格迁移是风格迁移算法的另一个领域的尝试。由于音乐是基于时间的片段并且音乐的成分较多,故提取特征较为复杂,特征之间的连接较为复杂紧密。目前学术界将图像大多数算法都是直接将应用在图像风格迁移的算法直接应用在音乐风格迁移之上并且大部分音乐都是乐器演奏的纯乐曲。但是这些算法算法在带有人声的通俗音乐取得的效果却不尽人意。当前大量的歌曲被翻唱为各种不同风格的版本,但是歌手的翻唱数量远远不能达到人们对于不同风格翻唱歌曲的需求,故研究一个适用于带有人声的流行音乐风格迁移的模型对计算机音乐领域具有重要意义。
技术实现思路
为了克服以上缺陷。本专利技术提供一种带有人声的音乐的风格迁移方法,基于CycleGAN和WaveNet解码器,解决目前音乐的风格转换领域。大部分的图像风格转换算法在音乐的风格转换上表现糟糕。在带有人声的音乐的风格转换,算法表现的更加糟糕的问题。为达此目的:本专利技术提供一种带有人声的音乐的风格迁移方法,模型基于CycleGAN和WaveNet解码器。模型处理流程如下,其特征在于;(1),获取原始音乐文件通过时频分析来提取音频的CQT特征和梅尔频谱特征;(2),将两层谱图进行合并将提取的CQT特征和梅尔频谱特征合并为两层输入进CycleGAN模型;提取的CQT特征和梅尔频谱特征合并的合并原则如下:(21)假定对同一个音频进行时频处理,并且采用相同的窗口长度、窗函数以及步长。得到的CQT特征矩阵大小为n×m,得到的梅尔频谱特征矩阵大小为t×m;(22)如果n≥t,那么以CQT特征矩阵作为第一层,梅尔频谱特征矩阵作为第二层。对于前t行来说,CQT特征矩阵和梅尔频谱特征矩阵一一对齐。对于梅尔频谱特征矩阵缺少的部分进行零填充;(23)如果n<t,那么以梅尔频谱特征矩阵作为第一层,CQT特征矩阵作为第二层,对于前n行来说,CQT特征矩阵和梅尔频谱特征矩阵一一对齐。对于CQT特征矩阵缺少的部分进行零填充;(24)最终得到输入矩阵的大小为max(t,n)×m;(3),通过CycleGAN对补全后的谱图进行风格迁移,将CycleGAN产生出转换后的梅尔频谱特征和CQT特征;风格迁移的CycleGAN的网络结构是将反卷积用最近邻差值代替和正则卷积替代风格迁移的CycleGAN采用的损失函数如下:(31)假设我们要将风格为A的音乐迁移到风格为B的音乐,设这两个音乐的所在域为域X和域Y,G为生成器,F为判别器,Pdata(x)为X域的音乐片段,且x从Pdata(x)中采样,Pdata(y)为Y域的音乐片段,且y从Pdata(y)中采样首先添加X→Y的对抗性损失函数如下:(32)添加Y→X的对抗性损失函数如下:(33)添加循环一致性损失:(34)为了保留谱图的颜色成分,添加identityloss:(35)故总的损失函数如下:L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+λ1Lcyc(G,F)+λ2Lidentity(G,F)(4),通过WaveNet解码器对CycleGAN迁移后的谱图进行解码,从而生成音频,将两层特征输入进事先训练好的WaveNet解码器产生音频;WaveNet解码器的输入谱图特征进行全局归一化处理:对于所有的输入谱图的数据,采用如下对数变换进行全局归一化ln(1+x/8);x定义为输入的谱图数据的矩阵;(5),通过评价指标来对生成的音频进行评价,先对风格转换音乐的评估和对风格转换质量进行评估,最后对风格迁移算法进行综合评估;对于步骤(5)进行风格转换音乐的评估,具体流程如下;首先给定训练集,其中包括,音乐,对音乐质量的打分,然后输入神经网络进行训练,通过训练好的音乐质量判定器对风格转换后的音乐进行打分;对越步骤(5)进行风格转换质量进行评估,具体流程如下;给定训练集,其中包括各种风格的音乐和各个音乐的标签,训练音乐风格分类器,对转换后的音乐用上述音乐风格分类器进行训练,分别统计音乐风格转换成功和失败的次数对风格迁移算法进行综合评估,具体流程如下;定义AQR为平均音乐质量,TR为平均风格迁移率,forward表示CycleGAN的前向转换,backward表示CycleGAN的后向转换,其中λ为CycleGAN的前向转换所占比重,通过上述两个分类器和下面的公式分别计算平均音乐质量和风格迁移成功率;TCE=λ*AQRforward*TRforward+(1-λ)*AQRbackward*TRbackward计算的得到的TCE即为风格迁移算法的综合评判指标。作为本专利技术进一步改进,步骤(1)中音乐文件为WAV,MP3格式的音乐文件。作为本专利技术进一步改进,步骤(3)进行风格迁移的CycleGAN损失函数中循环一致性损失和identityloss的权重λ1和λ2的设置,采用如下策略:(211)对于λ1的设置,采用恒定值;(212)对于λ2的设置,采用我们提出的非线性衰减,假设算法一共要迭代t步,那么在第n步,λ2为:本专利技术提供一种带有人声的音乐的风格迁移方法,具有如下特点;1)本申请通过风格转化算法对带有人声的音乐进行转换,具有较好的的转换能力,可以达到较好转换效果;2)本专利技术能够满足人们对于不同风格翻唱歌曲的需求;3)本专利技术提出的identityloss非线性衰减的方法相比原始的线性衰减有更高的风格迁移能力;4)本专利技术用最近邻插值代替反卷积也有效的去除了产生音频的间接性噪音,显著提高了音频质量。5)本专利技术提出了一种可以评价风格迁移算法的效果的指标,该指标摒弃了人为判断的主观性,能够客观公正的评价算法效果。附图说明图1是本专利技术的整体模型架构图;图2是采用反卷积生成的带有人声的音频图;图3是采用最近邻插值生成带有人声的音频图。具体实施方式下面结合附图与具体实施方式对本专利技术作进一步详细描述:本专利技术提供一种带有人声的音乐的风格迁移方法,基于CycleGAN和WaveNet解码器,解决目前音乐的风格转换领域。大部分的图像风格转换算法在音乐的风格转换上表现糟糕。在带有人声的音乐的风格转换,算法表现的更加糟糕的问题。本专利技术的整体模型架构图如图1所示,采用反卷积生成的带有人声的音频图如图2所示,采用最近邻插值生成带有人声的音频图如图3所示,本专利专利技术的算法在计本文档来自技高网...

【技术保护点】
1.一种带有人声的音乐的风格迁移方法,模型基于CycleGAN和WaveNet解码器。模型处理流程如下,其特征在于;/n(1),获取原始音乐文件通过时频分析来提取音频的CQT特征和梅尔频谱特征;/n(2),将两层谱图进行合并将提取的CQT特征和梅尔频谱特征合并为两层输入进CycleGAN模型;/n提取的CQT特征和梅尔频谱特征合并的合并原则如下:/n(21)假定对同一个音频进行时频处理,并且采用相同的窗口长度、窗函数以及步长。得到的CQT特征矩阵大小为n×m,得到的梅尔频谱特征矩阵大小为t×m;/n(22)如果n≥t,那么以CQT特征矩阵作为第一层,梅尔频谱特征矩阵作为第二层。对于前t行来说,CQT特征矩阵和梅尔频谱特征矩阵一一对齐。对于梅尔频谱特征矩阵缺少的部分进行零填充;/n(23)如果n<t,那么以梅尔频谱特征矩阵作为第一层,CQT特征矩阵作为第二层,对于前n行来说,CQT特征矩阵和梅尔频谱特征矩阵一一对齐。对于CQT特征矩阵缺少的部分进行零填充;/n(24)最终得到输入矩阵的大小为max(t,n)×m;/n(3),通过CycleGAN对补全后的谱图进行风格迁移,将CycleGAN产生出转换后的梅尔频谱特征和CQT特征;/n风格迁移的CycleGAN的网络结构是将反卷积用最近邻差值代替和正则卷积替代/n风格迁移的CycleGAN采用的损失函数如下:/n(31)假设我们要将风格为A的音乐迁移到风格为B的音乐,设这两个音乐的所在域为域X和域Y,G为生成器,F为判别器,P...

【技术特征摘要】
1.一种带有人声的音乐的风格迁移方法,模型基于CycleGAN和WaveNet解码器。模型处理流程如下,其特征在于;
(1),获取原始音乐文件通过时频分析来提取音频的CQT特征和梅尔频谱特征;
(2),将两层谱图进行合并将提取的CQT特征和梅尔频谱特征合并为两层输入进CycleGAN模型;
提取的CQT特征和梅尔频谱特征合并的合并原则如下:
(21)假定对同一个音频进行时频处理,并且采用相同的窗口长度、窗函数以及步长。得到的CQT特征矩阵大小为n×m,得到的梅尔频谱特征矩阵大小为t×m;
(22)如果n≥t,那么以CQT特征矩阵作为第一层,梅尔频谱特征矩阵作为第二层。对于前t行来说,CQT特征矩阵和梅尔频谱特征矩阵一一对齐。对于梅尔频谱特征矩阵缺少的部分进行零填充;
(23)如果n<t,那么以梅尔频谱特征矩阵作为第一层,CQT特征矩阵作为第二层,对于前n行来说,CQT特征矩阵和梅尔频谱特征矩阵一一对齐。对于CQT特征矩阵缺少的部分进行零填充;
(24)最终得到输入矩阵的大小为max(t,n)×m;
(3),通过CycleGAN对补全后的谱图进行风格迁移,将CycleGAN产生出转换后的梅尔频谱特征和CQT特征;
风格迁移的CycleGAN的网络结构是将反卷积用最近邻差值代替和正则卷积替代
风格迁移的CycleGAN采用的损失函数如下:
(31)假设我们要将风格为A的音乐迁移到风格为B的音乐,设这两个音乐的所在域为域X和域Y,G为生成器,F为判别器,Pdata(x)为X域的音乐片段,且x从Pdata(x)中采样,Pdata(y)为Y域的音乐片段,且y从Pdata(y)中采样首先添加X→Y的对抗性损失函数如下:



(32)添加Y→X的对抗性损失函数如下:



(33)添加循环一致性损失:



(34)为了保留谱图的颜色成分,添加identityloss:



(35)故总的损失函数如下:
L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+λ1Lcyc(G,F)+λ2Lidentity(G...

【专利技术属性】
技术研发人员:叶洪良朱皖宁
申请(专利权)人:金陵科技学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1