一种带有人声的音乐的风格迁移方法技术

技术编号：26036807 阅读：203 留言：0更新日期：2020-10-23 21:15

本发明专利技术公开了一种带有人声的音乐的风格转换方法，该方法通过提取音乐的CQT特征和梅尔频谱特征，然后采用CycleGAN对CQT特征和梅尔频谱映射的图片做风格迁移，最后通过WaveNet解码器来对迁移后的的谱图进行解码来形成音乐。最终实现并提高了带有人声的音乐风格迁移后的音频质量和风格迁移率。本发明专利技术提供一种带有人声的音乐的风格迁移方法，基于CycleGAN和WaveNet解码器，解决目前音乐的风格转换领域。大部分的图像风格转换算法在音乐的风格转换上表现糟糕。在带有人声的音乐的风格转换，算法表现的更加糟糕的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种带有人声的音乐的风格迁移方法
本专利技术属于数据处理
，特别涉及一种带有人声的音乐的风格迁移方法。
技术介绍
过去三年来，神经风格迁移已经持续成长为了一个蓬勃发展的研究领域。这一研究领域内越来越多的活动受到了科学挑战和工业需求的推动。风格迁移在包括社交、辅助用户创作和娱乐应用都有着广阔的应用前景。音乐风格迁移是风格迁移算法的另一个领域的尝试。由于音乐是基于时间的片段并且音乐的成分较多，故提取特征较为复杂，特征之间的连接较为复杂紧密。目前学术界将图像大多数算法都是直接将应用在图像风格迁移的算法直接应用在音乐风格迁移之上并且大部分音乐都是乐器演奏的纯乐曲。但是这些算法算法在带有人声的通俗音乐取得的效果却不尽人意。当前大量的歌曲被翻唱为各种不同风格的版本，但是歌手的翻唱数量远远不能达到人们对于不同风格翻唱歌曲的需求，故研究一个适用于带有人声的流行音乐风格迁移的模型对计算机音乐领域具有重要意义。
技术实现思路
为了克服以上缺陷。本专利技术提供一种带有人声的音乐的风格迁移方法，基于CycleGAN和WaveNet解码器，解决目前音乐的风格转换领域。大部分的图像风格转换算法在音乐的风格转换上表现糟糕。在带有人声的音乐的风格转换，算法表现的更加糟糕的问题。为达此目的：本专利技术提供一种带有人声的音乐的风格迁移方法，模型基于CycleGAN和WaveNet解码器。模型处理流程如下，其特征在于；(1)，获取原始音乐文件通过时频分析来提取音频的CQT特征和梅尔频谱特征；(2)...

【技术保护点】
1.一种带有人声的音乐的风格迁移方法，模型基于CycleGAN和WaveNet解码器。模型处理流程如下，其特征在于；/n(1)，获取原始音乐文件通过时频分析来提取音频的CQT特征和梅尔频谱特征；/n(2)，将两层谱图进行合并将提取的CQT特征和梅尔频谱特征合并为两层输入进CycleGAN模型；/n提取的CQT特征和梅尔频谱特征合并的合并原则如下：/n(21)假定对同一个音频进行时频处理，并且采用相同的窗口长度、窗函数以及步长。得到的CQT特征矩阵大小为n×m，得到的梅尔频谱特征矩阵大小为t×m；/n(22)如果n≥t，那么以CQT特征矩阵作为第一层，梅尔频谱特征矩阵作为第二层。对于前t行来说，CQT特征矩阵和梅尔频谱特征矩阵一一对齐。对于梅尔频谱特征矩阵缺少的部分进行零填充；/n(23)如果n＜t，那么以梅尔频谱特征矩阵作为第一层，CQT特征矩阵作为第二层，对于前n行来说，CQT特征矩阵和梅尔频谱特征矩阵一一对齐。对于CQT特征矩阵缺少的部分进行零填充；/n(24)最终得到输入矩阵的大小为max(t,n)×m；/n(3)，通过CycleGAN对补全后的谱图进行风格迁移，将CycleGA...

【技术特征摘要】
1.一种带有人声的音乐的风格迁移方法，模型基于CycleGAN和WaveNet解码器。模型处理流程如下，其特征在于；
(1)，获取原始音乐文件通过时频分析来提取音频的CQT特征和梅尔频谱特征；
(2)，将两层谱图进行合并将提取的CQT特征和梅尔频谱特征合并为两层输入进CycleGAN模型；
提取的CQT特征和梅尔频谱特征合并的合并原则如下：
(21)假定对同一个音频进行时频处理，并且采用相同的窗口长度、窗函数以及步长。得到的CQT特征矩阵大小为n×m，得到的梅尔频谱特征矩阵大小为t×m；
(22)如果n≥t，那么以CQT特征矩阵作为第一层，梅尔频谱特征矩阵作为第二层。对于前t行来说，CQT特征矩阵和梅尔频谱特征矩阵一一对齐。对于梅尔频谱特征矩阵缺少的部分进行零填充；
(23)如果n＜t，那么以梅尔频谱特征矩阵作为第一层，CQT特征矩阵作为第二层，对于前n行来说，CQT特征矩阵和梅尔频谱特征矩阵一一对齐。对于CQT特征矩阵缺少的部分进行零填充；
(24)最终得到输入矩阵的大小为max(t,n)×m；
(3)，通过CycleGAN对补全后的谱图进行风格迁移，将CycleGAN产生出转换后的梅尔频谱特征和CQT特征；
风格迁移的CycleGAN的网络结构是将反卷积用最近邻差值代替和正则卷积替代
风格迁移的CycleGAN采用的损失函数如下：
(31)假设我们要将风格为A的音乐迁移到风格为B的音乐，设这两个音乐的所在域为域X和域Y，G为生成器，F为判别器，Pdata(x)为X域的音乐片段，且x从Pdata(x)中采样，Pdata(y)为Y域的音乐片段，且y从Pdata(y)中采样首先添加X→Y的对抗性损失函数如下：

(32)添加Y→X的对抗性损失函数如下：

(33)添加循环一致性损失：

(34)为了保留谱图的颜色成分，添加identityloss：

(35)故总的损失函数如下：
L(G,F,DX,DY)＝LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+λ1Lcyc(G,F)+λ2Lidentity(G...

【专利技术属性】
技术研发人员：叶洪良，朱皖宁，
申请(专利权)人：金陵科技学院，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人