一种基于神经网络的语音风格转移方法技术

技术编号:22002994 阅读:31 留言:0更新日期:2019-08-31 06:10
本发明专利技术公开了一种基于神经网络的语音风格转移方法,类比已有的图像风格转移模型,对语音信号数据进行2维声谱图提取,并将图像的神经风格转移原理应用到内容语音、风格语音、初始生成语音的2维声谱图上,最终,得到了简洁、实用的基于卷积神经网络的语音风格转移模型,并通过该模型提取对应的特征生成了具有内容语音内容和风格语音风格的目标生成语音,实现过程简单且风格转移效果好。

A Speech Style Transfer Method Based on Neural Network

【技术实现步骤摘要】
一种基于神经网络的语音风格转移方法
本专利技术属于语音信号处理
,具体涉及一种基于神经网络的语音风格转移方法。
技术介绍
语音转换是语音信号处理领域的重要分支之一,语音转换(VoiceConversion,VC)是指改变源说话人(SourceSpeaker)的语音风格特征,使其转换为带有目标说话人(TargetSpeaker)风格特征的语音,而保持源说话人的语义信息不变。语音风格转移可以实际应用到通信、医疗、娱乐等领域中。在现有的相关语音风格转移方法中,Abe等人提出基于矢量量化(VectorQuantization,VQ)和码本映射的语音风格转移方法。将原始、风格语音的谱包络特性参数通过矢量量化划分为一系列码本,通过建立其两者的映射关系,从而实现语音的风格转移。该方法简单易行,但转换后的语音音质较差,存在不连续、停断等现象。Savic等人基于Abe的研究方法提出将码本映射改进成神经网络,使得转换后的语音质量有了较大提高。这是首次把人工神经网络模型应用在语音风格转移研究上并且取得了一定突破。随后,基于神经网络的语音风格转移研究成为主流研究方向。Kim等人基于隐马尔可夫模型(Hi本文档来自技高网...

【技术保护点】
1.一种基于神经网络的语音风格转移方法,其特征在于,包括以下步骤:S1、构建语音风格转移神经网络模型;S2、分别获取内容语音信号和风格语音信号,并随机生成初始生成语音信号;S3、分别生成内容语音信号、风格语音信号和初始生成语音信号的声谱图,并分别输入到训练好的语音风格转移神经网络模型中;S4、根据内容语音信号的声谱图对初始生成语音信号的声谱图进行内容特征调整,并确定内容损失函数;根据风格语音信号的声谱图对初始生成语音信号的声谱图进行风格特征调整,并确定风格损失函数;S5、根据内容损失函数和风格损失函数确定总损失函数;S6、最小化总损失函数,并通过梯度下降法迭代得到目标生成语音的声谱图;S7、根...

【技术特征摘要】
1.一种基于神经网络的语音风格转移方法,其特征在于,包括以下步骤:S1、构建语音风格转移神经网络模型;S2、分别获取内容语音信号和风格语音信号,并随机生成初始生成语音信号;S3、分别生成内容语音信号、风格语音信号和初始生成语音信号的声谱图,并分别输入到训练好的语音风格转移神经网络模型中;S4、根据内容语音信号的声谱图对初始生成语音信号的声谱图进行内容特征调整,并确定内容损失函数;根据风格语音信号的声谱图对初始生成语音信号的声谱图进行风格特征调整,并确定风格损失函数;S5、根据内容损失函数和风格损失函数确定总损失函数;S6、最小化总损失函数,并通过梯度下降法迭代得到目标生成语音的声谱图;S7、根据目标生成语音的声谱图生成风格化的语音信号,实现语音风格转移。2.根据权利要求1所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S1中的语音风格转移神经网络模型包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层、第二全连接层和第三全连接层;所述第一卷积层包括96个大小为11×11×3的滤波器,步长为4,padding为0,通过第一卷积层的卷积运算后得到大小为55×55×96的特征映射;所述第一池化层为Maxpooling,下采样区域大小为3×3,步长为2,padding为0,通过第一池化层运算后得到大小为27×27×96的特征映射;所述第二卷积层包括256个大小为5×5×96的滤波器,步长为1,通过第二卷积层的卷积运算后得到大小为27×27×256的特征映射;所述第二池化层为Maxpooling,下采样区域大小为3×3,步长为2,padding为0,通过第二池化层运算后得到大小为13×13×256的特征映射;所述第三卷积层包括384个大小为3×3×256的滤波器,步长为1,通过第三卷积层的卷积运算后得到大小为13×13×384的特征映射;所述第四卷积层包括384个大小为3×3×384的滤波器,步长为1,通过第四卷积层的卷积运算后得到大小为13×13×384的特征映射;所述第五卷积层包括256个大小为3×3×384的滤波器,步长为1,通过第五卷积层的卷积运算后得到大小为13×13×256的特征映射;所述第三池化层为Maxpooling,下采样区域大小为3×3,步长为2,padding为0,通过第三池化层运算后得到大小为6×6×256的特征映射;所述第一全连接层将9216个神经元与4096个神经元相连;所述第二全连接层将4096个神经元与4096个神经元相连;所述第三全连接层将4096个神经元与损失函数softmax相连。3.根据权利要求1所述的基于神经网络的语音风格转移方法,其特征在于,所述步骤S3中,对语音信号生成对应的声谱图的方法具体为:A1、对语音信号进行分帧操作;A2、对每帧语音信号进行短时快速傅里叶变换,得到每帧语音信号对应的频谱曲...

【专利技术属性】
技术研发人员:龙强孙紫仪
申请(专利权)人:西南科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1