一种基于循环损失的语音转换方法及装置制造方法及图纸

技术编号：32938480 阅读：32 留言：0更新日期：2022-04-07 12:29

本发明专利技术提供一种基于循环损失的语音转换方法及装置，所述方法包括：获取不同说话人的语音信息；将所述语音信息输入至训练好的语音转换模型中，基于所述语音转换模型的共享编码器和解码器转换为重构语音信息；获取所述重构语音与语音信息之间的循环损失，并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离；其中，所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。本发明专利技术能够基于循环损失实现语音内容信息以及说话人风格信息的分离，从而提高了语音转换的效率和语音转换质量。高了语音转换的效率和语音转换质量。高了语音转换的效率和语音转换质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于循环损失的语音转换方法及装置

[0001]本专利技术涉及语音转换的
，尤其涉及一种基于循环损失的语音转换方法及装置。

技术介绍

[0002]语音转换技术作为个性化语音生成的一种重要技术手段，主要旨在将一个说话人的语音风格转换成另一个说话人的语音风格，同时保持说话内容信息不变。
[0003]当源说话人与目标说话人的语音风格相差较大时（如跨性别、跨语种的语音转换），语音转换的质量将显著下降，主要体现在语音中的说话人风格信息和语音内容信息存在明显缺失。
[0004]因此如何解决语音转换过程中实现语音内容信息和说话人风格特征的分离，提高语音转换质量，是当前课题亟需解决的问题。

技术实现思路

[0005]本专利技术提供一种基于循环损失的语音转换方法及装置，用以解决现有技术中说话人风格信息和语音内容信息存在明显缺失的缺陷，实现语音转换质量的提高。
[0006]本专利技术提供一种基于循环损失的语音转换方法，包括：获取不同说话人的语音信息；将所述语音信息输入至训练好的语音转换模型中，基于...

【技术保护点】

【技术特征摘要】
1.一种基于循环损失的语音转换方法，其特征在于，包括：获取不同说话人的语音信息；将所述语音信息输入至训练好的语音转换模型中，基于所述语音转换模型的共享编码器和解码器转换为重构语音信息；获取所述重构语音与语音信息之间的循环损失，并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离；其中，所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。2.根据权利要求1所述的基于循环损失的语音转换方法，其特征在于，所述语音转换模型的训练方法包括：获得第一语音样本和第二语音样本；基于短时傅里叶变换，将所述第一语音样本和第二语音样本分别转换为第一语音频谱和第二语音频谱；建立待训练的语音转换模型；其中所述语音转换模型包括共享编码器、第一解码器和第二解码器；将第一语音频谱和第二语音频谱分别输入至所述语音转换模型中进行训练，获取综合损失值；基于所述综合损失值对所述语音转换模型进行参数更新，直至模型收敛停止更新。3.根据权利要求2所述的基于循环损失的语音转换方法，其特征在于，所述将第一语音频谱和第二语音频谱分别输入至所述语音转换模型中进行训练，获取综合损失值，包括：将所述第一语音频谱和第二语音频谱分别输入语音转换模型中，进行第一轮编码并进行语音重构，获取语音重构损失值；将所述第一语音频谱和第二语音频谱分别输入语音转换模型中，进行第二轮编码并进行循环损失计算，获取综合循环损失值；基于所述语音重构损失值和所述综合循环损失值，获取综合损失值。4.根据权利要求3所述的基于循环损失的语音转换方法，其特征在于，将所述第一语音频谱和第二语音频谱分别输入语音转换模型中，进行第一轮编码并进行语音重构，获取语音重构损失值，包括：将所述第一语音频谱和第二语音频谱分别输入至所述共享编码器中，得到第一瓶颈层特征和第二瓶颈层特征；将所述第一瓶颈层特征输入至所述第一解码器中，得到第一重构语音频谱，将所述第二瓶颈层特征输入至第二解码器中，得到第二重构语音频谱；基于所述第一语音频谱和第一重构语音频谱获取第一重构损失值，基于所述第二语音频谱和第二重构语音频谱获取第二重构损失值；基于语音重构损失函数、所述第一重构损失值和第二重构损失值获取所述语音重构损失值。5.根据权利要求3所述的基于循环损失的语音转换方法，其特征在于，所述将所述第一语音频谱和第二语音频谱分别输...

【专利技术属性】
技术研发人员：郑方，李鹏琦，李蓝天，徐明星，万化，张琛，潘仰耀，谢弈峥，
申请(专利权)人：上海浦东发展银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人