一种音色转换方法、装置、电子设备及存储介质制造方法及图纸

技术编号：31323368 阅读：16 留言：0更新日期：2021-12-13 00:12

本公开提供了一种音色转换方法、装置、电子设备及存储介质，通过获取待转换语音以及待转换语音需要转换至的目标语音；根据待转换语音，确定待转换语音对应的语音后验概率特征；根据目标语音，确定目标语音对应的目标音色特征以及目标情感特征；将语音后验概率特征、目标音色特征以及目标情感特征输入至预先训练好的情感语音转换模型中，确定经过转换后的待转换语音对应的目标梅尔倒谱特征；根据目标梅尔倒谱特征，确定具有目标音色特征以及目标情感特征的转换目标语音。可以在音色转换的同时提升对说话人真实语义的还原度，有助于听众理解说画画人的真实语义，提升听众体验感。提升听众体验感。提升听众体验感。

全部详细技术资料下载

【技术实现步骤摘要】
一种音色转换方法、装置、电子设备及存储介质

[0001]本公开涉及语音识别
，具体而言，涉及一种音色转换方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网技术的迅速发展，计算机正在深入影响着我们生活与工作的方方面面，人们与计算机的联系越来越密切，在通过网络与他人进行沟通或者与计算机进行人机交互的过程中，逐渐不满于使用死板的键盘鼠标交互方式，越来越多的人希望使用更方便的语音交互方式，并且考虑到隐私保护与个性化需求，人们希望自己的交互语音音色具有个性化的特征。因此音色转换 (Voice Conversion，VC) 技术应运而生，音色转换技术是一项改变说话人声音特征的技术，即转换说话人的音色个性特征而保持说话内容不变，在语音即时聊天，电影、广播、电视中配音，语音合成的语料库收集以及情报部门等正在被广泛的应用。
[0003]在目前的音色转换技术中，现有的语音转换算法仅能满足将说话人的音色从一个人转换为另一个人，但是，在例如电影、广播、电视中配音等应用场合中，某些特定话语若仅将说话人的音色从一个人转换为另一个人无法完整还原说话人的真实语义，可能会导致听众对说话人语义的误解，听众体验感较差。

技术实现思路

[0004]本公开实施例至少提供一种音色转换方法、装置、电子设备及存储介质，可以在音色转换的同时提升对说话人真实语义的还原度，有助于听众理解说画画人的真实语义，提升听众体验感。
[0005]本公开实施例提供了一种音色转换方法，所述方法包括：获取待转换语音以及目标语音；根据...

【技术保护点】

【技术特征摘要】
1.一种音色转换方法，其特征在于，包括：获取待转换语音以及目标语音；根据所述待转换语音，确定所述待转换语音对应的语音后验概率特征；根据所述目标语音，确定所述目标语音对应的目标音色特征以及目标情感特征；将所述语音后验概率特征、所述目标音色特征以及所述目标情感特征输入至预先训练好的情感语音转换模型中，确定经过转换后的所述待转换语音对应的目标梅尔倒谱特征；根据所述目标梅尔倒谱特征，确定具有所述目标音色特征以及所述目标情感特征的转换目标语音。2.根据权利要求1所述的方法，其特征在于，基于以下方法确定所述目标语音对应的目标音色特征：确定所述目标语音对应的梅尔倒谱特征；将所述目标语音对应的梅尔倒谱特征输入至预先训练好的音色特征提取模型中，确定所述目标语音对应的目标音色特征，其中，所述音色特征提取模型是基于训练语音以及所述训练语音对应的说话人音色特征标签训练得到的。3.根据权利要求2所述的方法，其特征在于，基于以下方法确定所述目标语音对应的目标情感特征：确定所述目标语音对应的梅尔倒谱特征；将所述目标语音对应的梅尔倒谱特征输入至预先训练好的情感特征提取模型中，确定所述目标语音对应的目标情感特征，其中，所述情感特征提取模型是基于训练语音以及所述训练语音对应的情感标签训练得到的。4.根据权利要求1所述的方法，其特征在于，在所述获取待转换语音以及目标语音之后，所述方法还包括：针对所述待转换语音以及所述目标语音进行预处理，其中，所述预处理包括针对所述待转换语音进行预加重、分帧、加窗以及傅里叶变换。5.根据权利要求1所述的方法，其特征在于，基于以下方法训练所述情感语音转换模型：构建情感语音训练数据集，其中，所述情感语音训练数据集中包括带有不同情感的待转换训练语音数据以及分别对应的目标训练语音数据；确定所述目标训练语音数据对应的实际梅尔倒谱特征；针对所述情感语音训练数据集中的每一条所述待转换训练语音数据，确定该待转换训练语音数据对应的语音后验概率特征；针对所述情感语音训练数据集中的每一条所述目标训练...

【专利技术属性】
技术研发人员：万同堂，邓菁，郑榕，
申请(专利权)人：北京远鉴信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人