一种音色转换方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31323368 阅读:16 留言:0更新日期:2021-12-13 00:12
本公开提供了一种音色转换方法、装置、电子设备及存储介质,通过获取待转换语音以及待转换语音需要转换至的目标语音;根据待转换语音,确定待转换语音对应的语音后验概率特征;根据目标语音,确定目标语音对应的目标音色特征以及目标情感特征;将语音后验概率特征、目标音色特征以及目标情感特征输入至预先训练好的情感语音转换模型中,确定经过转换后的待转换语音对应的目标梅尔倒谱特征;根据目标梅尔倒谱特征,确定具有目标音色特征以及目标情感特征的转换目标语音。可以在音色转换的同时提升对说话人真实语义的还原度,有助于听众理解说画画人的真实语义,提升听众体验感。提升听众体验感。提升听众体验感。

【技术实现步骤摘要】
一种音色转换方法、装置、电子设备及存储介质


[0001]本公开涉及语音识别
,具体而言,涉及一种音色转换方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网技术的迅速发展,计算机正在深入影响着我们生活与工作的方方面面,人们与计算机的联系越来越密切,在通过网络与他人进行沟通或者与计算机进行人机交互的过程中,逐渐不满于使用死板的键盘鼠标交互方式,越来越多的人希望使用更方便的语音交互方式,并且考虑到隐私保护与个性化需求,人们希望自己的交互语音音色具有个性化的特征。因此音色转换 (Voice Conversion,VC) 技术应运而生,音色转换技术是一项改变说话人声音特征的技术,即转换说话人的音色个性特征而保持说话内容不变,在语音即时聊天,电影、广播、电视中配音,语音合成的语料库收集以及情报部门等正在被广泛的应用。
[0003]在目前的音色转换技术中,现有的语音转换算法仅能满足将说话人的音色从一个人转换为另一个人,但是,在例如电影、广播、电视中配音等应用场合中,某些特定话语若仅将说话人的音色从一个人转换为另一个人无法完整还原说话人的真实语义,可能会导致听众对说话人语义的误解,听众体验感较差。

技术实现思路

[0004]本公开实施例至少提供一种音色转换方法、装置、电子设备及存储介质,可以在音色转换的同时提升对说话人真实语义的还原度,有助于听众理解说画画人的真实语义,提升听众体验感。
[0005]本公开实施例提供了一种音色转换方法,所述方法包括:获取待转换语音以及目标语音;根据所述待转换语音,确定所述待转换语音对应的语音后验概率特征;根据所述目标语音,确定所述目标语音对应的目标音色特征以及目标情感特征;将所述语音后验概率特征、所述目标音色特征以及所述目标情感特征输入至预先训练好的情感语音转换模型中,确定经过转换后的所述待转换语音对应的目标梅尔倒谱特征;根据所述目标梅尔倒谱特征,确定具有所述目标音色特征以及所述目标情感特征的转换目标语音。
[0006]一种可选的实施方式中,基于以下方法确定所述目标语音对应的目标音色特征:确定所述目标语音对应的梅尔倒谱特征;将所述目标语音对应的梅尔倒谱特征输入至预先训练好的音色特征提取模型中,确定所述目标语音对应的目标音色特征,其中,所述音色特征提取模型是基于训练语音以及所述训练语音对应的说话人音色特征标签训练得到的。
[0007]一种可选的实施方式中,基于以下方法确定所述目标语音对应的目标情感特征:确定所述目标语音对应的梅尔倒谱特征;将所述目标语音对应的梅尔倒谱特征输入至预先训练好的情感特征提取模型中,确定所述目标语音对应的目标情感特征,其中,所述情感特征提取模型是基于训练语音以及所述训练语音对应的情感标签训练得到的。
[0008]一种可选的实施方式中,在所述获取待转换语音以及目标语音之后,所述方法还包括:针对所述待转换语音以及所述目标语音进行预处理,其中,所述预处理包括针对所述待转换语音进行预加重、分帧、加窗以及傅里叶变换。
[0009]一种可选的实施方式中,基于以下方法训练所述情感语音转换模型:构建情感语音训练数据集,其中,所述情感语音训练数据集中包括带有不同情感的待转换训练语音数据以及分别对应的目标训练语音数据;确定所述目标训练语音数据对应的实际梅尔倒谱特征;针对所述情感语音训练数据集中的每一条所述待转换训练语音数据,确定该待转换训练语音数据对应的语音后验概率特征;针对所述情感语音训练数据集中的每一条所述目标训练语音数据,确定该目标训练语音数据对应的音色特征以及情感特征;将所述语音后验概率特征、音色特征以及情感特征作为特征数据,所述实际梅尔倒谱特征作为数据标签,输入至待训练的情感语音转换模型,确定经过转换后的所述待转换训练语音数据对应的预测梅尔倒谱特征;根据所述预测梅尔倒谱特征以及所述实际梅尔倒谱特征,更新所述情感语音转换模型,直至所述预测梅尔倒谱特征与所述实际梅尔倒谱特征之间的交叉熵减小至预设交叉熵阈值。
[0010]一种可选的实施方式中,所述根据所述目标梅尔倒谱特征,确定具有所述目标音色特征以及所述目标情感特征的转换目标语音,具体包括:将所述目标梅尔倒谱特征输入至声码器中,确定具有所述目标音色特征以及所述目标情感特征的转换目标语音。
[0011]一种可选的实施方式中,所述音色特征提取模型与所述情感特征提取模型为时延神经网络模型。
[0012]本公开实施例还提供一种情感语音的转换装置,所述装置包括:获取模块,用于获取待转换语音以及目标语音;确定模块,用于根据所述待转换语音,确定所述待转换语音对应的语音后验概率特征;特征提取模块,用于根据所述目标语音,确定所述目标语音对应的目标音色特征以及目标情感特征;转换模块,用于将所述语音后验概率特征、所述目标音色特征以及所述目标情感特征输入至预先训练好的情感语音转换模型中,确定经过转换后的所述待转换语音对应的目标梅尔倒谱特征;生成模块,用于根据所述目标梅尔倒谱特征,确定具有所述目标音色特征以及所述目标情感特征的转换目标语音。
[0013]一种可选的实施方式中,所述特征提取模块包括第一特征提取单元,所述第一特征提取单元用于:确定所述目标语音对应的梅尔倒谱特征;将所述目标语音对应的梅尔倒谱特征输入至预先训练好的音色特征提取模型中,确定所述目标语音对应的目标音色特征,其中,所述音色特征提取模型是基于训练语音以及所述训练语音对应的说话人音色特征标签训练得到的。
[0014]一种可选的实施方式中,所述特征提取模块包括第二特征提取单元,所述第二特征提取单元用于:确定所述目标语音对应的梅尔倒谱特征;将所述目标语音对应的梅尔倒谱特征输入至预先训练好的情感特征提取模型中,确定所述目标语音对应的目标情感特征,其中,所述情感特征提取模型是基于训练语音以及所述训练语音对应的情感标签训练得到的。
[0015]一种可选的实施方式中,所述装置还包括预处理模块,所述预处理模块用于:针对所述待转换语音以及所述目标语音进行预处理,其中,所述预处理包括针对所述待转换语音进行预加重、分帧、加窗以及傅里叶变换。
[0016]一种可选的实施方式中,所述转换模块还用于:基于以下方法训练所述情感语音转换模型:构建情感语音训练数据集,其中,所述情感语音训练数据集中包括带有不同情感的待转换训练语音数据以及分别对应的目标训练语音数据;确定所述目标训练语音数据对应的实际梅尔倒谱特征;针对所述情感语音训练数据集中的每一条所述待转换训练语音数据,确定该待转换训练语音数据对应的语音后验概率特征;针对所述情感语音训练数据集中的每一条所述目标训练语音数据,确定该目标训练语音数据对应的音色特征以及情感特征;将所述语音后验概率特征、音色特征以及情感特征作为特征数据,所述实际梅尔倒谱特征作为数据标签,输入至待训练的情感语音转换模型,确定经过转换后的所述待转换训练语音数据对应的预测梅尔倒谱特征;根据所述预测梅尔倒谱特征以及所述实际梅尔倒谱特征,更新所述情感语音转换模型,直至所述预测梅尔倒谱特征与所述实际梅尔倒谱特征之间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音色转换方法,其特征在于,包括:获取待转换语音以及目标语音;根据所述待转换语音,确定所述待转换语音对应的语音后验概率特征;根据所述目标语音,确定所述目标语音对应的目标音色特征以及目标情感特征;将所述语音后验概率特征、所述目标音色特征以及所述目标情感特征输入至预先训练好的情感语音转换模型中,确定经过转换后的所述待转换语音对应的目标梅尔倒谱特征;根据所述目标梅尔倒谱特征,确定具有所述目标音色特征以及所述目标情感特征的转换目标语音。2.根据权利要求1所述的方法,其特征在于,基于以下方法确定所述目标语音对应的目标音色特征:确定所述目标语音对应的梅尔倒谱特征;将所述目标语音对应的梅尔倒谱特征输入至预先训练好的音色特征提取模型中,确定所述目标语音对应的目标音色特征,其中,所述音色特征提取模型是基于训练语音以及所述训练语音对应的说话人音色特征标签训练得到的。3.根据权利要求2所述的方法,其特征在于,基于以下方法确定所述目标语音对应的目标情感特征:确定所述目标语音对应的梅尔倒谱特征;将所述目标语音对应的梅尔倒谱特征输入至预先训练好的情感特征提取模型中,确定所述目标语音对应的目标情感特征,其中,所述情感特征提取模型是基于训练语音以及所述训练语音对应的情感标签训练得到的。4.根据权利要求1所述的方法,其特征在于,在所述获取待转换语音以及目标语音之后,所述方法还包括:针对所述待转换语音以及所述目标语音进行预处理,其中,所述预处理包括针对所述待转换语音进行预加重、分帧、加窗以及傅里叶变换。5.根据权利要求1所述的方法,其特征在于,基于以下方法训练所述情感语音转换模型:构建情感语音训练数据集,其中,所述情感语音训练数据集中包括带有不同情感的待转换训练语音数据以及分别对应的目标训练语音数据;确定所述目标训练语音数据对应的实际梅尔倒谱特征;针对所述情感语音训练数据集中的每一条所述待转换训练语音数据,确定该待转换训练语音数据对应的语音后验概率特征;针对所述情感语音训练数据集中的每一条所述目标训练...

【专利技术属性】
技术研发人员:万同堂邓菁郑榕
申请(专利权)人:北京远鉴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1