一种语音音色转换方法及相关设备技术

技术编号:26602155 阅读:28 留言:0更新日期:2020-12-04 21:25
本申请提供一种语音音色转换方法及相关设备,包括将获取的原始音频和用户确认的目标音色输入预先建立的音色转换网络;基于预先建立的音色转换网络对原始音频进行音色转换,得到转换后的目标音频;其中,预先建立的音色转换网络包括基于第一数据集训练得到的语音内容识别模型和语音说话人识别模型,以及基于第二数据集训练得到的音色转换模型和声码器模型。在本方案中,利用语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建的音色转换网络对原始音频和目标音色进行处理,从而得到由目标音色和语音内容构成目标音频。通过上述方式进行音色转换,能够保证转换后的音频的质量,且能够提高转换后的音频的音色与目标音色的相似度。

【技术实现步骤摘要】
一种语音音色转换方法及相关设备
本申请涉及语音处理
,尤其涉及一种语音音色转换方法及相关设备。
技术介绍
语音音色转换技术是指将原始音频中的声音的音色转换为另外一个的说话人声音的音色。在音色转换过程中,需要保证转换语音音色之后的音频的音色与另外一个说话人声音的音色相似,而音频的内容保持不变。目前,较为广泛使用的是基于非平行语料的训练数据结合生成对抗网络和变分自动编码器实现语音音色转换。但是,在实际应用中,利用对抗网络和变分自动编码器进行语音音色转换不稳定,导致转换后的音频存在音频质量不稳定、音色与目标音色的相似度不高的问题。
技术实现思路
有鉴于此,本申请实施例提供一种语音音色转换方法及相关设备,以解决现有技术转换后的音频存在音频质量不稳定、音色与目标音色的相似度不高的问题。为实现上述目的,本申请实施例提供如下技术方案:本申请第一方面示出了一种语音音色转换方法,所述方法包括:将获取的原始音频和用户确认的目标音色输入预先建立的音色转换网络,所述原始音频至少包括原始音色和语音内容;基于所述预先建立的音色转换网络对所述原始音频进行音色转换,得到转换后的目标音频,所述目标音频由所述目标音色和所述语音内容构成;其中,所述预先建立的音色转换网络由语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建,所述语音内容识别模型和语音说话人识别模型基于第一数据集训练得到,所述音色转换模型和所述声码器模型基于第二数据集训练得到,所述第一数据集和所述第二数据集是指高质量的音频数据集;所述音色转换模型由N个分离门卷积层、M个双向长短时记忆网络和1个全连接层构成,所述音色转换模型的构建过程包括:将所述第二数据集输入所述语音内容识别模型得到音频对应的语音内容特征矩阵,将所述第二数据集输入所述语音说话人识别模型得到音频对应的语音信息特征矩阵;基于N个分离门卷积层、M个双向长短时记忆网络和1个全连接层对所述语音内容特征矩阵和语音信息特征矩阵进行训练,得到音色转换模型,N和M为大于等于1的正整数。可选的,所述基于N个分离门卷积层、M个双向长短时记忆网络和1个全连接层对所述语音内容特征矩阵和语音信息特征矩阵进行训练,得到音色转换模型,包括:基于所述N个分离门卷积层、M个双向长短时记忆网络和1个全连接层构建初始音色转换模型;将所述语音内容特征矩阵和语音信息特征矩阵输入所述初始语音转换模型中的分离门卷积层进行特征学习,得到第一特征矩阵;利用所述双向长短时记忆网络对所述第一特征矩阵进行训练,得到的第二特征矩阵;利用所述全连接层对所述第二特征矩阵进行非线性组合,输出预测的目标人音色的声学特征;计算所述预测的目标人音色的声学特征与所述目标声学特征的绝对差值,若所述绝对差值在预设范围内,确定当前的初始音色转换模型为音色转换模型;若所述绝对差值在预设范围之外,对所述绝对差值进行迭代计算,直至所述绝对差值处于预设范围内,得到训练完成的音色转换模型。可选的,所述将所述语音内容特征矩阵和语音信息特征矩阵输入初始语音转换模型中的分离门卷积层进行特征学习,得到第一特征矩阵,包括:将所述语音内容特征矩阵和语音信息特征矩阵输入所述分离门卷积层中的卷积层和残差连接卷积层,所述卷积层的输出通道数是残差连接卷积层的输出通道数的两倍;利用所述卷积层对所述语音内容特征矩阵和语音信息特征矩阵进行计算,确定第一特征数据;计算基于线性整流ReLU激活函数和非线性Sigmoid激活函数激活的特征数据集,得到初始特征矩阵,其中,所述特征数据集是按照所述卷积层的通道数对所述第一特征数据进行平均分配得到的;利用所述残差连接卷积层对所述语音内容特征矩阵和语音信息特征矩阵计算得到第二特征数据;基于所述第二特征数据对初始特征矩阵进行非线性组合,得到第一特征矩阵。可选的,所述基于所述预先建立的音色转换网络对所述原始音频进行音色转换,得到转换后的目标音频,包括:利用所述语音内容识别模型对所述原始音频的语音内容进行识别,得到语音内容特征矩阵;利用所述语音说话人识别模型对所述目标音色进行识别,得到语音信息特征矩阵;将所述语音内容特征矩阵和所述语音信息特征矩阵的组合矩阵作为所述音色转换模型的输入,所述音色转换模型对所述语音内容特征矩阵和所述语音信息特征矩阵的组合矩阵进行处理,得到声学特征;利用所述声码器模型将所述声学特征转换成目标音频,所述目标音频由所述目标音色和所述语音内容构成。本申请第二方面示出了一种语音音色转换装置,所述装置包括:构建单元,用于基于第一数据集训练得到语音内容识别模型和语音说话人识别模型,以及基于第二数据集训练得到音色转换模型和声码器模型构建音色转换网络,所述第一数据集和所述第二数据集是指高质量的音频数据集;其中,所述构建单元,具有用于基于所述第二数据集训练由N个分离门卷积层、M个双向长短时记忆网络和1个全连接层构成的音色转换模型,具体过程包括:将所述第二数据集输入所述语音内容识别模型得到音频对应的语音内容特征矩阵,将所述第二数据集输入所述语音说话人识别模型得到音频对应的语音信息特征矩阵;基于N个分离门卷积层、M个双向长短时记忆网络和1个全连接层对所述语音内容特征矩阵和语音信息特征矩阵进行训练,得到音色转换模型,N和M为大于等于1的正整数;输入单元,用于将获取的原始音频和用户确认的目标音色输入所述预先建立的音色转换网络,所述原始音频至少包括原始音色和语音内容;所述音色转换网络,用于对所述原始音频进行音色转换,得到转换后的目标音频,所述目标音频由所述目标音色和所述语音内容构成。可选的,所述音色转换网络具体用于:利用所述语音内容识别模型对所述原始音频的语音内容进行识别,得到语音内容特征矩阵;利用所述语音说话人识别模型对所述目标音色进行识别,得到语音信息特征矩阵;将所述语音内容特征矩阵和所述语音信息特征矩阵的组合矩阵作为所述音色转换模型的输入,所述音色转换模型对所述语音内容特征矩阵和所述语音信息特征矩阵的组合矩阵进行处理,得到声学特征;利用所述声码器模型将所述声学特征转换成目标音频,所述目标音频由所述目标音色和所述语音内容构成。可选的,所述基于N个分离门卷积层、M个双向长短时记忆网络和1个全连接层对所述语音内容特征矩阵和语音信息特征矩阵进行训练,得到音色转换模型的构建单元,具体用于:基于N个分离门卷积层、M个双向长短时记忆网络和1个全连接层构建初始音色转换模型;将所述语音内容特征矩阵和语音信息特征矩阵输入所述初始语音转换模型中的分离门卷积层进行特征学习,得到第一特征矩阵;利用所述双向长短时记忆网络对所述第一特征矩阵进行训练,得到的第二特征矩阵;利用所述全连接层对所述第二特征矩阵进行非线性组合,输出预测的目标人音色的声学特征;计算所述预测的目标人音色的声学特征与所述目标声学特征的绝对差值,若所述绝对差值在预设范围内,确定当前的初本文档来自技高网...

【技术保护点】
1.一种语音音色转换方法,其特征在于,所述方法包括:/n将获取的原始音频和用户确认的目标音色输入预先建立的音色转换网络,所述原始音频至少包括原始音色和语音内容;/n基于所述预先建立的音色转换网络对所述原始音频进行音色转换,得到转换后的目标音频,所述目标音频由所述目标音色和所述语音内容构成;/n其中,所述预先建立的音色转换网络由语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建,所述语音内容识别模型和语音说话人识别模型基于第一数据集训练得到,所述音色转换模型和所述声码器模型基于第二数据集训练得到,所述第一数据集和所述第二数据集是指高质量的音频数据集;/n所述音色转换模型由N个分离门卷积层、M个双向长短时记忆网络和1个全连接层构成,所述音色转换模型的构建过程包括:/n将所述第二数据集输入所述语音内容识别模型得到音频对应的语音内容特征矩阵,将所述第二数据集输入所述语音说话人识别模型得到音频对应的语音信息特征矩阵;/n基于N个分离门卷积层、M个双向长短时记忆网络和1个全连接层对所述语音内容特征矩阵和语音信息特征矩阵进行训练,得到音色转换模型,N和M为大于等于1的正整数。/n

【技术特征摘要】
1.一种语音音色转换方法,其特征在于,所述方法包括:
将获取的原始音频和用户确认的目标音色输入预先建立的音色转换网络,所述原始音频至少包括原始音色和语音内容;
基于所述预先建立的音色转换网络对所述原始音频进行音色转换,得到转换后的目标音频,所述目标音频由所述目标音色和所述语音内容构成;
其中,所述预先建立的音色转换网络由语音内容识别模型、语音说话人识别模型、音色转换模型和声码器模型构建,所述语音内容识别模型和语音说话人识别模型基于第一数据集训练得到,所述音色转换模型和所述声码器模型基于第二数据集训练得到,所述第一数据集和所述第二数据集是指高质量的音频数据集;
所述音色转换模型由N个分离门卷积层、M个双向长短时记忆网络和1个全连接层构成,所述音色转换模型的构建过程包括:
将所述第二数据集输入所述语音内容识别模型得到音频对应的语音内容特征矩阵,将所述第二数据集输入所述语音说话人识别模型得到音频对应的语音信息特征矩阵;
基于N个分离门卷积层、M个双向长短时记忆网络和1个全连接层对所述语音内容特征矩阵和语音信息特征矩阵进行训练,得到音色转换模型,N和M为大于等于1的正整数。


2.根据权利要求1所述的方法,其特征在于,所述基于N个分离门卷积层、M个双向长短时记忆网络和1个全连接层对所述语音内容特征矩阵和语音信息特征矩阵进行训练,得到音色转换模型,包括:
基于所述N个分离门卷积层、M个双向长短时记忆网络和1个全连接层构建初始音色转换模型;
将所述语音内容特征矩阵和语音信息特征矩阵输入所述初始语音转换模型中的分离门卷积层进行特征学习,得到第一特征矩阵;
利用所述双向长短时记忆网络对所述第一特征矩阵进行训练,得到的第二特征矩阵;
利用所述全连接层对所述第二特征矩阵进行非线性组合,输出预测的目标人音色的声学特征;
计算所述预测的目标人音色的声学特征与所述目标声学特征的绝对差值,若所述绝对差值在预设范围内,确定当前的初始音色转换模型为音色转换模型;
若所述绝对差值在预设范围之外,对所述绝对差值进行迭代计算,直至所述绝对差值处于预设范围内,得到训练完成的音色转换模型。


3.根据权利要求2所述的方法,其特征在于,所述将所述语音内容特征矩阵和语音信息特征矩阵输入初始语音转换模型中的分离门卷积层进行特征学习,得到第一特征矩阵,包括:
将所述语音内容特征矩阵和语音信息特征矩阵输入所述分离门卷积层中的卷积层和残差连接卷积层,所述卷积层的输出通道数是残差连接卷积层的输出通道数的两倍;
利用所述卷积层对所述语音内容特征矩阵和语音信息特征矩阵进行计算,确定第一特征数据;
计算基于线性整流ReLU激活函数和非线性Sigmoid激活函数激活的特征数据集,得到初始特征矩阵,其中,所述特征数据集是按照所述卷积层的通道数对所述第一特征数据进行平均分配得到的;
利用所述残差连接卷积层对所述语音内容特征矩阵和语音信息特征矩阵计算得到第二特征数据;
基于所述第二特征数据对初始特征矩阵进行非线性组合,得到第一特征矩阵。


4.根据权利要求1所述的方法,其特征在于,所述基于所述预先建立的音色转换网络对所述原始音频进行音色转换,得到转换后的目标音频,包括:
利用所述语音内容识别模型对所述原始音频的语音内容进行识别,得到语音内容特征矩阵;
利用所述语音说话人识别模型对所述目标音色进行识别,得到语音信息特征矩阵;
将所述语音内容特征矩阵和所述语音信息特征矩阵的组合矩阵作为所述音色转换模型的输入,所述音色转换模型对所述语音内容特征矩阵和所述语音信息特征矩阵的组合矩阵进行处理,得到声学特征;
利用所述声码器模型将所述声学特征转换成目标音频,所述目标音频由所述目标音色和所述语音内容构成。


5.一种语音音色转换装置,其特征在于,所述装置包括:
构建单元,用于基于第一数据集训练...

【专利技术属性】
技术研发人员:黄杰雄戴长军周鸿斌贺天威
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1