一种语音处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30076003 阅读:23 留言:0更新日期:2021-09-18 08:31
本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:对待转换语音信息进行语音识别,得到所述待转换语音信息中包含的音素特征信息;将所述音素特征信息,以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合,得到语音编码耦合信息;将所述语音编码耦合信息输入到语音转换模型的语音解码模块进行信息解码,得到与所述音素特征信息对应的目标声学特征信息;基于所述目标声学特征信息生成已转换语音信息。本公开能够解决相关技术中语音转换的说话人音色有限且固定,无法满足用户个性化语音转换需求的问题。需求的问题。需求的问题。

【技术实现步骤摘要】
一种语音处理方法、装置、电子设备及存储介质


[0001]本公开涉及深度学习
,尤其涉及一种语音处理方法、装置、电子设备及存储介质。

技术介绍

[0002]语音转换是指在保留语言内容不变的情况下,将一句话的音色从原始说话人转移为目标说话人;其在电影配音、短视频变声、虚拟人等方面可以发挥重要作用。
[0003]相关技术中,基于语音识别技术以及神经网络模型能够实现不同说话人到特定目标说话人音色的映射,这里的目标说话人为对神经网络模型进行训练时训练集中的说话人,即相关技术中的语音转换方法只能实现将语音转化为有限的说话人音色,不能转换为训练集中说话人以外的说话人音色,从而无法满足用户的个性化语音转换需求。

技术实现思路

[0004]本公开提供一种语音处理方法、装置、电子设备及存储介质,以至少解决相关技术中语音转换的说话人音色有限且固定,无法满足用户个性化语音转换需求的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种语音处理方法,包括:
[0006]对待转换语音信息进行语音识别,得到所述待转换语音信息中包含的音素特征信息;
[0007]将所述音素特征信息,以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合,得到语音编码耦合信息;所述语音转换模型是基于预设对象数据集合进行训练得到的,所述预设对象数据集合中包括多个预设对象的标记信息;其中所述目标对象的标记信息是基于至少两个所述预设对象的标记信息生成的;
[0008]将所述语音编码耦合信息输入到所述语音转换模型的语音解码模块进行信息解码,得到与所述音素特征信息对应的目标声学特征信息;所述目标声学特征信息中包含所述目标对象的音色特征信息;
[0009]基于所述目标声学特征信息生成已转换语音信息。
[0010]在一示例性实施例中,所述预设对象的标记信息为预设对象的特征向量;
[0011]所述方法还包括:
[0012]对至少两个所述预设对象的特征向量进行加权求和,得到所述目标对象的特征向量;其中每个所述预设对象的特征向量对应的权重之和为1;
[0013]将所述目标对象的特征向量确定为所述目标对象的标记信息。
[0014]在一示例性实施例中,所述语音编码模块包括音素特征编码模块、标记信息编码模块和特征耦合模块;
[0015]所述将所述音素特征信息,以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合,得到语音编码耦合信息包括:
[0016]将所述音素特征信息输入到所述音素特征编码模块进行特征提取,得到音素特征向量;
[0017]将所述目标对象的标记信息输入到所述标记信息编码模块进行特征维度转换,得到对象特征向量;
[0018]将所述音素特征向量和所述对象特征向量输入到所述特征耦合模块进行特征向量耦合,得到所述语音编码耦合信息。
[0019]在一示例性实施例中,所述标记信息编码模块包括标记信息映射模块和归一化模块;
[0020]所述将所述目标对象的标记信息输入到所述标记信息编码模块进行特征维度转换,得到对象特征向量包括:
[0021]通过所述标记信息映射模块将所述目标对象的标记信息映射到预设向量空间,得到所述目标对象的标记信息在所述预设向量空间中的映射向量;
[0022]采用所述归一化模块对所述映射向量进行归一化处理,得到所述对象特征向量。
[0023]在一示例性实施例中,所述将所述音素特征向量和所述对象特征向量输入到所述特征耦合模块进行特征向量耦合,得到所述语音编码耦合信息包括:
[0024]对所述音素特征向量和所述对象特征向量进行拼接,得到所述语音编码耦合信息。
[0025]在一示例性实施例中,所述音素特征向量的向量维度与所述对象特征向量的向量维度相同;
[0026]所述将所述音素特征向量和所述对象特征向量输入到所述特征耦合模块进行特征向量耦合,得到所述语音编码耦合信息包括:
[0027]对所述音素特征向量与所述对象特征向量的相同维度的值进行相加,得到所述语音编码耦合信息。
[0028]在一示例性实施例中,所述语音解码模块包括特征融合模块和预测模块;
[0029]所述将所述语音编码耦合信息输入到所述语音转换模型的语音解码模块进行信息解码,得到与所述音素特征信息对应的目标声学特征信息包括:
[0030]将所述语音编码耦合信息输入到所述特征融合模块进行特征融合,得到融合特征信息;
[0031]将所述融合特征信息输入到所述预测模块进行声学特征预测,得到与所述音素特征信息对应的目标声学特征信息。
[0032]在一示例性实施例中,所述对待转换语音信息进行语音识别,得到所述待转换语音信息中包含的音素特征信息包括:
[0033]将所述待转换语音信息输入到语音识别模型的音素识别模块进行音素识别,得到初始音素信息;
[0034]将所述初始音素信息输入到所述语音识别模型的语言学纠正模块进行音素纠正,得到所述待转换语音信息中包含的音素特征信息。
[0035]根据本公开实施例的第二方面,提供一种语音处理装置,包括:
[0036]语音识别单元,被配置为执行对待转换语音信息进行语音识别,得到所述待转换语音信息中包含的音素特征信息;
[0037]信息耦合单元,被配置为执行将所述音素特征信息,以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合,得到语音编码耦合信息;所述语音转换模型是基于预设对象数据集合进行训练得到的,所述预设对象数据集合中包括多个预设对象的标记信息;其中所述目标对象的标记信息是基于至少两个所述预设对象的标记信息生成的;
[0038]信息解码单元,被配置为执行将所述语音编码耦合信息输入到所述语音转换模型的语音解码模块进行信息解码,得到与所述音素特征信息对应的目标声学特征信息;所述目标声学特征信息中包含所述目标对象的音色特征信息;
[0039]已转换语音信息生成单元,被配置为执行基于所述目标声学特征信息生成已转换语音信息。
[0040]在一示例性实施例中,所述预设对象的标记信息为预设对象的特征向量;
[0041]所述装置还包括:
[0042]加权求和单元,被配置为执行对至少两个所述预设对象的特征向量进行加权求和,得到所述目标对象的特征向量;其中每个所述预设对象的特征向量对应的权重之和为1;
[0043]标记信息确定单元,被配置为执行将所述目标对象的特征向量确定为所述目标对象的标记信息。
[0044]在一示例性实施例中,所述语音编码模块包括音素特征编码模块、标记信息编码模块和特征耦合模块;
[0045]所述信息耦合单元包括:
[0046]特征提取单元,被配置为执行将所述音素特征信息输入到所述音素特征编码模块进行特征提取,得到音素特征向量;
[0047]特征维度转换单元,被配置为执行将所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:对待转换语音信息进行语音识别,得到所述待转换语音信息中包含的音素特征信息;将所述音素特征信息,以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合,得到语音编码耦合信息;所述语音转换模型是基于预设对象数据集合进行训练得到的,所述预设对象数据集合中包括多个预设对象的标记信息;其中所述目标对象的标记信息是基于至少两个所述预设对象的标记信息生成的;将所述语音编码耦合信息输入到所述语音转换模型的语音解码模块进行信息解码,得到与所述音素特征信息对应的目标声学特征信息;所述目标声学特征信息中包含所述目标对象的音色特征信息;基于所述目标声学特征信息生成已转换语音信息。2.根据权利要求1所述的一种语音处理方法,其特征在于,所述预设对象的标记信息为预设对象的特征向量;所述方法还包括:对至少两个所述预设对象的特征向量进行加权求和,得到所述目标对象的特征向量;其中每个所述预设对象的特征向量对应的权重之和为1;将所述目标对象的特征向量确定为所述目标对象的标记信息。3.根据权利要求1或2所述的一种语音处理方法,其特征在于,所述语音编码模块包括音素特征编码模块、标记信息编码模块和特征耦合模块;所述将所述音素特征信息,以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合,得到语音编码耦合信息包括:将所述音素特征信息输入到所述音素特征编码模块进行特征提取,得到音素特征向量;将所述目标对象的标记信息输入到所述标记信息编码模块进行特征维度转换,得到对象特征向量;将所述音素特征向量和所述对象特征向量输入到所述特征耦合模块进行特征向量耦合,得到所述语音编码耦合信息。4.根据权利要求3所述的一种语音处理方法,其特征在于,所述标记信息编码模块包括标记信息映射模块和归一化模块;所述将所述目标对象的标记信息输入到所述标记信息编码模块进行特征维度转换,得到对象特征向量包括:通过所述标记信息映射模块将所述目标对象的标记信息映射到预设向量空间,得到所述目标对象的标记信息在所述预设向量空间中的映射向量;采用所述归一化模块对所述映射向量进行归一化处理,得到所述对象特征向量。5.根据权利要求1所述的一种语音处理方法,其特征在于,所述语音解码模块...

【专利技术属性】
技术研发人员:张颖
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1