一种语音处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29839367 阅读:12 留言:0更新日期:2021-08-27 14:29
本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:获取原始对象的第一语音信息;基于所述第一语音信息生成所述原始对象的声学特征信息;将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;其中,所述原始对象与所述目标对象不同,所述第一语音信息与所述第二语音信息的语音内容相同。本公开能够解决相关技术中转换语音自然度差以及语音转换结果不准确的问题。

【技术实现步骤摘要】
一种语音处理方法、装置、电子设备及存储介质
本公开涉及深度学习
,尤其涉及一种语音处理方法、装置、电子设备及存储介质。
技术介绍
语音转换是指在保留语言内容不变的情况下,将一句话的音色从原始说话人转为目标说话人,语音转换技术在电影配音、短视频变声、虚拟人等方面发挥着重要作用。相关技术中,一般采用基于数字信号处理的语音转换方法,基频和共振峰是语音信号中的两个重要特征,通过直接对原始语音中基频和共振峰的修改,使其和目标说话人特征分布尽量一致,从而达到改变语音信号中音色的目的;但是通过修改基频和共振峰所合成的转换语音自然度差,并且不同原始说话人的基频和共振峰千差万别,即使目标说话人确定,通过数字信号处理后的转换语音音色也会有较大的差异;另外在修改基频时会产生语音混叠,引入噪声,从而使得语音转换结果不准确。
技术实现思路
本公开提供一种语音处理方法、装置、电子设备及存储介质,以至少解决相关技术中转换语音自然度差以及语音转换结果不准确的问题。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种语音处理方法,包括:获取原始对象的第一语音信息;基于所述第一语音信息生成所述原始对象的声学特征信息;将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;其中,所述原始对象与所述目标对象不同,所述第一语音信息与所述第二语音信息的语音内容相同。在一示例性实施例中,所述方法还包括:获取第一神经网络模型;所述第一神经网络模型包括音素识别模块和分类模块;获取多项样本声学特征信息,以及与每项样本声学特征信息对应的音素特征向量;将每项样本声学特征信息输入到所述音素识别模块进行音素识别,得到第一音素特征信息;将所述第一音素特征信息输入到所述分类模块进行音素分类,得到音素分类概率向量;根据每项样本声学特征信息对应的音素特征向量,以及每项样本声学特征信息对应的所述音素分类概率向量,确定音素信息损失;基于所述音素信息损失对所述第一神经网络模型进行训练,得到训练完成的第一神经网络模型;基于所述训练完成的第一神经网络模型生成所述语音识别模型。在一示例性实施例中,所述基于所述训练完成的第一神经网络模型生成所述语音识别模型包括:基于所述训练完成的第一神经网络模型的音素识别模块生成所述语音识别模型。在一示例性实施例中,所述音素识别模块包括至少一个音素识别子模块,其中每个所述音素识别子模块包括音素特征短时建模模块、特征维度转换模块以及音素特征长时建模模块;所述方法还包括:将待处理特征信息输入所述音素特征短时建模模块,对所述待处理特征信息进行短时相关性建模,得到第一特征向量;将所述第一特征向量输入到所述特征维度转换模块进行特征维度压缩,得到第二特征向量;将所述第二特征向量输入到所述音素特征长时建模模块,对所述第二特征向量进行长时相关性建模,得到第三特征向量;将所述第三特征向量作为所述音素识别子模块的输出信息;其中,所述第三特征向量的维度大于所述第二特征向量的维度;其中,当所述音素识别模块包括一个所述音素识别子模块时,所述待处理特征信息为所述每项样本声学特征信息,所述音素识别子模块的输出信息为所述第一音素特征信息。在一示例性实施例中,所述方法还包括:当所述音素识别模块包括多个所述音素识别子模块时,将上一个音素识别子模块的输出信息作为下一个音素识别子模块的输入信息,第一个音素识别子模块的输入信息为所述每项样本声学特征信息,最后一个音素识别子模块的输出信息为所述第一音素特征信息。在一示例性实施例中,所述方法还包括:获取第二神经网络模型;获取多个样本信息组;其中每个样本信息组包括音素特征信息、对象标记信息以及与所述音素特征信息对应的声学特征信息,所述声学特征信息携带有所述对象标记信息;将每个样本信息组中的音素特征信息,以及对象标记信息输入到所述第二神经网络模型进行声学特征转换,得到已转换声学特征信息;基于每个样本信息组对应的已转换声学特征信息,以及所述样本信息组中的声学特征信息,确定声学特征损失;基于所述声学特征信息损失对所述第二神经网络模型进行训练,得到所述语音转换模型。在一示例性实施例中,所述方法还包括:获取多项样本音素特征信息,以及多项对象标记信息;基于每项样本音素特征信息,得到携带有所述对象标记信息的声学特征信息;其中所述携带有所述对象标记信息的声学特征信息的项数,与所述对象标记信息的项数一致;对所述多项样本音素特征信息,以及所述多项对象标记信息进行两两组合,得到多个第一信息组;对于每个所述第一信息组,确定与所述第一信息组中的样本音素特征信息对应,且携带有所述第一信息组中的对象标记信息的关联声学特征信息;将所述关联声学特征信息添加到所述第一信息组中,生成所述样本信息组。在一示例性实施例中,所述第二神经网络模型包括卷积模块和单向门控循环网络模块;所述将所述多个样本信息组中的音素特征信息,以及对象标记信息输入到所述第二神经网络模型进行声学特征转换,得到第一声学特征信息包括:将所述多个样本信息组中的样本音素特征信息输入到所述卷积模块进行音素特征局部信息提取,得到第二音素特征信息;将所述第二音素特征信息输入到所述单向门控循环网络模块进行声学特征转换,得到所述第一声学特征信息,所述第一声学特征信息是基于所述对象标记信息得到的。在一示例性实施例中,所述将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息之前,包括:获取目标对象的对象标记信息,所述目标对象为所述多个样本对象中的一个或多个;所述将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息包括:将所述目标对象的对象标记信息和所述音素信息输入到所述语音转换模型进行声学特征转换,得到所述目标对象的声学特征信息。在一示例性实施例中,所述目标对象的声学特征信息中包括多个维度的特征信息;所述基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息包括:确定每个维度的特征信息所对应的频率范围;在每个频率范围内进行特征提取,得到多项已提取特征信息;基于所述多项已提取特征信息进行语音信号重建,得到所述目标对象的第二语音信号。根据本公开实施例的第二方面,提供一种语音处理装置,包括:第一语音信息获取单元,被配置为执行获取原始对象的第一语音信息;原始特征信息生成单元,被配置为执行基于所述第一语音信息生成所述原始对象的声学特征信息;音素特征识别单元,被配置为执行将所述原始对象的声本文档来自技高网...

【技术保护点】
1.一种语音处理方法,其特征在于,包括:/n获取原始对象的第一语音信息;/n基于所述第一语音信息生成所述原始对象的声学特征信息;/n将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;/n将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;/n基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;/n其中,所述原始对象与所述目标对象不同,所述第一语音信息与所述第二语音信息的语音内容相同。/n

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:
获取原始对象的第一语音信息;
基于所述第一语音信息生成所述原始对象的声学特征信息;
将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;
将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;
基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;
其中,所述原始对象与所述目标对象不同,所述第一语音信息与所述第二语音信息的语音内容相同。


2.根据权利要求1所述的一种语音处理方法,其特征在于,所述方法还包括:
获取第一神经网络模型;所述第一神经网络模型包括音素识别模块和分类模块;
获取多项样本声学特征信息,以及与每项样本声学特征信息对应的音素特征向量;
将每项样本声学特征信息输入到所述音素识别模块进行音素识别,得到第一音素特征信息;
将所述第一音素特征信息输入到所述分类模块进行音素分类,得到音素分类概率向量;
根据每项样本声学特征信息对应的音素特征向量,以及每项样本声学特征信息对应的所述音素分类概率向量,确定音素信息损失;
基于所述音素信息损失对所述第一神经网络模型进行训练,得到训练完成的第一神经网络模型;
基于所述训练完成的第一神经网络模型生成所述语音识别模型。


3.根据权利要求2所述的一种语音处理方法,其特征在于,所述基于所述训练完成的第一神经网络模型生成所述语音识别模型包括:
基于所述训练完成的第一神经网络模型的音素识别模块生成所述语音识别模型。


4.根据权利要求2或3所述的一种语音处理方法,其特征在于,所述音素识别模块包括至少一个音素识别子模块,其中每个所述音素识别子模块包括音素特征短时建模模块、特征维度转换模块以及音素特征长时建模模块;
所述方法还包括:
将待处理特征信息输入所述音素特征短时建模模块,对所述待处理特征信息进行短时相关性建模,得到第一特征向量;
将所述第一特征向量输入到所述特征维度转换模块进行特征维度压缩,得到第二特征向量;
将所述第二特征向量输入到所述音素特征长时建模模块,对所述第二特征向量进行长时相关性建模,得到第三特征向量;
将所述第三特征向量作为所述音素识别子模块的输出信息;其中,所述第三特征向量的维度大于所述第二特征向量的维度;
其中,当所述音素识别模块包括一个所述音素识别子模块时,所述待处理特征信息为所述每项样本声学特征信息,所述音素识别子模块的输出信息为所述第一音素特征信息。


5.根据权利要求1所述的一种语音处理方法,其特征在于,所述方法还包括:
获取第二神经网络模型;
获取多个样本信息组;其中每个样本信息组包括音素特征信息、对象标记信息以及与所述音素特征信息对应的声学特征信息,所述声学特征信息携...

【专利技术属性】
技术研发人员:张颖杨鹏李楠王芮张晨郑羲光车浩
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1