【技术实现步骤摘要】
一种语音处理方法、装置、电子设备及存储介质
本公开涉及深度学习
,尤其涉及一种语音处理方法、装置、电子设备及存储介质。
技术介绍
语音转换是指在保留语言内容不变的情况下,将一句话的音色从原始说话人转为目标说话人,语音转换技术在电影配音、短视频变声、虚拟人等方面发挥着重要作用。相关技术中,一般采用基于数字信号处理的语音转换方法,基频和共振峰是语音信号中的两个重要特征,通过直接对原始语音中基频和共振峰的修改,使其和目标说话人特征分布尽量一致,从而达到改变语音信号中音色的目的;但是通过修改基频和共振峰所合成的转换语音自然度差,并且不同原始说话人的基频和共振峰千差万别,即使目标说话人确定,通过数字信号处理后的转换语音音色也会有较大的差异;另外在修改基频时会产生语音混叠,引入噪声,从而使得语音转换结果不准确。
技术实现思路
本公开提供一种语音处理方法、装置、电子设备及存储介质,以至少解决相关技术中转换语音自然度差以及语音转换结果不准确的问题。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种语音处理方法,包括:获取原始对象的第一语音信息;基于所述第一语音信息生成所述原始对象的声学特征信息;将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;其中 ...
【技术保护点】
1.一种语音处理方法,其特征在于,包括:/n获取原始对象的第一语音信息;/n基于所述第一语音信息生成所述原始对象的声学特征信息;/n将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;/n将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;/n基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;/n其中,所述原始对象与所述目标对象不同,所述第一语音信息与所述第二语音信息的语音内容相同。/n
【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:
获取原始对象的第一语音信息;
基于所述第一语音信息生成所述原始对象的声学特征信息;
将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;
将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;
基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;
其中,所述原始对象与所述目标对象不同,所述第一语音信息与所述第二语音信息的语音内容相同。
2.根据权利要求1所述的一种语音处理方法,其特征在于,所述方法还包括:
获取第一神经网络模型;所述第一神经网络模型包括音素识别模块和分类模块;
获取多项样本声学特征信息,以及与每项样本声学特征信息对应的音素特征向量;
将每项样本声学特征信息输入到所述音素识别模块进行音素识别,得到第一音素特征信息;
将所述第一音素特征信息输入到所述分类模块进行音素分类,得到音素分类概率向量;
根据每项样本声学特征信息对应的音素特征向量,以及每项样本声学特征信息对应的所述音素分类概率向量,确定音素信息损失;
基于所述音素信息损失对所述第一神经网络模型进行训练,得到训练完成的第一神经网络模型;
基于所述训练完成的第一神经网络模型生成所述语音识别模型。
3.根据权利要求2所述的一种语音处理方法,其特征在于,所述基于所述训练完成的第一神经网络模型生成所述语音识别模型包括:
基于所述训练完成的第一神经网络模型的音素识别模块生成所述语音识别模型。
4.根据权利要求2或3所述的一种语音处理方法,其特征在于,所述音素识别模块包括至少一个音素识别子模块,其中每个所述音素识别子模块包括音素特征短时建模模块、特征维度转换模块以及音素特征长时建模模块;
所述方法还包括:
将待处理特征信息输入所述音素特征短时建模模块,对所述待处理特征信息进行短时相关性建模,得到第一特征向量;
将所述第一特征向量输入到所述特征维度转换模块进行特征维度压缩,得到第二特征向量;
将所述第二特征向量输入到所述音素特征长时建模模块,对所述第二特征向量进行长时相关性建模,得到第三特征向量;
将所述第三特征向量作为所述音素识别子模块的输出信息;其中,所述第三特征向量的维度大于所述第二特征向量的维度;
其中,当所述音素识别模块包括一个所述音素识别子模块时,所述待处理特征信息为所述每项样本声学特征信息,所述音素识别子模块的输出信息为所述第一音素特征信息。
5.根据权利要求1所述的一种语音处理方法,其特征在于,所述方法还包括:
获取第二神经网络模型;
获取多个样本信息组;其中每个样本信息组包括音素特征信息、对象标记信息以及与所述音素特征信息对应的声学特征信息,所述声学特征信息携...
【专利技术属性】
技术研发人员:张颖,杨鹏,李楠,王芮,张晨,郑羲光,车浩,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。