一种语音处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32919782 阅读:28 留言:0更新日期:2022-04-07 12:11
本公开关于一种语音处理方法、装置、电子设备及存储介质。该语音处理方法包括:获取原始对象的第一语音;确定第一语音的梅尔频率倒谱系数及第一语音的基频特征;基于所述梅尔频率倒谱系数、所述基频特征以及目标对象对应的音色特征,确定所述目标对象的声学特征;基于目标对象的声学特征生成目标对象的第二语音。由于包含了内容特征的梅尔频率倒谱系数中滤除了原始对象的大部分音色特征,因而本公开以梅尔频率倒谱系数作为声学特征转换模型的输入,可以降低对内容特征和音色特征的解耦压力。力。力。

【技术实现步骤摘要】
一种语音处理方法、装置、电子设备及存储介质


[0001]本公开涉及深度学习
,尤其涉及一种语音处理方法、装置、电子设备及存储介质。

技术介绍

[0002]语音转换是指在保留内容特征不变的情况下,将一句话的音色从原始对象的音色转为目标对象的音色。语音转换技术在歌唱变声、电影配音、短视频变声、虚拟人等方面发挥着重要作用。
[0003]目前,一般将梅尔频谱作为输入特征提供给语音转换模型以实现语音转换。然而,梅尔频谱中除了包含被转换的语音中的内容特征之外,还包含该语音中表征发声者音色的大量音色特征,因而需要在语音转换中对音色特征和内容特征进行解耦处理。比如,为了保证解耦效果,通常需要在语音转换模型中增加对抗网络。

技术实现思路

[0004]本公开实施例提出一种语音处理方法、装置、电子设备及存储介质,从而降低解耦压力。
[0005]根据本公开实施例的一方面,提供了一种语音处理方法,包括:
[0006]获取原始对象的第一语音;
[0007]确定所述第一语音的梅尔频率倒谱系数及所述第一语音的基频特征;...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:获取原始对象的第一语音;确定所述第一语音的梅尔频率倒谱系数及所述第一语音的基频特征;基于所述梅尔频率倒谱系数、所述基频特征以及目标对象对应的音色特征,确定所述目标对象的声学特征;基于所述目标对象的声学特征生成所述目标对象的第二语音。2.根据权利要求1所述的语音处理方法,其特征在于,所述基于所述梅尔频率倒谱系数、所述基频特征以及目标对象对应的音色特征,确定所述目标对象的声学特征,包括:利用声学特征转换模型基于所述基频特征以及所述音色特征,对所述梅尔频率倒谱系数进行声学特征转换,得到所述目标对象的声学特征。3.根据权利要求2所述的语音处理方法,其特征在于,所述利用声学特征转换模型基于所述基频特征以及所述音色特征,对所述梅尔频率倒谱系数进行声学特征转换,得到所述目标对象的声学特征,包括:将所述梅尔频率倒谱系数输入到所述声学特征转换模型的第一编码器,以促使所述第一编码器对所述梅尔频率倒谱系数包含的所述第一语音的内容特征编码,其中,所述第一编码器以时间下采样方式输出编码结果;将所述基频特征以及所述音色特征输入到所述声学特征转换模型的解码器,以促使所述解码器对所述编码结果进行时间上采样处理后,基于所述基频特征和所述音色特征对所述编码结果进行解码,得到所述目标对象的声学特征。4.根据权利要求3所述的语音处理方法,其特征在于,进一步包括:将所述第一语音输入到所述声学特征转换模型的基频提取器;其中,所述基频特征是所述基频提取器从所述第一语音中提取的。5.根据权利要求3所述的语音处理方法,其特征在于,进一步包括:将所述目标对象的发声者信息输入到...

【专利技术属性】
技术研发人员:张颖杨鹏
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1