情感表达的语音克隆方法、装置、设备和介质制造方法及图纸

技术编号:46614124 阅读:0 留言:0更新日期:2025-10-14 21:11
本发明专利技术公开了一种情感表达的语音克隆方法、装置、设备和介质。所述语音克隆方法包括:获取可以捕捉到更多用户情感信息的用户语音信号,对用户语音信号进行包含噪声去除的预处理,提取预处理后的语音信号的声纹特征,并基于声纹特征和声纹克隆模型进行声纹克隆,以及根据用户语音信号对用户语音信号的情感类型进行分析,并根据分析结果对克隆声纹进行调整,得到更能表达用户情感的目标声纹;最后将目标声纹转换成目标语音信号,并以大于80dB的音量输出。因此,所述语音克隆方法可以较准确捕捉和重现用户声音的情感语调,实现用户复杂的情感表达,使得克隆语音更具自然和生动性,可适应于需要细腻情感表达的场景。

【技术实现步骤摘要】

本专利技术涉及语音处理,具体关于一种情感表达的语音克隆方法、装置、设备和介质


技术介绍

1、在当今科技飞速发展的时代,语音交互技术已经广泛应用于各个领域,如智能客服、智能家居、有声读物、物联网设备等。声纹克隆技术作为语音处理领域的一个重要分支,能够模拟特定用户的声音,为用户带来更加个性化的体验。

2、然而,现有的声纹克隆技术往往只注重复制用户声音的基本特征。例如,公开号为cn114049873a的中国专利公开了种语音克隆方法,以降低克隆对象的音频数据量,以及提高语音克隆的处理效率和适用范围,该方法包括:接收文本和克隆对象的原始音频;确定原始音频对应的声纹特征;将所述文本和所述声纹特征声学模型,以得到对应的声学特征,并根据声学特征确定目标音频;其中,该声学模型包括:时长预测模块、韵律预测模块 和声学预测模块;在训练该声学模型的反向传播过程中,根据时长预测模块、韵律预测模块和声学预测模块对应的融合误差,对时长预测模块、所述韵律预测模块和声学预测模块的参数进行更新。再如,公开号为cn117373432a的中国专利公开了另一种语音克隆方法,以使得克隆本文档来自技高网...

【技术保护点】

1.一种情感表达的语音克隆方法,其特征在于,包括:

2.根据权利要求1所述的语音克隆方法,其特征在于,所述情感特征向量中的标量包括对应情感类型的语音信号的基频、语速和音色;

3.根据权利要求1所述的语音克隆方法,其特征在于,所述用户语音信号为由指向性角度范围为0-60度的指向性麦克风对处于目标方位的所述用户的语音进行采集得到的信号。

4.根据权利要求1所述的语音克隆方法,其特征在于,所述不同类型的声纹特征提取模型包括梅尔滤波器数量为20至40个的梅尔频率倒谱系数声纹特征提取模型。

5.根据权利要求1所述的语音克隆方法,其特征在于,所述声纹克...

【技术特征摘要】

1.一种情感表达的语音克隆方法,其特征在于,包括:

2.根据权利要求1所述的语音克隆方法,其特征在于,所述情感特征向量中的标量包括对应情感类型的语音信号的基频、语速和音色;

3.根据权利要求1所述的语音克隆方法,其特征在于,所述用户语音信号为由指向性角度范围为0-60度的指向性麦克风对处于目标方位的所述用户的语音进行采集得到的信号。

4.根据权利要求1所述的语音克隆方法,其特征在于,所述不同类型的声纹特征提取模型包括梅尔滤波器数量为20至40个的梅尔频率倒谱系数声纹特征提取模型。

5.根据权利要求1所述的语音克隆方法,其特征在于,所述声纹克隆模型为深度神经网络模型,所述深度神经网络模型的网络层数量为3至5层,每层所述网络层的神经元数量为100至300个。

<...

【专利技术属性】
技术研发人员:冯武刘华安于翠楠
申请(专利权)人:湖南博极生命科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1