【技术实现步骤摘要】
本专利技术涉及语音处理,具体关于一种情感表达的语音克隆方法、装置、设备和介质。
技术介绍
1、在当今科技飞速发展的时代,语音交互技术已经广泛应用于各个领域,如智能客服、智能家居、有声读物、物联网设备等。声纹克隆技术作为语音处理领域的一个重要分支,能够模拟特定用户的声音,为用户带来更加个性化的体验。
2、然而,现有的声纹克隆技术往往只注重复制用户声音的基本特征。例如,公开号为cn114049873a的中国专利公开了种语音克隆方法,以降低克隆对象的音频数据量,以及提高语音克隆的处理效率和适用范围,该方法包括:接收文本和克隆对象的原始音频;确定原始音频对应的声纹特征;将所述文本和所述声纹特征声学模型,以得到对应的声学特征,并根据声学特征确定目标音频;其中,该声学模型包括:时长预测模块、韵律预测模块 和声学预测模块;在训练该声学模型的反向传播过程中,根据时长预测模块、韵律预测模块和声学预测模块对应的融合误差,对时长预测模块、所述韵律预测模块和声学预测模块的参数进行更新。再如,公开号为cn117373432a的中国专利公开了另一种语音
...【技术保护点】
1.一种情感表达的语音克隆方法,其特征在于,包括:
2.根据权利要求1所述的语音克隆方法,其特征在于,所述情感特征向量中的标量包括对应情感类型的语音信号的基频、语速和音色;
3.根据权利要求1所述的语音克隆方法,其特征在于,所述用户语音信号为由指向性角度范围为0-60度的指向性麦克风对处于目标方位的所述用户的语音进行采集得到的信号。
4.根据权利要求1所述的语音克隆方法,其特征在于,所述不同类型的声纹特征提取模型包括梅尔滤波器数量为20至40个的梅尔频率倒谱系数声纹特征提取模型。
5.根据权利要求1所述的语音克隆方法,其
...【技术特征摘要】
1.一种情感表达的语音克隆方法,其特征在于,包括:
2.根据权利要求1所述的语音克隆方法,其特征在于,所述情感特征向量中的标量包括对应情感类型的语音信号的基频、语速和音色;
3.根据权利要求1所述的语音克隆方法,其特征在于,所述用户语音信号为由指向性角度范围为0-60度的指向性麦克风对处于目标方位的所述用户的语音进行采集得到的信号。
4.根据权利要求1所述的语音克隆方法,其特征在于,所述不同类型的声纹特征提取模型包括梅尔滤波器数量为20至40个的梅尔频率倒谱系数声纹特征提取模型。
5.根据权利要求1所述的语音克隆方法,其特征在于,所述声纹克隆模型为深度神经网络模型,所述深度神经网络模型的网络层数量为3至5层,每层所述网络层的神经元数量为100至300个。
<...【专利技术属性】
技术研发人员:冯武,刘华安,于翠楠,
申请(专利权)人:湖南博极生命科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。