【技术实现步骤摘要】
语音生成方法、装置、电子设备以及存储介质
[0001]本公开涉及计算机
,特别涉及深度学习、语音技术等人工智能
,尤其涉及语音生成方法、装置、电子设备以及存储介质。
技术介绍
[0002]随着人工智能与媒体行业、客服行业的深度融合,越来越多的虚拟数字人出现在媒体、客服岗位中。目前的虚拟数字人是通过语音驱动的,即通过语音驱动虚拟数字人进行唇部、面部表情变化和各种肢体动作。
[0003]但相关技术中,通常是直接通过发音人的原始语音去驱动虚拟数字人,比如在客服场景中,直接通过真人客服的语音驱动虚拟数字人,由于虚拟数字人的语音音色和真人客服的语音的音色相同,从而可能出现虚拟数字人的形象和语音不一致的情况。
技术实现思路
[0004]本公开提供了一种语音生成方法、装置、电子设备以及存储介质。
[0005]根据本公开的一方面,提供了一种语音生成方法,包括:获取原发音人的语音信息;对所述语音信息进行文本特征提取,以得到所述语音信息对应的文本特征;将所述文本特征转换为目标发音人对应的声学特征;根据所述声学特征,生成目标语音信号。
[0006]根据本公开的另一方面,提供了一种语音生成装置,包括:第一获取模块,用于获取原发音人的语音信息;提取模块,用于对所述语音信息进行文本特征提取,以得到所述语音信息对应的文本特征;转换模块,用于将所述文本特征转换为目标发音人对应的声学特征;生成模块,用于根据所述声学特征,生成目标语音信号。
[0007]根据本公开的另一方面,提供了一种电子设备 ...
【技术保护点】
【技术特征摘要】
1.一种语音生成方法,包括:获取原发音人的语音信息;对所述语音信息进行文本特征提取,以得到所述语音信息对应的文本特征;将所述文本特征转换为目标发音人对应的声学特征;根据所述声学特征,生成目标语音信号。2.根据权利要求1所述的方法,其中,所述将所述文本特征转换为目标发音人对应的声学特征,包括:将所述文本特征和所述目标发音人的标签输入经过训练的特征转换模型,以得到所述目标发音人对应的声学特征。3.根据权利要求2所述的方法,其中,所述将所述文本特征和所述目标发音人的标签输入经过训练的特征转换模型之前,还包括:获取训练数据,其中,所述训练数据中包括多个样本发音人的标签,以及从各所述样本发音人对应的样本语音信息中提取出的样本文本特征,所述训练数据采用所述样本语音信息的样本声学特征进行标注;获取初始特征转换模型;将所述样本发音人的标签以及所述样本发音人对应的样本语音信息中提取出的样本文本特征,输入所述初始特征转换模型,以得到所述样本发音人对应的所述样本语音信息的预测声学特征;根据所述样本发音人对应的所述样本语音信息的预测声学特征与所述样本语音信息的样本声学特征之间的差异,对所述初始特征转换模型的模型参数进行调整,以得到经过训练的所述特征转换模型。4.根据权利要求3所述的方法,其中,所述目标发音人对应的标签为所述训练数据中任一样本发音人对应的标签。5.根据权利要求1
‑
4任一项所述的方法,其中,所述对所述语音信息进行文本特征提取,以得到所述语音信息对应的文本特征,包括:对所述语音信息进行语音识别;获取对所述语音信息进行语音识别的过程中的中间结果;将所述中间结果作为所述文本特征。6.根据权利要求1
‑
4任一项所述的方法,其中,所述根据所述声学特征,生成目标语音信号,包括:将所述声学特征输入语音合成系统中的声码器模块;将所述声码器模块输出的至少一个频率的语音波形数据作为所述目标语音信号。7.根据权利要求1
‑
4任一项所述的方法,其中,所述获取原发音人的语音信息之前,还包括:确定发音人从第一发音人切换至所述原发音人;将所述第一发音人确定为所述目标发音人。8.根据权利要求7所述的方法,其中,所述根据所述声学特征,生成目标语音信号之后,还包括:利用所述目标语音信号,驱动虚拟数字人进行唇部的动作、面部表情的变化以及肢体
的动作中的至少一个并发声。9.一种语音生成装置,包括:第一获取模块,用于获取原发音人的语音信息;提取模块,用于对所述语音信息进行文本特征提取,以得到所述语音信息对应的文本特征;转换模块,用于将所述文本特征转换为目标发音人对应的声学特征;生成模块,用于根据所述声学特征,生成目标语音信号。10.根据权利要求9所述的装置,其中,所述转换...
【专利技术属性】
技术研发人员:康永国,王俊超,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。