语音生成方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:30227813 阅读:59 留言:0更新日期:2021-09-29 09:55
本公开提供了语音生成方法、装置、电子设备以及存储介质,涉及计算机技术领域,尤其涉及深度学习、语音技术等人工智能技术领域。具体实现方案为:获取原发音人的语音信息;对所述语音信息进行文本特征提取,以得到所述语音信息对应的文本特征;将所述文本特征转换为目标发音人对应的声学特征;根据所述声学特征,生成目标语音信号。实现了将原发音人的语音信息转换为对应音色与目标发音人一致的目标语音信号,从而在利用目标语音信号驱动虚拟数字人时,能够避免虚拟数字人的形象和语音不一致的情况出现。的情况出现。的情况出现。

【技术实现步骤摘要】
语音生成方法、装置、电子设备以及存储介质


[0001]本公开涉及计算机
,特别涉及深度学习、语音技术等人工智能
,尤其涉及语音生成方法、装置、电子设备以及存储介质。

技术介绍

[0002]随着人工智能与媒体行业、客服行业的深度融合,越来越多的虚拟数字人出现在媒体、客服岗位中。目前的虚拟数字人是通过语音驱动的,即通过语音驱动虚拟数字人进行唇部、面部表情变化和各种肢体动作。
[0003]但相关技术中,通常是直接通过发音人的原始语音去驱动虚拟数字人,比如在客服场景中,直接通过真人客服的语音驱动虚拟数字人,由于虚拟数字人的语音音色和真人客服的语音的音色相同,从而可能出现虚拟数字人的形象和语音不一致的情况。

技术实现思路

[0004]本公开提供了一种语音生成方法、装置、电子设备以及存储介质。
[0005]根据本公开的一方面,提供了一种语音生成方法,包括:获取原发音人的语音信息;对所述语音信息进行文本特征提取,以得到所述语音信息对应的文本特征;将所述文本特征转换为目标发音人对应的声学特征;根据所述声学特征,生成目标语音信号。
[0006]根据本公开的另一方面,提供了一种语音生成装置,包括:第一获取模块,用于获取原发音人的语音信息;提取模块,用于对所述语音信息进行文本特征提取,以得到所述语音信息对应的文本特征;转换模块,用于将所述文本特征转换为目标发音人对应的声学特征;生成模块,用于根据所述声学特征,生成目标语音信号。
[0007]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的语音生成方法。
[0008]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的语音生成方法。
[0009]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据如上所述的语音生成方法。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开第一实施例的语音生成方法的流程示意图;
[0013]图2是根据本公开第二实施例的语音生成方法的流程示意图;
[0014]图3是根据本公开第二实施例的语音生成方法的另一流程示意图;
[0015]图4是根据本公开第三实施例的语音生成方法的流程示意图;
[0016]图5是根据本公开第四实施例的语音生成装置的结构示意图;
[0017]图6是根据本公开第五实施例的语音生成装置的结构示意图;
[0018]图7是用来实现本公开实施例的语音生成方法的电子设备的框图。
具体实施方式
[0019]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0020]需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
[0021]可以理解的是,相关技术中,通常是直接通过发音人的原始语音去驱动虚拟数字人,比如在客服场景中,直接通过真人客服的语音驱动虚拟数字人,由于虚拟数字人的语音音色和真人客服的语音的音色相同,从而可能出现虚拟数字人的形象和语音不一致的情况。比如,假设虚拟数字人为女性的形象,在通过男性的发音人的语音驱动虚拟数字人时,虚拟数字人的语音则为男性的声音,这与虚拟数字人的形象不一致。
[0022]本公开针对上述问题,提出一种语音生成方法,该语音生成方法,在获取原发音人的语音信息后,对语音信息进行文本特征提取,以得到语音信息对应的文本特征,再将文本特征转换为目标发音人对应的声学特征,进而根据声学特征,生成目标语音信号,由此,实现了将原发音人的语音信息转换为对应音色与目标发音人一致的目标语音信号,从而在利用目标语音信号驱动虚拟数字人时,能够避免虚拟数字人的形象和语音不一致的情况出现。
[0023]下面参考附图描述本公开实施例的语音生成方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品。
[0024]首先结合图1,对本公开提供的语音生成方法进行详细描述。
[0025]图1是根据本公开第一实施例的语音生成方法的流程示意图。其中,需要说明的是,本公开实施例提供的语音生成方法,执行主体为语音生成装置。该语音生成装置可以为电子设备,也可以被配置在电子设备中,以实现将原发音人的语音信息转换为与目标发音人的音色一致的目标语音信号。本公开实施例以语音生成装置被配置在电子设备中为例进行说明。
[0026]其中,电子设备,可以是任意能够进行数据处理的静止或者移动计算设备,例如笔记本电脑、智能手机、可穿戴设备等移动计算设备,或者台式计算机等静止的计算设备,或者服务器,或者其它类型的计算设备等,本公开对此不作限制。
[0027]如图1所示,语音生成方法,可以包括以下步骤:
[0028]步骤101,获取原发音人的语音信息。
[0029]其中,原发音人,可以为任意发音人。
[0030]需要说明的是,本公开实施例中的语音生成装置可以通过各种公开、合法合规的
方式获取原发音人的语音信息,例如语音生成装置可以在经过原发音人授权后,在原发音人讲话时实时采集原发音人的语音信息,或者也可以在经过原发音人授权后从其它装置获取原发音人的录音信息,或者也可以通过其它合法合规的方式获取原发音人的语音信息,本公开对此不作限制。
[0031]以客服场景中通过真人客服的语音驱动虚拟数字人为例,真人客服即为原发音人,在经过真人客服授权后,语音生成装置可以在真人客服讲话时,实时采集真人客服的语音,从而可以获取到原发音人的语音信息。
[0032]步骤102,对语音信息进行文本特征提取,以得到语音信息对应的文本特征。
[0033]其中,文本特征,为语音信息中与文本相关的特征,文本特征能够表征语音信息的语音文本内容。
[0034]在示例性实施例中,文本特征,可以为后验概率图特征(Phonetic PosteriorGrams,PPG),其中,后验概率图特征的物理含义为每个声学片段所属的语言学单元的概率分布,或者,文本特征也可以为因素序列等其它特征,本公开对此不作限制。
[0035]在示例性实施例中,可以预先训练得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音生成方法,包括:获取原发音人的语音信息;对所述语音信息进行文本特征提取,以得到所述语音信息对应的文本特征;将所述文本特征转换为目标发音人对应的声学特征;根据所述声学特征,生成目标语音信号。2.根据权利要求1所述的方法,其中,所述将所述文本特征转换为目标发音人对应的声学特征,包括:将所述文本特征和所述目标发音人的标签输入经过训练的特征转换模型,以得到所述目标发音人对应的声学特征。3.根据权利要求2所述的方法,其中,所述将所述文本特征和所述目标发音人的标签输入经过训练的特征转换模型之前,还包括:获取训练数据,其中,所述训练数据中包括多个样本发音人的标签,以及从各所述样本发音人对应的样本语音信息中提取出的样本文本特征,所述训练数据采用所述样本语音信息的样本声学特征进行标注;获取初始特征转换模型;将所述样本发音人的标签以及所述样本发音人对应的样本语音信息中提取出的样本文本特征,输入所述初始特征转换模型,以得到所述样本发音人对应的所述样本语音信息的预测声学特征;根据所述样本发音人对应的所述样本语音信息的预测声学特征与所述样本语音信息的样本声学特征之间的差异,对所述初始特征转换模型的模型参数进行调整,以得到经过训练的所述特征转换模型。4.根据权利要求3所述的方法,其中,所述目标发音人对应的标签为所述训练数据中任一样本发音人对应的标签。5.根据权利要求1

4任一项所述的方法,其中,所述对所述语音信息进行文本特征提取,以得到所述语音信息对应的文本特征,包括:对所述语音信息进行语音识别;获取对所述语音信息进行语音识别的过程中的中间结果;将所述中间结果作为所述文本特征。6.根据权利要求1

4任一项所述的方法,其中,所述根据所述声学特征,生成目标语音信号,包括:将所述声学特征输入语音合成系统中的声码器模块;将所述声码器模块输出的至少一个频率的语音波形数据作为所述目标语音信号。7.根据权利要求1

4任一项所述的方法,其中,所述获取原发音人的语音信息之前,还包括:确定发音人从第一发音人切换至所述原发音人;将所述第一发音人确定为所述目标发音人。8.根据权利要求7所述的方法,其中,所述根据所述声学特征,生成目标语音信号之后,还包括:利用所述目标语音信号,驱动虚拟数字人进行唇部的动作、面部表情的变化以及肢体
的动作中的至少一个并发声。9.一种语音生成装置,包括:第一获取模块,用于获取原发音人的语音信息;提取模块,用于对所述语音信息进行文本特征提取,以得到所述语音信息对应的文本特征;转换模块,用于将所述文本特征转换为目标发音人对应的声学特征;生成模块,用于根据所述声学特征,生成目标语音信号。10.根据权利要求9所述的装置,其中,所述转换...

【专利技术属性】
技术研发人员:康永国王俊超
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1