语音合成、情绪迁移、交互方法、存储介质、程序产品技术

技术编号:34476620 阅读:10 留言:0更新日期:2022-08-10 08:51
本申请提供了一种语音合成、情绪迁移方法、存储介质、程序产品,语音生成方法,包括:根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成,得到待合成语音文本对应的音素级别的韵律信息;将音素级别的韵律信息上采样至语音帧级别,得到待合成语音文本对应的语音帧特征;将目标说话人的音色特征融入语音帧特征,并根据融入音色特征后的语音帧特征,生成与待合成语音文本对应的、并且以目标情绪表达的目标说话人语音。本方案先根据和音色无关的音素序列以及情绪生成韵律信息,再将音色融入韵律信息,可以将音色和韵律进行解耦,保证了语音帧特征中的音色仅包括目标说话人的音色,并可以通过语音的韵律准确表达目标情绪,提高了合成的语音的质量。提高了合成的语音的质量。提高了合成的语音的质量。

【技术实现步骤摘要】
语音合成、情绪迁移、交互方法、存储介质、程序产品


[0001]本申请实施例涉及计算机
,尤其涉及一种语音合成、情绪迁移、交互方法、存储介质、程序产品。

技术介绍

[0002]向语音中增加情绪,并使得智能语音的情绪表现力更加细腻可控,是智能语音的重要发展方向,在自动语音聊天、自动朗读有声书、自动影视配音、自动游戏配音等多种领域有即为广泛的前景。
[0003]一般情况下,会根据录制的样本语音训练神经网络,使得神经网络可以自动生成具有目标说话人音色且表达特定情绪的语音,但合成的语音的质量较差。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种语音合成、情绪迁移、交互方法、存储介质、程序产品,以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面,提供了一种语音生成方法,包括:根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成,得到所述待合成语音文本对应的音素级别的韵律信息;将所述音素级别的韵律信息上采样至语音帧级别,得到所述待合成语音文本对应的语音帧特征;将目标说话人的音色特征融入所述语音帧特征,并根据融入音色特征后的语音帧特征,生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音。
[0006]根据本申请实施例的第二方面,提供了一种情绪迁移方法,包括:通过韵律预测器,根据待迁移情绪特征以及待合成语音文本对应的音素序列进行韵律预测,得到所述待合成语音文本对应的音素级别的韵律信息,其中,所述韵律预测器通过具有待迁移情绪的第一样本语音训练得到;将所述音素级别的韵律信息上采样至语音帧级别,得到所述待合成语音文本对应的语音帧特征;将目标说话人的音色特征融入所述语音帧特征,其中,所述目标说话人的音色特征通过所述目标说话人的第二样本语音提取得到;根据融入音色特征后的语音帧特征,生成与所述待合成语音文本对应的、并且以所述待迁移情绪特征对应的待迁移情绪表达的目标说话人语音。
[0007]根据本申请实施例的第三方面,提供了一种韵律预测器的训练方法,包括:将样本语音输入至情绪分类器;通过所述情绪分类器对所述样本语音进行情绪分类,并计算情绪分类结果对应的后验概率,根据所述后验概率确定情绪强度,所述情绪强度用于表征所述样本语音所表达的情绪的强度;通过所述情绪分类器将所述情绪分类结果输出为所述样本语音的情绪标签,以及输出所述样本情绪的强度;根据所述样本语音及其对应的所述情绪标签和所述情绪强度训练韵律预测器,所述韵律预测器用于根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成,得到所述待合成语音文本对应的音素级别的韵律信息。
[0008]根据本申请实施例的第四方面,提供了一种语音交互方法,包括:获得用户输入的交互内容,以及确定所述用户对应的目标说话人;根据所述交互内容,确定向用户输出的待合成语音文本及目标情绪;通过如上述第一方面所述的方法,生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音;响应于所述用户的输入操作,向所述用户输出所述目标说话人语音。
[0009]根据本申请实施例的第五方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的方法。
[0010]根据本申请实施例的第六方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如上所述的方法对应的操作。
[0011]根据本申请实施例提供的方案,通过根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成,得到所述待合成语音文本对应的音素级别的韵律信息,由于韵律生成过程依赖的是目标情绪和待合成语音文本对应的音素序列,由此,可以保证生成的音素级别的韵律信息中不包括源说话人的音色,进而避免源合成的语音中包括说话人的音色;将所述音素级别的韵律信息上采样至语音帧级别,得到所述待合成语音文本对应的语音帧特征,可以便于将目标说话人的音色特征融入所述语音帧特征,之后根据融入音色特征后的语音帧特征,即可生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音,且先根据和音色无关的音素序列以及情绪生成韵律信息,再将音色融入韵律信息,可以将音色和韵律进行解耦,保证了语音帧特征中的音色仅包括目标说话人的音色,并可以通过语音的韵律准确表达目标情绪,提高了合成的语音的质量。
附图说明
[0012]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0013]图1A为本申请实施例提供的一种语音合成方法的步骤流程图;
[0014]图1B为本申请实施例提供的一种使用场景示意图;
[0015]图2A为本申请实施例提供的一种语音合成模型的结构示意图;
[0016]图2B为本申请实施例提供的一种语音合成方法的流程示意图;
[0017]图3A为本申请实施例提供的一种训练阶段的语音合成模型的结构示意图;
[0018]图3B为本申请实施例提供的一种训练方法的流程示意图;
[0019]图4A为本申请实施例提供的一种确定目标说话人的音色特征的流程示意图;;
[0020]图4B为本申请实施例提供的一种音色编码器的结构框图;
[0021]图5A为本申请实施例提供的一种对样本语音进行情绪分类的方法流程图;
[0022]图5B为本申请实施例提供的一种情绪分类器的结构示意图;
[0023]图6为本申请实施例提供的一种情绪迁移的确定方法的流程示意图;
[0024]图7为本申请实施例提供的一种训练韵律预测器的训练方法的步骤流程图;
[0025]图8为本申请实施例提供的一种语音交互方法的步骤流程图;
[0026]图9为根据本申请实施例的一种电子设备的结构示意图。
具体实施方式
[0027]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0028]为了更加详细地说明本实施例提供的方案,下面先对本申请的使用场景进行示例性说明。
[0029]在自动语音聊天、自动朗读有声书、自动影视配音、自动游戏配音等多种领域都有合成语音的需求,且希望合成的语音都具备目标说话人的音色。例如,在自动语音聊天领域,希望合成的语音具有用户指定的聊天人的音色;在自动朗读有声书领域,希望合成的语音有特定的朗读者的音色;在自动影视配音、自动游戏配音领域,希望合成的语音具有特定角色的音色。
[0030]在此基础上,进行语音合成时,期望将其他人(后续称为源说话人)的语音中携带的情绪迁移到目标说话人本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音生成方法,包括:根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成,得到所述待合成语音文本对应的音素级别的韵律信息,其中,所述目标情绪包括目标情绪标签,或者包括目标情绪标签及目标情绪强度;将所述音素级别的韵律信息上采样至语音帧级别,得到所述待合成语音文本对应的语音帧特征;将目标说话人的音色特征融入所述语音帧特征,并根据融入音色特征后的语音帧特征,生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音。2.根据权利要求1所述的方法,其中,所述目标说话人的音色特征通过下述步骤得到:获得所述目标说话人的样本语音;通过音色编码器对所述样本语音进行音色特征提取,得到所述目标说话人的候选音色特征;对所述样本语音进行音素级别的韵律信息提取,得到样本韵律信息;将所述样本韵律信息上采样至语音帧级别,得到所述样本语音对应的语音帧特征;将所述目标说话人的候选音色特征融入所述样本语音对应的语音帧特征,并根据融入音色特征后的语音帧特征,生成得到样本语音对应的预测语音;根据所述样本语音和预测语音之间的差异,调整所述目标说话人的候选音色特征。3.根据权利要求2所述的方法,其中,所述音色编码器还包括:说话人特征提取模块和瓶颈层,所述目标说话人的音色特征还通过下述步骤得到:通过所述说话人特征提取模块对所述目标说话人的样本语音进行特征提取,得到所述目标说话人的特征向量;通过所述瓶颈层,过滤所述目标说话人的特征向量,得到所述目标说话人的音色特征。4.根据权利要求1所述的方法,其中,所述根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成,得到所述待合成语音文本对应的音素级别的韵律信息,包括:确定所述目标情绪对应的情绪特征向量;通过音素编码器,对所述待合成语音文本对应的音素序列中的各个音素进行编码,得到音素向量序列;通过韵律预测器,根据所述情绪特征向量,对所述音素向量序列中的各个音素向量进行韵律生成,得到所述待合成语音文本对应的音素级别的韵律信息;其中,所述音素编码器和所述韵律预测器通过下述方法训练:将样本语音输入至情绪分类器,通过所述情绪分类器对所述样本语音进行情绪分类,并输出所述样本语音对应的样本情绪标签,根据所述样本情绪标签得到对应的样本情绪特征向量;将所述样本语音对应的音素序列输入至所述音素编码器,通过所述音素编码器对所述样本语音对应的音素序列中的各个音素进行编码,得到样本音素向量序列;通过所述韵律预测器,根据所述样本情绪特征向量,对所述样本音素向量序列中的各个样本音素向量进行韵律预测,得到音素级别的预测韵律信息;对所述样本语音进行韵律信息提取得到音素级别的样本韵律信息;根据所述预测韵律信息和所述样本韵律信息之间的差异,调整所述情绪分类器、所述
音素编码器和所述韵律预测器。5.根据权利要求4所述的方法,其中,所述将样本语音输入至情绪分类器,通过所述情绪分类器对所述样本语音进行情绪分类,并输出所述样本语音对应的样本情绪标签,根据所述样本情绪标签得到对应的样本情绪特征向量,包括:将样本语音输入至所述情绪分类器;通过所述情绪分类器对所述样本语音进行情绪分类,并计算情绪分类结果对应的后验概率,根据所述后验概率确定样本情绪强度,所述样本情绪强度用于表征所述样本语音表达的样本情绪的强度;通过所述情绪分类器将所述情绪分类结果输出为所述样本语音的样本情绪标签,以及输出所述样本情绪的强度;根据所述样本情绪标签和所述样本情绪强度得到对应的样本情绪特征向量。6.根据权利要求5所述的方法,其中,所述确定所述目标情绪对应的情绪特征向量,包括:根据目标情绪标签,以及所述目标情...

【专利技术属性】
技术研发人员:张光琰张文杰石强盖于涛姜飞俊
申请(专利权)人:浙江猫精人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1