语音合成、情绪迁移、交互方法、存储介质、程序产品技术

技术编号：34476620 阅读：30 留言：0更新日期：2022-08-10 08:51

本申请提供了一种语音合成、情绪迁移方法、存储介质、程序产品，语音生成方法，包括：根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到待合成语音文本对应的音素级别的韵律信息；将音素级别的韵律信息上采样至语音帧级别，得到待合成语音文本对应的语音帧特征；将目标说话人的音色特征融入语音帧特征，并根据融入音色特征后的语音帧特征，生成与待合成语音文本对应的、并且以目标情绪表达的目标说话人语音。本方案先根据和音色无关的音素序列以及情绪生成韵律信息，再将音色融入韵律信息，可以将音色和韵律进行解耦，保证了语音帧特征中的音色仅包括目标说话人的音色，并可以通过语音的韵律准确表达目标情绪，提高了合成的语音的质量。提高了合成的语音的质量。提高了合成的语音的质量。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成、情绪迁移、交互方法、存储介质、程序产品

[0001]本申请实施例涉及计算机
，尤其涉及一种语音合成、情绪迁移、交互方法、存储介质、程序产品。

技术介绍

[0002]向语音中增加情绪，并使得智能语音的情绪表现力更加细腻可控，是智能语音的重要发展方向，在自动语音聊天、自动朗读有声书、自动影视配音、自动游戏配音等多种领域有即为广泛的前景。
[0003]一般情况下，会根据录制的样本语音训练神经网络，使得神经网络可以自动生成具有目标说话人音色且表达特定情绪的语音，但合成的语音的质量较差。

技术实现思路

[0004]有鉴于此，本申请实施例提供一种语音合成、情绪迁移、交互方法、存储介质、程序产品，以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面，提供了一种语音生成方法，包括：根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息；将所述音素级别的韵律信息上采样至语音帧级别，得到所述待合成语音文本对应的语音帧特征；将目标说话人的...

【技术保护点】

【技术特征摘要】
1.一种语音生成方法，包括：根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息，其中，所述目标情绪包括目标情绪标签，或者包括目标情绪标签及目标情绪强度；将所述音素级别的韵律信息上采样至语音帧级别，得到所述待合成语音文本对应的语音帧特征；将目标说话人的音色特征融入所述语音帧特征，并根据融入音色特征后的语音帧特征，生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音。2.根据权利要求1所述的方法，其中，所述目标说话人的音色特征通过下述步骤得到：获得所述目标说话人的样本语音；通过音色编码器对所述样本语音进行音色特征提取，得到所述目标说话人的候选音色特征；对所述样本语音进行音素级别的韵律信息提取，得到样本韵律信息；将所述样本韵律信息上采样至语音帧级别，得到所述样本语音对应的语音帧特征；将所述目标说话人的候选音色特征融入所述样本语音对应的语音帧特征，并根据融入音色特征后的语音帧特征，生成得到样本语音对应的预测语音；根据所述样本语音和预测语音之间的差异，调整所述目标说话人的候选音色特征。3.根据权利要求2所述的方法，其中，所述音色编码器还包括：说话人特征提取模块和瓶颈层，所述目标说话人的音色特征还通过下述步骤得到：通过所述说话人特征提取模块对所述目标说话人的样本语音进行特征提取，得到所述目标说话人的特征向量；通过所述瓶颈层，过滤所述目标说话人的特征向量，得到所述目标说话人的音色特征。4.根据权利要求1所述的方法，其中，所述根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息，包括：确定所述目标情绪对应的情绪特征向量；通过音素编码器，对所述待合成语音文本对应的音素序列中的各个音素进行编码，得到音素向量序列；通过韵律预测器，根据所述情绪特征向量，对所述音素向量序列中的各个音素向量进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息；其中，所述音素编码器和所述韵律预测器通过下述方法训练：将样本语音输入至情绪分类器，通过所述情绪分类器对所述样本语音进行情绪分类，并输出所述样本语音对应的样本情绪标签，根据所述样本情绪标签得到对应的样本情绪特征向量；将所述样本语音对应的音素序列输入至所述音素编码器，通过所述音素编码器对所述样本语音对应的音素序列中的各个音素进行编码，得到样本音素向量序列；通过所述韵律预测器，根据所述样本情绪特征向量，对所述样本音素向量序列中的各个样本音素向量进行韵律预测，得到音素级别的预测韵律信息；对所述样本语音进行韵律信息提取得到音素级别的样本韵律信息；根据所述预测韵律信息和所述样本韵律信息之间的差异，调整所述情绪分类器、所述
音素编码器和所述韵律预测器。5.根据权利要求4所述的方法，其中，所述将样本语音输入至情绪分类器，通过所述情绪分类器对所述样本语音进行情绪分类，并输出所述样本语音对应的样本情绪标签，根据所述样本情绪标签得到对应的样本情绪特征向量，包括：将样本语音输入至所述情绪分类器；通过所述情绪分类器对所述样本语音进行情绪分类，并计算情绪分类结果对应的后验概率，根据所述后验概率确定样本情绪强度，所述样本情绪强度用于表征所述样本语音表达的样本情绪的强度；通过所述情绪分类器将所述情绪分类结果输出为所述样本语音的样本情绪标签，以及输出所述样本情绪的强度；根据所述样本情绪标签和所述样本情绪强度得到对应的样本情绪特征向量。6.根据权利要求5所述的方法，其中，所述确定所述目标情绪对应的情绪特征向量，包括：根据目标情绪标签，以及所述目标情...

【专利技术属性】
技术研发人员：张光琰，张文杰，石强，盖于涛，姜飞俊，
申请(专利权)人：浙江猫精人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人