语音合成方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号：35696173 阅读：17 留言：0更新日期：2022-11-23 14:47

本申请提供了一种语音合成方法、装置、电子设备及计算机可读存储介质；所述方法包括：获取第一发音人针对第一文本的多种音频信息和第一发音人的标识，以及获取第二发音人针对第二文本的一种音频信息和第二发音人的标识；基于所述第一发音人的音频信息和所述第一发音人的标识、所述第二发音人的音频信息和所述第二发音人的标识，训练第一语音模型，学习重音特征以及声音特征；基于所述第二发音人的标识、待输出音频对应的文本和训练好的所述第一语音模型，确定目标输出音频。本申请提供的语音合成方法不仅高效实现了带有重音的语音合成，而且实现了重音的可控性，提升了语音合成的自然度及表现力。的自然度及表现力。的自然度及表现力。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、电子设备及计算机可读存储介质

[0001]本申请涉及语音合成
，尤其涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]目前，为了提高语音合成的自然度，提升语音合成的表现力，可以通过在合成的语音中添加一些重音来丰富情感表达的层次，突出语句的重点。
[0003]重音的特征表现在时长拉伸和音调加强。现有研究主要集中在时长建模方面，其中，长度调节器可以通过延长或者缩短音素持续时间来轻松确定语音速度，但是长度调节器在模型训练时，一般都有两个阶段的训练流程，除了主框架之外，还需要一个另外的模型来训练时长模型，训练过程较为繁琐，训练时间也比较长。而且目前的研究缺少对音调的建模。
[0004]因此，有必要根据时长和音调，进行高效且准确的重音可控语音合成。

技术实现思路

[0005]本申请实施例提供一种语音合成方法、装置、电子设备及计算机可读存储介质，不仅可以高效地将重音特征合成于语音中，而且可以实现对重音的可控性，提升语音的自然度和表现力。
[0006]本申请实施例的技术方案是这样实现的：
[0007]第一方面，本申请实施例提供一种语音合成方法，包括：
[0008]获取第一发音人针对第一文本的多种音频信息和第一发音人的标识，以及获取第二发音人针对第二文本的一种音频信息和第二发音人的标识；
[0009]基于所述第一发音人的音频信息和所述第一发音人的标识、所述第二发音人的音频信息和所述第二发音人的标识，训练第一语音模...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，所述方法包括：获取第一发音人针对第一文本的多种音频信息和第一发音人的标识，以及获取第二发音人针对第二文本的一种音频信息和第二发音人的标识；基于所述第一发音人的音频信息和所述第一发音人的标识、所述第二发音人的音频信息和所述第二发音人的标识，训练第一语音模型，学习重音特征以及声音特征；基于所述第二发音人的标识、待输出音频对应的文本和训练好的所述第一语音模型，确定目标输出音频。2.根据权利要求1所述的方法，其特征在于，所述获取第一发音人针对第一文本的多种音频信息和第一发音人的标识，包括：针对所述第一文本，录制所述第一发音人四种不同发音的音频信息；所述音频信息包括无重音的音频信息、音调加强的音频信息、时长拉伸的音频信息以及音调加强且时长拉伸的音频信息。3.根据权利要求1所述的方法，其特征在于，所述基于所述第一发音人的音频信息和所述第一发音人的标识、第二发音人的音频信息和所述第二发音人的标识，训练第一语音模型，学习重音特征以及声音特征，包括：对所述第一发音人的音频信息进行文字标注，得到所述第一发音人的带有重音的第一文本标注信息；基于所述第一文本标注信息、所述第一发音人的音频信息，训练所述第一语音模型，学习所述第一文本标注信息中的重音特征以及所述第一发音人的声音特征。4.根据权利要求1所述的方法，其特征在于，所述基于所述第一发音人的音频信息和所述第一发音人的标识、第二发音人的音频信息和所述第二发音人的标识，训练第一语音模型，学习重音特征以及声音特征，包括：将所述第二发音人的音频信息全部标注为不带重音的第二文本标注信息；基于所述第二文本标注信息、所述第二发音人的音频信息和所述第二发音人的标识，训练所述第一语音模型，学习所述第二发音人的声音特征。5.根据权利要求3所述的方法，其特征在于，所述对所述第一发音人的音频信息和所述第二发音人的音频信息进行文字标注，得到所述第一发音人的带有重音的第一文本标注信息，包括：所述第一文本标注信息中的文本标签包括无重音标签、音调加...

【专利技术属性】
技术研发人员：殷昊，梁婷，陈云琳，叶顺平，
申请(专利权)人：出门问问武汉信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人