语音合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号：36600920 阅读：13 留言：0更新日期：2023-02-04 18:15

本公开提供了一种语音合成方法、装置、电子设备和存储介质。本公开的一些实施例中，语音合成方法可以包括：获取第一文本和预定的音高控制数据；获取第一文本的第一声学特征；根据音高控制数据获得频谱长度与第一声学特征频的谱长度相同的韵律控制特征；将韵律控制特征与第一声学特征叠加以获得第二声学特征；利用第二声学特征合成第一文本的第二语音。本公开能够在实现灵活音高显示控制的同时，提高合成语音的音质。成语音的音质。成语音的音质。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、电子设备和存储介质

[0001]本公开涉及一种语音合成方法、装置、电子设备和存储介质。

技术介绍

[0002]随着语音合成技术的发展，在很多场景中需要根据用户需求或场景需求等调整音频的音高。目前，语音合成中的音高控制主要通过单独的参考编码器实现，该方式不仅需要单独训练复杂模型，精度较低，而且适用范围有限。此外，该方式还难以实现字级别的音高控制。

技术实现思路

[0003]为了解决上述技术问题中的至少一个，本公开提供了一种语音合成方法、装置、电子设备和存储介质。
[0004]本公开的第一方面提供了一种语音合成方法，包括：
[0005]获取第一文本和预定的音高控制数据；
[0006]获取所述第一文本的第一声学特征；
[0007]根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征；
[0008]将所述韵律控制特征与所述第一声学特征叠加以获得第二声学特征；
[0009]利用所述第二声学特征合成所述第一文本的第二语音。
[0010]本公开的一些实施方式中，所述音高控制数据包含预定音频位置及其对应的基频控制值；所述第二声学特征中对应所述预定音频位置的基频值由所述第一声学特征中对应所述预定音频位置的基频值与所述基频控制值决定。
[0011]本公开的一些实施方式中，所述根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征之前，还包括：根据预先获取的选定发音人的...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：获取第一文本和预定的音高控制数据；获取所述第一文本的第一声学特征；根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征；将所述韵律控制特征与所述第一声学特征叠加以获得第二声学特征；利用所述第二声学特征合成所述第一文本的第二语音。2.根据权利要求1所述的语音合成方法，其特征在于，所述音高控制数据包含预定音频位置及其对应的基频控制值；所述第二声学特征中对应所述预定音频位置的基频值由所述第一声学特征中对应所述预定音频位置的基频值与所述基频控制值决定。3.根据权利要求1所述的语音合成方法，其特征在于，所述根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征之前，还包括：根据预先获取的选定发音人的基频调节参数调整所述音高控制数据中的基频控制值。4.根据权利要求1所述的语音合成方法，其特征在于，所述根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征，包括：对所述音高控制数据执行插值运算，所述插值运算的结果为所述韵律控制特征。5.根据权利要求1所述的语音合成方法，其特征在于，所述根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征之前，还包括：利用所述第一声学特征合成所述第一文本的第一语音；所述根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征，包括：将所述第一文本和所述第一语音在时间维度上对齐，以获得字级别的音素持续时间信息；对所述音素持续时间信息与所述音高控制数据执行插值运算，所述插值运算的结果为所述韵律控制特征。6.根据权利要求1所述的语音合成方法，其特征在于，将所述韵律控制特征与所述第一声学特征叠加以获得第二声学特征之前，还包括：对所述第一声学特征执行解压缩处理；将所述韵律控制特征与所述第一声学特征叠加以获得第二声学特征之后，还包括...

【专利技术属性】
技术研发人员：杨喜鹏，高文玉，陈云琳，叶顺平，
申请(专利权)人：问问智能信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人