说话人音高预测方法、装置、电子设备、存储介质制造方法及图纸

技术编号：42689061 阅读：23 留言：0更新日期：2024-09-10 12:37

本发明专利技术公开说话人音高预测方法、装置、电子设备、存储介质。方法包括：对每个说话人的每个音高分别进行归一化得到每个音高的个体归一化音高，将多个个体归一化音高输入文本转语音模型的编码器进行编码训练；对每个个体归一化音高进行全局归一化，将绝对归一化音高输入文本转语音模型的解码器进行解码音频特征训练；采用训练后的编码器预测待预测说话人的待转换文本的音高，由训练后的编码器和解码器基于音高合成出待转换文本的音频特征。本发明专利技术根据不同说话人分别进行归一化，保证不同说话人的音高分布相同，从而提高了编码器在预测音高时的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音相关，特别是一种说话人音高预测方法、装置、电子设备、存储介质。

技术介绍

1、文本转语音(text to speech，tts)为一种语音合成技术，用于将文本转化为语音。现有的tts技术中，通常将多个说话人训练一个tts模型，模型采用编码器(编码器)将输入文本进行编码成高维特征，并通过解码器(解码器)将编码器中的高维特征进行解码，生成音频特征。训练时会加入音高(pitch)特征来稳定生成的音高。预测时，编码器同样需要预测出pitch加入解码器解码器中。其中，pitch是指各种音调高低不同的声音，即音的高度，音的基本特征的一种。声音的本质是机械波，所以声速一定时，音的高低是由机械波的频率和波长决定的。频率高、波长短，则音"高"，反之，频率低、波长长，则音"低"。

2、现有的tts技术中，通常把pitch作为编码器的一个特征进行输入，保持合成出音频音高的准确性。但是不同说话人pitch范围通常不同，男女之间更是差距较大，需要进行归一化后加入模型中。归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无...

【技术保护点】

1.一种说话人音高预测方法，其特征在于，包括：

2.根据权利要求1所述的说话人音高预测方法，其特征在于，所述对每个说话人的音高进行归一化得到个体归一化音高，包括：

3.根据权利要求2所述的说话人音高预测方法，其特征在于，所述基于每个说话人的音高均值和音高方差，计算每个说话人的每个音高的个体归一化音高，包括：

4.根据权利要求1所述的说话人音高预测方法，其特征在于，所述对每个所述个体归一化音高进行全局归一化，得到每个所述个体归一化音高对应的绝对归一化音高，包括：

5.根据权利要求4所述的说话人音高预测方法，其特征在于，所述对每个所述个体归一化...

【技术特征摘要】

1.一种说话人音高预测方法，其特征在于，包括：

2.根据权利要求1所述的说话人音高预测方法，其特征在于，所述对每个说话人的音高进行归一化得到个体归一化音高，包括：

5.根据权利要求4所述的说话人音高预测方法，其特征在于，所述对每个所述个体归一化音高进行反归一化，然后再基于全局音高均值和全局...

【专利技术属性】
技术研发人员：张博闻，杨明祺，
申请(专利权)人：上海稀宇极智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人