【技术实现步骤摘要】
本专利技术涉及语音相关,特别是一种说话人音高预测方法、装置、电子设备、存储介质。
技术介绍
1、文本转语音(text to speech,tts)为一种语音合成技术,用于将文本转化为语音。现有的tts技术中,通常将多个说话人训练一个tts模型,模型采用编码器(编码器)将输入文本进行编码成高维特征,并通过解码器(解码器)将编码器中的高维特征进行解码,生成音频特征。训练时会加入音高(pitch)特征来稳定生成的音高。预测时,编码器同样需要预测出pitch加入解码器解码器中。其中,pitch是指各种音调高低不同的声音,即音的高度,音的基本特征的一种。声音的本质是机械波,所以声速一定时,音的高低是由机械波的频率和波长决定的。频率高、波长短,则音"高",反之,频率低、波长长,则音"低"。
2、现有的tts技术中,通常把pitch作为编码器的一个特征进行输入,保持合成出音频音高的准确性。但是不同说话人pitch范围通常不同,男女之间更是差距较大,需要进行归一化后加入模型中。归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无
...【技术保护点】
1.一种说话人音高预测方法,其特征在于,包括:
2.根据权利要求1所述的说话人音高预测方法,其特征在于,所述对每个说话人的音高进行归一化得到个体归一化音高,包括:
3.根据权利要求2所述的说话人音高预测方法,其特征在于,所述基于每个说话人的音高均值和音高方差,计算每个说话人的每个音高的个体归一化音高,包括:
4.根据权利要求1所述的说话人音高预测方法,其特征在于,所述对每个所述个体归一化音高进行全局归一化,得到每个所述个体归一化音高对应的绝对归一化音高,包括:
5.根据权利要求4所述的说话人音高预测方法,其特征在于,所述
...【技术特征摘要】
1.一种说话人音高预测方法,其特征在于,包括:
2.根据权利要求1所述的说话人音高预测方法,其特征在于,所述对每个说话人的音高进行归一化得到个体归一化音高,包括:
3.根据权利要求2所述的说话人音高预测方法,其特征在于,所述基于每个说话人的音高均值和音高方差,计算每个说话人的每个音高的个体归一化音高,包括:
4.根据权利要求1所述的说话人音高预测方法,其特征在于,所述对每个所述个体归一化音高进行全局归一化,得到每个所述个体归一化音高对应的绝对归一化音高,包括:
5.根据权利要求4所述的说话人音高预测方法,其特征在于,所述对每个所述个体归一化音高进行反归一化,然后再基于全局音高均值和全局...
【专利技术属性】
技术研发人员:张博闻,杨明祺,
申请(专利权)人:上海稀宇极智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。