语音合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37387631 阅读:33 留言:0更新日期:2023-04-27 07:27
本发明专利技术提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:获取待合成的文本,以及控制语音合成的目标情感强度;基于各预设情感档位的档位情感特征,确定所述目标情感强度下的全局情感特征;基于所述文本以及所述全局情感特征进行语音合成,克服了传统方案中合成语音缺乏情感或情感表达单一,缺失情感间的转变,以致合成语音的情感表达效果不佳的缺陷,通过全局情感特征控制语音合成,可以在情感空间上定位情感方向和情感强度,实现了合成语音在不同情感上的信息表达,以及在情感强度上的情感化表达,提升了合成语音的情感表现力,优化了表达效果。优化了表达效果。优化了表达效果。

【技术实现步骤摘要】
语音合成方法、装置、电子设备和存储介质


[0001]本专利技术涉及语音合成
,尤其涉及一种语音合成方法、装置、电子设备和存储介质。

技术介绍

[0002]语音合成是指将输入的文本转换成语音输出的过程,其广泛应用于智能助手、音箱、车载以及小说阅读等场景。
[0003]目前,语音合成多采用端到端的语音合成声学模型,例如,自回归的Transformer、Tacotron等,此类模型以文本为输入,通过编码器进行编码,接着通过解码器解码以得到声学特征,从而合成语音。
[0004]但是,此类模型均只能针对于训练数据集进行情感学习,即仅能模拟训练数据集的情感风格,对于不含情感或者所含情感单一的训练数据集,模型学习到的情感有限,简而言之,目前的合成语音多缺乏情感或情感表达单一,缺失情感间的变换,即合成语音的情感表现力不足,情感表达效果不佳。

技术实现思路

[0005]本专利技术提供一种语音合成方法、装置、电子设备和存储介质,用以解决现有技术中合成语音缺乏情感或情感表达单一,缺失情感间的转变,以致合成语音的情感表达效果不佳的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取待合成的文本,以及控制语音合成的目标情感强度;基于各预设情感档位的档位情感特征,确定所述目标情感强度下的全局情感特征;基于所述文本以及所述全局情感特征进行语音合成。2.根据权利要求1所述的语音合成方法,其特征在于,所述基于各预设情感档位的档位情感特征,确定所述目标情感强度下的全局情感特征,包括:确定控制语音合成的目标情感类型,并获取所述目标情感类型下的各预设情感档位;基于各预设情感档位的档位情感特征,确定所述目标情感强度下的全局情感特征。3.根据权利要求1或2所述的语音合成方法,其特征在于,所述基于各预设情感档位的档位情感特征,确定所述目标情感强度下的全局情感特征,包括:基于所述各预设情感档位的方向矢量,确定从预设情感档位调整至所述目标情感强度的调控方向矢量;基于所述调控方向矢量,以及所述各预设情感档位的档位情感特征,确定所述目标情感强度下的全局情感特征。4.根据权利要求1所述的语音合成方法,其特征在于,所述基于所述文本以及所述全局情感特征进行语音合成,包括:基于所述文本以及所述全局情感特征,确定所述文本中每个单元的局部情感特征;基于所述全局情感特征,以及所述文本中每个单元的局部情感特征,对所述文本进行语音合成。5.根据权利要求4所述的语音合成方法,其特征在于,所述基于所述文本以及所述全局情感特征,确定所述文本中每个单元的局部情感特征,包括:基于预设映射关系,确定与所述文本中的每个单元、所述全局情感特征以及说话人对应的每个单元的局部情感特征;所述预设映射关系是基于样本语音中每个单元的局部情感特征,以及所述样本语音...

【专利技术属性】
技术研发人员:王瑾薇胡亚军方昕伍宏传
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1