【技术实现步骤摘要】
一种语音合成方法、装置、电子设备及存储介质
[0001]本公开涉及语音处理
,尤其涉及一种语音合成方法、装置、电子设备及存储介质。
技术介绍
[0002]目前,语音合成技术获得了飞速发展,尤其是可以将任意文字转换成语音信号的文语转换系统(TextToSpeech,TTS),其输出语音的音质已经基本接近真人的发音,在人机对话、远程语音信息服务、机器阅读、电信、娱乐等方面得到了广泛的应用。
[0003]但是,TTS系统输出的语音与真人发音相比,缺乏语气和语速等语音表现力。因此,为合成语音赋予更多语音表现力因素,以提高合成语音的自然度是一直追求的目标。
技术实现思路
[0004]本公开提供了一种语音合成方法、装置、电子设备及存储介质,以至少解决现有技术中存在的以上技术问题。
[0005]根据本公开的第一方面,提供了一种语音合成方法,所述方法包括:确定用于语音合成的原始语料;从所述原始语料中提取文本对话表现力,所述文本对话表现力包括对话意向和对话风格;基于所述文本对话表现力确定文本对话风格特征; ...
【技术保护点】
【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:确定用于语音合成的原始语料;从所述原始语料中提取文本对话表现力,所述文本对话表现力包括对话意向和对话风格;基于所述文本对话表现力确定文本对话风格特征;将所述文本对话风格特征输入至语音合成模型,基于所述语音合成模型输出的梅尔频谱,确定所述原始语料对应的对话语音。2.根据权利要求1所述的方法,其特征在于,所述确定用于语音合成的原始语料,包括:获取用于语音合成的文本信息;将所述文本信息中的对话和旁白分离,得到文本对话信息和旁白文本信息;确定所述文本对话信息和旁白文本信息为所述原始语料。3.根据权利要求1所述的方法,其特征在于,从所述原始语料中提取文本对话表现力,包括:将所述原始语料中的文本信息映射到词向量空间,得到所述原始语料对应的词向量信息;拟合所述词向量信息,得到拟合结果;基于条件随机场模型从所述拟合结果中提取所述文本对话表现力。4.根据权利要求1所述的方法,其特征在于,所述基于所述文本对话表现力确定文本对话风格特征,包括:基于所述原始语料对应的参考语音,确定参考对话风格特征;将所述文本对话表现力输入至对话特征训练模型,得到所述对话特征训练模型输出的文本对话风格特征;基于所述参考对话风格特征和所述文本对话风格特征之间的差异,调整所述对话特征训练模型的参数。5.根据权利要求4所述的方法,其特征在于,所述将所述文本对话表现力输入至对话特征训练模型,得到所述对话特征训练模型输出的文本对话风格特征,包括:将所述文本对话表现力映射到句向量空间,得到所述文本对话表现力对应的句向量信息;基于所述句向量信息,确定文本对话风格特征。6.根据权利要求1所述的方法,其特征在于,所述将所述文本对话风格特征输入至语音合成模型,基于所述语音合成模型输出的梅尔频谱,确定所述原始语料对应的对话语音,包括:将所述原始语料对应...
【专利技术属性】
技术研发人员:冯小琴,迟文江,陈云琳,叶顺平,
申请(专利权)人:出门问问信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。