【技术实现步骤摘要】
语音合成方法、神经网络模型训练方法、和语音合成模型
[0001]本申请实施例涉及神经网络
,尤其涉及一种语音合成方法、神经网络模型训练方法、和语音合成模型。
技术介绍
[0002]目前基于神经网络的端到端模型不断进步,语音合成模型的建模能力不断提高,使得合成语音的时间更短、速度更快,效果也更加鲁棒,合成的语音也越来越偏向自然发音,但是现有的语音合成模型需要庞大的数据库和大量的计算资源;另一方面,在日常生活中,受地理影响,带有重口音的方言使用范围十分广泛,但现有的语音合成模型难以合成带有口音的语音音频。
技术实现思路
[0003]有鉴于此,本申请实施例提供一种语音合成方案,以至少部分解决上述问题。
[0004]根据本申请实施例的第一方面,提供了一种语音合成方法,包括:获取待合成文本的音素向量;从所述音素向量中预测出各音素对应的语音特征和语音后验图,所述语音后验图中携带有口音信息;根据所述语音特征和所述语音后验图,生成语音频谱;基于所述语音频谱输出与所述待合成文本对应的目标语音,所述目标语音的口音与 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成方法,包括:获取待合成文本的音素向量;从所述音素向量中预测出各音素对应的语音特征和语音后验图,所述语音后验图中携带有口音信息;根据所述语音特征和所述语音后验图,生成语音频谱;基于所述语音频谱输出与所述待合成文本对应的目标语音,所述目标语音的口音与所述口音信息匹配。2.根据权利要求1所述的方法,其中,所述语音特征包括各音素对应的基频和各音素对应的能量信息,所述从所述音素向量中预测出各音素对应的语音特征和语音后验图,包括:基于所述音素向量构建输入数据;将所述输入数据输入训练的语音合成模型的编码器中,并获得所述编码器输出的各音素对应的基频和所述能量信息,作为所述语音特征;获得所述编码器输出的携带有口音信息的语音后验图。3.根据权利要求2所述的方法,其中,所述根据所述语音特征和所述语音后验图,生成语音频谱,包括:获取说话人向量,所述说话人向量中携带有说话人的音色信息;将所述语音特征、所述语音后验图和所述说话人向量输入到所述语音合成模型的解码器中,并获得所述解码器输出的梅尔频谱作为所述语音频谱。4.根据权利要求1所述的方法,其中,所述基于所述语音频谱输出与所述待合成文本对应的目标语音,包括:将所述语音频谱输入到声码器中,获得所述声码器输出的多个语音帧作为所述待合成文本对应的目标语音。5.一种语音合成模型,包括编码器、解码器和声码器,所述编码器用于从待合成文本的音素向量中预测出语音特征和语音后验图,所述语音后验图中携带有口音信息,所述解码器用于基于所述语音特征和所述语音后验图,确定语音频谱,所述声码器用于根据所述语音频谱生成所述待合成文本对应的目标语音,所述目标语音的口音与所述语音后验图中的口音信息匹配。6.根据权利要求5所述的语音合成模型,其中,所述编码器包括多个编码模块和方差适配器,所述编码模块用于从待合成文本的音素向量中提取上下文信息,所述方差适配器用于基于所述编码模块的输出数据预测所述语音特征和所述语音后验图。7.根据权利要求5所述的语音合成模型,其中,所述解码器包括多个解码模块,所述解码模块用于基于输入的语音特征、语音后验图和预设的说话人向量,生成语音频谱。8.一种神经网络模型训练方法,所述方法用于训练权利要求5或6所述的语音合成模型,所述方法包括:使用第一口音对应的音频样本对所述语音...
【专利技术属性】
技术研发人员:柴萌鑫,林羽钦,黄智颖,
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。