语音合成模型产品制造技术

技术编号：35494812 阅读：18 留言：0更新日期：2022-11-05 16:52

本申请实施例提供了一种语音合成方法、神经网络模型训练方法、和语音合成模型产品。该音合成模型产品包括：编码器、解码器和声码器；编码器为基于训练完成的解码器完成训练的编码器，编码器用于从待合成文本的音素向量中预测出语音特征和语音后验图，语音后验图中携带有口音信息；解码器为训练完成的解码器，解码器用于基于语音特征和语音后验图，确定语音频谱，语音后验图用于指示每个音素对应的口音，以及每个音素持续的时长，解码器的训练先于所述编码器的训练；声码器为训练完成的声码器，声码器用于根据所述语音频谱生成待合成文本对应的目标语音，目标语音的口音与语音后验图中的口音信息匹配。中的口音信息匹配。中的口音信息匹配。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成模型产品
[0001]本申请是申请日为2022年4月12日、申请号为202210377265.8、专利技术名称为“语音合成方法、神经网络模型训练方法、和语音合成模型”的中国专利申请的分案申请。

[0002]本申请实施例涉及神经网络
，尤其涉及一种语音合成方法、神经网络模型训练方法、和语音合成模型产品。

技术介绍

[0003]目前基于神经网络的端到端模型不断进步，语音合成模型的建模能力不断提高，使得合成语音的时间更短、速度更快，效果也更加鲁棒，合成的语音也越来越偏向自然发音，但是现有的语音合成模型需要庞大的数据库和大量的计算资源；另一方面，在日常生活中，受地理影响，带有重口音的方言使用范围十分广泛，但现有的语音合成模型难以合成带有口音的语音音频。

技术实现思路

[0004]有鉴于此，本申请实施例提供一种语音合成方案，以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面，提供了一种语音合成方法，包括：获取待合成文本的音素向量；从所述音素向量中预测出各音素对应的语音特征和语音后验图，所述语音后验图中携带有口音信息；根据所述语音特征和所述语音后验图，生成语音频谱；基于所述语音频谱输出与所述待合成文本对应的目标语音，所述目标语音的口音与所述口音信息匹配。
[0006]根据本申请实施例的第二方面，提供了一种语音合成模型产品，包括编码器、解码器和声码器，所述编码器用于从待合成文本的音素向量中预测出语音特征和语音后验图，所述语音后验图中携带有口音信息，所述解码器用于基...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型产品，包括编码器、解码器和声码器；所述编码器为基于训练完成的所述解码器完成训练的编码器，所述编码器用于从待合成文本的音素向量中预测出语音特征和语音后验图，所述语音后验图中携带有口音信息；所述解码器为训练完成的解码器，所述解码器用于基于所述语音特征和所述语音后验图，确定语音频谱，所述语音后验图用于指示每个音素对应的口音，以及每个音素持续的时长，所述解码器的训练先于所述编码器的训练；所述声码器为训练完成的声码器，所述声码器用于根据所述语音频谱生成所述待合成文本对应的目标语音，所述目标语音的口音与所述语音后验图中的口音信息匹配。2.根据权利要求1所述的语音合成模型产品，其中，所述解码器通过以下方式先进行训练：从第一口音对应的音频样本中提取出语音特征和语音后验图；获取说话人向量；将所述语音特征、所述语音后验图和所述说话人向量输入所述解码器，获取所述解码器输出的语音频谱；使用所述声码器基于所述语音频谱生成目标语音；根据所述目标语音和所述音频样本，对所述说话人向量进行调整，并以调整后的说话人向量作为新的说话人向量，返回将所述语音特征、所述语音后验图和所述说话人向量输入所述解码器继续执行，直至满足第一终止条件，以获得训练的解码器和说话人向量；所述编码器通过以下方式基于训练完成的解码器进行训练：获取所述第一口音的音频样本对应的文本样本的音素向量样本；将所述音素向量样本输入所述编码器内，并获得所述编码器输出的语音特征和语音后验图；将所述语音特征、所述语音后验图和训练的说话人向量输入训练的解码器，以获得训练的解码器输出的语音频谱；使用所述声码器基于所述语音频谱生成目标语音；根据所述目标语音和所述音频样本，对所述...

【专利技术属性】
技术研发人员：柴萌鑫，林羽钦，黄智颖，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人