语音合成、语音合成模型训练方法、装置及存储介质制造方法及图纸

技术编号:33135033 阅读:27 留言:0更新日期:2022-04-17 00:58
本发明专利技术提供了语音合成、语音合成模型训练方法、装置及存储介质,其中,语音合成方法包括:通过获取输入文本,将输入文本输入语音合成模型,利用语音合成模型中的分词子模型对输入文本进行分词得到词向量,并利用语音合成模型中的至少两个语音特征识别子模型分别对词向量进行语音特征识别,对应得到至少两组语音特征,根据至少两组语音特征将输入文本转化成音频输出。本发明专利技术所提供技术方案中的语音合成任务包括多个语音特征识别子任务,通过将语音合成任务中的多个语音特征识别任务进行合并,能够提升语音合成效率。能够提升语音合成效率。能够提升语音合成效率。

【技术实现步骤摘要】
语音合成、语音合成模型训练方法、装置及存储介质


[0001]本专利技术涉及计算机
,具体地说,涉及语音合成、语音合成模型训练方法、装置及存储介质。

技术介绍

[0002]语音合成可分为前端和后端处理两大部分,前端可以理解为将文本字符映射为音素等一些人工的语音学特征,后端将这些特征转化为原始波形输出,该原始波形输出即为音频。本专利技术实施例提出如何进行语音合成的问题。
[0003]需要说明的是,上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0004]针对现有技术中的问题,本专利技术的目的在于提供语音合成、语音合成模型训练方法、装置及存储介质,克服了现有技术的困难,能够提升语音合成的效率。
[0005]本专利技术的实施例提供一种语音合成方法,该语音合成方法包括:
[0006]获取输入文本;
[0007]将所述输入文本输入语音合成模型,利用所述语音合成模型中的分词子模型对所述输入文本进行分词得到词向量,并本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取输入文本;将所述输入文本输入语音合成模型,利用所述语音合成模型中的分词子模型对所述输入文本进行分词得到词向量,并利用所述语音合成模型中的至少两个语音特征识别子模型分别对所述词向量进行语音特征识别,对应得到至少两组语音特征;根据所述至少两组语音特征将所述输入文本转化成音频输出。2.根据权利要求1所述的语音合成方法,其特征在于,所述分词子模型是基于TinyBERT模型得到的。3.根据权利要求1所述的语音合成方法,其特征在于,所述至少两个语音特征识别子模型分别为韵律停顿识别子模型和多音字识别子模型,其中韵律停顿识别子模型输出的语音特征为韵律停顿位置识别结果,多音字识别子模型输出的语音特征为多音字识别结果。4.根据权利要求1所述的语音合成方法,其特征在于,所述获取输入文本,包括:获取原始文本;将所述原始文本进行正则化处理,得到所述输入文本。5.一种语音合成模型训练方法,其特征在于,包括:获取文本样本,所述文本样本带有对应至少两个语音特征识别任务的语音特征标注信息;将所述文本样本输入分词子模型,输出词向量,所述词向量携带所述至少两个语音特征识别任务的语音特征标注信息;将词向量输入分别对应至少两个语音特征识别任务的至少两个语音特征识别子模型,对应输出至少两组语音特征识别结果,并利用所述至少两组语音特征识别结果分别调整所述至少两个语音特征识别子模型的模型参数,直到所述至少两个语音特征识别子模型收敛;根据所述分词子模型和收敛的所述至少两个语音特征识别子模型构建得到语音合成模型。6.根据权利要求5所述的语音合成模型训练方法,其特征在于,获取文本样本,包括:获取原始文本样本;将所述原始文本样本的文本信息进行正则化处理,得到所述文本样本。7.根据权利要求5所述的语音合成模型训练方法,其特征在于,所述至少两个语音特征识别子模型分别为韵律停顿识别子模型和多音字识别子模型,所述至少两个语音特征识别任务的语音特征标注信息分别为对应所述韵律停顿识别子模型的韵律停顿位置信息,以及对应所述多音字识别子模型的多音字标注信息。8.根据权利要求7所述的语音合成模型训练方法,其特征在于,所述韵律停顿识别子模型包括至少两个串接的全连接,以及与所述至少两个串接的全连接层连接的条件随机场模块;在将词向量输入分别对应至少两个语音特征识别任务的至少两个语音特征识别子模型的情...

【专利技术属性】
技术研发人员:王俊杰周明康罗超邹宇
申请(专利权)人:携程旅游信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1