一种语音合成模型的训练方法、装置、电子设备及介质制造方法及图纸

技术编号:28041851 阅读:25 留言:0更新日期:2021-04-09 23:25
本发明专利技术公开了一种语音合成模型的训练方法、装置、电子设备及介质;所述方法包括:基于原始的语音合成数据集中的各个音频对应的文本,对原始的语音合成数据集进行压缩处理,得到压缩后的语音合成数据集;基于压缩后的语音合成数据集中的各个音频对语音合成模型进行训练。本申请实施例可以有效地加快语音合成模型的收敛速度,提高训练效率,在消耗同等算力资源的情况下,得到更好的效果。

【技术实现步骤摘要】
一种语音合成模型的训练方法、装置、电子设备及介质
本专利技术实施例涉及人工智能
,尤其涉及一种语音合成模型的训练方法、装置、电子设备及介质。
技术介绍
数据是决定模型效果的关键因素之一。在语音合成领域,基于传统统计学的模型需要的数据较少,有研究表明,一般单个说话人只需要数小时就能合成可理解的语音。当训练数据超过4-5小时,效果提升趋于饱和。而到了深度学习时代,基于神经网络的模型,依赖于海量的参数和强大的算力,合成语音质量的上限得到大幅提升,自然度与清晰度与真人几乎没有差别,但与此同时对数据量的需求也开始变得没有止境。谷歌研发的Parrotron是基于seq2seq框架的自回归语音转换模型,使用了约3万小时(约2400万个句子)的音频作为训练数据。然而这一代价并非普通企业和研究集构所能承受,因此也有不断有研究在探索仅用少量数据就取得好结果的方法。如基于GAN框架的模型,仅用少量数据就能合成很清晰的音频,但这一类模型的稳定度(发音是否正确,是否有噪声等)和自然度比seq2seq模型低很多,因此目前还未被工业界普遍采纳。在实现本本文档来自技高网...

【技术保护点】
1.一种语音合成模型的训练方法,其特征在于,所述方法包括:/n基于原始的语音合成数据集中的各个音频对应的文本,对所述原始的语音合成数据集进行压缩处理,得到压缩后的语音合成数据集;/n基于所述压缩后的语音合成数据集中的各个音频对语音合成模型进行训练。/n

【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,所述方法包括:
基于原始的语音合成数据集中的各个音频对应的文本,对所述原始的语音合成数据集进行压缩处理,得到压缩后的语音合成数据集;
基于所述压缩后的语音合成数据集中的各个音频对语音合成模型进行训练。


2.根据权利要求1所述的方法,其特征在于,所述基于原始的语音合成数据集中的各个音频对应的文本,对所述原始的语音合成数据集进行压缩处理,得到压缩后的语音合成数据集,包括:
在所述原始的语音合成数据集中提取出一个音频对应的文本作为当前文本;
对所述当前文本进行切割处理,得到所述当前文本所包含的至少一个分词;重复执行上述提取所述当前文本的操作,直到得到所述原始的语音合成数据集中的各个音频对应的文本所包含的至少一个分词;
基于所述原始的语音合成数据集中的各个音频对应的文本所包含的至少一个分词,对所述原始的语音合成数据集进行压缩处理,得到压缩后的语音合成数据集。


3.根据权利要求2所述的方法,其特征在于,所述基于所述原始的语音合成数据集中的各个音频对应的文本所包含的至少一个分词,对所述原始的语音合成数据集进行压缩处理,得到压缩后的语音合成数据集,包括:
基于所述原始的语音合成数据集中的各个音频对应的文本所包含的至少一个分词,统计所述原始的语音合成数据集中的各个音频对应的文本所包含的各个分词在所述原始的语音合成数据集中出现的次数;
根据所述原始的语音合成数据集中的各个音频对应的文本所包含的各个分词在所述原始的语音合成数据集中出现的次数,按照从小到大的顺序对所述原始的语音合成数据集中的全部音频对应的文本所包含的至少一个分词进行排序,得到所述原始的语音合成数据集中的全部音频对应的文本所包含的至少一个分词的排序结果;
根据所述原始的语音合成数据集中的全部音频对应的文本所包含的至少一个分词的排序结果,对所述原始的语音合成数据集进行压缩处理,得到压缩后的语音合成数据集。


4.根据权利要求3所述的方法,其特征在于,根据所述原始的语音合成数据集中的全部音频对应的文本所包含的至少一个分词的排序结果,对所述原始的语音合成数据集进行压缩处理,得到压缩后的语音合成数据集,包括:
根据所述原始的语音合成数据集中的全部音频对应的文本所包含的至少一个分词的排序结果,在所述原始的语音合成数据集中的全部音频对应的文本所包含的至少一个分词中提取出一个分词作为当前分词;
判断所述当前分词是否存在于目标句子列表中的任何一个句子中;若所述当前分词在存在于所述目标句子列表中的任何一个句子中,则将所述当前分词确定为当前冗余分词;
在所述原始的语音合成数据集中删除所述当前冗余分词所在的文本以及该文本对应的音频;重复执行上述提取所述当前分词的操作,直到在所述原始的语音合成数据集中删除各个冗余分词所在的文本以及该文本对应的音频。


5.根据权利要求2所述的方法,其特征在于,在所述对所述当前文本进行切割处理之前,所述方法还包括:
将所述当前文本中的标点符号转换成空格;将所述当前文本中的数字符号和特殊符号转换为文本;基于转换后的当前文本执行所述对所述当前文本进行切割处理的操作。


6.一种语音合成模型的训练装置,其特征在于,所述装置包...

【专利技术属性】
技术研发人员:赵之源黄东延
申请(专利权)人:深圳市优必选科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1