语音合成方法、模型训练方法及装置制造方法及图纸

技术编号:33461993 阅读:20 留言:0更新日期:2022-05-19 00:42
本公开提供了语音合成方法、模型训练方法及装置,涉及计算机技术领域,尤其涉及语音合成、语音转写技术领域。具体技术方案包括:获取待处理的文本、讲话风格标识和讲话者标识;基于文本进行特征提取,得到文本特征;基于文本和讲话风格标识进行特征提取,得到风格特征;基于讲话者标识进行特征提取,得到讲话者特征;基于文本特征、风格特征和讲话者特征得到合成音频。本公开的技术方案可满足多讲话者多风格的语音合成需求。风格的语音合成需求。风格的语音合成需求。

【技术实现步骤摘要】
语音合成方法、模型训练方法及装置


[0001]本公开涉及计算机
,尤其涉及语音合成、语音转写
,具体涉及一种语音合成方法、模型训练方法及装置。

技术介绍

[0002]语音合成(Text To Speech,TTS)技术可满足将文本转化成拟人化语音的需求,打通人机交互闭环。该技术广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景,提升人机交互体验,可提高语音类应用的构建效率。然而,目前的语音合成方案无法实现多讲话者多风格的语音合成。

技术实现思路

[0003]本公开提供了一种语音合成方法、模型训练方法及装置。
[0004]根据本公开的第一方面,提供了一种语音合成方法,包括:
[0005]获取待处理的文本、讲话风格标识和讲话者标识;
[0006]基于文本进行特征提取,得到文本特征;
[0007]基于文本和讲话风格标识进行特征提取,得到风格特征;
[0008]基于讲话者标识进行特征提取,得到讲话者特征;
[0009]基于文本特征、风格特征和讲话者特征得到合成音频。...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,包括:获取待处理的文本、讲话风格标识和讲话者标识;基于所述文本进行特征提取,得到文本特征;基于所述文本和所述讲话风格标识进行特征提取,得到风格特征;基于所述讲话者标识进行特征提取,得到讲话者特征;基于所述文本特征、所述风格特征和所述讲话者特征得到合成音频。2.根据权利要求1所述的语音合成方法,其中,所述基于所述文本特征、所述风格特征和所述讲话者特征得到合成音频,包括:基于所述文本特征和所述风格特征进行至少一次韵律预测,得到韵律特征;基于所述文本特征、所述韵律特征和所述讲话者特征进行解码和合成,得到合成音频。3.根据权利要求2所述的语音合成方法,其中,所述基于所述文本特征和所述风格特征进行至少一次韵律预测,得到韵律特征,包括:基于所述文本特征和所述风格特征进行第一韵律预测,得到初始韵律特征;基于所述初始韵律特征进行不同帧数范围的第二韵律预测,得到韵律特征。4.根据权利要求3所述的语音合成方法,其中,所述基于所述文本特征和所述风格特征进行第一韵律预测,包括:在所述文本特征和所述风格特征中添加位置编码,基于添加了位置编码的文本特征和添加了位置编码的风格特征进行第一韵律预测。5.根据权利要求2

4中任一项所述的语音合成方法,其中,所述基于所述文本特征、所述韵律特征和所述讲话者特征进行解码和合成,得到合成音频,包括:基于注意力机制对所述文本特征和所述韵律特征进行处理,得到处理后的文本特征和处理后的韵律特征;基于所述处理后的文本特征、所述处理后的韵律特征和所述讲话者特征进行解码和合成,得到声谱特征;将所述声谱特征转换为合成音频。6.根据权利要求1

4中任一项所述的语音合成方法,其中,所述获取待处理的文本,包括:获取待处理的初始文本;根据词和音素两种粒度中的至少一种粒度对所述初始文本进行切分,得到切分后的文本,作为所述待处理的文本。7.一种模型训练方法,包括:获取样本音频,并获取所述样本音频对应的样本文本、样本讲话风格标识和样本讲话者标识;基于所述样本音频、所述样本文本、所述样本讲话风格标识和所述样本讲话者标识,对语音合成模型进行迭代训练,直至所述语音合成模型收敛;所述迭代训练中的每次训练包括:基于所述样本文本进行特征提取,得到样本文本特征;基于所述样本文本和所述样本讲话风格标识进行特征提取,得到样本风格特征;基于所述样本讲话者标识进行特征提取,得到第一样本讲话者特征;基于所述样本文本特征、所述样本风格特征和所述第一样本讲
话者特征得到合成音频;确定所述合成音频和所述样本音频之间的误差损失,根据该误差损失更新所述语音合成模型中各模块的参数。8.根据权利要求7所述的模型训练方法,其中,所述基于所述样本文本特征、所述样本风格特征和所述第一样本讲话者特征得到合成音频,包括:基于目标样本特征和所述样本音频的第一样本韵律特征二者中的至少一项特征,通过所述语音合成模型中的韵律预测模块进行至少一次韵律预测,得到第二样本韵律特征;所述目标样本特征包括所述样本文本特征和所述样本风格特征;通过所述语音合成模型中的声谱解码模块,对所述样本文本特征、所述第二样本韵律特征和所述第一样本讲话者特征进行解码和合成,得到合成音频。9.根据权利要求8所述的模型训练方法,其中,所述基于目标样本特征和所述样本音频的第一样本韵律特征二者中的至少一项特征,通过所述语音合成模型中的韵律预测模块进行至少一次韵律预测,得到第二样本韵律特征,包括:基于所述样本文本特征和所述样本风格特征,通过所述韵律预测模块中的第一韵律预测器进行第一韵律预测,得到预测出的第三样本韵律特征;基于所述第三样本韵律特征和所述第一样本韵律特征二者中的至少一项样本韵律特征,通过所述韵律预测模块中的第二韵律预测器进行不同帧数范围的第二韵律预测,得到预测出的第二样本韵律特征。10.根据权利要求9所述的模型训练方法,其中,所述迭代训练中的每次训练还包括:确定所述第三样本韵律特征和所述第一样本韵律特征之间的误差损失,根据该误差损失更新所述语音合成模型中的文本特征提取模块、风格特征提取模块和所述第一韵律预测器的参数。11.根据权利要求9所述的模型训练方法,其中,所述基于所述样本文本特征和所述样本风格特征,通过所述韵律预测模块中的第一韵律预测器进行第一韵律预测,包括:在所述样本文本特征和所述样本风格特征中添加位置编码,将添加了位置编码的样本文本特征和添加了位置编码的样本风格特征输入所述第一韵律预测器,通过所述第一韵律预测器进行第一韵律预测。12.根据权利要求8

11中任一项所述的模型训练方法,所述通过所述语音合成模型中的声谱解码模块,对所述样本文本特征、所述第二样本韵律特征和所述第一样本讲话者特征进行解码和合成,得到合成音频,包括:通过所述声谱解码模块中的注意力子模块对所述样本文本特征和所述第二样本韵律特征进行处理,得到处理后的样本文本特征和处理后的第二样本韵律特征;通过所述声谱解码模块中的解码器对所述处理后的样本文本特征、所述处理后的第二样本韵律特征和所述第一样本讲话者特征进行解码和合成,得到样本声谱特征;通过所述声谱解码模块中的声码器将所述样本声谱特征转换为合成音频。13.根据权利要求7

11中任一项所述的模型训练方法,其中,所述迭代训练中的每次训练,还包括:通过预先训练出的讲话者识别模型对所述合成音频中的讲话者进行识别,得到第二样本讲话者特征;确定所述第二样本讲话者特征和所述第一样本讲话者特征之间的误差损失,根据该误
差损失更新所述语音合成模型中的讲话者特征提取模块的参数。14.一种语音合成装置,包括:第一数据获取单元,用于获取待处理的文本、讲话风格标识和讲话者标识;文本特征提取单元,用于基于所述文本进行特征提取,得到文本特征;风格特征提取单元,用于基于所述文本和所述讲话风格标识进行特征提取...

【专利技术属性】
技术研发人员:赵情恩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1