语音合成模型训练方法、语音合成方法及装置制造方法及图纸

技术编号：29205819 阅读：28 留言：0更新日期：2021-07-10 00:41

本公开提供一种语音合成模型训练方法、语音合成方法及装置，语音合成模型训练方法包括：获取训练文本，各个训练参考音频，以及各个基准音频；基于当前训练参考音频确定当前基准音频；获取训练文本的训练文本向量和各个训练参考音频帧向量并获取对应于当前训练参考音频的训练合成音频；根据训练合成音频和当前基准音频，获取第一损失，更新当前训练参考音频，直至获取分别与各个训练参考音频对应的各个第一损失，根据各个第一损失获取模型损失，并根据模型损失调整语音合成模型的参数，直至模型损失满足模型损失阈值，得到训练好的语音合成模型。本发明专利技术实施例提供的语音合成模型训练方法能够丰富语音合成模型的韵律风格，减少模型的使用局限性。型的使用局限性。型的使用局限性。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成模型训练方法、语音合成方法及装置

[0001]本专利技术实施例涉及语音合成
，尤其涉及一种语音合成模型训练方法、装置、设备及存储介质，以及一种语音合成方法、装置、设备及存储介质。

技术介绍

[0002]在教学场景下，中文古诗词教学作为语言教学系统的重要环节，由于中文古诗词具有非常独特的韵律特点，因此在生成教学用的古诗词朗读音频时，通常采用人工录音方式去生成中文古诗词的朗读音频，或者使用专门训练的语音合成系统去生成古诗词的朗读音频，朗读音频正确的发音以及韵律节奏，对于中文古诗词的教学具有非常重要的辅助意义。
[0003]现有教学场景下的中文古诗词朗读音频，大多使用人工录制，该方法成本非常高昂。虽然也有使用语音合成技术来生成古诗词朗读音频，但是现有的语音合成系统，存在以下缺点：（1）系统构建成本较高，需要大量的古诗词朗读音频来训练一个语音合成模型，并且当合成模型训练完成后，模型的韵律风格也就固定了，一旦待合成的诗词类型没有在训练数据中出现过，则合成的音频韵律就会出现明显问题。
[0004]（2）无法自主选择韵律：输入待合成的古诗词后，合成系统直接输出合成音频，合成音频的韵律是在合成语音时同步产生，无法由用户自己选择和定义。
[0005]因此，如何丰富语音合成模型的韵律风格，个性化语音合成模型的应用场景，成为亟需解决的技术问题。

技术实现思路

[0006]本专利技术实施例解决的技术问题是提供一种语音合成模型训练方法、装置、设备及存储介质，以及一种语音合成方法、装置、设备...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型训练方法，其特征在于，包括：获取训练文本，各个训练参考音频，以及分别与各个所述训练参考音频的韵律相同的各个基准音频，各个所述基准音频与所述训练文本对应，且各个所述基准音频的韵律与至少一个所述训练参考音频的韵律相同；确定训练参考音频，得到当前训练参考音频，并确定与所述当前训练参考音频的韵律相同的基准音频，得到当前基准音频；获取所述训练文本的训练文本向量，和所述当前训练参考音频的各个音频帧的各个训练参考音频帧向量；根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频；根据所述训练合成音频和所述当前基准音频，获取第一损失，更新所述当前训练参考音频，直至获取分别与各个所述训练参考音频对应的各个第一损失，根据各个所述第一损失获取模型损失，并根据所述模型损失调整所述语音合成模型的参数，直至所述模型损失满足模型损失阈值，得到训练好的所述语音合成模型。2.如权利要求1所述的语音合成模型训练方法，其特征在于，所述根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频的步骤包括：对所述训练文本向量和各个所述训练参考音频帧向量进行融合，得到与各个所述训练参考音频帧向量对应的各个训练融合向量；对各个所述训练融合向量依次进行解码，得到对应于所述当前训练参考音频的训练合成音频。3.如权利要求1所述的语音合成模型训练方法，其特征在于，所述根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频的训练合成音频的步骤包括：获取所述当前基准音频的首帧的第一基准音频帧解码向量和各个所述训练参考音频帧向量中的第一训练参考音频帧向量；对所述第一基准音频帧解码向量和所述第一训练参考音频帧向量进行融合，得到第一音频帧上下文向量；将所述训练文本向量和所述第一音频帧上下文向量进行融合，得到对应于所述第一训练参考音频帧向量的第一融合向量；对所述第一融合向量进行解码，得到第一帧解码向量和第一帧合成音频频谱；依次获取各个所述参考音频帧向量中的第N训练参考音频帧向量；对所述第N
‑
1帧解码向量和所述第N训练参考音频帧向量进行融合，得到第N音频帧上下文向量；将所述训练文本向量和所述第N音频帧上下文向量进行融合，得到对应于所述第N训练参考音频帧向量的第N融合向量；对所述第N融合向量进行解码，得到第N帧解码向量和第N帧合成音频频谱，直至得到所述当前训练参考音频的全部音频帧的合成音频频谱；其中，N的取值为2和所述训练参考音频的总帧数之间的任何整数值，N
‑
1表示上一帧；
根据各合成音频频谱获取对应于所述当前训练参考音频的训练合成音频。4.如权利要求3所述的语音合成模型训练方法，其特征在于，所述对所述第一基准音频帧解码向量和所述第一训练参考音频帧向量进行融合，得到第一音频帧上下文向量的步骤，还包括：对所述训练文本向量和所述第一基准音频帧解码向量进行融合，得到第一训练文本上下文向量；将所述第一训练文本上下文向量和所述第一音频帧上下文向量进行融合，得到第一融合向量；对所述第N
‑
1帧解码向量和所述第N
‑
1训练文本上下文向量进行融合，得到第N训练文本上下文向量；将所述第N训练文本上下文向量和所述第N帧解码向量相融合，得到第N训练文本上下文向量，将所述第N训练文本上下文向量和所述第N音频帧上下文向量进行融合，得到第N融合向量。5.如权利要求2所述的语音合成模型训练方法，其特征在于，对所述训练文本向量和各个所述训练参考音频帧向量进行融合的方式为加权拼接。6.如权利要求4所述的语音合成模型训练方法，其特征在于，所述根据所述训练文本向量和各个所述训练参考音频帧向量获取对应于所述当前训练参考音频...

【专利技术属性】
技术研发人员：汪光璟，李成飞，杨嵩，
申请(专利权)人：北京世纪好未来教育科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人