语音合成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:37994297 阅读:13 留言:0更新日期:2023-06-30 10:08
本发明专利技术涉及语音合成领域,公开了一种语音合成方法、装置、计算机设备及存储介质,其方法通过获取待合成文本的文本特征序列,将文本特征序列输入预先训练的编码器进行编码,获得编码序列;将编码序列输入预先训练的注意力网络进行计算,获得注意力向量和注意力上下文向量;将注意力向量和注意力上下文向量输入预先训练的解码器进行解码,获得解码输出序列;将多个解码输出序列输入后滤波网络进行计算,生成语音梅尔谱;对语音梅尔谱进行波谱转换,获得待合成文本对应的合成语音。本发明专利技术语音合成时通过后滤波网络优化逐帧输出,在保证语音合成质量的同时实现流式语音合成,网络结构简单,参数量少,计算量小,时延低,应用场景广。应用场景广。应用场景广。

【技术实现步骤摘要】
语音合成方法、装置、计算机设备及存储介质


[0001]本专利技术涉及语音合成领域,尤其涉及一种语音合成方法、装置、计算机设备及存储介质。

技术介绍

[0002]语音合成可以将计算机产生的或外部输入的文本信息转变为流利的语音输出。随着深度学习和计算机硬件技术的发展,语音合成的实现方式也发生了转变,从拼接法合成和基于统计参数模型合成转向了基于深度学习模型合成。
[0003]现有技术中,基于深度学习模型的语音合成流程由端到端声学模型和声码器构成。在端到端声学模型中,语言特征序列仅由字符或音素序列组成,输入语言特征序列,通过端到端声学模型预测对应的声学特征序列,再由声码器合成后获得特定采样率的音频波形。基于深度学习模型虽然可以整体简化文本到语音的转换流程,生成高质量的合成语音,但是端到端声学模型通常拥有大量参数,增加了模型计算复杂度,需要强大的图形处理器设备运行,应用场景受到限制。
[0004]端到端声学模型难以在小型通信设备(如移动电话、可穿戴设备和物联网设备等)上运行。因此,需要提供一种新的语音合成方法,以减小计算量。
专利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取待合成文本的文本特征序列,将所述文本特征序列输入预先训练的编码器进行编码,获得编码序列;将所述编码序列输入预先训练的注意力网络进行计算,获得注意力向量和注意力上下文向量;将所述注意力向量和所述注意力上下文向量输入预先训练的解码器进行解码,获得解码输出序列;将多个所述解码输出序列输入后滤波网络进行计算,生成语音梅尔谱;对所述语音梅尔谱进行波谱转换,获得所述待合成文本对应的合成语音。2.如权利要求1所述的语音合成方法,其特征在于,所述获取待合成文本的文本特征序列,将所述文本特征序列输入预先训练的编码器进行编码,获得编码序列,包括:对所述待合成文本进行音素嵌入,获得所述文本特征序列;将所述文本特征序列输入所述编码器进行编码,获得所述编码序列;所述编码器包括:其中,h
j
表示第j个输出的编码序列;L表示编码序列的个数;j表示编码序列的计数符号;encoder表示编码器;x
j
表示第j个输入的文本特征序列。3.如权利要求1所述的语音合成方法,其特征在于,所述注意力网络为循环神经网络;所述将所述编码序列输入预先训练的注意力网络进行计算,获得注意力向量和注意力上下文向量,包括:获取上一时间步的注意力向量、上一时间步的解码输出序列和上一时间步的注意力上下文向量并输入所述注意力网络进行计算,获得当前时间步的注意力向量;所述注意力网络包括:其中,s
i
表示第i时间步的注意力向量;T表示时间步的帧数;i表示时间步的计数符号;RNN
att
表示注意力网络;s
i
‑1表示第i

1时间步的注意力向量;c
i
‑1表示第i

1时间步的注意力上下文向量;d
i
‑1表示第i

1时间步的解码输出序列;获取所述编码序列对应的注意力权值,对所述编码序列和所述注意力权值进行加权平均计算,获得所述注意力上下文向量;所述加权平均计算包括:
其中,c
i
表示第i时间步的注意力上下文向量;j表示编码序列的计数符号;a
i,j
表示第j个输出的编码序列对应的第i时间步的注意力权值;h
j
表示第j个输出的编码序列。4.如权利要求3所述的语音合成方法,其特征在于,所述获取所述编码序列对应的注意力权值之前,包括:通过预设的注意力机制对所述注意力向量进行计算,获得所述注意力权值;所述注意力机制包括:其中,a
i
表示第i时间步的注意力权值;attention表示注意力机制。5.如权利要求1所述的语音合成方法,其特征在于,所述解码器为循环神经网络;所述将所述注意力向量和所述注意力上下文向量输入预先训练的解码器进行解码,获得解码输出序列,包括:获取上一时间步的解码输出序列;将所述上一时间步的解码输出序列、当前时间步的注意力向量和当前时间步的注意力上下文向量输入所述...

【专利技术属性】
技术研发人员:郭洋王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1