【技术实现步骤摘要】
一种语音合成方法、装置、电子设备及存储介质
[0001]本申请涉及计算机
,更具体地,涉及一种语音合成方法、装置、电子设备及存储介质。
技术介绍
[0002]在语音合成系统中,一般包含前端文本特征提取、声学模型、声码器三大部分。由于文字的数据量较小,因此前端文本特征提取的处理时间较短。而声学模型和声码器由于计算量较大,处理时间则较长。在用户输入文本之后,如果等到完成整句文本的音频合成再返回音频数据,往往使得响应时间特别长。尤其在语音交互等需要低延迟响应的场景,大大降低了用户体验。
[0003]因此,如何提高语音合成时的响应速度,是目前有待解决的技术问题。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
[0005]本申请实施例提供一种语音合成方法、装置、电子设备及存储介质,用以提高语音合成时的响应速度。
[0006]第一方面,提供一种语音合成方法,所述方法包括:获取与 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:获取与待处理文本对应的前端文本特征;基于预设声学模型对所述前端文本特征进行编码,得到编码特征;基于所述预设声学模型对所述编码特征进行解码运算,得到依次生成的多个频谱帧;将各所述频谱帧依次输入预设声码器,生成与所述待处理文本对应的音频;其中,所述预设声学模型采用预设自回归循环神经网络进行解码运算,所述预设自回归循环神经网络在各时刻的输出包括当前时刻的频谱帧和当前时刻的隐藏层参数信息,所述预设自回归循环神经网络在各时刻的输入包括上一时刻的频谱帧和上一时刻的隐藏层参数信息。2.如权利要求1所述的方法,其特征在于,所述预设声码器采用生成对抗网络,所述生成对抗网络中的生成器包括卷积神经网络,所述将各所述频谱帧依次输入预设声码器,生成与所述待处理文本对应的音频,包括:若到达所述预设声码器的所述频谱帧的数量达到预设数量,将各所述频谱帧作为当前输入数据输入所述卷积神经网络的输入层,根据所述卷积神经网络的输出层确定当前音频帧,并缓存目标数据;将下一个新的频谱帧输入所述输入层,并调用所述目标数据到所述卷积神经网络,根据所述输出层确定下一个音频帧;根据依次确定的各所述音频帧生成所述音频;其中,所述目标数据包括所述当前输入数据中除第一个频谱帧以外的各剩余频谱帧。3.如权利要求2所述的方法,其特征在于,所述目标数据还包括所述卷积神经网络中与所述剩余频谱帧相关的隐藏层参数。4.如权利要求1所述的方法,其特征在于,所述预设声学模型中设置有预设注意力模型,所述预设自回归循环神经网络包括预处理网络层、长短期记忆网络层、后处理网络层,所述基于所述预设声学模型对所述编码特征进行解码运算,得到依次生成的多个频谱帧,包括:基于所述预处理网络层和所述长短期记忆网络层对所述编码特征按注意力向量进行基于预设维度的线性投影,得到多个中间频谱帧;基于所述后处理网络层对各所述中间频谱帧进行残差预测和归一化处理,得到各所述频谱帧;其中,所述注意力向量是由所述预设注意力模型确定的。5.如权利要求1所述的方法,其特征在于,所述预设声学模型采用包括字符嵌入层、三卷积层和双向长短期记忆网络层的结构进...
【专利技术属性】
技术研发人员:涂清华,吴松城,
申请(专利权)人:厦门黑镜科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。