一种语音生成方法、装置、设备及其存储介质制造方法及图纸

技术编号:43986516 阅读:17 留言:0更新日期:2025-01-10 20:09
本申请实施例属于语音处理技术领域,应用于语音自动化生成场景中,涉及一种语音生成方法、装置、设备及其存储介质,通过获取待进行语音生成的文本数据;输入到改进型文本编码器进行文本编码处理,获得文本编码信息;将文本编码信息输入到预设的时长预测器,预测所述文本数据所对应的生成语音时长;获得音频编码信息;对所述音频编码信息进行隐变量添加处理,将添加了隐变量的音频编码信息输入到改进型解码器中,获得所述改进型解码器输出的语音。本申请所述的语音生成方法,通过对端对端的编解码器分别进行改进,既降低了人工进行模型参数设置的设置量,也提高了模型推理速度,从而提高了语音生成效率。

【技术实现步骤摘要】

本申请涉及语音处理,应用于语音自动化生成场景中,尤其涉及一种语音生成方法、装置、设备及其存储介质


技术介绍

1、语音生成技术,指的是将指定文本合成出目标说话人的发音内容。当前,语音生成技术得到了迅速的发展,端到端的模型和语音大模型大大推动了这个领域的发展。

2、然而,实际应用中端到端的语音生成方式,存在以下几个挑战:模型过于庞大,所设置的编解码参数量过多,传统的解码方式往往采用上采样卷积方式,导致了模型的推理速度慢,限制了语音生成效率。


技术实现思路

1、本申请实施例的目的在于提出一种语音生成方法、装置、设备及其存储介质,以解决现有进行语音生成时,端到端的生成模式所设置的编解码参数量过多,解码时导致模型推理速度慢,限制语音生成效率的问题。

2、为了解决上述技术问题,本申请实施例提供语音生成方法,采用了如下所述的技术方案:

3、一种语音生成方法,包括下述步骤:

4、获取待进行语音生成的文本数据;

5、将所述文本数据输入到改进型文本编码器进行文本编码处本文档来自技高网...

【技术保护点】

1.一种语音生成方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的语音生成方法,其特征在于,所述改进型文本编码器由transformer结构中初始编码器改造而成,所述编码器中包含N层编码层,在执行所述将所述文本数据输入到改进型文本编码器进行文本编码处理,获得文本编码信息的步骤之前,所述方法还包括:

3.根据权利要求1或2所述的语音生成方法,其特征在于,在执行所述将所述文本编码信息输入到预设的时长预测器,预测所述文本数据所对应的生成语音时长的步骤之前,所述方法还包括:

4.根据权利要求3所述的语音生成方法,其特征在于,所述预设的时长预测器中包含了...

【技术特征摘要】

1.一种语音生成方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的语音生成方法,其特征在于,所述改进型文本编码器由transformer结构中初始编码器改造而成,所述编码器中包含n层编码层,在执行所述将所述文本数据输入到改进型文本编码器进行文本编码处理,获得文本编码信息的步骤之前,所述方法还包括:

3.根据权利要求1或2所述的语音生成方法,其特征在于,在执行所述将所述文本编码信息输入到预设的时长预测器,预测所述文本数据所对应的生成语音时长的步骤之前,所述方法还包括:

4.根据权利要求3所述的语音生成方法,其特征在于,所述预设的时长预测器中包含了可进行选定的至少一个真实语音对象的说话语速信息,所述将所述文本编码信息输入到预设的时长预测器,预测所述文本数据所对应的生成语音时长的步骤,具体包括:

5.根据权利要求4所述的语音生成方法,其特征在于,在执行所述获得所述改进型解码器输出的语音的步骤之后,所述方法还包括...

【专利技术属性】
技术研发人员:石岩陈闽川王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1