一种合成方法技术

技术编号:39841965 阅读:4 留言:0更新日期:2023-12-29 16:29
本发明专利技术公开了一种合成方法

【技术实现步骤摘要】
一种合成方法、装置、设备及存储介质


[0001]本专利技术涉及语音处理
,尤其涉及一种合成方法

装置

设备及存储介质


技术介绍

[0002]目前语音合成技术取得了巨大的进步,以
NaturalSpeech2
等为代表的深度学习方法已经可以生成媲美真人的语音,但是其模型尺寸及算力需求较高,只能部署在云侧,与端侧设备通过网络进行传输,当网络受限时则无法使用

与此相对的,端侧语音合成技术不受网络情况的限制,可以随时为用户提供语音合成服务,但是受限于算力,往往合成效果不佳

[0003]现有应用及技术中,语音合成的端云协同主要体现在,有网络时调用云侧服务,无网络时调用端侧服务

两者的协同仅仅是调用侧发起的不同请求,而且切换请求时还需要放弃当前服务合成进度,由另一个服务重新开始合成,协同效果较差,以及在端云两侧产生了重复且无意义的算力消耗


技术实现思路

[0004]本专利技术提供了一种合成方法

装置

设备及存储介质,以解决现有技术中语音合成的端云协同,协同效果较差,以及在端云两侧产生了重复且无意义的算力消耗的问题

[0005]第一方面,本专利技术实施例提供了一种合成方法,包括:
[0006]从云侧合成服务和端侧合成服务中,选取对应云端网络状态的当前合成服务;
[0007]在基于所述当前合成服务合成当前待合成文本的情况下,若云端网络状态发生变更,则确定所述当前合成服务对应的当前合成状态;
[0008]确定合成所述当前待合成文本的目标合成服务,所述目标合成服务为所述云侧合成服务或所述端侧合成服务;
[0009]基于所述目标合成服务在所述当前合成状态的基础上继续合成所述当前待合成文本,得到对应的音频

[0010]可选的,所述当前合成服务为端侧合成服务,所述确定合成所述当前待合成文本的目标合成服务,包括:
[0011]确定当前合成状态所指示剩余音频的时长;
[0012]若所述剩余时长小于或等于所述云侧合成服务的合成延时,则将端侧合成服务确定为目标合成服务,将云侧合成服务确定为下一待合成文本的当前合成服务;否则,将云侧合成服务确定为目标合成服务

[0013]可选的,所述基于所述目标合成服务在所述当前合成状态的基础上继续合成所述当前待合成文本,得到对应的音频,包括:
[0014]将所述当前待合成文本传输至目标合成服务,通过目标合成服务在所述当前合成状态的基础上继续合成所述当前待合成文本,得到对应的音频;若所述目标合成服务仍为端侧合成服务,则不进行切换,继续执行当前合成进程;若所述目标合成服务为云侧合成服
务,则所述端侧合成服务结束合成所述当前待合成文本的时机为获取到所述云侧合成服务返回的音频

[0015]可选的,所述当前合成服务为云侧合成服务,所述确定合成所述当前待合成文本的目标合成服务,包括:
[0016]在当前合成状态指示未收到所述云侧合成服务合成所述当前待合成文本的返回信息的情况下,将端侧合成服务确定为目标合成服务;
[0017]在当前合成状态指示当前存在缓存信息不存在缓存音频的情况下,将中继端侧合成服务确定为目标合成服务;
[0018]在当前合成状态指示存在缓存音频的情况下,将预热端侧合成服务确定为目标合成服务

[0019]可选的,所述中继端侧合成服务复用所述缓存信息通过端侧合成服务中端侧模型中后续模块继续合成所述当前待合成文本,所述后续模块为端侧模型中用以处理云侧模型下发缓存信息以生成音频输出的模块;
[0020]所述预热端侧合成服务为使用缓存音频对所述端侧模型中解码器和声码器进行自回归迭代,更新模型隐藏状态

[0021]可选的,所述端侧合成服务所使用端侧模型使用所述云侧合成服务所使用云侧模型作为监督,分模块训练得到,所述端侧模型和所述云侧模型的模型结构相同

[0022]可选的,将所述端侧模型中选取的部分模块和所述云侧模型中选取的其余模块组成端到端模型,所述端到端模型的模型结构和所述云侧模型的模型结构相同;
[0023]在数据集上训练所述端到端模型,以更新模型参数

[0024]第二方面,本专利技术实施例提供了一种合成装置,包括:
[0025]选取模块,用于从云侧合成服务和端侧合成服务中,选取对应云端网络状态的当前合成服务;
[0026]状态确定模块,用于在基于所述当前合成服务合成当前待合成文本的情况下,若云端网络状态发生变更,则确定所述当前合成服务对应的当前合成状态;
[0027]服务确定模块,用于确定合成所述当前待合成文本的目标合成服务,所述目标合成服务为所述云侧合成服务或所述端侧合成服务;
[0028]合成模块,用于基于所述目标合成服务在所述当前合成状态的基础上继续合成所述当前待合成文本,得到对应的音频

[0029]第三方面,本专利技术实施例提供了一种电子设备,所述电子设备包括:
[0030]至少一个处理器;以及
[0031]与所述至少一个处理器通信连接的存储器;其中,
[0032]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的合成方法

[0033]第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的合成方法

[0034]本专利技术实施例的技术方案,通过从云侧合成服务和端侧合成服务中,选取对应云
端网络状态的当前合成服务;在基于所述当前合成服务合成当前待合成文本的情况下,若云端网络状态发生变更,则确定所述当前合成服务对应的当前合成状态;确定合成所述当前待合成文本的目标合成服务,所述目标合成服务为所述云侧合成服务或所述端侧合成服务;基于所述目标合成服务在所述当前合成状态的基础上继续合成所述当前待合成文本,得到对应的音频,解决了现有技术中语音合成的端云协同,协同效果较差,以及在端云两侧产生了重复且无意义的算力消耗的问题,为用户带来任意网络场景下更加自然流畅的语音合成体验,避免了对当前合成状态的重新计算,在进一步解放算力的同时,提升了合成的质量

[0035]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围

本专利技术的其它特征将通过以下的说明书而变得容易理解

附图说明
[0036]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种合成方法,其特征在于,包括:从云侧合成服务和端侧合成服务中,选取对应云端网络状态的当前合成服务;在基于所述当前合成服务合成当前待合成文本的情况下,若云端网络状态发生变更,则确定所述当前合成服务对应的当前合成状态;确定合成所述当前待合成文本的目标合成服务,所述目标合成服务为所述云侧合成服务或所述端侧合成服务;基于所述目标合成服务在所述当前合成状态的基础上继续合成所述当前待合成文本,得到对应的音频
。2.
根据权利要求1所述的方法,其特征在于,所述当前合成服务为端侧合成服务,所述确定合成所述当前待合成文本的目标合成服务,包括:确定当前合成状态所指示剩余音频的时长;若所述剩余时长小于或等于所述云侧合成服务的合成延时,则将端侧合成服务确定为目标合成服务,将云侧合成服务确定为下一待合成文本的当前合成服务;否则,将云侧合成服务确定为目标合成服务
。3.
根据权利要求2所述的方法,其特征在于,所述基于所述目标合成服务在所述当前合成状态的基础上继续合成所述当前待合成文本,得到对应的音频,包括:将所述当前待合成文本传输至目标合成服务,通过目标合成服务在所述当前合成状态的基础上继续合成所述当前待合成文本,得到对应的音频;若所述目标合成服务仍为端侧合成服务,则不进行切换,继续执行当前合成进程;若所述目标合成服务为云侧合成服务,则所述端侧合成服务结束合成所述当前待合成文本的时机为获取到所述云侧合成服务返回的音频
。4.
根据权利要求1所述的方法,其特征在于,所述当前合成服务为云侧合成服务,所述确定合成所述当前待合成文本的目标合成服务,包括:在当前合成状态指示未收到所述云侧合成服务合成所述当前待合成文本的返回信息的情况下,将端侧合成服务确定为目标合成服务;在当前合成状态指示当前存在缓存信息不存在缓存音频的情况下,将中继端侧合成服务确定为目标合成服务;在当前合成状态指示存在缓存音频的情况下,将预热端侧合成服务确定为目标合成服务
。5.
根据权利要求4所述的方法...

【专利技术属性】
技术研发人员:张毅陈博付振王明月何金鑫孙宇嘉梁小明王紫烟
申请(专利权)人:一汽南京科技开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1