语音合成模型生成方法及其装置、设备、介质、产品制造方法及图纸

技术编号:35214811 阅读:20 留言:0更新日期:2022-10-15 10:29
本申请涉及一种语音合成模型生成方法及其装置、设备、介质、产品,所述方法包括:调用控制器,由控制器生成声码器的结构编码;根据结构编码构造声码器,该声码器包括根据结构编码生成的条件网络和自回归网络;采用训练集将所述声码器迭代训练至收敛状态,根据该声码器在测试集上获得的性能评分,在控制器未达至收敛之前对控制器实施梯度更新并迭代生成新的声码器;在控制器达至收敛后,根据性能评分选出声码器作为语音合成模型。本申请借助控制器实现声码器的自动产出和择优,使所获得的语音合成模型符合移动端设备部署所需,在移动端设备部署后能获得良好的性能表现,能符合语音合成场景中对于模型小型化和高实时性所需的要求。场景中对于模型小型化和高实时性所需的要求。场景中对于模型小型化和高实时性所需的要求。

【技术实现步骤摘要】
语音合成模型生成方法及其装置、设备、介质、产品


[0001]本申请涉及语音通信
,尤其涉及一种语音合成模型生成方法及其装置、设备、介质、产品。

技术介绍

[0002]随着在线音频用户数量持续成长,用户对于网络音频内容、娱乐属性、传输质量等提出越来越高的要求。在不同应用场景、网络环境下部署深度语音合成模型,不仅需要模型具有更好的推断效果,也对模型运算的实时性提出更高要求。
[0003]深度语音合成模型为具有足够的表征能力,但如果要将其部署到移动端,却存在不少问题,例如:一方面,深度语音合成模型一般参数较多,如WaveNet模型参数量达到4.6M,WaveGlow模型参数量达到87.9M,FloWaveNet模型参数量达到182.6M,远超过移动端的计算能力;另一方面,在一些基于语音合成的应用场景,如丢包补偿,要求模型达到或超过实时合成的速度。
[0004]传统移动端语音合成方法为达到移动端实时效果,一般使用拼接合成、参数合成或浅度学习等方法。这些方法通常也受限于模型参数量、每秒浮点计算次数(Floating Point Operations per Second,FLOPS),在实践中往往无法达到小型化和实时性的要求,往往需要进行人工压缩剪枝,或在后台进行大规模算力部署。

技术实现思路

[0005]本申请的目的在于解决上述问题而提供一种语音合成模型生成方法及其相应的装置、设备、非易失性可读存储介质,以及计算机程序产品。
[0006]根据本申请的一个方面,提供一种语音合成模型生成方法,包括如下步骤:
[0007]调用控制器,由控制器生成声码器的结构编码;
[0008]根据结构编码构造声码器,该声码器包括根据结构编码生成的条件网络和自回归网络;
[0009]采用训练集将所述声码器迭代训练至收敛状态,根据该声码器在测试集上获得的性能评分,在控制器未达至收敛之前对控制器实施梯度更新并迭代生成新的声码器;
[0010]在控制器达至收敛后,根据性能评分选出声码器作为语音合成模型。
[0011]根据本申请的另一方面,提供一种语音合成模型生成装置,包括:
[0012]编码生成模块,设置为调用控制器,由控制器生成声码器的结构编码;
[0013]声码器构造模块,设置为根据结构编码构造声码器,该声码器包括根据结构编码生成的条件网络和自回归网络;
[0014]迭代决策模块,设置为采用训练集将所述声码器迭代训练至收敛状态,根据该声码器在测试集上获得的性能评分,在控制器未达至收敛前对控制器实施梯度更新并迭代生成新的声码器;
[0015]模型产出模块,设置为在控制器达至收敛后,根据性能评分选出声码器作为语音
合成模型。
[0016]根据本申请的另一方面,提供一种语音合成模型生成设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的语音合成模型生成方法的步骤。
[0017]根据本申请的另一方面,提供一种非易失性可读存储介质,其以计算机可读指令的形式存储有依据所述的语音合成模型生成方法所实现的计算机程序,所述计算机程序被计算机调用运行时,执行该方法所包括的步骤。
[0018]根据本申请的另一方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
[0019]相对于现有技术,本申请采用控制器生成结构编码,根据结构编码构造声码器,训练并测试声码器获得相应的性能评分,根据性能评分对控制器的迭代过程实施控制,在控制器训练过程中产出多个声码器,最终优选实测表现最佳的声码器作为语音合成模型,借助控制器实现声码器的自动产出和择优,使所获得的语音合成模型符合移动端设备部署所需,在移动端设备部署后能获得良好的性能表现,能符合语音合成场景中关于模型小型化和高实时性的要求。
附图说明
[0020]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本申请所应用的语音通话服务相对应的网络架构示意图;
[0022]图2为本申请的声码器的拓扑结构的原理框图;
[0023]图3为本申请的语音合成模型生成方法的实施例的流程示意图;
[0024]图4为本申请的控制器产生的编码器的示例性训练过程的的流程示意图;
[0025]图5为本申请的实施例中部署语音合成模型之前处理过程的示意图;
[0026]图6为本申请的实施例中对语音合成模型实施多阶段训练的流程示意图;
[0027]图7为本申请的实施例中对语音合成模型实施第三阶段训练的流程示意图;
[0028]图8为本申请的语音合成模型生成装置的原理框图;
[0029]图9为本申请所采用的一种语音合成模型生成设备的结构示意图。
具体实施方式
[0030]本申请中所引用或可能引用到的模型,包括传统机器学习模型或深度学习模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
[0031]本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一专利技术构思而提出,因此,对于相同
表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
[0032]本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
[0033]请参阅图1,本申请示例性的应用场景所采用的网络架构,其可用于部署语音通话服务,语音通话服务支持实时语音通信,语音通话服务的语音流的编解码处理过程中,可通过运行由本申请的任意一个实施例所生成的语音合成模型来实现丢包补偿。图1所示的应用服务器81可用于支持所述语音通话服务的运行,而媒体服务器82可用于处理各个用户推送的语音流的解编码过程而实现中继,其中的计算机83、移动电话84之类的终端设备,作为客户端,一般提供给终端用户使用,可用于发送或接收语音流。除此之外,当需要在终端设备对语音流进行编解码时,同样可将本申请各个实施例所获得的语音合成模型部署于该终端设备中,以便对所接收或所发送的语音流进行丢包补偿。以上揭示的语音合成模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型生成方法,其特征在于,包括:调用控制器,由控制器生成声码器的结构编码;根据结构编码构造声码器,该声码器包括根据结构编码生成的条件网络和自回归网络;采用训练集将所述声码器迭代训练至收敛状态,根据该声码器在测试集上获得的性能评分,在控制器未达至收敛之前对控制器实施梯度更新并迭代生成新的声码器;在控制器达至收敛后,根据性能评分选出声码器作为语音合成模型。2.根据权利要求1所述的语音合成模型生成方法,其特征在于,所述根据结构编码构造声码器,包括:根据结构编码中第一编码信息构造声码器的条件网络中的上采样网络,所述第一编码信息包括与上采样网络的多个卷积层相对应的层类型和其对应的通道数;根据结构编码中第二编码信息构造声码器的自回归网络中的门控循环单元,所述第二编码信息包括与门控循环单元的结构节点相对应的运算类型和其对应的激活类型;根据预设拓扑结构将条件网络和自回归网络构造为声码器。3.根据权利要求1所述的语音合成模型生成方法,其特征在于,采用训练集将所述声码器迭代训练至收敛状态,包括:调用训练集中的单个训练样本,获取其中的预定时长的多个连续语音帧构造为语音帧序列,提取该语音序列相对应的声学特征;将所述声学特征输入声码器的条件网络中,经其中的残差网络获取该声学特征的全局特征信息,经其中的上采样网络获取该声学特征在多个尺度下的局部特征信息,获得由全局特征信息和局部特征信息构成的综合特征信息;经声码器中的自回归网络的门控循环单元从所述综合特征信息中提取出语音帧序列中的风格相对稳定特征,获得预测特征信息;经声码器中的分类网络根据所述预测特征信息生成语音帧序列的后续语音帧;采用所述训练样本中语音帧序列的时序连续在后的语音帧计算所述后续语音帧的损失值,根据该损失值控制所述声码器的迭代训练。4.根据权利要求1所述的语音合成模型生成方法,其特征在于,根据该声码器在测试集上获得的性能评分,在控制器未达至收敛之前对控制器实施梯度更新并迭代生成新的声码器,包括:采用测试集中的测试样本对声码器实施测试,获得性能评分,该性能评分包括基于所述测试样本被声码器处理后获得的质量评分;根据该性能评分对控制器实施策略梯度优化,在控制器未达至收敛状态下继续迭代调用控制器以生成新的声码器。5.根据权利要求1所述的语音合成模型生成方法,其特征在于,所述在控制器达至收敛后,根据性能评分选出声码器作为语音合成模型的步骤之后,包括:将所述语音合成模型训练至收敛状态;将所述语音合成模型配置为将根据语音流生成的后续语音帧平滑接入所述语...

【专利技术属性】
技术研发人员:王汉超林伟
申请(专利权)人:百果园技术新加坡有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1