语音合成模型生成方法及其装置、设备、介质、产品制造方法及图纸

技术编号：35214811 阅读：20 留言：0更新日期：2022-10-15 10:29

本申请涉及一种语音合成模型生成方法及其装置、设备、介质、产品，所述方法包括：调用控制器，由控制器生成声码器的结构编码；根据结构编码构造声码器，该声码器包括根据结构编码生成的条件网络和自回归网络；采用训练集将所述声码器迭代训练至收敛状态，根据该声码器在测试集上获得的性能评分，在控制器未达至收敛之前对控制器实施梯度更新并迭代生成新的声码器；在控制器达至收敛后，根据性能评分选出声码器作为语音合成模型。本申请借助控制器实现声码器的自动产出和择优，使所获得的语音合成模型符合移动端设备部署所需，在移动端设备部署后能获得良好的性能表现，能符合语音合成场景中对于模型小型化和高实时性所需的要求。场景中对于模型小型化和高实时性所需的要求。场景中对于模型小型化和高实时性所需的要求。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成模型生成方法及其装置、设备、介质、产品

[0001]本申请涉及语音通信
，尤其涉及一种语音合成模型生成方法及其装置、设备、介质、产品。

技术介绍

[0002]随着在线音频用户数量持续成长，用户对于网络音频内容、娱乐属性、传输质量等提出越来越高的要求。在不同应用场景、网络环境下部署深度语音合成模型，不仅需要模型具有更好的推断效果，也对模型运算的实时性提出更高要求。
[0003]深度语音合成模型为具有足够的表征能力，但如果要将其部署到移动端，却存在不少问题，例如：一方面，深度语音合成模型一般参数较多，如WaveNet模型参数量达到4.6M，WaveGlow模型参数量达到87.9M，FloWaveNet模型参数量达到182.6M，远超过移动端的计算能力；另一方面，在一些基于语音合成的应用场景，如丢包补偿，要求模型达到或超过实时合成的速度。
[0004]传统移动端语音合成方法为达到移动端实时效果，一般使用拼接合成、参数合成或浅度学习等方法。这些方法通常也受限于模型参数量、每秒浮点计算次数(Floating Point Operations per Second,FLOPS)，在实践中往往无法达到小型化和实时性的要求，往往需要进行人工压缩剪枝，或在后台进行大规模算力部署。

技术实现思路

[0005]本申请的目的在于解决上述问题而提供一种语音合成模型生成方法及其相应的装置、设备、非易失性可读存储介质，以及计算机程序产品。
[0006]根据本申请的一个方面，提供一种语音合成模型...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型生成方法，其特征在于，包括：调用控制器，由控制器生成声码器的结构编码；根据结构编码构造声码器，该声码器包括根据结构编码生成的条件网络和自回归网络；采用训练集将所述声码器迭代训练至收敛状态，根据该声码器在测试集上获得的性能评分，在控制器未达至收敛之前对控制器实施梯度更新并迭代生成新的声码器；在控制器达至收敛后，根据性能评分选出声码器作为语音合成模型。2.根据权利要求1所述的语音合成模型生成方法，其特征在于，所述根据结构编码构造声码器，包括：根据结构编码中第一编码信息构造声码器的条件网络中的上采样网络，所述第一编码信息包括与上采样网络的多个卷积层相对应的层类型和其对应的通道数；根据结构编码中第二编码信息构造声码器的自回归网络中的门控循环单元，所述第二编码信息包括与门控循环单元的结构节点相对应的运算类型和其对应的激活类型；根据预设拓扑结构将条件网络和自回归网络构造为声码器。3.根据权利要求1所述的语音合成模型生成方法，其特征在于，采用训练集将所述声码器迭代训练至收敛状态，包括：调用训练集中的单个训练样本，获取其中的预定时长的多个连续语音帧构造为语音帧序列，提取该语音序列相对应的声学特征；将所述声学特征输入声码器的条件网络中，经其中的残差网络获取该声学特征的全局特征信息，经其中的上采样网络获取该声学特征在多个尺度下的局部特征信息，获得由全局特征信息和局部特征信息构成的综合特征信息；经声码器中的自回归网络的门控循环单元从所述综合特征信息中提取出语音帧序列中的风格相对稳定特征，获得预测特征信息；经声码器中的分类网络根据所述预测特征信息生成语音帧序列的后续语音帧；采用所述训练样本中语音帧序列的时序连续在后的语音帧计算所述后续语音帧的损失值，根据该损失值控制所述声码器的迭代训练。4.根据权利要求1所述的语音合成模型生成方法，其特征在于，根据该声码器在测试集上获得的性能评分，在控制器未达至收敛之前对控制器实施梯度更新并迭代生成新的声码器，包括：采用测试集中的测试样本对声码器实施测试，获得性能评分，该性能评分包括基于所述测试样本被声码器处理后获得的质量评分；根据该性能评分对控制器实施策略梯度优化，在控制器未达至收敛状态下继续迭代调用控制器以生成新的声码器。5.根据权利要求1所述的语音合成模型生成方法，其特征在于，所述在控制器达至收敛后，根据性能评分选出声码器作为语音合成模型的步骤之后，包括：将所述语音合成模型训练至收敛状态；将所述语音合成模型配置为将根据语音流生成的后续语音帧平滑接入所述语...

【专利技术属性】
技术研发人员：王汉超，林伟，
申请(专利权)人：百果园技术新加坡有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人