用于智能客服场景的语音合成模型训练方法、语音合成方法及装置、计算机可读存储介质制造方法及图纸

技术编号:37451356 阅读:26 留言:0更新日期:2023-05-06 09:23
本申请涉及用于智能客服场景的语音合成模型训练方法、语音合成方法及装置以及相应的计算机可读存储介质。按照本发明专利技术一个方面的用于智能客服场景的语音合成模型训练方法。该语音合成模型包括编码器、自适应器和解码器。该训练方法包括:将多个音素训练样本输入到编码器,获得多个编码建模单元;利用自适应器对多个编码建模单元进行样本要素预测,获得多个预测建模单元;将多个编码建模单元和多个预测建模单元输入到解码器,得到梅尔谱信息;以及基于梅尔谱信息和多个音素训练样本的预设梅尔谱信息,对语音合成模型进行训练,直到达到语音合成模型的训练条件为止。音合成模型的训练条件为止。音合成模型的训练条件为止。

【技术实现步骤摘要】
用于智能客服场景的语音合成模型训练方法、语音合成方法及装置、计算机可读存储介质


[0001]本申请涉及语音合成领域,具体而言,涉及用于智能客服场景的语音合成模型训练方法、语音合成方法及装置以及计算机可读存储介质。

技术介绍

[0002]目前的语音合成系统中,普遍使用注意力(attention)机制来处理编码后的建模单元。因为语音合成系统的输入和输出长度不对等,使用注意力机制会导致在长文本中将一些短输出(短文本、停顿等)跳过的情况,从而导致漏字。此外,此类语音合成系统对每个建模单元的合成和输出都需要基于前一输出的结果,于是依次合成和输出也导致了合成速率较慢。

技术实现思路

[0003]本申请的实施例提供了用于智能客服场景的语音合成模型训练方法、语音合成方法及装置以及计算机可读存储介质。
[0004]根据本申请的一方面,提供了一种用于智能客服场景的语音合成模型训练方法。该语音合成模型包括编码器、自适应器和解码器。该训练方法包括:将多个音素训练样本输入到编码器,获得多个编码建模单元;利用自适应器对多个编码建模单元进行样本要素预测,获得多个预测建模单元;将多个编码建模单元和多个预测建模单元输入到解码器,得到梅尔谱信息;以及基于梅尔谱信息和多个音素训练样本的预设梅尔谱信息,对语音合成模型进行训练,直到达到语音合成模型的训练条件为止。
[0005]在本申请的一些实施例中,可选地,,样本要素包括以下的一项或多项:持续时间信息、能量信息、基频F0信息、韵律信息、说话人信息。
[0006]在本申请的一些实施例中,可选地,样本要素预测先执行对持续时间信息的预测。
[0007]在本申请的一些实施例中,可选地,同时将多个音素训练样本输入到语音合成模型进行训练。
[0008]根据本申请的另一方面,提供了一种用于智能客服场景的语音合成方法。该语音合成方法包括:对待合成文本进行转换处理,以得到多个音素单元;将多个音素单元输入到语音合成模型中,得到多个音素单元的梅尔谱信息;以及对梅尔谱信息进行整合处理以得到与待合成文本对应的语音。其中,语音合成模型是根据前述任一实施例所描述的训练方法训练得到的。
[0009]在本申请的一些实施例中,可选地,转换处理包括分词、正则化、字素到音素(G2P)转换和多音字处理。
[0010]在本申请的一些实施例中,可选地,该方法还包括:对语音进行语速和音量调整。
[0011]在本申请的一些实施例中,可选地,该方法还包括:同时将多个音素单元输入到语音合成模型中进行处理。
[0012]根据本申请的又一方面,提供了一种用于智能客服场景的语音合成装置。该语音合成装置包括预处理器和语音合成模型。预处理器对待合成文本进行转换处理,以得到多个音素单元。语音合成模型包括:编码器,其接收多个音素单元作为输入,并输出多个编码建模单元;自适应器,其对多个编码建模单元进行要素预测,以获得多个预测建模单元;以及解码器,其接收多个编码建模单元和多个预测建模单元,并输出梅尔谱信息。其中,语音合成模型是根据前述任一实施例所描述的训练方法训练得到的。
[0013]在本申请的一些实施例中,可选地,该转换处理包括分词、正则化、字素到音素(G2P)转换和多音字处理。
[0014]在本申请的一些实施例中,可选地,语音合成装置还包括后端处理器,其对梅尔谱信息进行整合处理以得到与待合成文本对应的语音,并对语音信息进行语速和音量调整。
[0015]在本申请的一些实施例中,可选地,该语音合成装置同时将多个音素单元输入到语音合成模型中进行处理。
[0016]根据本申请的又一方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有指令,指令在被处理器执行时实行根据前述任一实施例所描述的训练方法;或者,指令在被处理器执行时实行根据前述任一实施例所描述的语音合成方法。
[0017]本申请通过在语音合成方法中将注意力机制替换为对多个建模单元进行同步的编解码和预测处理,提高了声学特征生成的速度,并避免了漏字情况的产生。在特别是智能客服场景中,提高了语音合成的响应速度和语音准确度,并因此提升了用户体验。
附图说明
[0018]从结合附图的以下详细说明中,将会使本申请的上述和其他目的及优点更加完整清楚,其中,相同或相似的要素采用相同的标号表示。
[0019]图1示出了根据本申请的一个实施例的用于智能客服场景的语音合成模型的训练方法100的流程图。
[0020]图2示出了根据本申请的一个实施例的用于智能客服场景的语音合成方法200的流程图。
[0021]图3示出了根据本申请的一个实施例的语音合成装置的架构示意图。
具体实施方式
[0022]出于简洁和说明性目的,本文主要参考其示范实施例来描述本申请的原理。但是,本领域技术人员将容易地认识到相同的原理可等效地应用于所有类型的语音合成方法及装置,并且可以在其中实施这些相同或相似的原理,任何此类变化不背离本申请的真实精神和范围。
[0023]诸如“包含”和“包括”之类的用语表示除了具有在说明书中有直接和明确表述的单元和步骤以外,本专利技术的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。
[0024]本文中说明的语音合成模型及相应的训练方法可以应用于具备模型训练功能的装置,如终端装置、服务器等(例如其应用程序中)。其中,终端装置具体可以为智能移动设备、计算机、个人数字助理(PDA)等;服务器具体可以为应用服务器,也可以为网页Web服务
器(http/webscoket),在实际应用部署时,该服务器可以为独立服务器,也可以为集群服务器。
[0025]在实际应用中,终端装置和服务器可以各自独立地训练语音合成模型,也可以彼此交互协作地训练语音合成模型。在后者中,终端装置可以从服务器处获取用于训练的音素样本集,进而利用该样本集进行模型训练,得到语音合成模型;亦或是,服务器可以从终端处获取样本集,进而利用该样本集进行模型训练,得到语音合成模型。
[0026]可以理解的是,终端装置或服务器执行本申请实施例提供的语音合成模型以及相应的训练方法。可以在训练得到语音合成模型后,可以将该语音合成模型发送至其他终端装置,以在这些终端装置上运行上述语音合成模型,实现相应的功能;也可以将该语音合成模型发送至其他服务器,以在其他服务器上运行上述语音合成模型,通过这些服务器实现相应的功能。
[0027]在下文中,将参考附图详细地描述根据本专利技术的各示例性实施例。
[0028]图1示出了根据本申请的一个实施例的用于智能客服场景的语音合成模型的训练方法100的流程图。该语音合成模型典型地包括编码器、自适应器和解码器。在步骤102中,将多个音素训练样本输入到编码器,获得多个编码建模单元。在步骤104中,利用自适应器对多个编码建模单元进行样本要素预测,获得多个预测建模单元。在步骤106中,将多个编码建模单元和多个预测建模单元输入到解码器,得到梅尔谱信息。在步骤108中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于智能客服场景的语音合成模型训练方法,其特征在于,所述语音合成模型包括编码器、自适应器和解码器,所述训练方法包括:将多个音素训练样本输入到所述编码器,获得多个编码建模单元;利用所述自适应器对所述多个编码建模单元进行样本要素预测,获得多个预测建模单元;将所述多个编码建模单元和所述多个预测建模单元输入到所述解码器,得到梅尔谱信息;以及基于所述梅尔谱信息和所述多个音素训练样本的预设梅尔谱信息,对所述语音合成模型进行训练,直到达到所述语音合成模型的训练条件为止。2.根据权利要求1所述的训练方法,其特征在于,所述样本要素包括以下的一项或多项:持续时间信息、能量信息、基频F0信息、韵律信息、说话人信息。3.根据权利要求2所述的训练方法,其特征在于,所述样本要素预测先执行对持续时间信息的预测。4.根据权利要求1所述的训练方法,其特征在于,同时将所述多个音素训练样本输入到所述语音合成模型进行训练。5.一种用于智能客服场景的语音合成方法,其特征在于,包括:对待合成文本进行转换处理,以得到多个音素单元;将所述多个音素单元输入到语音合成模型中,得到所述多个音素单元的梅尔谱信息;以及对所述梅尔谱信息进行整合处理以得到与所述待合成文本对应的语音,其中,所述语音合成模型是根据权利要求1

3中任一项所述的训练方法训练得到的。6.根据权利要求5所述的语音合成方法,其特征在于,所述转换处理包括分词、正则化、字素到音素(G2P)转换和多音字处理。7.根据权利要求5所述的语音合成方法,其特征在于,所述方法还包括:对所...

【专利技术属性】
技术研发人员:石岩游浩童琪琪王晴
申请(专利权)人:证通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1