语音合成方法及语音合成模型的训练方法、装置、设备制造方法及图纸

技术编号:29493867 阅读:25 留言:0更新日期:2021-07-30 19:06
公开了一种语音合成方法及语音合成模型的训练方法、装置、设备。本公开的一实施例中,语音合成方法可以包括:对待合成的第一文本进行文本编码,获得第一合成特征;对第一声学特征进行声学编码,获得第二合成特征;对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理,获得第三合成特征;以及,对所述第三合成特征进行声学解码,获得所述第一文本的第二声学特征。本公开实施例通过一语音合成模型即可实现多发音人的语音合成。

【技术实现步骤摘要】
语音合成方法及语音合成模型的训练方法、装置、设备
本公开涉及语音合成
,尤其涉及一种语音合成方法及语音合成模型的训练方法、装置、设备。
技术介绍
随着智能化设备的普及以及语音识别技术的发展,人们的交互方式已经从传统的文本转向了更人性化的语音交互方式。语音合成技术能够让机器拥有人类的声音,改变了传统的文字交互方式。主流的语音合成方法主要包含2个步骤:文本转声学特征,即声学模型;声学特征转音频,即语音解码器;其中声学模型对语音合成的正确性影响较大,决定了合成音频的音调和准确性,该模型如果设计的不好,会导致合成结果出现多字、丢字、音调异常等问题。基于神经网络的声学模型可以合成比传统的隐马尔科夫模型(HMM模型)更接近真实声学特征的结果。
技术实现思路
相关技术中的语音合成模型无法合成多种发音人的语音。为解决该技术问题,本公开实施例期望提供一种语音合成方法及其使用的语音合成模型的训练方法、装置、设备,能够实现多发音人的语音合成。根据本公开的一个方面,提供了一种语音合成方法,包括:对待合成的第一文本进行文本编码,获得第一合成特征;对第一声学特征进行声学编码,获得第二合成特征;对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理,获得第三合成特征;以及对所述第三合成特征进行声学解码,获得所述第一文本的第二声学特征。根据本公开的一个方面,提供了一种语音合成模型的训练方法,包括:设置语音合成模型中的语音合成参数为当前值,所述语音合成参数至少包括如下之一:文本编码参数、声学编码参数和声学解码参数;利用作为训练样本的第二文本及其真实声学特征执行所述语音合成模型的语音合成,获得所述第二文本的预测声学特征,所述语音合成模型的语音合成包括依次执行的文本编码、声学编码、对齐处理和声学解码;以及根据所述对齐处理所产生的对齐训练特征、所述第二文本的真实声学特征和所述预测声学特征,调整所述语音合成参数的取值。根据本公开的一个方面,提供了一种语音合成装置,包括:文本编码单元,配置为对待合成的第一文本进行文本编码,获得第一合成特征;声学编码单元,配置为对第一声学特征进行声学编码,获得第二合成特征;对齐处理单元,配置为对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理,获得第三合成特征;声学解码单元,配置为对所述第三合成特征进行声学解码,获得所述第一文本的第二声学特征。根据本公开的一个方面,提供了一种电子设备,包括:一个或多个处理器;以及,存储器,存储有计算机程序,所述计算机程序在被所述处理器运行时使所述处理器执行上述语音合成的方法和/或语音合成模型的训练方法。根据本公开的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时使得所述处理器执行上述语音合成的方法和/或语音合成模型的训练方法。本公开实施例可针对多种类型发音人建立统一的语音合成模型,在语音合成时只需选定发音人即可实现该特定发音人的语音合成,使用一语音合成模型实现了多发音人的语音合成,不仅可满足实际应用需求,而且提高了多发音人语音合成的整体效率。附图说明通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1是本公开一示例性实施例提供的语音合成方法的流程示意图。图2是本公开一示例性实施例提供的语音合成方法中对齐处理的示例性流程图。图3是本公开一示例性实施例提供的语音合成模型的训练方法的流程示意图。图4是本公开一示例性实施例提供的调整语音合成参数的示例性流程图。图5是本公开另一示例性实施例提供的调整语音合成参数的示例性流程图。图6是本公开一示例性实施例提供的语音合成模型及其训练过程、执行语音合成过程的示意性框图。图7是本公开一示例性实施例提供的语音合成装置的结构示意图。图8是本公开一示例性实施例提供的电子设备的结构示意图。具体实施方式下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。申请概述如前文所述,基于神经网络的声学模型可以合成更接近真实声学特征的结果。目前,基于神经网络的声学模型主要分为2种方案,一种是根据时长对音素进行复制,以解决音素和声学帧特征的对应问题,然后通过简单全连接网络或卷积网络对复制后的文本和声学特征进行直接建模,最后利用所建立的模型来合成语音。另一种是目前大部分的语音合成方案一般会采用的,以循环神经网络作为主干网络,通过主干网络对语音进行合成。上述方案中,第一种方案需要额外训练一个时长模型,且该时长模型由于神经网络在计算损失时,对特征会平均化,因此合成的声学谱清晰度一般,与真实音频有一定的差距。第二种方案虽然可以合成较好的声学谱特征,但是循环神经网络对于边缘计算平台不够友好。并且,上述两种方案均不支持多发音人,只能用于单个发音人的语音合成。如果需要对多个发音人进行语音合成,就需要针对这多个发音人分别训练相应的声学模型,并且需要使用特定发音人所对应的声音模型才能够合成其语音。除此之外,上述两种方案中的声学模型合成的声学谱清晰度较差且错误率较高。针对相关技术中的上述技术问题,本公开实施例的基本构思提供了一种语音合成方法及装置、电子设备、存储介质,先对待合成的第一文本进行文本编码来获得第一合成特征、对第一声学特征进行声学编码来获得第二合成特征,然后对第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理来获得第三合成特征,最后对第三合成特征进行声学解码来获得第一文本的第二声学特征。由此可见,本公开实施例通过文本编码、声学编码、对齐处理和声学解码来实现语音合成,并且利用预先选定的发音人标识信息来完成对齐处理的步骤,只需要预先选定发音人即可针对该发音人来进行语音合成,并且可以支持多发音人的语音合成,实现了针对多发音人的语音合成,满足了实际应用需求,提高了多发音人语音合成的整体效率。针对相关技术中的上述技术问题,本公开实施例的基本构思还包括提供一种语音合成模型的训练方法及装置、电子设备、存储介质,先设置语音合成模型中的语音合成参数为当前值,然后利用作为训练样本的第二文本及其真实声学特征执行所述语音合成模型的语音合成,获得所述第二文本的预测声学特征,所述语音合成模型可用于实现上述语音合成方法,其语音合成可以包括依次执行的文本编码、声学编码、对齐处理和声学解码;最后,根据对齐处理所产生的对齐训练特征、所述第二文本的真实声学特征和所述预测声学特征,调整语音合成参数的取值。通过该方法进行迭代训练即可得到一语本文档来自技高网...

【技术保护点】
1.一种语音合成方法,包括:/n对待合成的第一文本进行文本编码,获得第一合成特征;/n对第一声学特征进行声学编码,获得第二合成特征;/n对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理,获得第三合成特征;以及/n对所述第三合成特征进行声学解码,获得所述第一文本的第二声学特征。/n

【技术特征摘要】
1.一种语音合成方法,包括:
对待合成的第一文本进行文本编码,获得第一合成特征;
对第一声学特征进行声学编码,获得第二合成特征;
对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理,获得第三合成特征;以及
对所述第三合成特征进行声学解码,获得所述第一文本的第二声学特征。


2.如权利要求1所述的方法,其中,对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理,以获得第三合成特征,包括:
对所述第一合成特征的一部分与所述第二合成特征进行矩阵乘运算和归一化指数函数处理,获得对齐合成特征;
在所述第一合成特征的另一部分中嵌入所述发音人标识信息;
针对嵌有所述发音人标识信息的所述第一合成特征的另一部分、所述对齐合成特征和所述第二合成特征进行矩阵乘运算和拼接处理,获得所述第三合成特征。


3.如权利要求2所述的方法,其中,对所述第一合成特征的一部分与所述第二合成特征进行矩阵乘运算和归一化指数函数处理,包括:
在通道维度上均分所述第一合成特征,获得第一子特征和第二子特征;
对所述第一子特征和所述第二合成特征进行矩阵乘运算,获得第四合成特征;
对所述第四合成特征进行归一化指数函数处理,获得所述对齐合成特征。


4.如权利要求1所述的方法,还包括:
在停止合成标记指示停止所述第一文本的语音合成时,生成所述第一文本的声学特征序列,所述第一文本的声学特征序列包括所述第一文本的所有第二声学特征;或者,
在所述停止合成标记指示继续所述第一文本的语音合成时,利用当前获得的所述第二声学特征重置所述第一声学特征,并重复所述声学编码、对齐处理和声学解码的步骤,获得所述第一文本的下一第二声学特征。


5.一种语音合成模型的训练方法,包括:
设置语音合成模型中的语音合成参数为当前值,所述语音合成参数至少包括如下之一:文本编码参数、声学编码参数和声学解码参数;
利用作为训练样本的第二文本及其真实声学特征执行所述语音合成模型的语音合成,获得所述第二文本的预测声学特征,所述语音合成模型的语音合成包括依次执行的文本编码、声学编码、对齐处理和声学解码;以及
根据所述对齐处理所产生的对齐训练特征、所述第二文本的真实声学特征和所述预测声学特征,调整所述语音合成参数的取值。


...

【专利技术属性】
技术研发人员:胡大盟
申请(专利权)人:北京地平线机器人技术研发有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1