语音合成方法及语音合成模型的训练方法、装置、设备制造方法及图纸

技术编号：29493867 阅读：25 留言：0更新日期：2021-07-30 19:06

公开了一种语音合成方法及语音合成模型的训练方法、装置、设备。本公开的一实施例中，语音合成方法可以包括：对待合成的第一文本进行文本编码，获得第一合成特征；对第一声学特征进行声学编码，获得第二合成特征；对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理，获得第三合成特征；以及，对所述第三合成特征进行声学解码，获得所述第一文本的第二声学特征。本公开实施例通过一语音合成模型即可实现多发音人的语音合成。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法及语音合成模型的训练方法、装置、设备
本公开涉及语音合成
，尤其涉及一种语音合成方法及语音合成模型的训练方法、装置、设备。
技术介绍
随着智能化设备的普及以及语音识别技术的发展，人们的交互方式已经从传统的文本转向了更人性化的语音交互方式。语音合成技术能够让机器拥有人类的声音，改变了传统的文字交互方式。主流的语音合成方法主要包含2个步骤：文本转声学特征，即声学模型；声学特征转音频，即语音解码器；其中声学模型对语音合成的正确性影响较大，决定了合成音频的音调和准确性，该模型如果设计的不好，会导致合成结果出现多字、丢字、音调异常等问题。基于神经网络的声学模型可以合成比传统的隐马尔科夫模型(HMM模型)更接近真实声学特征的结果。
技术实现思路
相关技术中的语音合成模型无法合成多种发音人的语音。为解决该技术问题，本公开实施例期望提供一种语音合成方法及其使用的语音合成模型的训练方法、装置、设备，能够实现多发音人的语音合成。根据本公开的一个方面，提供了一种语音合成方法，包括：对待合成的第一文本进行文本编码，获得第一合成特征；对第一声学特征进行声学编码，获得第二合成特征；对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理，获得第三合成特征；以及对所述第三合成特征进行声学解码，获得所述第一文本的第二声学特征。根据本公开的一个方面，提供了一种语音合成模型的训练方法，包括：设置语音合成模型中的语音合成参数为当前值，所述语音合成参...

【技术保护点】
1.一种语音合成方法，包括：/n对待合成的第一文本进行文本编码，获得第一合成特征；/n对第一声学特征进行声学编码，获得第二合成特征；/n对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理，获得第三合成特征；以及/n对所述第三合成特征进行声学解码，获得所述第一文本的第二声学特征。/n

【技术特征摘要】
1.一种语音合成方法，包括：
对待合成的第一文本进行文本编码，获得第一合成特征；
对第一声学特征进行声学编码，获得第二合成特征；
对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理，获得第三合成特征；以及
对所述第三合成特征进行声学解码，获得所述第一文本的第二声学特征。

2.如权利要求1所述的方法，其中，对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理，以获得第三合成特征，包括：
对所述第一合成特征的一部分与所述第二合成特征进行矩阵乘运算和归一化指数函数处理，获得对齐合成特征；
在所述第一合成特征的另一部分中嵌入所述发音人标识信息；
针对嵌有所述发音人标识信息的所述第一合成特征的另一部分、所述对齐合成特征和所述第二合成特征进行矩阵乘运算和拼接处理，获得所述第三合成特征。

3.如权利要求2所述的方法，其中，对所述第一合成特征的一部分与所述第二合成特征进行矩阵乘运算和归一化指数函数处理，包括：
在通道维度上均分所述第一合成特征，获得第一子特征和第二子特征；
对所述第一子特征和所述第二合成特征进行矩阵乘运算，获得第四合成特征；
对所述第四合成特征进行归一化指数函数处理，获得所述对齐合成特征。

4.如权利要求1所述的方法，还包括：
在停止合成标记指示停止所述第一文本的语音合成时，生成所述第一文本的声学特征序列，所述第一文本的声学特征序列包括所述第一文本的所有第二声学特征；或者，
在所述停止合成标记指示继续所述第一文本的语音合成时，利用当前获得的所述第二声学特征重置所述第一声学特征，并重复所述声学编码、对齐处理和声学解码的步骤，获得所述第一文本的下一第二声学特征。

5.一种语音合成模型的训练方法，包括：
设置语音合成模型中的语音合成参数为当前值，所述语音合成参数至少包括如下之一：文本编码参数、声学编码参数和声学解码参数；
利用作为训练样本的第二文本及其真实声学特征执行所述语音合成模型的语音合成，获得所述第二文本的预测声学特征，所述语音合成模型的语音合成包括依次执行的文本编码、声学编码、对齐处理和声学解码；以及
根据所述对齐处理所产生的对齐训练特征、所述第二文本的真实声学特征和所述预测声学特征，调整所述语音合成参数的取值。

...

【专利技术属性】
技术研发人员：胡大盟，
申请(专利权)人：北京地平线机器人技术研发有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人