一种视听一致个性化语音合成系统、合成方法及训练方法技术方案

技术编号：40667702 阅读：2 留言：0更新日期：2024-03-18 19:02

本发明专利技术涉及个性化语音合成领域，尤其涉及一种视听一致个性化语音合成系统、合成方法及训练方法。本发明专利技术通过加入说话人的人脸图像进行语音合成，并将参考音频与人脸图像进行结合，使得合成的语音能兼具视觉模态信息和听觉模态信息，有效提高语音合成系统的个性化建模能力；同时采用两个阶段对语音合成系统进行训练，可以充分挖掘语音和人脸图像的特征，并提高模型的准确性和自然度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及个性化语音合成领域，尤其涉及一种视听一致个性化语音合成系统、合成方法及训练方法。

技术介绍

1、随着人工智能技术的迅速发展，不断改变人与机器互动的方式，其中，语音合成在于通过合成类人、自然的音频叙述，这使得机器开口成为可能。同时，随着语音合成技术的发展，深度学习和神经网络不断应用在语音合成技术中，使得语音合成技术在自然度和可理解性基本达到应用标准。目前，合成语音在个性化表达方面还无法满足应用需求，在音色选择上不够丰富，无法合成不同特定的说话人身份特征和情感状态的语音。

技术实现思路

1、本专利技术的目的在于提供一种视听一致个性化语音合成系统、合成方法及训练方法，通过深入挖掘语音与说话人视觉特征的相关性，实现视听一致性约束，构建说话人表征，以此生成具有视听一致的较高质量的个性化语音。

2、为达到上述目的，本专利技术采用如下技术方案：一种视听一致个性化语音合成系统，包括个性化语音生成模型和声码器，所述个性化语音生成模型包括文本编码器、风格编码器、人脸编码器、持续时间预测器、韵律预测器和解码器；所述文本编码器用于将给定的音素编码为音素隐藏表示；所述风格编码器用于将给定的梅尔谱图进行编码得到其音频风格向量；所述人脸编码器用于将给定的人脸图像进行编码得到人脸风格向量；所述持续时间预测器用于从给定的音素隐藏表示和风格向量得到预测的音素隐藏表示和预测的注意力对齐以及对齐音素隐藏表示；所述韵律预测器用于根据预测的音素隐藏表示和预测的注意力对齐以及风格向量得到预测音高和预测

3、具体的，个性化语音生成模型还包括文本对齐器和音高提取器；文本对齐器用于根据给定的音素和梅尔谱图生成注意力对齐；所述音高提取器用于从给定的梅尔谱图中提取音高和能量值，所述文本对齐器和音高提取器用于对解码器进行训练。

4、进一步的，还包括有鉴别器，所述鉴别器用于对解码器进行辅助训练。

5、一种视听一致个性化语音合成方法，包括如下步骤：

6、s01、输入文本、说话人的参考音频和说话人的人脸图像，并将输入文本通过音素转换得到输入音素，将说话人的参考音频转换为参考梅尔谱图。

7、s02、将输入音素输入到文本编码器得到音素隐藏表示；将参考梅尔谱图输入到风格编码器得到音频风格向量；将人脸图像输入到人脸编码器得到人脸风格向量。

8、s03、将音频风格向量和人脸风格向量进行叠加得到视听一体的风格向量。

9、s04、将步骤s02中的音素隐藏表示和风格向量输入到持续时间预测器，得到预测的音素隐藏表示和预测的注意力对齐，并以此生成预测的对齐音素隐藏表示。

10、s05、将预测的音素隐藏表示和预测的注意力对齐以及风格向量输入到韵律预测器得到预测音高和预测能量值。

11、s06、将预测的对齐音素隐藏表示、增强后视听一体的风格向量、预测音高和预测能量值输入到解码器输出得到经过持续时间预测和韵律预测后的梅尔谱图；并将该梅尔谱图输入到声码器中生成合成语音。

12、一种视听一致个性化语音合成系统的训练方法，包括如下步骤：

13、s11、第一阶段：利用如下训练函数对解码器的重构函数进行训练：，其中，为音素经过文本编码器后得到的音素隐藏表示，为音素和梅尔谱图经过文本对齐器后得到的注意力对齐，为利用音频风格向量和人脸风格向量进行叠加得到视听一体的风格向量，其中音频风格向量为将梅尔谱图输入到风格编码器后得到，人脸风格向量为将人脸图像输入到人脸编码器后得到。

14、s12、同时利用如下训练函数对文本对齐器进行训练：①；②，其中，为交叉熵损失函数，为音素中的第i个音素标记，为文本对齐器输出的第i个预测的音素标记，t为音素中音素的数量，为文本对齐器输入的注意力对齐，为通过动态规划算法获得的单调硬对齐。

15、s22、第二阶段：利用如下训练函数对持续时间预测器进行训练：，其中，为真实持续时间，为持续时间预测器输出的预测持续时间。

16、s22、利用如下训练函数对韵律预测器进行训练：①，②，其中，为梅尔谱图的真实音高，为的注意力对齐，为的能量值，为韵律预测器输出的预测音高，为韵律预测器输出的预测能量值。

17、s23、利用如下训练函数再次对解码器的重构函数进行训练：，其中，为增强的梅尔谱图，为为韵律预测器输出的预测音高，为韵律预测器输出的预测能量值。

18、具体的，所述第一阶段训练还包括如下步骤：

19、s13、增加鉴别器并利用如下训练函数对对解码器的重构函数进行训练：①，②，其中，为鉴别器的处理函数，其具有t层输出特征，为中具有个特征的第i层的输出特征图；为给定梅尔谱图，为经过解码器重构函数后的梅尔谱图，即，。

20、具体的，所述第一阶段训练的整体函数使用超参数，第一阶段训练的整体函数为：。

21、具体的，第二阶段训练的整体函数使用超参数，第二阶段训练的整体函数为：。

22、本专利技术的有益效果在于：通过加入说话人的人脸图像进行语音合成，并将参考音频与人脸图像进行结合，使得合成的语音能兼具视觉模态信息和听觉模态信息，有效提高语音合成系统的个性化建模能力；同时采用两个阶段对语音合成系统进行训练，可以充分挖掘语音和人脸图像的特征，并提高模型的准确性和自然度。

本文档来自技高网...

【技术保护点】

1.一种视听一致个性化语音合成系统，其特征在于：包括个性化语音生成模型和声码器，所述个性化语音生成模型包括文本编码器、风格编码器、人脸编码器、持续时间预测器、韵律预测器和解码器；所述文本编码器用于将给定的音素编码为音素隐藏表示；所述风格编码器用于将给定的梅尔谱图进行编码得到其音频风格向量；所述人脸编码器用于将给定的人脸图像进行编码得到人脸风格向量；所述持续时间预测器用于从给定的音素隐藏表示和风格向量得到预测的音素隐藏表示和预测的注意力对齐以及对齐音素隐藏表示；所述韵律预测器用于根据预测的音素隐藏表示和预测的注意力对齐以及风格向量得到预测音高和预测能量值；所述解码器用于将对齐音素隐藏表示、风格向量、音高和能量值进行重建得到新的梅尔谱图；所述声码器用于将梅尔谱图生成输出语音。

2.根据权利要求1所述的一种视听一致个性化语音合成系统，其特征在于：所述个性化语音生成模型还包括文本对齐器和音高提取器；文本对齐器用于根据给定的音素和梅尔谱图生成注意力对齐；所述音高提取器用于从给定的梅尔谱图中提取音高和能量值，所述文本对齐器和音高提取器用于对解码器进行训练。

3.根据权

4.一种利用如权利要求1-3任一项所述的视听一致个性化语音合成系统进行的个性化语音合成方法，其特征在于，包括如下步骤：

5.一种针对如权利要求1-3任一项所述的视听一致个性化语音合成系统的训练方法，其特征在于，包括如下步骤：

6.根据权利要求5所述的一种训练方法，其特征在于，所述第一阶段训练还包括如下步骤：

7.根据权利要求6所述的一种训练方法，其特征在于：所述第一阶段训练的整体函数使用超参数，第一阶段训练的整体函数为：。

8.根据权利要求5所述的一种训练方法，其特征在于：所述第二阶段训练的整体函数使用超参数，第二阶段训练的整体函数为：。

...

【技术特征摘要】

2.根据权利要求1所述的一种视听一致个性化语音合成系统，其特征在于：所述个性化语音生成模型还包括文本对齐器和音高提取器；文本对齐器用于根据给定的音素和梅尔谱图生成...

【专利技术属性】
技术研发人员：柯登峰，徐艳艳，林鹏，李明珠，许佳超，
申请(专利权)人：广东省连听科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人