基于隐变量空间添加水印的语音合成方法、装置及设备制造方法及图纸

技术编号：41262371 阅读：3 留言：0更新日期：2024-05-11 09:20

本公开涉及一种基于隐变量空间添加水印的语音合成方法、装置及设备，上述方法包括：获取待处理文本和待添加的水印信息；对待处理文本的文本音素序列、水印信息进行特征提取处理，得到位于概率空间的文本音素隐变量和水印隐变量；拼接文本音素隐变量和水印隐变量，得到文本嵌入分布；将文本嵌入分布输入至预先训练好的对齐模型中，输出预测音素时长与语音对齐、并进行语音转换后的预测语音嵌入分布；对预测语音嵌入分布进行映射逆变换和解码处理，得到与待处理文本对应且携带有水印信息的语音合成波形。避免后处理方式添加水印容易被攻击且破解的问题，通过联合优化水印植入和语音合成，能降低水印对于所生成语音质量的负面影响。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及语音合成和人工智能，尤其涉及一种基于隐变量空间添加水印的语音合成方法、装置及设备。

技术介绍

1、随着人工智能技术的发展，语音合成技术也随之不断演进。例如文字转语音（tts）和语音转换（vc）技术的进步使得合成语音不仅自然，还能个性化地应用于各种场景，如虚拟助手和辅助技术等。在应用场景中，可以将一段文字转变为某个音色对应的语音且具有较为顺畅的听感。然而，随着技术的演进，也出现了很多技术滥用或非法利用导致的潜在风险，例如利用语音合成技术来伪造个体的语音导致人身、财产损失或舆论风险等，因此有必要提供一种能够防止语音合成被滥用或非法利用的安全策略。

2、在实现本公开构思的过程中，专利技术人发现相关技术中至少存在如下技术问题：为了防止语音合成被滥用或非法利用，相关技术在合成语音技术提出了添加水印的方式，利用水印进行语音数据的合法监管，避免非法使用；然而，相关技术中，大多是先通过语音合成方式生成语音信号，然后通过后处理的方式在语音信号中添加水印，这种方法需要确保待添加的水印对语音的质量（流利度、发音等）的负面影响尽可能低，这对于后期添加的算法有较高要求，同时由于这种方式是通过后处理的方式添加，容易被攻击且破解后拆除水印。

技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种基于隐变量空间添加水印的语音合成方法、装置及设备。

2、第一方面，本公开的实施例提供一种基于隐变量空间添加水印的语音合成方法。上述语音合成方法包括

3、在一些实施例中，在训练阶段，上述对齐模型的输入为训练文本音素序列对应的训练文本嵌入分布和预测音素时长，输出为预测语音嵌入分布；上述预测音素时长由时长预测模型根据输入的训练文本音素特征向量和噪声进行预测得到，上述训练文本音素特征向量由上述训练文本音素序列进行编码处理得到；上述对齐模型的训练标签为训练语音频谱对应的训练语音嵌入分布；通过根据训练文本嵌入分布和对应的训练语音嵌入分布的对齐信息来迭代更新上述时长预测模型的模型参数。

4、在一些实施例中，对上述待处理文本的文本音素序列、上述水印信息进行特征提取处理，得到位于概率空间的文本音素隐变量和水印隐变量，包括：基于预训练好的文本编码器，对上述待处理文本的文本音素序列进行编码处理，得到文本音素特征向量；基于预训练好的第一映射模型，将上述文本音素特征向量映射转换至概率空间，得到位于概率空间的文本音素隐变量；基于预训练好的水印编码器，对上述水印信息进行特征提取处理，得到位于概率空间的水印隐变量。

5、在一些实施例中，对上述预测语音嵌入分布进行映射逆变换和解码处理，得到与上述待处理文本对应且携带有水印信息的语音合成波形，包括：基于映射逆变换模型，对位于概率空间的上述预测语音嵌入分布进行映射逆变换处理，得到目标语音嵌入分布；基于预训练好的频谱解码器，对上述目标语音嵌入分布进行解码处理，得到与上述待处理文本对应且携带有水印信息的语音合成波形。其中，上述映射逆变换模型是预训练好的第二映射模型的逆变换模型；在训练阶段，上述第二映射模型的输入为训练语音频谱经过频谱编码器编码处理后的训练语音特征向量，输出为位于概率空间的训练语音隐变量；上述对齐模型的训练标签是通过以下方式生成的：将上述训练语音隐变量与训练水印隐变量进行拼接，得到训练语音嵌入分布。

6、在一些实施例中，在训练阶段，同步对上述文本编码器、上述第一映射模型、上述水印编码器、上述频谱编码器、上述第二映射模型、上述对齐模型和上述频谱解码器进行训练。在训练阶段，上述频谱编码器的输出分为两个分支，其中一个分支作为上述第二映射模型的输入，另一个分支作为上述频谱解码器的输入。

7、在一些实施例中，上述第一映射模型包括线性映射模型，上述第二映射模型包括流模型，上述流模型是一种基于可逆变换的模型。

8、第二方面，本公开的实施例提供一种构建语音合成模型的方法。上述构建语音合成模型的方法包括：获取训练文本与训练语音频谱构成的数据对以及待添加的训练水印信息；将上述训练文本的文本音素序列输入至待训练的文本编码器和第一映射模型，输出位于概率空间的训练文本音素隐变量；将上述训练水印信息输入至待训练的水印编码器，输出位于概率空间的训练水印隐变量；将上述训练语音频谱输入至待训练的频谱编码器和第二映射模型，输出位于概率空间的训练语音隐变量；基于相同的拼接方式，将上述训练水印隐变量分别与上述训练文本音素隐变量、上述训练语音隐变量进行拼接，对应得到训练文本嵌入分布、训练语音嵌入分布；将上述训练文本嵌入分布输入至待训练的对齐模型，输出预测音素时长对应的训练预测语音嵌入分布；上述对齐模型的训练标签为训练语音嵌入分布；将上述频谱编码器输出的训练语音特征向量输入至频谱解码器，输出得到训练重构语音波形；在训练阶段，同步对上述文本编码器、上述第一映射模型、上述水印编码器、上述频谱编码器、上述第二映射模型、上述对齐模型和上述频谱解码器进行训练；将训练好的第二映射模型对应的逆变换模型确定为映射逆变换模型；基于上述映射逆变换模型、训练好的文本编码器、第一映射模型、水印编码器、对齐模型和频谱解码器，生成语音合成模型；其中，在上述语音合成模型中，上述映射逆变换模型的输入端与上述对齐模型的输出端连接，上述映射逆变换模型的输出端与上述频谱解码器的输入端连接。

9、在一些实施例中，上述预测音素时长由时长预测模型根据输入的训练文本音素特征向量和噪声进行预测得到，其中，上述文本编码器的输出端分别连接至上述时长预测模型的输入端和上述第一映射模型的输入端；上述文本编码器输出的文本音素特征向量和噪声输入至待训练的时长预测模型，输出得到与输入对应的预测音素时长。

10、在一些实施例中，在训练阶段，通过根据训练文本嵌入分布和对应的训练语音嵌入分布的对齐信息来迭代更新上述时长预测模型的模型参数；利用kl散度测量训练文本嵌入分布和训练语音嵌入分布之间的差异，在进行对齐模型的训练时采用变分推理方式，基于最大化对数似然的变分下界算法进行模型参数迭代；通过根据训练语音频谱对应的真实语音波形与训练重构语音波形的重构损失来迭代更新上述频谱解码器的模型参数。

11、在一些实施例中，上述语音合成模型包括：文本编码器、第一映射模型、水印编码器、对齐模型、时长预测模型、频谱解码器和映射逆变换模型，上述映射逆变换模型是预训练好的第二映射模型的逆变换模型。上述文本编码器的输出分别作为第一映射模型的输入、时长预测模型的输入；上述第一映本文档来自技高网...

【技术保护点】

1.一种基于隐变量空间添加水印的语音合成方法，其特征在于，包括：

2.根据权利要求1所述的语音合成方法，其特征在于，在训练阶段，所述对齐模型的输入为训练文本音素序列对应的训练文本嵌入分布和预测音素时长，输出为预测语音嵌入分布；所述预测音素时长由时长预测模型根据输入的训练文本音素特征向量和噪声进行预测得到，所述训练文本音素特征向量由所述训练文本音素序列进行编码处理得到；所述对齐模型的训练标签为训练语音频谱对应的训练语音嵌入分布；通过根据训练文本嵌入分布和对应的训练语音嵌入分布的对齐信息来迭代更新所述时长预测模型的模型参数。

3.根据权利要求1所述的语音合成方法，其特征在于，对所述待处理文本的文本音素序列、所述水印信息进行特征提取处理，得到位于概率空间的文本音素隐变量和水印隐变量，包括：

4.根据权利要求3所述的语音合成方法，其特征在于，对所述预测语音嵌入分布进行映射逆变换和解码处理，得到与所述待处理文本对应且携带有水印信息的语音合成波形，包括：

5.根据权利要求4所述的语音合成方法，其特征在于，在训练阶段，同步对所述文本编码器、所述第

6.根据权利要求4所述的语音合成方法，其特征在于，所述第一映射模型包括线性映射模型，所述第二映射模型包括流模型，所述流模型是一种基于可逆变换的模型。

7.一种构建语音合成模型的方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，所述预测音素时长由时长预测模型根据输入的训练文本音素特征向量和噪声进行预测得到，其中，所述文本编码器的输出端分别连接至所述时长预测模型的输入端和所述第一映射模型的输入端；所述文本编码器输出的文本音素特征向量和噪声输入至待训练的时长预测模型，输出得到与输入对应的预测音素时长。

9.根据权利要求8所述的方法，其特征在于，在训练阶段，通过根据训练文本嵌入分布和对应的训练语音嵌入分布的对齐信息来迭代更新所述时长预测模型的模型参数；利用KL散度测量训练文本嵌入分布和训练语音嵌入分布之间的差异，在进行对齐模型的训练时采用变分推理方式，基于最大化对数似然的变分下界算法进行模型参数迭代；通过根据训练语音频谱对应的真实语音波形与训练重构语音波形的重构损失来迭代更新所述频谱解码器的模型参数。

10.根据权利要求7-9中任一项所述的方法，其特征在于，所述语音合成模型包括：文本编码器、第一映射模型、水印编码器、对齐模型、时长预测模型、频谱解码器和映射逆变换模型，所述映射逆变换模型是预训练好的第二映射模型的逆变换模型；

11.一种语音合成方法，其特征在于，包括：

12.一种基于隐变量空间添加水印的语音合成装置，其特征在于，包括：

13.一种构建语音合成模型的装置，其特征在于，包括：

14.一种语音合成装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-11中任一项所述的方法。

...

【技术特征摘要】

1.一种基于隐变量空间添加水印的语音合成方法，其特征在于，包括：

5.根据权利要求4所述的语音合成方法，其特征在于，在训练阶段，同步对所述文本编码器、所述第一映射模型、所述水印编码器、所述频谱编码器、所述第二映射模型、所述对齐模型和所述频谱解码器进行训练；

7.一种构建语音合成模型的方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，所述预测音素时长由时长预测模型根据输入的训练文本音素...

【专利技术属性】
技术研发人员：陶建华，章楚源，易江燕，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人