一种基于Transformer的个性化藏语语音合成方法及系统技术方案

技术编号：41336618 阅读：26 留言：0更新日期：2024-05-20 09:55

本发明专利技术公开了一种基于Transformer的个性化藏语语音合成方法及系统，属于语音合成技术领域，该方法包括：获取不同藏语文本，得到拉丁字母文本集；获取不同的音频数据，得到语音梅尔频谱图集；将GST中的reference encoder和注意力机制模块引入Transformer模型，构建藏语语音合成模型，将所述拉丁字母文本集以及所述语音梅尔频谱图集输入到所述藏语语音合成模型进行训练，得到训练好的藏语语音合成模型；将一段待合成的语音及文本作为训练好的藏语语音合成模型的输入，输出一段与待合成的语音音色相似度较高，与对应文本匹配度高的语音梅尔谱。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音合成，更具体的说是涉及一种基于transformer的个性化藏语语音合成方法及系统。

技术介绍

1、个性化语音合成是指根据特定用户的声音特征、语调、发音等因素，学习该说话人声音的特点并进行语音合成，近年来的需求在逐步提升。但由于人类自然语音的表现力非常丰富，在说话人音色和韵律上变化很大，导致建模有难度，目前仍处于研究和发展的初期阶段，面临多个挑战。

2、目前，个性化语音合成技术可以分为基于自适应的个性化语音合成和基于说话人特征嵌入的个性化语音合成两大类。基于自适应的语音合成技术希望通过大量语料学习一个通用的中性语音合成系统，然后再通过较少量的待合成说话人语音对网络进行调整，这样的方法合成出来的效果较好，但是一般需要几十分钟高质量的待合成说话人语料。而基于说话人特征嵌入的个性化语音合成技术则不需要待合成人大量的高质量语料，只需要通过少量给定的说话人语音提取出说话人特征嵌入到语音合成的藏语语音合成模型中即可，同时，基于说话人特征嵌入的个性化语音合成方法对音质的要求不高。

3、然而，现有的个性化语音合成技术大多应用于英语、汉语等语料丰富的语言中，基于说话人嵌入的方法通过联合训练的reference encoder获取说话人表征，然后将其嵌入到语音合成的声学模型中，构造一种端到端个性化语音合成模型。典型的referenceencoder有gst(global style token)、vae(variational autoencoder)等。其中，gst在没有任何韵律标签的情况下进行训练，挖掘

4、但是，藏语语音合成主要集中于端到端神经网络语音合成声学模型的研究上，关于藏语个性化语音合成的研究尚为空白。

5、因此，如何提供一种基于transformer的个性化藏语语音合成方法及系统，将gst(global style token)中的reference encoder引入端到端的transformer语音合成模型中，将情感、韵律等方面的学习加入到模型训练的特征提取中，从而实现个性化的藏语语音合成，是本领域技术人员亟需解决的问题。

技术实现思路

1、有鉴于此，本专利技术提供了一种基于transformer的个性化藏语语音合成方法及系统，用以解决上述现有技术中存在的技术问题。

2、为了实现上述目的，本专利技术提供如下技术方案：

3、一种基于transformer的个性化藏语语音合成方法，包括以下步骤：

4、获取不同藏语文本，并将所述藏语文本分别转写成拉丁字母，得到拉丁字母文本集；

5、获取不同的音频数据，分别通过给定的说话人语音提取出说话人特征，得到语音梅尔频谱图集；

6、将gst中的reference encoder和注意力机制模块引入transformer模型，构建藏语语音合成模型，将所述拉丁字母文本集以及所述语音梅尔频谱图集输入到所述藏语语音合成模型进行训练，得到训练好的藏语语音合成模型；

7、将一段待合成的语音及文本作为训练好的藏语语音合成模型的输入，输出合成的语音梅尔谱。

8、可选的，获取不同藏语文本，并将所述藏语文本分别转写成拉丁字母，得到拉丁字母文本集，包括：

9、采用威利转写将藏语文本中的每个藏文字母和拉丁字母一一对应，按照藏语文本的书写顺序排列拉丁字母，其中，去掉藏语文本中的结束符，并用空格替换字分隔符，得到拉丁字母文本集。

10、可选的，所述藏语语音合成模型包括：

11、编码器模块、解码器模块、reference编码器、位置编码和post-net网络层；

12、其中，将所述拉丁字母文本集传递给所述编码器模块，通过所述编码器模块进行卷积、批处理、归一化、relu激活以及dropout操作，最终的relu激活后由所述位置编码保持中心一致性，得到一个文本嵌入text embedding；

13、同时，输入的语音梅尔频谱图集经过所述reference编码器，通过所述reference编码器提取说话人的个性特征，通过与文本嵌入text embedding加和实现说话人特征嵌入；

14、同时，输入的语音梅尔频谱图集传递给所述解码器模块，经过所述解码器模块得到带有新语音特征的梅尔谱，再经过所述post-net网络层得到带有说话人特征嵌入的个性化藏语语音梅尔谱。

15、可选的，所述编码器模块包括：编码器前馈网络和第一自注意力机制运算块；

16、所述编码器前馈网络的输入是拉丁字母文本集，所述编码器前馈网络包括：三层卷积层，归一化层、relu激活层以及一个dropout层；

17、所述第一自注意力机制运算块包括6层相同的第一子模块堆叠，每个第一子模块的结构相同，均包括多头自注意力层和前馈神经网络层。

18、可选的，所述解码器模块包括解码器前馈网络和第二自注意力机制运算块；

19、所述解码器前馈网络的输入是语音梅尔频谱图集，所述解码器前馈网络包括两层全连接神经网络，其中，第一层网络以relu为激活函数做非线性运算，第二层没有激活函数；

20、所述第二自注意力机制运算块包括6层相同的第二子模块堆叠，每个第二子模块的结构相同，均包括多头自注意力层、前馈神经网络层以及带masked标记的多头注意力层。

21、可选的，所述reference编码器包括：卷积神经网络cnn和门控循环神经网络gru，所述卷积神经网络包括二维卷积层；

22、其中，将语音梅尔频谱图集传递给具有3×3卷积核、2×2步长、batch归一化和relu激活函数的6个二维卷积层，分别为6个卷积层使用32、32、64、64、128和128个输出通道，得到的输出张量是3维，然后传入到单层128单元单向gru中，将不同长度音频信号的韵律压缩为固定长度向量，生成参考嵌入referenceembedding。

23、可选的，所述位置编码的计算表达式为：

24、

25、

26、式中，pos是时间步长索引，2i和2i+1是通道数，dmodel是每一帧的矢量大小。

27、可选的，所述第一自注意力机制运算块和所述第二自注意力机制运算块学习参考嵌入referenceembedding和随机初始化嵌入库中每个令牌之间的相似度，其中，每组嵌入embedding用令牌嵌入tokenembeddings表示，在所有训练序列中共享，输出一组组合权重，表示每个风格标记对参考嵌入reference embedding的贡献，所述组合权重用风格嵌入style embeddings表示，并传递给所述模块编码器。

28、可选的，所述藏语语音合成模型使用多头自注意力机制计算注意力权重，得到元素之间的相关性，包括：...

【技术保护点】

1.一种基于Transformer的个性化藏语语音合成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于Transformer的个性化藏语语音合成方法，其特征在于，获取不同藏语文本，并将所述藏语文本分别转写成拉丁字母，得到拉丁字母文本集，包括：

3.根据权利要求1所述的一种基于Transformer的个性化藏语语音合成方法，其特征在于，所述藏语语音合成模型包括：

4.根据权利要求3所述的一种基于Transformer的个性化藏语语音合成方法，其特征在于，所述编码器模块包括：编码器前馈网络和第一自注意力机制运算块；

5.根据权利要求4所述的一种基于Transformer的个性化藏语语音合成方法，其特征在于，所述解码器模块包括解码器前馈网络和第二自注意力机制运算块；

6.根据权利要求3所述的一种基于Transformer的个性化藏语语音合成方法，其特征在于，所述reference编码器包括：卷积神经网络CNN和门控循环神经网络GRU，所述卷积神经网络包括二维卷积层；

7.根据权利要求3所述的一种基

8.根据权利要求5所述的一种基于Transformer的个性化藏语语音合成方法，其特征在于，所述第一自注意力机制运算块和所述第二自注意力机制运算块学习参考嵌入reference embedding和随机初始化嵌入库中每个令牌之间的相似度，其中，每组嵌入embedding用令牌嵌入token embeddings表示，在所有训练序列中共享，输出一组组合权重，表示每个风格标记对参考嵌入reference embedding的贡献，所述组合权重用风格嵌入style embeddings表示，并传递给所述模块编码器。

9.根据权利要求5所述的一种基于Transformer的个性化藏语语音合成方法，其特征在于，所述藏语语音合成模型使用多头自注意力机制计算注意力权重，得到元素之间的相关性，包括：

10.一种利用权利要求1至9任一项所述的基于Transformer的个性化藏语语音合成方法的基于Transformer的个性化藏语语音合成系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于transformer的个性化藏语语音合成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于transformer的个性化藏语语音合成方法，其特征在于，获取不同藏语文本，并将所述藏语文本分别转写成拉丁字母，得到拉丁字母文本集，包括：

3.根据权利要求1所述的一种基于transformer的个性化藏语语音合成方法，其特征在于，所述藏语语音合成模型包括：

4.根据权利要求3所述的一种基于transformer的个性化藏语语音合成方法，其特征在于，所述编码器模块包括：编码器前馈网络和第一自注意力机制运算块；

5.根据权利要求4所述的一种基于transformer的个性化藏语语音合成方法，其特征在于，所述解码器模块包括解码器前馈网络和第二自注意力机制运算块；

6.根据权利要求3所述的一种基于transformer的个性化藏语语音合成方法，其特征在于，所述reference编码器包括：卷积神经网络cnn和门控循环神经网络gru，所述卷积神经网络包括二维卷积层；

7.根据权利要求3所述的一...

【专利技术属性】
技术研发人员：徐晓娜，李宁，赵悦，
申请(专利权)人：中央民族大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人