一种基于Transformer的个性化藏语语音合成方法及系统技术方案

技术编号:41336618 阅读:30 留言:0更新日期:2024-05-20 09:55
本发明专利技术公开了一种基于Transformer的个性化藏语语音合成方法及系统,属于语音合成技术领域,该方法包括:获取不同藏语文本,得到拉丁字母文本集;获取不同的音频数据,得到语音梅尔频谱图集;将GST中的reference encoder和注意力机制模块引入Transformer模型,构建藏语语音合成模型,将所述拉丁字母文本集以及所述语音梅尔频谱图集输入到所述藏语语音合成模型进行训练,得到训练好的藏语语音合成模型;将一段待合成的语音及文本作为训练好的藏语语音合成模型的输入,输出一段与待合成的语音音色相似度较高,与对应文本匹配度高的语音梅尔谱。

【技术实现步骤摘要】

本专利技术涉及语音合成,更具体的说是涉及一种基于transformer的个性化藏语语音合成方法及系统。


技术介绍

1、个性化语音合成是指根据特定用户的声音特征、语调、发音等因素,学习该说话人声音的特点并进行语音合成,近年来的需求在逐步提升。但由于人类自然语音的表现力非常丰富,在说话人音色和韵律上变化很大,导致建模有难度,目前仍处于研究和发展的初期阶段,面临多个挑战。

2、目前,个性化语音合成技术可以分为基于自适应的个性化语音合成和基于说话人特征嵌入的个性化语音合成两大类。基于自适应的语音合成技术希望通过大量语料学习一个通用的中性语音合成系统,然后再通过较少量的待合成说话人语音对网络进行调整,这样的方法合成出来的效果较好,但是一般需要几十分钟高质量的待合成说话人语料。而基于说话人特征嵌入的个性化语音合成技术则不需要待合成人大量的高质量语料,只需要通过少量给定的说话人语音提取出说话人特征嵌入到语音合成的藏语语音合成模型中即可,同时,基于说话人特征嵌入的个性化语音合成方法对音质的要求不高。

3、然而,现有的个性化语音合成技术大多应用于英语本文档来自技高网...

【技术保护点】

1.一种基于Transformer的个性化藏语语音合成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于Transformer的个性化藏语语音合成方法,其特征在于,获取不同藏语文本,并将所述藏语文本分别转写成拉丁字母,得到拉丁字母文本集,包括:

3.根据权利要求1所述的一种基于Transformer的个性化藏语语音合成方法,其特征在于,所述藏语语音合成模型包括:

4.根据权利要求3所述的一种基于Transformer的个性化藏语语音合成方法,其特征在于,所述编码器模块包括:编码器前馈网络和第一自注意力机制运算块;p>

5.根据权...

【技术特征摘要】

1.一种基于transformer的个性化藏语语音合成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于transformer的个性化藏语语音合成方法,其特征在于,获取不同藏语文本,并将所述藏语文本分别转写成拉丁字母,得到拉丁字母文本集,包括:

3.根据权利要求1所述的一种基于transformer的个性化藏语语音合成方法,其特征在于,所述藏语语音合成模型包括:

4.根据权利要求3所述的一种基于transformer的个性化藏语语音合成方法,其特征在于,所述编码器模块包括:编码器前馈网络和第一自注意力机制运算块;

5.根据权利要求4所述的一种基于transformer的个性化藏语语音合成方法,其特征在于,所述解码器模块包括解码器前馈网络和第二自注意力机制运算块;

6.根据权利要求3所述的一种基于transformer的个性化藏语语音合成方法,其特征在于,所述reference编码器包括:卷积神经网络cnn和门控循环神经网络gru,所述卷积神经网络包括二维卷积层;

7.根据权利要求3所述的一...

【专利技术属性】
技术研发人员:徐晓娜李宁赵悦
申请(专利权)人:中央民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1