【技术实现步骤摘要】
本专利技术涉及语音合成,更具体的说是涉及一种基于transformer的个性化藏语语音合成方法及系统。
技术介绍
1、个性化语音合成是指根据特定用户的声音特征、语调、发音等因素,学习该说话人声音的特点并进行语音合成,近年来的需求在逐步提升。但由于人类自然语音的表现力非常丰富,在说话人音色和韵律上变化很大,导致建模有难度,目前仍处于研究和发展的初期阶段,面临多个挑战。
2、目前,个性化语音合成技术可以分为基于自适应的个性化语音合成和基于说话人特征嵌入的个性化语音合成两大类。基于自适应的语音合成技术希望通过大量语料学习一个通用的中性语音合成系统,然后再通过较少量的待合成说话人语音对网络进行调整,这样的方法合成出来的效果较好,但是一般需要几十分钟高质量的待合成说话人语料。而基于说话人特征嵌入的个性化语音合成技术则不需要待合成人大量的高质量语料,只需要通过少量给定的说话人语音提取出说话人特征嵌入到语音合成的藏语语音合成模型中即可,同时,基于说话人特征嵌入的个性化语音合成方法对音质的要求不高。
3、然而,现有的个性化语音合
...【技术保护点】
1.一种基于Transformer的个性化藏语语音合成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于Transformer的个性化藏语语音合成方法,其特征在于,获取不同藏语文本,并将所述藏语文本分别转写成拉丁字母,得到拉丁字母文本集,包括:
3.根据权利要求1所述的一种基于Transformer的个性化藏语语音合成方法,其特征在于,所述藏语语音合成模型包括:
4.根据权利要求3所述的一种基于Transformer的个性化藏语语音合成方法,其特征在于,所述编码器模块包括:编码器前馈网络和第一自注意力机制运算块;
...【技术特征摘要】
1.一种基于transformer的个性化藏语语音合成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于transformer的个性化藏语语音合成方法,其特征在于,获取不同藏语文本,并将所述藏语文本分别转写成拉丁字母,得到拉丁字母文本集,包括:
3.根据权利要求1所述的一种基于transformer的个性化藏语语音合成方法,其特征在于,所述藏语语音合成模型包括:
4.根据权利要求3所述的一种基于transformer的个性化藏语语音合成方法,其特征在于,所述编码器模块包括:编码器前馈网络和第一自注意力机制运算块;
5.根据权利要求4所述的一种基于transformer的个性化藏语语音合成方法,其特征在于,所述解码器模块包括解码器前馈网络和第二自注意力机制运算块;
6.根据权利要求3所述的一种基于transformer的个性化藏语语音合成方法,其特征在于,所述reference编码器包括:卷积神经网络cnn和门控循环神经网络gru,所述卷积神经网络包括二维卷积层;
7.根据权利要求3所述的一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。