【技术实现步骤摘要】
一种面向低资源条件下的多风格个性化藏语语音合成模型
[0001]本专利技术属于语音合成
,涉及一种藏语语音合成模型,具体涉及一种低资源条件下多风格个性化藏语语音合成模型。
技术介绍
[0002]文语转换又称语音合成(Text
‑
to
‑
speech,TTS),一直以来都是智能语音技术的研究热点。我国是一个多民族国家,除了汉语普通话之外,还有非常丰富的少数民族语言和地方方言。虽然汉语普通话的语音合成技术已经相对成熟,但是少数民族语言语音合成技术的整体研究水平仍然不高,特别是由于语言学研究基础的薄弱和标准语音语料资源库的缺乏,在合成语音的自然度、个性化等方面仍需进一步提高。藏语是我国藏族人民广泛使用的语言,由于地理条件、文化教育、语言沟通等条件的限制,藏区的经济文化教育发展极不平衡。在藏族地区利用语音合成技术实现藏语的语音合成,推动藏语信息处理技术的发展,在促进民族沟通交流与团结、少数民族文化保存等方面具有重要的意义。
[0003]现阶段计算机语音合成主要采用基于统计参数的语音合 ...
【技术保护点】
【技术特征摘要】
1.一种面向低资源条件下的多风格个性化藏语语音合成模型,其特征在于,包括说话人风格编码器以及依次相连的字音转换模块、文本编码器、方差适配器、梅尔谱解码器和HifiGAN声码器;说话人风格编码器包括说话人向量仿射层以及依次相连接的韵律向量提取器、梯度翻转层和说话人分类器,韵律向量提取器还与韵律向量仿射层相连;韵律向量提取器由依次设置的全连接层A、一维卷积层A、多头注意力机制层A、全连接层B和时间信息池化层构成;时间信息池化层分别与梯度翻转层和韵律向量仿射层相连;文本编码器由依次设置的多头注意力机制层B、说话人风格自适应归一化层A、一维卷积层B和说话人风格自适应归一化层B组成;多头注意力机制层B与字音转换模块相连接;说话人风格自适应归一化层B与方差适配器相连;梅尔谱解码器由依次设置的多头注意力机制层C、说话人风格自适应归一化层C、一维卷积层C、说话人风格自适应归一化层D和全连接层C构成;全连接层C与HifiGAN声码器相连接;多头注意力机制层C与方差适配器相连接;说话人风格编码器分别与文本编码器和梅尔谱解码器相连;该合成模型采用“预训练+元学习”的模型算法进行训练;将深度学习模型可学习的模型参数θ分为与韵律相关的参数θ
p
、与说话人相关的参数θ
s
和其他剩余参数构成,即;θ
p
和θ
s
包括说话人风格编码器的可学习模型参数,包括文本编码器、梅尔谱解码器和方差适配器的可学习模型参数。2.根据权...
【专利技术属性】
技术研发人员:张维昭,杨鸿武,李锦珑,甘振业,
申请(专利权)人:西北师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。