【技术实现步骤摘要】
融合安多藏文音素向量的韵律建模方法及建模系统
[0001]本专利技术涉及语音合成
,特别涉及一种融合安多藏文音素向量的韵律建模方法及建模系统。
技术介绍
[0002]语音合成技术是人机交互中重要的一个环节,可以广泛用于语音导航、智能家居、虚拟主播、教学机器人等。藏语语音合成受限于语料数据规模小、数据标注成本高、研究规模小等原因,较英语和中文,进展较缓慢。由于藏语安多话音调信息不明显,导致安多藏语语音合成的韵律信息不明显。
[0003]语音合成解决的问题是把文本转换为人类可理解的语音信息。语音合成的目标是提高合成音频的可懂度和自然度。可懂度即合成的音频能够使人理解,自然度即合成的音频更像人类发出的声音。语音合成主要分为前端和后端两个任务:1、前端任务是指对文本的语言学信息进行处理,进行文本分析,主要是对文本进行断句、分词、归一化、词性分析及韵律预测等;2、后端任务是指对声学信息进行处理,主要是对声码器进行改进,以提升合成语音的质量。如何对藏语语音合成中文本前端任务进行改进,以提升安多藏语语音合成的韵律效果,是目前需要解决的技术问题。
技术实现思路
[0004]本专利技术的目的旨在至少解决所述的技术缺陷之一。
[0005]为此,本专利技术的一个目的在于提出一种融合安多藏文音素向量的韵律建模方法及建模系统,使得合成的安多藏语语音更加具有韵律信息,提升安多藏语语音合成的自然度,使得音质听起来更加自然,从而有利于藏族地区的智能语音信息处理的发展。
[0006]为了实现上述目的,一种 ...
【技术保护点】
【技术特征摘要】
1.一种融合安多藏文音素向量的韵律建模方法,其特征在于,包括以下步骤:S1、获取安多藏文文本,将安多藏文文本形成根据音节进行韵律标注的语料;S2、将带有韵律标注的语料,经过安多
‑
威利转写规则转换成安多藏文音素;将安多藏文因素利用卷积神经网络进行计算,得到安多藏文音素向量;S3、将安多藏文音素向量输入BiLSTM网络中,得到不同韵律的预测标签;S4、采用交叉熵损失函数对不同韵律的预测标签进行优化。2.根据权利要求1所述的融合安多藏文音素向量的韵律建模方法,其特征在于,在S1中,所述将安多藏文文本形成根据音节进行韵律标注的语料;包括如下方法:获取安多藏文音频数据和对应的藏文文字信息,将所述藏文文字信息划分为韵律词、韵律短语、语调短语三种结构;在划分后的韵律词、韵律短语或语调短语中分别提取音节,绘制所提取的音节的音高分布图;根据音高分布图计算音节的重音概率,并根据重音概率标记所提取的音节,形成将带有韵律标注的语料。3.根据权利要求1所述的融合安多藏文音素向量的韵律建模方法,其特征在于,在S2中,将带有韵律标注的语料通过安多
‑
威利转写模块得到安多藏文音素序列;将安多藏文音素序列作为输入,放到卷积神经网络中,经过8层的卷积层和8层的池化层,通过残差神经网络的稠密层,映射到输出空间中得到安多藏文音素向量。4.根据权利要求1所述的融合安多藏文音素向量的韵律建模方法,其特征在于,在S3中,所述将安多藏文音素向量输入BiLSTM网络中,得到不同韵律的预测标签,包括:将安多藏文音素向量;放入BiLSTM网络框架中,通过Adam对函数进行优化,设置舍弃率为0.5,经过Softmax层解决多分类问题,得到不同韵律预测的标签。5.根据权利要求1所述的融合安多藏文音素向量的韵律建模方法,其特征在于,在S4中,采用交叉熵损失函数对不同韵律的预测标签进行优化,包括:根据得到的不同韵律预测标签的种类,对预测标签的样本进行多分类,采用如下公式根据每个预测样本的概率,计算交叉熵损失值;其中,y
i,k
表示第i个样本的真实标签为k,共有K个标签值N个样本,p
i,k
表示第i个样本预测为第k个标签值的概率。6.一...
【专利技术属性】
技术研发人员:路文焕,张新意,魏建国,方强,李泽宁,何玉清,
申请(专利权)人:天津大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。