当前位置: 首页 > 专利查询>天津大学专利>正文

融合安多藏文音素向量的韵律建模方法及建模系统技术方案

技术编号:35096816 阅读:14 留言:0更新日期:2022-10-01 17:00
本发明专利技术提出了一种融合安多藏文音素向量的韵律建模方法及建模系统,该方法通过获取安多藏文文本,将安多藏文文本形成根据音节进行韵律标注的语料;将带有韵律标注的语料,经过安多

【技术实现步骤摘要】
融合安多藏文音素向量的韵律建模方法及建模系统


[0001]本专利技术涉及语音合成
,特别涉及一种融合安多藏文音素向量的韵律建模方法及建模系统。

技术介绍

[0002]语音合成技术是人机交互中重要的一个环节,可以广泛用于语音导航、智能家居、虚拟主播、教学机器人等。藏语语音合成受限于语料数据规模小、数据标注成本高、研究规模小等原因,较英语和中文,进展较缓慢。由于藏语安多话音调信息不明显,导致安多藏语语音合成的韵律信息不明显。
[0003]语音合成解决的问题是把文本转换为人类可理解的语音信息。语音合成的目标是提高合成音频的可懂度和自然度。可懂度即合成的音频能够使人理解,自然度即合成的音频更像人类发出的声音。语音合成主要分为前端和后端两个任务:1、前端任务是指对文本的语言学信息进行处理,进行文本分析,主要是对文本进行断句、分词、归一化、词性分析及韵律预测等;2、后端任务是指对声学信息进行处理,主要是对声码器进行改进,以提升合成语音的质量。如何对藏语语音合成中文本前端任务进行改进,以提升安多藏语语音合成的韵律效果,是目前需要解决的技术问题。

技术实现思路

[0004]本专利技术的目的旨在至少解决所述的技术缺陷之一。
[0005]为此,本专利技术的一个目的在于提出一种融合安多藏文音素向量的韵律建模方法及建模系统,使得合成的安多藏语语音更加具有韵律信息,提升安多藏语语音合成的自然度,使得音质听起来更加自然,从而有利于藏族地区的智能语音信息处理的发展。
[0006]为了实现上述目的,一种融合安多藏文音素向量的韵律建模方法,包括以下步骤:
[0007]S1、获取安多藏文文本,将安多藏文文本形成根据音节进行韵律标注的语料;
[0008]S2、将带有韵律标注的语料,经过安多

威利转写规则转换成安多藏文音素;将安多藏文因素利用卷积神经网络进行计算,得到安多藏文音素向量;
[0009]S3、将安多藏文音素向量输入BiLSTM网络中,得到不同韵律的预测标签;
[0010]S4、采用交叉熵损失函数对不同韵律的预测标签进行优化。
[0011]进一步,优选的,在S1中,所述将安多藏文文本形成根据音节进行韵律标注的语料;包括如下方法:
[0012]获取安多藏文音频数据和对应的藏文文字信息,将所述藏文文字信息划分为韵律词、韵律短语、语调短语三种结构;
[0013]在划分后的韵律词、韵律短语或语调短语中分别提取音节,绘制所提取的音节的音高分布图;
[0014]根据音高分布图计算音节的重音概率,并根据重音概率标记所提取的音节,形成将带有韵律标注的语料。
[0015]进一步,优选的,在S2中,将带有韵律标注的语料通过安多

威利转写模块得到安多藏文音素序列;将安多藏文音素序列作为输入,放到卷积神经网络中,经过8层的卷积层和8层的池化层,通过残差神经网络的稠密层,映射到输出空间中得到安多藏文音素向量。
[0016]进一步,优选的,在S3中,所述将安多藏文音素向量输入BiLSTM网络中,得到不同韵律的预测标签,包括:
[0017]将安多藏文音素向量;放入BiLSTM网络框架中,通过Adam对函数进行优化,设置舍弃率为0.5,经过Softmax层解决多分类问题,得到不同韵律预测的标签。
[0018]进一步,优选的,在S4中,采用交叉熵损失函数对不同韵律的预测标签进行优化,包括:
[0019]根据得到的不同韵律预测标签的种类,对预测标签的样本进行多分类,采用如下公式根据每个预测样本的概率,计算交叉熵损失值;
[0020][0021]其中,y
i,k
表示第i个样本的真实标签为k,共有K个标签值N个样本,p
i,k
表示第i个样本预测为第k个标签值的概率。
[0022]本专利技术还提供一种融合安多藏文音素向量的韵律建模系统,包括数据获取模块、韵律预测模型以及优化模块;
[0023]所述数据获取模块,用于获取安多藏文文本,将安多藏文文本形成根据音节进行韵律标注的语料;
[0024]所述韵律预测模型,用于将带有韵律标注的语料,经过安多

威利转写规则转换成安多藏文音素;将安多藏文因素利用卷积神经网络进行计算,得到安多藏文音素向量;将安多藏文音素向量输入BiLSTM网络中,得到不同韵律的预测标签;
[0025]所述优化模块,采用交叉熵损失函数对不同韵律的预测标签进行优化。
[0026]进一步,优选的,所述数据获取模块还包括,获取安多藏文音频数据和对应的藏文文字信息,将所述藏文文字信息划分为韵律词、韵律短语、语调短语三种结构;
[0027]在划分后的韵律词、韵律短语或语调短语中分别提取音节,绘制所提取的音节的音高分布图;
[0028]根据音高分布图计算音节的重音概率,并根据重音概率标记所提取的音节,形成将带有韵律标注的语料。
[0029]进一步,优选的,所述韵律预测模型包括安多威力转写模块、第一卷积池化层、第二卷积池化层以及BiLSTM网络;
[0030]所述安多威力转写模块用于将输入的藏文文本转换为安多藏文音素序列;
[0031]所述第一卷积池化层用于将输入的安多藏文音素序列,经过卷积核和池化核的运算,得到安多藏文音素向量;
[0032]所述BiLSTM网络用于对输入的安多藏文音素向量进行优化学习,得到不同韵律预测的标签。
[0033]进一步,优选的,所述数据处理模块还包括,将安多藏文音素序列作为输入,放到卷积神经网络中,经过8层的卷积层和8层的池化层,通过残差神经网络的稠密层,映射到输
出空间中得到安多藏文音素向量。
[0034]进一步,优选的,所述评估优化模块,根据得到的不同韵律预测标签的种类,对预测标签的样本进行多分类,采用如下公式根据每个预测样本的概率,计算交叉熵损失值;
[0035][0036]其中,y
i,k
表示第i个样本的真实标签为k,共有K个标签值N个样本,p
i,k
表示第i个样本预测为第k个标签值的概率。
[0037]根据本专利技术实施例提供的一种融合安多藏文音素向量的韵律建模方法及建模系统,与现有技术相比至少具有以下优点:
[0038]1、用了融合安多藏文形态音素的方法,在安多藏语语音合成的前端中,将音素向量作为表征向量输入到神经网络中,从而获取到更多的安多藏语的语言信息,减少使用词向量方法中导致的信息稀疏问题;
[0039]2、利用标注数据量较大的中文语料进行预训练,在进行语料标注时,采用两级标注法,将第一次标注的韵律词,韵律短语进行音高分布统计,根据音高概率标注音节形成韵律标注的语料,由于音节由最小的发音单位

音素构成,再由音节形成音素向量;在进行韵律预测时,能够比较准确的获得韵律的分类,同时避免人为标注的主观性或者对于藏文缩略词的遗漏。
[0040]本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合安多藏文音素向量的韵律建模方法,其特征在于,包括以下步骤:S1、获取安多藏文文本,将安多藏文文本形成根据音节进行韵律标注的语料;S2、将带有韵律标注的语料,经过安多

威利转写规则转换成安多藏文音素;将安多藏文因素利用卷积神经网络进行计算,得到安多藏文音素向量;S3、将安多藏文音素向量输入BiLSTM网络中,得到不同韵律的预测标签;S4、采用交叉熵损失函数对不同韵律的预测标签进行优化。2.根据权利要求1所述的融合安多藏文音素向量的韵律建模方法,其特征在于,在S1中,所述将安多藏文文本形成根据音节进行韵律标注的语料;包括如下方法:获取安多藏文音频数据和对应的藏文文字信息,将所述藏文文字信息划分为韵律词、韵律短语、语调短语三种结构;在划分后的韵律词、韵律短语或语调短语中分别提取音节,绘制所提取的音节的音高分布图;根据音高分布图计算音节的重音概率,并根据重音概率标记所提取的音节,形成将带有韵律标注的语料。3.根据权利要求1所述的融合安多藏文音素向量的韵律建模方法,其特征在于,在S2中,将带有韵律标注的语料通过安多

威利转写模块得到安多藏文音素序列;将安多藏文音素序列作为输入,放到卷积神经网络中,经过8层的卷积层和8层的池化层,通过残差神经网络的稠密层,映射到输出空间中得到安多藏文音素向量。4.根据权利要求1所述的融合安多藏文音素向量的韵律建模方法,其特征在于,在S3中,所述将安多藏文音素向量输入BiLSTM网络中,得到不同韵律的预测标签,包括:将安多藏文音素向量;放入BiLSTM网络框架中,通过Adam对函数进行优化,设置舍弃率为0.5,经过Softmax层解决多分类问题,得到不同韵律预测的标签。5.根据权利要求1所述的融合安多藏文音素向量的韵律建模方法,其特征在于,在S4中,采用交叉熵损失函数对不同韵律的预测标签进行优化,包括:根据得到的不同韵律预测标签的种类,对预测标签的样本进行多分类,采用如下公式根据每个预测样本的概率,计算交叉熵损失值;其中,y
i,k
表示第i个样本的真实标签为k,共有K个标签值N个样本,p
i,k
表示第i个样本预测为第k个标签值的概率。6.一...

【专利技术属性】
技术研发人员:路文焕张新意魏建国方强李泽宁何玉清
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1