当前位置: 首页 > 专利查询>清华大学专利>正文

一种篇章级别多尺度文本韵律分析方法、装置和设备制造方法及图纸

技术编号:38125579 阅读:7 留言:0更新日期:2023-07-08 09:29
本发明专利技术中提供了一种篇章级别多尺度文本韵律分析方法、装置和设备,所述方法包括:将待分析文本拆分为多个语句;利用话语级别多尺度文本韵律分析模型对多个语句进行处理,得到每个语句对应的局部韵律嵌入序列特征和句子级别话语特征;将多个语句的句子级别话语特征输入到长短期记忆网络进行处理,得到篇章级别的全局风格嵌入特征和每个语句对应的具有上下文信息的句子级别话语特征;将具有上下文信息的句子级别话语特征映射为具有上下文信息的音素级别话语特征后和局部韵律嵌入序列特征融合,得到具有上下文信息的局部韵律嵌入序列特征。本发明专利技术中能够实现更精细、更连贯的韵律情感控制,实现通过纯文本自动得到符合文本特征韵律情感表达的语音。征韵律情感表达的语音。征韵律情感表达的语音。

【技术实现步骤摘要】
一种篇章级别多尺度文本韵律分析方法、装置和设备


[0001]本专利技术涉及语音合成
,特别涉及一种篇章级别多尺度文本韵律分析方法、装置和设备。

技术介绍

[0002]语音合成技术,又称文本转语音(Text To Speech,TTS)技术,其能将任意文字信息转化为标准流畅的语音表达出来。现有的端到端语音合成技术虽然已经能够实现比较准确的发音,但和人类真实发音相比,缺乏感情信息。
[0003]相关技术中,使用情感标签来提高情感信息,或利用参考音频的风格迁移来实现情感控制。但情感标签个数有限,每个句子一般只有一个简单的标签来控制情感,使得情感表达的表现力不足,控制力度较弱;参考音频的风格迁移方法虽然相较于简单的情感标签方式控制力更强,但该方法需要提供参考音频作为输入,这在现实条件下可能是缺失的,且参考音频的风格迁移方法更注重全局的风格嵌入,而韵律以及情感等信息则是不断变化的,单纯的全局控制无法满足实际得情感需求。

技术实现思路

[0004]鉴于上述问题,本专利技术实施例提供了一种篇章级别多尺度文本韵律分析方法、装置和设备,以便克服上述问题或者至少部分地解决上述问题。
[0005]本专利技术实施例的第一方面,公开了一种篇章级别多尺度文本韵律分析方法,所述方法包括:
[0006]将待分析文本拆分为多个语句;
[0007]利用话语级别多尺度文本韵律分析模型对所述多个语句进行处理,得到每个语句对应的局部韵律嵌入序列特征和句子级别话语特征;
[0008]将所述多个语句的句子级别话语特征输入到长短期记忆网络进行处理,得到篇章级别的全局风格嵌入特征和每个语句对应的具有上下文信息的句子级别话语特征;
[0009]将所述具有上下文信息的句子级别话语特征映射到音素级别,得到具有上下文信息的音素级别话语特征;
[0010]将所述具有上下文信息的音素级别话语特征和所述局部韵律嵌入序列特征进行融合,得到具有上下文信息的局部韵律嵌入序列特征,所述具有上下文信息的局部韵律嵌入序列特征和所述篇章级别的全局风格嵌入特征表征所述待分析文本的韵律特征。
[0011]可选地,所述方法还包括:
[0012]对所述待分析文本进行特征提取,得到音素嵌入特征;
[0013]基于所述音素嵌入特征、所述具有上下文信息的局部韵律嵌入序列特征和所述篇章级别的全局风格嵌入特征进行语音合成,得到所述待分析文本对应的语音。
[0014]可选地,所述利用话语级别多尺度文本韵律分析模型对所述多个语句进行处理,得到每个语句对应的局部韵律嵌入序列特征和句子级别话语特征,包括:
[0015]对所述语句进行文本特征提取,得到字级别特征和所述句子级别话语特征;
[0016]将所述字级别特征与其他字级别特征进行融合后,利用长度调节器进行复制扩展,得到音素级别特征;
[0017]利用其他音素级别特征和所述音素级别特征进行多模态特征融合,得到多尺度融合文本特征;
[0018]基于所述多尺度融合文本特征进行音高和能量预测,得到音高特征和能量特征;
[0019]将所述音高特征、所述能量特征和所述多尺度融合文本特征拼接后进行特征预测,得到所述局部韵律嵌入序列特征。
[0020]可选地,所述将所述具有上下文信息的句子级别话语特征映射到音素级别,得到具有上下文信息的音素级别话语特征,包括:
[0021]根据所述具有上下文信息的句子级别话语特征的维度和所述局部韵律嵌入序列特征的维度,构建参数可学习矩阵;
[0022]基于所述参数可学习矩阵,利用爱因斯坦求和约定对所述具有上下文信息的句子级别话语特征进行映射,得到所述具有上下文信息的音素级别话语特征。
[0023]可选地,所述篇章级别多尺度文本韵律分析方法是通过预先训练好的篇章级别多尺度文本韵律分析模型实现的,所述篇章级别多尺度文本韵律分析模型通过以下方式进行训练:
[0024]获取韵律特征训练数据集,所述韵律特征训练数据集中的每个训练数据包括:训练文本和所述训练文本对应的真值局部韵律嵌入序列特征和真值全局风格嵌入特征;
[0025]将所述训练数据输入到所述篇章级别多尺度文本韵律分析模型进行训练,以使所述篇章级别多尺度文本韵律分析模型学习从文本到韵律特征的映射关系;
[0026]满足训练结束条件后,得到训练好的篇章级别多尺度文本韵律分析模型,所述训练好的篇章级别多尺度文本韵律分析模型具有根据文本预测韵律特征的能力。
[0027]可选地,话语级别多尺度文本韵律分析模型是所述篇章级别多尺度文本韵律分析模型中的一个子模型;所述话语级别多尺度文本韵律分析模型训练过程,包括:
[0028]所述话语级别多尺度文本韵律分析模型对输入的训练语句进行处理,得到多尺度融合文本特征;
[0029]基于所述多尺度融合文本特征进行音高和能量预测,得到预测音高特征和预测能量特征;
[0030]将真值音高特征、真值能量特征、以及所述多尺度融合文本特征拼接在一起进行特征预测,得到预测局部韵律嵌入序列特征;
[0031]根据所述预测音高特征、所述预测能量特征和所述预测局部韵律嵌入序列特征,与所述真值音高特征、所述真值能量特征和所述真值局部韵律嵌入序列特征的对比结果对所述话语级别多尺度文本韵律分析模型的参数进行更新;
[0032]满足训练结束条件后,训练好的话语级别多尺度文本韵律分析模型具有预测音高特征、预测能量特征和预测局部韵律嵌入序列特征的能力。
[0033]可选地,训练文本还对应一个原始音频;所述训练文本对应的真值局部韵律嵌入序列特征和真值全局风格嵌入特征通过以下方式得到:
[0034]利用风格迁移模型对所述原始音频进行特征提取,得到所述真值全局风格嵌入特
征、局部韵律嵌入序列特征、音高特征和能量特征;
[0035]将所述局部韵律嵌入序列特征、所述音高特征和所述能量特征进行融合,得到真值局部韵律嵌入序列特征。
[0036]可选地,在利用风格迁移模型对所述原始音频进行特征提取之前,所述方法还包括:
[0037]将所述训练文本转化为音素特征;
[0038]利用强制对齐工具将所述原始音频与所述音素特征对齐,得到对齐参考音频;
[0039]利用风格迁移模型对所述原始音频进行特征提取,包括:
[0040]利用风格迁移模型对所述对齐参考音频进行特征提取。
[0041]本专利技术实施例的第二方面,公开了一种篇章级别多尺度文本韵律分析装置,所述装置包括:
[0042]文本拆分模块,用于将待分析文本拆分为多个语句;
[0043]话语分析模块,用于利用话语级别多尺度文本韵律分析模型对所述多个语句进行处理,得到每个语句对应的局部韵律嵌入序列特征和句子级别话语特征;
[0044]语境融合模块,用于将所述多个语句的句子级别话语特征输入到长短期记忆网络进行处理,得到篇章级别的全局风格嵌入特征和每个语句对应的具有上下文信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种篇章级别多尺度文本韵律分析方法,其特征在于,所述方法包括:将待分析文本拆分为多个语句;利用话语级别多尺度文本韵律分析模型对所述多个语句进行处理,得到每个语句对应的局部韵律嵌入序列特征和句子级别话语特征;将所述多个语句的句子级别话语特征输入到长短期记忆网络进行处理,得到篇章级别的全局风格嵌入特征和每个语句对应的具有上下文信息的句子级别话语特征;将所述具有上下文信息的句子级别话语特征映射到音素级别,得到具有上下文信息的音素级别话语特征;将所述具有上下文信息的音素级别话语特征和所述局部韵律嵌入序列特征进行融合,得到具有上下文信息的局部韵律嵌入序列特征,所述具有上下文信息的局部韵律嵌入序列特征和所述篇章级别的全局风格嵌入特征表征所述待分析文本的韵律特征。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述待分析文本进行特征提取,得到音素嵌入特征;基于所述音素嵌入特征、所述具有上下文信息的局部韵律嵌入序列特征和所述篇章级别的全局风格嵌入特征进行语音合成,得到所述待分析文本对应的语音。3.根据权利要求1所述的方法,其特征在于,所述利用话语级别多尺度文本韵律分析模型对所述多个语句进行处理,得到每个语句对应的局部韵律嵌入序列特征和句子级别话语特征,包括:对所述语句进行文本特征提取,得到字级别特征和所述句子级别话语特征;将所述字级别特征与其他字级别特征进行融合后,利用长度调节器进行复制扩展,得到音素级别特征;利用其他音素级别特征和所述音素级别特征进行多模态特征融合,得到多尺度融合文本特征;基于所述多尺度融合文本特征进行音高和能量预测,得到音高特征和能量特征;将所述音高特征、所述能量特征和所述多尺度融合文本特征拼接后进行特征预测,得到所述局部韵律嵌入序列特征。4.根据权利要求1所述的方法,其特征在于,所述将所述具有上下文信息的句子级别话语特征映射到音素级别,得到具有上下文信息的音素级别话语特征,包括:根据所述具有上下文信息的句子级别话语特征的维度和所述局部韵律嵌入序列特征的维度,构建参数可学习矩阵;基于所述参数可学习矩阵,利用爱因斯坦求和约定对所述具有上下文信息的句子级别话语特征进行映射,得到所述具有上下文信息的音素级别话语特征。5.根据权利要求1

4任一所述的方法,其特征在于,所述篇章级别多尺度文本韵律分析方法是通过预先训练好的篇章级别多尺度文本韵律分析模型实现的,所述篇章级别多尺度文本韵律分析模型通过以下方式进行训练:获取韵律特征训练数据集,所述韵律特征训练数据集中的每个训练数据包括:训练文本和所述训练文本对应的真值局部韵律嵌入序列特征和真值全局风格嵌入特征;将所述训练数据输入到所述篇章级别多尺度文本韵律分析模型进行训练,以使所述篇章级别多尺度文本韵律分析模型学习从文本到韵律特征的映射关系;
满足训练结束条件后,得到训练好的篇章级别多尺度文本韵律分析模型,所述训练好的篇章级别多尺...

【专利技术属性】
技术研发人员:魏宪豪贾珈吴志勇李翔
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1