一种篇章级别多尺度文本韵律分析方法、装置和设备制造方法及图纸

技术编号：38125579 阅读：7 留言：0更新日期：2023-07-08 09:29

本发明专利技术中提供了一种篇章级别多尺度文本韵律分析方法、装置和设备，所述方法包括：将待分析文本拆分为多个语句；利用话语级别多尺度文本韵律分析模型对多个语句进行处理，得到每个语句对应的局部韵律嵌入序列特征和句子级别话语特征；将多个语句的句子级别话语特征输入到长短期记忆网络进行处理，得到篇章级别的全局风格嵌入特征和每个语句对应的具有上下文信息的句子级别话语特征；将具有上下文信息的句子级别话语特征映射为具有上下文信息的音素级别话语特征后和局部韵律嵌入序列特征融合，得到具有上下文信息的局部韵律嵌入序列特征。本发明专利技术中能够实现更精细、更连贯的韵律情感控制，实现通过纯文本自动得到符合文本特征韵律情感表达的语音。征韵律情感表达的语音。征韵律情感表达的语音。

全部详细技术资料下载

【技术实现步骤摘要】
一种篇章级别多尺度文本韵律分析方法、装置和设备

[0001]本专利技术涉及语音合成
，特别涉及一种篇章级别多尺度文本韵律分析方法、装置和设备。

技术介绍

[0002]语音合成技术，又称文本转语音(Text To Speech，TTS)技术，其能将任意文字信息转化为标准流畅的语音表达出来。现有的端到端语音合成技术虽然已经能够实现比较准确的发音，但和人类真实发音相比，缺乏感情信息。
[0003]相关技术中，使用情感标签来提高情感信息，或利用参考音频的风格迁移来实现情感控制。但情感标签个数有限，每个句子一般只有一个简单的标签来控制情感，使得情感表达的表现力不足，控制力度较弱；参考音频的风格迁移方法虽然相较于简单的情感标签方式控制力更强，但该方法需要提供参考音频作为输入，这在现实条件下可能是缺失的，且参考音频的风格迁移方法更注重全局的风格嵌入，而韵律以及情感等信息则是不断变化的，单纯的全局控制无法满足实际得情感需求。

技术实现思路

[0004]鉴于上述问题，本专利技术实施例提供了一种篇章级别多尺度文本韵律分析方法、装置和设备，以便克服上述问题或者至少部分地解决上述问题。
[0005]本专利技术实施例的第一方面，公开了一种篇章级别多尺度文本韵律分析方法，所述方法包括：
[0006]将待分析文本拆分为多个语句；
[0007]利用话语级别多尺度文本韵律分析模型对所述多个语句进行处理，得到每个语句对应的局部韵律嵌入序列特征和句子级别话语特征；
[0008]将所述多个语句的...

【技术保护点】

【技术特征摘要】
1.一种篇章级别多尺度文本韵律分析方法，其特征在于，所述方法包括：将待分析文本拆分为多个语句；利用话语级别多尺度文本韵律分析模型对所述多个语句进行处理，得到每个语句对应的局部韵律嵌入序列特征和句子级别话语特征；将所述多个语句的句子级别话语特征输入到长短期记忆网络进行处理，得到篇章级别的全局风格嵌入特征和每个语句对应的具有上下文信息的句子级别话语特征；将所述具有上下文信息的句子级别话语特征映射到音素级别，得到具有上下文信息的音素级别话语特征；将所述具有上下文信息的音素级别话语特征和所述局部韵律嵌入序列特征进行融合，得到具有上下文信息的局部韵律嵌入序列特征，所述具有上下文信息的局部韵律嵌入序列特征和所述篇章级别的全局风格嵌入特征表征所述待分析文本的韵律特征。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：对所述待分析文本进行特征提取，得到音素嵌入特征；基于所述音素嵌入特征、所述具有上下文信息的局部韵律嵌入序列特征和所述篇章级别的全局风格嵌入特征进行语音合成，得到所述待分析文本对应的语音。3.根据权利要求1所述的方法，其特征在于，所述利用话语级别多尺度文本韵律分析模型对所述多个语句进行处理，得到每个语句对应的局部韵律嵌入序列特征和句子级别话语特征，包括：对所述语句进行文本特征提取，得到字级别特征和所述句子级别话语特征；将所述字级别特征与其他字级别特征进行融合后，利用长度调节器进行复制扩展，得到音素级别特征；利用其他音素级别特征和所述音素级别特征进行多模态特征融合，得到多尺度融合文本特征；基于所述多尺度融合文本特征进行音高和能量预测，得到音高特征和能量特征；将所述音高特征、所述能量特征和所述多尺度融合文本特征拼接后进行特征预测，得到所述局部韵律嵌入序列特征。4.根据权利要求1所述的方法，其特征在于，所述将所述具有上下文信息的句子级别话语特征映射到音素级别，得到具有上下文信息的音素级别话语特征，包括：根据所述具有上下文信息的句子级别话语特征的维度和所述局部韵律嵌入序列特征的维度，构建参数可学习矩阵；基于所述参数可学习矩阵，利用爱因斯坦求和约定对所述具有上下文信息的句子级别话语特征进行映射，得到所述具有上下文信息的音素级别话语特征。5.根据权利要求1
‑
4任一所述的方法，其特征在于，所述篇章级别多尺度文本韵律分析方法是通过预先训练好的篇章级别多尺度文本韵律分析模型实现的，所述篇章级别多尺度文本韵律分析模型通过以下方式进行训练：获取韵律特征训练数据集，所述韵律特征训练数据集中的每个训练数据包括：训练文本和所述训练文本对应的真值局部韵律嵌入序列特征和真值全局风格嵌入特征；将所述训练数据输入到所述篇章级别多尺度文本韵律分析模型进行训练，以使所述篇章级别多尺度文本韵律分析模型学习从文本到韵律特征的映射关系；
满足训练结束条件后，得到训练好的篇章级别多尺度文本韵律分析模型，所述训练好的篇章级别多尺...

【专利技术属性】
技术研发人员：魏宪豪，贾珈，吴志勇，李翔，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人