端到端歌声合成方法、计算机设备及存储介质技术

技术编号：35450417 阅读：43 留言：0更新日期：2022-11-03 12:05

本发明专利技术公开了一种端到端歌声合成方法、计算机设备及存储介质，所述合成方法包括如下步骤：S1、从给定乐谱中获取歌词文本，对应乐谱音高以及乐谱时长；并从歌词中提取相应的语义信息并且将其作为模型输入的一部分；S2、将歌词文本转换为对应的音素序列后，与乐谱音高序列以及乐谱时长序列一起输入预构建的歌声合成模型第一输入端；S3、将语义信息输入预构建的歌声合成模型的第二输入端；S4、通过歌声合成模型合成对应真人演唱的歌声。本发明专利技术能够提升合成歌声的自然度和表现力，并且可以应用于任意的歌声合成方案中。意的歌声合成方案中。意的歌声合成方案中。

全部详细技术资料下载

【技术实现步骤摘要】
端到端歌声合成方法、计算机设备及存储介质

[0001]本专利技术涉及音频
，特别是涉及一种端到端歌声合成方法、计算机设备及存储介质。

技术介绍

[0002]歌声合成(SVS)技术已经广泛地应用到了虚拟歌姬、智能语音助手等产品中。相比于文语转换(TTS)系统，SVS系统需要在生成正确读音的同时，保证具有正确的乐谱音高和发音时长。同时歌声相比于语音还有一些独特的特征例如颤音来增加歌声的表现力。而生成更具表现力的歌声也是歌声合成的重要问题之一。
[0003]歌声合成的流程如图1所示。从乐谱中提取出音素序列，音高序列以及时长序列，通过歌声合成模型输出中间特征。声码器以该中间特征作为输入，生成对应歌声。
[0004]目前的歌声合成方案主要存在以下两个问题：(1)人们在根据乐谱演唱歌声的时候，往往会根据歌词的语义信息加入相应的演绎。而目前的歌声合成系统往往没有考虑歌词的语义信息对于歌声的影响，从而使得能够合成较为准确的歌声的同时，相比于真人演唱的歌声缺乏表现力。(2)相比于TTS系统，由于歌声的能量波动相比于语音更加剧烈，SVS系统更需要对歌声的能量进行建模。而现有SVS系统没有考虑歌声中能量的建模。
[0005]深度学习方法在TTS、语音转换等各种语音生成任务上取得了巨大成功。近年来，由声学模型和声码器组成的两阶段模型是SVS系统的主流架构。两阶段架构的每个模型都是独立训练的。尽管两阶段模型在某些任务上取得了进展，但它无法掩盖其结构上的问题。为了缓解两阶段架构的不匹配问题，最近有人提出以端到端的方...

【技术保护点】

【技术特征摘要】
1.一种端到端歌声合成方法，其特征在于，包括如下步骤：S1、从给定乐谱中获取歌词文本，对应乐谱音高以及乐谱时长；并从歌词中提取相应的语义信息并且将其作为模型输入的一部分；S2、将歌词文本转换为对应的音素序列后，与乐谱音高序列以及乐谱时长序列一起输入预构建的歌声合成模型第一输入端；S3、将语义信息输入预构建的歌声合成模型的第二输入端；S4、通过歌声合成模型合成对应真人演唱的歌声。2.如权利要求1所述的端到端歌声合成方法，其特征在于，步骤S1中，采用语义特征提取模块从歌词中提取相应的语义信息，语义特征提取模块包含三个部分：预训练的语义表征模型、上采样模块以及文本编码器模块。3.如权利要求2所述的端到端歌声合成方法，其特征在于，所述语义特征提取模块接受一句歌词的字符序列作为输入，并且输出音素级别的语义特征序列。4.如权利要求2所述的端到端歌声合成方法，其特征在于，语义信息由所述预训练的语义表征模型提取，输入为字级别的歌词序列，输出为字级别的语义特征序列；所述上采样模块将字级别的语义特征序列扩增为音素级别；并经过所述文本编码器模块得到音素级别语义特征序列。5.如权利要求4所述的端到端歌声合成方法，其特征在于，所述上采样模块将字级别的语义特征序列扩增为音素级...

【专利技术属性】
技术研发人员：吴志勇，周绍焕，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人