端到端歌声合成方法、计算机设备及存储介质技术

技术编号:35450417 阅读:43 留言:0更新日期:2022-11-03 12:05
本发明专利技术公开了一种端到端歌声合成方法、计算机设备及存储介质,所述合成方法包括如下步骤:S1、从给定乐谱中获取歌词文本,对应乐谱音高以及乐谱时长;并从歌词中提取相应的语义信息并且将其作为模型输入的一部分;S2、将歌词文本转换为对应的音素序列后,与乐谱音高序列以及乐谱时长序列一起输入预构建的歌声合成模型第一输入端;S3、将语义信息输入预构建的歌声合成模型的第二输入端;S4、通过歌声合成模型合成对应真人演唱的歌声。本发明专利技术能够提升合成歌声的自然度和表现力,并且可以应用于任意的歌声合成方案中。意的歌声合成方案中。意的歌声合成方案中。

【技术实现步骤摘要】
端到端歌声合成方法、计算机设备及存储介质


[0001]本专利技术涉及音频
,特别是涉及一种端到端歌声合成方法、计算机设备及存储介质。

技术介绍

[0002]歌声合成(SVS)技术已经广泛地应用到了虚拟歌姬、智能语音助手等产品中。相比于文语转换(TTS)系统,SVS系统需要在生成正确读音的同时,保证具有正确的乐谱音高和发音时长。同时歌声相比于语音还有一些独特的特征例如颤音来增加歌声的表现力。而生成更具表现力的歌声也是歌声合成的重要问题之一。
[0003]歌声合成的流程如图1所示。从乐谱中提取出音素序列,音高序列以及时长序列,通过歌声合成模型输出中间特征。声码器以该中间特征作为输入,生成对应歌声。
[0004]目前的歌声合成方案主要存在以下两个问题:(1)人们在根据乐谱演唱歌声的时候,往往会根据歌词的语义信息加入相应的演绎。而目前的歌声合成系统往往没有考虑歌词的语义信息对于歌声的影响,从而使得能够合成较为准确的歌声的同时,相比于真人演唱的歌声缺乏表现力。(2)相比于TTS系统,由于歌声的能量波动相比于语音更加剧烈,SVS系统更需要对歌声的能量进行建模。而现有SVS系统没有考虑歌声中能量的建模。
[0005]深度学习方法在TTS、语音转换等各种语音生成任务上取得了巨大成功。近年来,由声学模型和声码器组成的两阶段模型是SVS系统的主流架构。两阶段架构的每个模型都是独立训练的。尽管两阶段模型在某些任务上取得了进展,但它无法掩盖其结构上的问题。为了缓解两阶段架构的不匹配问题,最近有人提出以端到端的方式进行训练,例如FastSpeech2s(一种自回归TTS模型)、EATS(一种端到端对抗式TTS模型)和VITS(一种TTS模型)。通过采用变分推理,VITS可以生成更自然的音频。受VITS的启发,近期西工大推出了名为VISinger的端到端SVS系统,它遵循VITS的主要架构,但对其编码器进行了改进,以产生高质量的歌声。
[0006]尽管现有的SVS系统能够产生高质量的歌声,但合成歌曲与人类演唱的歌曲之间仍有很大差距。现有的SVS系统,如ByteSing和HifiSinger可以合成与乐谱完全相同的歌声,但听起来仍然有些机械。人们在唱歌时,会根据歌词的语义信息,结合情感和强度变化等各种细节,增强歌声的感染力和表现力。为了提高合成语音的表达能力,TTS社区已经做出了一些努力,将来自预训练模型(如BERT)所提取的语义信息作为TTS模型的额外输入,取得了可观的结果。
[0007]现有方案中,存在如下缺点:
[0008]1)现有的歌声合成模型基本上能够按照乐谱合成较为准确的歌声,但是听起来总有些不自然的机械感,这是由于人们在歌唱的过程中往往会结合歌词的语义信息进行演绎,使得合成的歌声富有表现力,而现有的歌声合成模型没有考虑歌词的语义信息,从而合成的歌声与真人仍有一定差距。
[0009]2)基于两阶段模型的歌声合成方案训练流程繁琐,并且在训练过程中存在声码器
与声学模型两阶段的不匹配问题,使得生成歌声的质量下降。
[0010]3)现有的歌声合成模型没有考虑对合成歌声的能量进行建模,而歌声中的能量变化在某些部分是频繁且剧烈的。

技术实现思路

[0011]为了弥补上述
技术介绍
的不足,本专利技术提出一种端到端歌声合成方法、计算机设备及存储介质,以解决合成歌声不够自然、缺乏表现力以及质量低的问题。
[0012]本专利技术的技术问题通过以下的技术方案予以解决:
[0013]本专利技术公开了一种端到端歌声合成方法,包括如下步骤:
[0014]S1、从给定乐谱中获取歌词文本,对应乐谱音高以及乐谱时长;并从歌词中提取相应的语义信息并且将其作为模型输入的一部分;
[0015]S2、将歌词文本转换为对应的音素序列后,与乐谱音高序列以及乐谱时长序列一起输入预构建的歌声合成模型第一输入端;
[0016]S3、将语义信息输入预构建的歌声合成模型的第二输入端;
[0017]S4、通过歌声合成模型合成对应真人演唱的歌声。
[0018]在一些实施例中,步骤S1中,采用语义特征提取模块从歌词中提取相应的语义信息,语义特征提取模块包含三个部分:预训练的语义表征模型、上采样模块以及文本编码器模块。
[0019]在一些实施例中,所述语义特征提取模块接受一句歌词的字符序列作为输入,并且输出音素级别的语义特征序列。
[0020]在一些实施例中,语义信息由所述预训练的语义表征模型提取,输入为字级别的歌词序列,输出为字级别的语义特征序列;所述上采样模块将字级别的语义特征序列扩增为音素级别;并经过所述文本编码器模块得到音素级别语义特征序列。
[0021]在一些实施例中,所述上采样模块将字级别的语义特征序列扩增为音素级别包括如下步骤:通过字

音素转换模块将每个字转换为对应的音素,得到每个字所对应的音素数量;根据每个字的音素数量,通过复制的方法将每个字级别的特征扩增为音素级别的特征;其次再根据数据集所提供的音素序列,记录其中静音段SP和吸气AP标识的位置,并且在扩增后的音素序列对应位置添加全零向量。
[0022]在一些实施例中,所述预训练的语义表征模型为预训练的BERT模型,所述文本编码器模块为Text encoder。
[0023]在一些实施例中,步骤S1中,采用音高预测器预测输出歌声的每一帧歌唱音高。
[0024]在一些实施例中,步骤S1中,采用能量预测器预测输出歌声的每一帧能量。
[0025]本专利技术还公开了一种计算机设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序可被处理器执行以实现如上任一项所述的方法。
[0026]本专利技术还公开了一种计算机可读存储介质,存储有计算机程序,所述计算机程序可被处理器执行以实现如上任一项所述的方法。
[0027]本专利技术与现有技术对比的有益效果包括:
[0028]本专利技术提供的端到端歌声合成方法,通过语义特征提取模块提取歌词中的语义信息作为歌声合成模型的附加输入,从而提升歌声合成模型合成歌声的自然度和表现力,并
且可以应用于任意的歌声合成方案中。
[0029]在一些实施例中,采用能量预测器预测输出歌声的每一帧能量,从而提高了合成歌声能量的准确度。
[0030]在一些实施例中,通过音高预测器预测输出歌声的每一帧歌唱音高,从而提高了音高预测的准确度。
附图说明
[0031]图1是本专利技术现有技术的歌声合成方法流程图。
[0032]图2是本专利技术实施例的端到端歌声合成方法流程图。
[0033]图3是本专利技术实施例的端到端歌声合成方法使用示意图。
[0034]图4是本专利技术实施例中的语义特征提取模块示意图。
[0035]图5是本专利技术实施例中的语义特征提取器示意图。
具体实施方式
[0036]下面对照附图并结合优选的实施方式对本专利技术作进一步说明。需要说明的是,在不冲突的情本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端歌声合成方法,其特征在于,包括如下步骤:S1、从给定乐谱中获取歌词文本,对应乐谱音高以及乐谱时长;并从歌词中提取相应的语义信息并且将其作为模型输入的一部分;S2、将歌词文本转换为对应的音素序列后,与乐谱音高序列以及乐谱时长序列一起输入预构建的歌声合成模型第一输入端;S3、将语义信息输入预构建的歌声合成模型的第二输入端;S4、通过歌声合成模型合成对应真人演唱的歌声。2.如权利要求1所述的端到端歌声合成方法,其特征在于,步骤S1中,采用语义特征提取模块从歌词中提取相应的语义信息,语义特征提取模块包含三个部分:预训练的语义表征模型、上采样模块以及文本编码器模块。3.如权利要求2所述的端到端歌声合成方法,其特征在于,所述语义特征提取模块接受一句歌词的字符序列作为输入,并且输出音素级别的语义特征序列。4.如权利要求2所述的端到端歌声合成方法,其特征在于,语义信息由所述预训练的语义表征模型提取,输入为字级别的歌词序列,输出为字级别的语义特征序列;所述上采样模块将字级别的语义特征序列扩增为音素级别;并经过所述文本编码器模块得到音素级别语义特征序列。5.如权利要求4所述的端到端歌声合成方法,其特征在于,所述上采样模块将字级别的语义特征序列扩增为音素级...

【专利技术属性】
技术研发人员:吴志勇周绍焕
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1