基于唱本的语音合成方法、装置、可读介质和电子设备制造方法及图纸

技术编号:28424807 阅读:40 留言:0更新日期:2021-05-11 18:33
本公开涉及一种基于唱本的语音合成方法、装置、可读介质和电子设备,涉及电子信息处理技术领域,该方法包括:获取目标唱本中包括的目标文本和目标文本对应目标乐谱,提取目标文本对应的音素序列,和目标乐谱对应的音高序列,音高序列包括:音素序列中每个音素对应的音高,根据音素序列,通过预先训练的时长预测模型预测时长序列,时长序列包括:音素序列中每个音素对应的时长,根据音素序列、音高序列和时长序列,通过预先训练的语音合成模型合成目标文本对应的符合目标乐谱的目标音频,且目标音频与时长序列匹配。本公开能够根据唱本中包括的文本和乐谱,确定对应的音素序列、音高序列和时长序列,从而合成符合唱本的音频,提高了音频的表现力。

【技术实现步骤摘要】
基于唱本的语音合成方法、装置、可读介质和电子设备
本公开涉及电子信息处理
,具体地,涉及一种基于唱本的语音合成方法、装置、可读介质和电子设备。
技术介绍
随着电子信息处理技术的不断发展,语音作为人们获取信息的重要载体,已经被广泛应用于日常生活和工作中。涉及语音的应用场景中,通常会包括语音合成的处理,语音合成是指将用户指定的文本,合成为音频。然而,仅根据文本合成的音频往往比较平淡,表现力也较弱,无法满足用户对多样化音频的需求。如果用户需要合成具有某种特色的音频,而日常说话的音频又不具有该特色,那么现有的语音合成的处理方式,无法合成满足该特色的音频。例如戏剧音频,由于戏剧音频中每个音素的时长差别非常大,时长最短的可能有几十毫秒,时长最长的可能达到十秒,与日常说话的音频中每个音素占一百毫秒左右的情况差别很大,因此很难合成戏剧音频。
技术实现思路
提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所本文档来自技高网...

【技术保护点】
1.一种基于唱本的语音合成方法,其特征在于,所述方法包括:/n获取目标唱本中包括的目标文本和所述目标文本对应目标乐谱;/n提取所述目标文本对应的音素序列,和所述目标乐谱对应的音高序列,所述音高序列包括:所述音素序列中每个音素对应的音高;/n根据所述音素序列,通过预先训练的时长预测模型预测时长序列,所述时长序列包括:所述音素序列中每个音素对应的时长;/n根据所述音素序列、所述音高序列和所述时长序列,通过预先训练的语音合成模型合成所述目标文本对应的符合所述目标乐谱的目标音频,且所述目标音频与所述时长序列匹配。/n

【技术特征摘要】
1.一种基于唱本的语音合成方法,其特征在于,所述方法包括:
获取目标唱本中包括的目标文本和所述目标文本对应目标乐谱;
提取所述目标文本对应的音素序列,和所述目标乐谱对应的音高序列,所述音高序列包括:所述音素序列中每个音素对应的音高;
根据所述音素序列,通过预先训练的时长预测模型预测时长序列,所述时长序列包括:所述音素序列中每个音素对应的时长;
根据所述音素序列、所述音高序列和所述时长序列,通过预先训练的语音合成模型合成所述目标文本对应的符合所述目标乐谱的目标音频,且所述目标音频与所述时长序列匹配。


2.根据权利要求1所述的方法,其特征在于,所述时长预测模型用于:
预测所述音素序列对应的时长概率分布;
按照所述时长概率分布进行随机采样,以确定所述音素序列中每个音素对应的时长。


3.根据权利要求1所述的方法,其特征在于,所述语音合成模型用于:
根据所述音素序列确定所述目标文本对应的文本特征序列,所述文本特征序列包括所述音素序列中每个音素对应的文本特征;
根据所述文本特征序列、所述音高序列和所述时长序列,生成所述目标音频。


4.根据权利要求1-3中任一项所述的方法,其特征在于,所述语音合成模型和所述时长预测模型是通过如下方式联合训练获得的:
获取训练唱本中包括的训练文本、所述训练文本对应的标注数据、总时长和训练乐谱;
根据所述标注数据确定所述训练文本对应的训练音素序列和训练时长序列,并根据所述训练乐谱确定训练音高序列,所述训练音高序列包括:所述训练音素序列中每个训练音素对应的音高,所述训练时长序列包括:每个所述训练音素对应的时长;
将所述训练音素序列输入所述时长预测模型,并根据所述时长预测模型的输出和所述总时长,训练所述时长预测模型;
将所述训练音素序列、所述训练音高序列和所述训练时长序列,输入所述语音合成模型,并根据所述语音合成模型的输出与所述训练文本对应的训练音频,训练所述语音合成模型。


5.根据权利要求4所述的方法,其特征在于,所述根据所述时长预测模型的输出和所述总时长,训练所述时长预测模型,包括:
根据所述时长预测模型输出的,所述训练音素序列对应的初始时长概率分布,和每个所述训练音素对应的初始时长,确定所述训练音素序列对应的最大似然损失;
根据所述训练音素序列对应的所述最大似然损失、训练总时长和所述总时长,通过拉格朗日算子法,确定预测损失,所述训练总时长为根据每个训练音素对应所述初始时长确定...

【专利技术属性】
技术研发人员:潘俊杰
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1