语音合成的方法、设备和存储介质技术

技术编号:37077400 阅读:43 留言:0更新日期:2023-03-29 19:53
本申请公开了一种语音合成的方法、设备和存储介质,属于语音合成领域。所述方法包括:获取目标文本的文本发音特征;将所述文本发音特征输入预先训练的音高语速确定模型,由所述音高语速确定模型输出所述目标文本在第一朗读风格下进行朗读时的第一音高特征和第一语速特征;将所述第一音高特征、所述第一语速特征和所述文本发音特征输入预先设置的特征融合模型,由所述特征融合模型输出融合发音特征;将所述融合发音特征和音色信息输入预先训练的频谱合成模型,由所述频谱合成模型输出所述目标文本对应的朗读音频。可见,本申请实施例提供了一种能够对音色和风格都进行任意选择以合成朗读音频的方案。以合成朗读音频的方案。以合成朗读音频的方案。

【技术实现步骤摘要】
语音合成的方法、设备和存储介质


[0001]本申请涉及语音合成领域,特别涉及一种语音合成的方法、设备和存储介质。

技术介绍

[0002]随着语音助手、智能导航、智能客服和电子书等产品的发展,文语转换(text

to

speech,TTS),又称语音合成,在日常生活中越来越常见。
[0003]相关技术中,采用多个说话人朗读文本的朗读音频作为样本并为每个说话人分配标识进行训练,这样,可以得到能输出多种不同说话人的朗读音频的语音合成模型。在实际应用中,将文本和说话人标识输入语音合成模型中,可以得到相应说话人朗读文本的朗读音频。
[0004]上述技术中,在模型训练过程中,说话人朗读文本时朗读风格(朗读风格可以包括语速、音高等特点)一般是固定不变的,如果朗读风格改变会导致模型输出的音频混乱。可见,相关技术中的语音合成模型都是只能合成固定说话人(朗读风格和朗读音色固定)的朗读音频,缺少一种对音色和风格都进行任意选择以合成朗读音频的方案。

技术实现思路

[0005]本申请实施例提供了一种语音合成的方法、设备和存储介质,可以解决语音合成效率低的问题,所述技术方案如下:
[0006]第一方面,提供了一种语音合成的方法,所述方法包括:
[0007]确定目标文本,并确定所述目标文本的目标朗读音色及目标朗读风格;
[0008]将所述目标文本的文本发音特征输入预先训练的第一音高语速确定模型,由所述第一音高语速确定模型输出所述目标文本在所述目标朗读风格下进行朗读时的第一朗读风格特征;
[0009]将所述目标文本的文本发音特征输入预先训练的第二音高语速确定模型,由所述第二音高语速确定模型输出所述目标文本以所述目标朗读音色进行朗读的第二朗读风格特征;
[0010]将所述目标文本的文本发音特征、所述第一朗读风格特征和所述第二朗读风格特征输入预先设置的特征融合模型,由所述特征融合模型输出融合发音特征;
[0011]将所述融合发音特征和所述目标朗读音色的音色信息输入预先训练的频谱合成模型,由所述频谱合成模型输出所述目标文本对应的朗读音频。
[0012]在一种可能的实现方式中,所述将所述目标文本的文本发音特征输入预先训练的第一音高语速确定模型,包括:
[0013]将所述目标文本的所述文本发音特征输入预先训练的第一朗读风格对应的第一音高语速确定模型。
[0014]在一种可能的实现方式中,所述第一音高语速确定模型和所述第二音高语速确定模型为同一音高语速确定模型,所述音高语速确定模型由多种朗读音色在多种朗读风格下
的朗读音频样本进行训练得到,且每种朗读音频样本具有各自对应的朗读音色编码;
[0015]所述将所述目标文本的文本发音特征输入预先训练的第一音高语速确定模型,以及所述将所述目标文本的文本发音特征输入预先训练的第二音高语速确定模型,包括:
[0016]将所述目标文本的文本发音特征和所述目标朗读风格对应的朗读音色编码输入所述音高语速确定模型,以及将所述目标文本的文本发音特征和所述目标朗读音色对应的朗读音色编码输入所述音高语速确定模型。
[0017]在一种可能的实现方式中,所述第一朗读风格特征包括第一音高特征及第一语速特征;所述第二朗读风格特征包括第二音高特征及第二语速特征;
[0018]所述将所述目标文本的文本发音特征、所述第一朗读风格特征和所述第二朗读风格特征输入预先设置的特征融合模型,由所述特征融合模型输出融合发音特征,包括:
[0019]根据所述第一音高特征和所述第二音高特征生成融合音高特征;
[0020]根据所述第一语速特征和所述第二语速特征生成融合语速特征;
[0021]将所述融合音高特征、所述融合语速特征和所述文本发音特征输入预先设置的特征融合模型,由所述特征融合模型输出融合发音特征。
[0022]在一种可能的实现方式中,所述第一音高特征包括多个第一基频,所述第一基频为所述目标文本在所述目标朗读风格下进行朗读时各音频帧的基频,所述第二音高特征包括多个第二基频,所述第二基频为所述目标文本以所述目标朗读音色进行朗读时各音频帧的基频;
[0023]所述根据所述第一音高特征和所述第二音高特征生成融合音高特征,包括:
[0024]确定所述多个第二基频的平均值,确定每个所述第一基频分别与所述平均值的差值,将多个所述差值组成第三音高特征;
[0025]根据所述第三音高特征对应的第一权重和所述第二音高特征对应的第二权重,对所述第三音高特征和所述第二音高特征进行加权求和,得到融合音高特征,其中,所述第一权重大于所述第二权重。
[0026]在一种可能的实现方式中,所述第一音高特征包括多个第一基频,所述第一基频为所述目标文本在所述目标朗读风格下进行朗读时各音频帧的基频,所述第二音高特征包括多个第二基频,所述第二基频为所述目标文本以所述目标朗读音色进行朗读时各音频帧的基频;
[0027]所述根据所述第一音高特征和所述第二音高特征确定融合音高特征,包括:
[0028]对所述多个第一基频计算平均值得到第一平均值,对所述多个第二基频计算平均值得到第二平均值,确定所述第二音高特征的方差与所述第一音高特征的方差的比值;
[0029]确定每个所述第一基频分别与所述第一平均值的差值,确定每个所述差值分别与所述比值的乘积,确定每个所述乘积分别与所述第二平均值的和值,将多个所述和值组成的序列作为融合音高特征。
[0030]在一种可能的实现方式中,所述第一语速特征包括所述目标文本在所述目标朗读风格下进行朗读时各音素的第一音频时长,所述第二语速特征包括所述目标文本以所述目标朗读音色进行朗读时各音素的第二音频时长;
[0031]所述根据所述第一语速特征和所述第二语速特征确定融合语速特征,包括:
[0032]根据所述第一语速特征对应的权重和所述第二语速特征对应的权重,对所述第一
语速特征和所述第二语速特征进行加权求和,得到融合语速特征,其中,所述第一语速特征对应的权重大于所述第二语速特征对应的权重。
[0033]在一种可能的实现方式中,所述将所述融合音高特征、所述融合语速特征和所述文本发音特征输入预先设置的特征融合模型,包括:
[0034]确定所述融合音高特征包括的多个融合基频的平均值和方差;
[0035]确定每个所述融合基频分别与所述平均值的差值,确定每个所述差值分别与预设控制参数相乘并与所述方差相除后所得的数值,确定每个所述数值分别与所述平均值的和值,将多个所述和值组成的序列作为调整后的融合音高特征;
[0036]将所述调整后的融合音高特征、所述融合语速特征和所述文本发音特征输入预先设置的特征融合模型。
[0037]在一种可能的实现方式中,所述方法还包括:
[0038]确定所述目标文本对应的音素序列;
[0039]将所述音素序列输入预先训练的编码器,由所述编码器输出所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成的方法,其特征在于,所述方法包括:确定目标文本,并确定所述目标文本的目标朗读音色及目标朗读风格;将所述目标文本的文本发音特征输入预先训练的第一音高语速确定模型,由所述第一音高语速确定模型输出所述目标文本在所述目标朗读风格下进行朗读时的第一朗读风格特征;将所述目标文本的文本发音特征输入预先训练的第二音高语速确定模型,由所述第二音高语速确定模型输出所述目标文本以所述目标朗读音色进行朗读的第二朗读风格特征;将所述目标文本的文本发音特征、所述第一朗读风格特征和所述第二朗读风格特征输入预先设置的特征融合模型,由所述特征融合模型输出融合发音特征;将所述融合发音特征和所述目标朗读音色的音色信息输入预先训练的频谱合成模型,由所述频谱合成模型输出所述目标文本对应的朗读音频。2.根据权利要求1所述的方法,其特征在于,所述第一音高语速确定模型和所述第二音高语速确定模型为同一音高语速确定模型,所述音高语速确定模型由多种朗读音色在多种朗读风格下的朗读音频样本进行训练得到,且每种朗读音频样本具有各自对应的朗读音色编码;所述将所述目标文本的文本发音特征输入预先训练的第一音高语速确定模型,以及所述将所述目标文本的文本发音特征输入预先训练的第二音高语速确定模型,包括:将所述目标文本的文本发音特征和所述目标朗读风格对应的朗读音色编码输入所述音高语速确定模型,以及将所述目标文本的文本发音特征和所述目标朗读音色对应的朗读音色编码输入所述音高语速确定模型。3.根据权利要求1所述的方法,其特征在于,所述第一朗读风格特征包括第一音高特征及第一语速特征;所述第二朗读风格特征包括第二音高特征及第二语速特征;所述将所述目标文本的文本发音特征、所述第一朗读风格特征和所述第二朗读风格特征输入预先设置的特征融合模型,由所述特征融合模型输出融合发音特征,包括:根据所述第一音高特征和所述第二音高特征生成融合音高特征;根据所述第一语速特征和所述第二语速特征生成融合语速特征;将所述融合音高特征、所述融合语速特征和所述文本发音特征输入预先设置的特征融合模型,由所述特征融合模型输出融合发音特征。4.根据权利要求3所述的方法,其特征在于,所述第一音高特征包括多个第一基频,所述第一基频为所述目标文本在所述目标朗读风格下进行朗读时各音频帧的基频,所述第二音高特征包括多个第二基频,所述第二基频为所述目标文本以所述目标朗读音色进行朗读时各音频帧的基频;所述根据所述第一音高特征和所述第二音高特征生成融合音高特征,包括:确定所述多个第二基频的平均值,确定每个所述第一基频分别与所述平均值的差值,将多个所述差值组成第三音高特征;根据所述第三音高特征对应的第一权重和所述第二音高特征对应的第二权重,对所述第三音高特征和所述第二音高特征进行加权求和,得到融合音高特征,其中,所述第一权重大于所述第二权重。5.根据权利要求3所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:刘若澜徐东
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1