重音标注生成方法、语音合成方法及相关装置制造方法及图纸

技术编号:35697550 阅读:46 留言:0更新日期:2022-11-23 14:49
本发明专利技术提供一种重音标注生成方法、语音合成方法及相关装置,涉及语音合成领域。所述重音标注生成方法:首先,基于预设文本对应的音频数据,获取预设文本的韵律边界和预设文本中每个音节的声调和持续时间;然后,提取音频数据的声学特征;最后,根据韵律边界、声学特征以及每个音节的声调和持续时间,生成每个音节的重音标注,从而降低重音标注的时间成本,提高重音标注的准确性,进而保障训练后的音合成模型所合成的语音的节奏和表现力。型所合成的语音的节奏和表现力。型所合成的语音的节奏和表现力。

【技术实现步骤摘要】
重音标注生成方法、语音合成方法及相关装置


[0001]本专利技术涉及语音合成
,具体而言,涉及一种重音标注生成方法、语音合成方法及相关装置。

技术介绍

[0002]随着人工智能(Artificial Intelligence,AI)技术的发展,语音合成(Text To Speech,TTS)技术越来越收到人们的重视,利用TTS技术可以将任意文本信息转换成相应语音。
[0003]目前,通常是采用语音合成模型来实现语音的合成,但在训练语音合成模型的过程中,需人工对训练文本中的音节进行重音标注,时间成本较高,并且重音标注的准确度也受限于操作人员的语言学知识,影响训练后的语音合成模型所合成的语音的节奏和表现力。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术实施例提供一种重音标注生成方法、语音合成方法及相关装置,其能够降低重音标注的时间成本,提高重音标注的准确性,保障训练后的音合成模型所合成的语音的节奏和表现力。
[0005]本专利技术实施例的技术方案可以这样实现:
[0006]第一方面,本专利技术实施例提供一种重音标注生成方法,所述方法包括:
[0007]基于预设文本对应的音频数据,获取所述预设文本的韵律边界和所述预设文本中每个音节的声调和持续时间;
[0008]提取所述音频数据的声学特征;
[0009]根据所述韵律边界、所述声学特征以及每个所述音节的声调和持续时间,生成每个所述音节的重音标注。
[0010]可选地,所述音频数据包括多个语音帧,所述声学特征包括每个所述语音帧的基频,所述根据所述韵律边界、所述声学特征以及每个所述音节的声调和持续时间,生成每个所述音节的重音标注的步骤包括:
[0011]针对每个所述音节,根据所述音节的持续时间和每个所述语音帧的产生时间,确定所述音节对应的至少一个目标语音帧,并基于所有所述目标语音帧的基频,生成所述音节的音高曲线,其中,每个所述目标语音帧的产生时间均在所述音节的持续时间之内;
[0012]基于所有所述目标语音帧的基频,生成所述音节的音高曲线,得到每个所述音节的音高曲线;
[0013]根据每个所述音节的音高曲线,生成每个所述音节的初始重音标注;
[0014]利用所述韵律边界和每个所述音节的声调,对每个所述音节的初始重音标注进行处理,得到每个所述音节的重音标注。
[0015]可选地,所述根据每个所述音节的音高曲线,生成每个所述音节的初始重音标注
的步骤包括:
[0016]对所有所述音节的音高曲线进行统计分析,得到音高中位数和音高标准差;
[0017]针对每个所述音节,根据所述音高中位数、所述音高标准差和所述音节的音高曲线的峰值,确定所述音节的初始重音标注。
[0018]可选地,所述重音标注包括第一标注、第二标注和第三标注,所述第一标注、第二标注和第三标注表征的重音水平依次降低;
[0019]所述利用所述韵律边界和每个所述音节的声调,对每个所述音节的初始重音标注进行处理,得到每个所述音节的重音标注的步骤包括:
[0020]针对所有所述音节中的任一待处理音节,若所述待处理音节的初始重音标注为所述第一标注或所述第二标注,则根据所述待处理音节的声调和所述预设文本中位于所述待处理音节之前的每个所述音节的声调,对所述待处理音节的初始重音标注进行处理,得到所述待处理音节的重音标注;
[0021]若所述待处理音节的初始重音标注为所述第三标注、且所述待处理音节的声调为阳平或上声,则根据所述待处理音节的音高曲线的谷值、所述待处理音节的持续时间以及所述韵律边界,对所述待处理音节的初始重音标注进行处理,得到所述待处理音节的重音标注;
[0022]遍历每个所述音节,得到每个所述音节的重音标注。
[0023]可选地,所述重音标注包括第一标注、第二标注和第三标注,所述第一标注、第二标注和第三标注表征的重音水平依次降低,所述方法还包括:
[0024]将所有所述音节中,所述重音标注为所述第一标注或所述第二标注的音节均作为目标音节;
[0025]针对每个所述目标音节,根据所述预设文本中位于所述目标音节前后的相邻音节的声调和音高曲线的峰值,判断是否将所述相邻音节的重音标注修改为所述目标音节的重音标注。
[0026]第二方面,本专利技术实施例提供一种语音合成方法,所述方法包括:
[0027]获取参考文本和所述参考文本对应的语言学特征;
[0028]获取参考音频数据和所述参考音频对应的声学特征;
[0029]将所述参考文本、所述参考音频数据、所述语言学特征和所述声学特征输入预先训练的语音合成模型,得到所述参考文本对应的具有重音效果的合成语音;
[0030]其中,用于训练所述语音合成模型的训练样本是基于如前述第一方面所述的重音标注生成方法得到的。
[0031]第三方面,本专利技术实施例提供一种重音标注生成装置,所述装置包括:
[0032]第一获取模块,用于基于预设文本对应的音频数据,获取所述预设文本的韵律边界和所述预设文本中每个音节的声调和持续时间;
[0033]提取模块,用于提取所述音频数据的声学特征;
[0034]生成模块,用于根据所述韵律边界、所述声学特征以及每个所述音节的声调和持续时间,生成每个所述音节的重音标注。
[0035]第四方面,本专利技术实施例提供一种语音合成装置,所述装置包括:
[0036]第二获取模块,用于获取参考文本和所述参考文本对应的语言学特征;
[0037]所述第二获取模块,还用于获取参考音频数据和所述参考音频数据对应的声学特征;
[0038]合成模块,用于将所述参考文本、所述参考音频数据、所述语言学特征和所述声学特征输入预先训练的语音合成模型,得到所述参考文本对应的具有重音效果的合成语音;
[0039]其中,用于训练所述语音合成模型的训练样本是基于如前述第一方面所述的重音标注生成方法得到的。
[0040]第五方面,本专利技术提供一种计算机设备,其包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如前述第一方面所述的重音标注生成方法,和/或,如前述第二方面所述的语音合成方法。
[0041]第六方面,本专利技术提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如前述第一方面所述的重音标注生成方法,和/或,如前述第二方面所述的语音合成方法。
[0042]相较于现有技术,本专利技术实施例提供了一种重音标注生成方法、语音合成方法及相关装置,首先,基于预设文本对应的音频数据,获取预设文本的韵律边界和预设文本中每个音节的声调和持续时间;然后,提取音频数据的声学特征;最后,根据韵律边界、声学特征以及每个音节的声调和持续时间,生成每个音节的重音标注。由于本专利技术实施例是利用韵律边界、声学特征以及每个音节的声调和持续时间,自动生成每个音节的重音标注,能够降低重音标注的时间成本,提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种重音标注生成方法,其特征在于,所述方法包括:基于预设文本对应的音频数据,获取所述预设文本的韵律边界和所述预设文本中每个音节的声调和持续时间;提取所述音频数据的声学特征;根据所述韵律边界、所述声学特征以及每个所述音节的声调和持续时间,生成每个所述音节的重音标注。2.如权利要求1所述的方法,其特征在于,所述音频数据包括多个语音帧,所述声学特征包括每个所述语音帧的基频,所述根据所述韵律边界、所述声学特征以及每个所述音节的声调和持续时间,生成每个所述音节的重音标注的步骤包括:针对每个所述音节,根据所述音节的持续时间和每个所述语音帧的产生时间,确定所述音节对应的至少一个目标语音帧,并基于所有所述目标语音帧的基频,生成所述音节的音高曲线,其中,每个所述目标语音帧的产生时间均在所述音节的持续时间之内;根据每个所述音节的音高曲线,生成每个所述音节的初始重音标注;利用所述韵律边界和每个所述音节的声调,对每个所述音节的初始重音标注进行处理,得到每个所述音节的重音标注。3.如权利要求2所述的方法,其特征在于,所述根据每个所述音节的音高曲线,生成每个所述音节的初始重音标注的步骤包括:对所有所述音节的音高曲线进行统计分析,得到音高中位数和音高标准差;针对每个所述音节,根据所述音高中位数、所述音高标准差所述音节的音高曲线的峰值,确定所述音节的初始重音标注。4.如权利要求2所述的方法,其特征在于,所述重音标注包括第一标注、第二标注和第三标注,所述第一标注、第二标注和第三标注表征的重音水平依次降低;所述利用所述韵律边界和每个所述音节的声调,对每个所述音节的初始重音标注进行处理,得到每个所述音节的重音标注的步骤包括:针对所有所述音节中的任一待处理音节,若所述待处理音节的初始重音标注为所述第一标注或所述第二标注,则根据所述待处理音节的声调和所述预设文本中位于所述待处理音节之前的每个所述音节的声调,对所述待处理音节的初始重音标注进行处理,得到所述待处理音节的重音标注;若所述待处理音节的初始重音标注为所述第三标注、且所述待处理音节的声调为阳平或上声,则根据所述待处理音节的音高曲线的谷值、所述待处理音节的持续时间以及所述韵律边界,对所述待处理音节的初始重音标注进行处理,得到所述待处理音节的重音标注;遍历每个所述音节,得到每个所述音节...

【专利技术属性】
技术研发人员:贺雯迪林怡亭叶剑豪周鸿斌任凯盟贺天威谭芃菲贺来朋游于人卢恒
申请(专利权)人:上海喜马拉雅科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1