一种韵律标注方法、装置及应用制造方法及图纸

技术编号:36946736 阅读:8 留言:0更新日期:2023-03-22 19:07
本申请提供了一种韵律标注方法、装置及应用,能够使录制的语音音频韵律和标注文本韵律精确匹配。方法包括:获取特定说话人根据经过韵律标注的第一文本录制的第一语音数据,第一文本包括多个韵律标签,不同韵律标签表示的停顿的持续时长不同;根据第一语音数据和第一文本,统计多个韵律标签中每一韵律标签的持续时长,以获取每一韵律标签的持续时长的统计数据;根据每一韵律标签对应的统计数据,确定每一韵律标签持续时长的取值范围;获取特定说话人根据未经过韵律标注的第二文本录制的第二语音数据;根据第二语音数据获取第二语音数据各个停顿的持续时长,根据每一韵律标签的持续时长的取值范围和各个停顿的持续时长,对第二文本进行韵律标注。文本进行韵律标注。文本进行韵律标注。

【技术实现步骤摘要】
一种韵律标注方法、装置及应用


[0001]本申请涉及自然语言处理
,尤其涉及一种韵律标注方法、装置及应用。

技术介绍

[0002]在语音合成技术中,韵律表示为合成语音的停顿。为了让智能语音交互更加人性化,目前的文本到语音(Text To Speech,TTS)神经网络模型,通常需要学习音频的韵律的特征,使得合成的语音更加自然流畅。按照停顿的长短和位置,用韵律标签#1、#2、#3和#4表示不同的停顿,其中,#1为韵律词的边界,表示短暂停顿;#2为韵律短语的边界,表示拉长音或者短暂停顿;#3表示语义完整的较明显停顿和语调下降;#4表示句末,是每个编号对应的句子结尾的标注。
[0003]目前主流韵律标注方案为通过语义进行韵律标注,以标贝数据集(一种公开数据集)的第71句为例,“二敬家住北五环外,上班要去亚运村华堂商场。”按照语义划分,标注的文本为“二敬家#2住#1北五#1环外#3,上班#2要去#1亚运村#2华堂#1商场#4。”但是,在说话人根据标注的文本进行录制的时候,往往存在两个问题:1、很难完全按照根据语义划分好的韵律标注进行朗读;2、在进行韵律朗读的时候,把握不好各个韵律停顿的时长,例如#1和#2的短停顿。因此,造成了录制的语音音频的韵律和标注文本的韵律不匹配的问题,使用这种韵律不匹配的语音音频和标注文本对语音合成模型进行训练,使得该模型无法学习到韵律的特征,从而造成合成的语音不能明显的体现出上述各个韵律标签表示的停顿。
[0004]因此,如何获取和录制语音音频的韵律匹配的韵律标注的文本成为亟待解决的问题。

技术实现思路

[0005]本申请提供了一种韵律标注方法、装置及应用,能够使得录制的语音音频的韵律和标注文本的韵律精确匹配。
[0006]第一方面,本申请提供了一种韵律标注方法,包括:
[0007]获取特定说话人根据第一文本录制的第一语音数据,第一文本为经过韵律标注的文本,第一文本包括多个韵律标签,多个韵律标签中不同的韵律标签表示的停顿的持续时长不同;
[0008]根据第一语音数据和第一文本,统计多个韵律标签中每一韵律标签的持续时长,以获取每一韵律标签的持续时长的统计数据;
[0009]根据每一韵律标签对应的统计数据,确定每一韵律标签的持续时长的取值范围;
[0010]获取特定说话人根据第二文本录制的第二语音数据,第二文本为未经过韵律标注的文本;
[0011]根据第二语音数据获取第二语音数据中各个停顿的持续时长,且根据每一韵律标签的持续时长的取值范围和各个停顿的持续时长,对第二文本进行韵律标注。
[0012]在一个示例中,方法还包括:若第一文本中的韵律标签和第一语音数据中的停顿
不匹配,根据第一语音数据中的停顿重新确定第一文本中的韵律标签。
[0013]在一个示例中,根据每一韵律标签对应的统计数据,确定每一韵律标签的持续时长的取值范围,包括:
[0014]根据每一韵律标签对应的统计数据,确定每一韵律标签的持续时长的均值和标准差;
[0015]基于正态分布分析方法,根据每一韵律标签的持续时长的均值和标准差,确定每一韵律标签的持续时长的取值范围。
[0016]在一个示例中,根据每一韵律标签的持续时长的均值和标准差,确定每一韵律标签的持续时长的取值范围,包括:
[0017]根据每一韵律标签的持续时长的均值和标准差,确定每一韵律标签的持续时长的均值与标准差的差值,以及每一韵律标签的持续时长的均值与标准差的和值;
[0018]根据每一韵律标签对应的差值和和值,确定每一韵律标签的持续时长的取值范围。
[0019]在一个示例中,根据第二语音数据获取第二语音数据中各个停顿的持续时长,且根据每一韵律标签的持续时长的取值范围和各个停顿的持续时长,对第二文本进行韵律标注,包括:
[0020]对第二文本进行拼音化处理,以获取拼音文本;
[0021]基于蒙特利尔强制对准器MFA算法,根据第二语音数据和拼音文本,获取各个停顿对应的开始时刻和结束时刻,每一停顿表示其前一音素的结束时刻和后一音素的开始时刻之间具有间隔;
[0022]根据每一停顿的开始时刻和结束时刻确定每一停顿的持续时长;
[0023]根据每一停顿的持续时长和每一韵律标签的持续时长的取值范围,确定每一停顿对应的韵律标签;
[0024]根据每一停顿对应的韵律标签对第二文本进行韵律标注。
[0025]在一个示例中,根据每一韵律标签对应的统计数据,确定每一韵律标签的持续时长的取值范围,包括:
[0026]根据每一韵律标签对应的统计数据,确定每一韵律标签对应的统计数据的最大的值和最小的值;
[0027]根据每一韵律标签对应的最大的值和最小的值,确定每一韵律标签的持续时长的取值范围。
[0028]第二方面,本申请提供了一种韵律标注装置,包括:
[0029]语音数据获取模块,用于获取特定说话人根据第一文本录制的第一语音数据,第一文本为经过韵律标注的文本,第一文本包括多个韵律标签,多个韵律标签中不同的韵律标签表示的停顿的持续时长不同;
[0030]韵律标签时长确定模块,用于根据第一语音数据和第一文本,统计多个韵律标签中每一韵律标签的持续时长,以获取每一韵律标签的持续时长的统计数据;
[0031]韵律标签时长确定模块还用于根据每一韵律标签对应的统计数据,确定每一韵律标签的持续时长的取值范围;
[0032]语音数据获取模块还用于获取特定说话人根据第二文本录制的第二语音数据,第
二文本为未经过韵律标注的文本;
[0033]韵律标注模块,用于根据第二语音数据获取第二语音数据中各个停顿的持续时长,且根据每一韵律标签的持续时长的取值范围和各个停顿的持续时长,对第二文本进行韵律标注。
[0034]在一个示例中,装置还包括:
[0035]韵律标签精调模块,用于若第一文本中的韵律标签和第一语音数据中的停顿不匹配,根据第一语音数据中的停顿重新确定第一文本中的韵律标签。
[0036]在一个示例中,根据每一韵律标签对应的统计数据,确定每一韵律标签的持续时长的取值范围,包括:
[0037]根据每一韵律标签对应的统计数据,确定每一韵律标签的持续时长的均值和标准差;
[0038]基于正态分布分析方法,根据每一韵律标签的持续时长的均值和标准差,确定每一韵律标签的持续时长的取值范围。
[0039]在一个示例中,根据每一韵律标签的持续时长的均值和标准差,确定每一韵律标签的持续时长的取值范围,包括:
[0040]根据每一韵律标签的持续时长的均值和标准差,确定每一韵律标签的持续时长的均值与标准差的差值,以及每一韵律标签的持续时长的均值与标准差的和值;
[0041]根据每一韵律标签对应的差值和和值,确定每一韵律标签的持续时长的取值范围。
[0042]在一个示例中,根据第二语音数据获取第二语音数据中各个停顿的持续时长,且根据每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种韵律标注方法,其特征在于,包括:获取特定说话人根据第一文本录制的第一语音数据,所述第一文本为经过韵律标注的文本,所述第一文本包括多个韵律标签,所述多个韵律标签中不同的韵律标签表示的停顿的持续时长不同;根据所述第一语音数据和所述第一文本,统计所述多个韵律标签中每一韵律标签的持续时长,以获取所述每一韵律标签的持续时长的统计数据;根据所述每一韵律标签对应的所述统计数据,确定所述每一韵律标签的持续时长的取值范围;获取所述特定说话人根据第二文本录制的第二语音数据,所述第二文本为未经过韵律标注的文本;根据所述第二语音数据获取所述第二语音数据中各个停顿的持续时长,且根据所述每一韵律标签的持续时长的取值范围和所述各个停顿的持续时长,对所述第二文本进行韵律标注。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述第一文本中的韵律标签和所述第一语音数据中的停顿不匹配,根据所述第一语音数据中的停顿重新确定所述第一文本中的韵律标签。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述每一韵律标签对应的所述统计数据,确定所述每一韵律标签的持续时长的取值范围,包括:根据所述每一韵律标签对应的所述统计数据,确定所述每一韵律标签的持续时长的均值和标准差;基于正态分布分析方法,根据所述每一韵律标签的持续时长的均值和标准差,确定所述每一韵律标签的持续时长的取值范围。4.根据权利要求3所述的方法,其特征在于,所述根据所述每一韵律标签的持续时长的均值和标准差,确定所述每一韵律标签的持续时长的取值范围,包括:根据所述每一韵律标签的持续时长的均值和标准差,确定所述每一韵律标签的持续时长的均值与标准差的差值,以及所述每一韵律标签的持续时长的均值与标准差的和值;根据所述每一韵律标签对应的所述差值和所述和值,确定所述每一韵律标签的持续时长的取值范围。5.根据权利要求1或2所述的方法,其特征在于,所述根据所述第二语音数据获取所述第二语音数据中各个停顿的持续时长,且根据所述每一韵律标签的持续时长的取值范围和所述各个停顿的持续时长,对所述第二文本进行韵律标注,包括:对所述第二文本进行拼音化处理,以获取拼音文本;基于蒙特利尔强制对准器MFA算法,根据所述第二语音数据和所述拼音文本,获取各个停顿对应的开始时刻和结束时刻,每一停顿表示其前一音素的结束时刻和后一音素的开始时刻之间具有间隔;根据所述每一停顿的开始时刻和结束时刻确定所述每一停顿的持续时长;根据所述每一停顿的持续时长和所述每一韵律标签的持续时长的取值范围,确定所述每一停顿对应的韵律标签;根据所述每一停顿对应的韵律标签对所述第二...

【专利技术属性】
技术研发人员:赵言姚树杰樊冯飞
申请(专利权)人:鼎富新动力北京智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1