一种韵律层级标注的方法、模型训练的方法及装置制造方法及图纸

技术编号:21005435 阅读:45 留言:0更新日期:2019-04-30 21:51
本发明专利技术公开了一种韵律层级标注的方法,包括:获取待标注文本数据以及音频数据,其中,待标注文本数据与音频数据之间具有对应关系;根据待标注文本数据提取每个词语的待标注文本特征集合;根据音频数据提取每个词语的声学特征集合;根据每个词语的词语标识、每个词语的待标注文本特征集合以及每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。本发明专利技术还公开了一种模型训练的方法、韵律层级标注装置和模型训练装置。本发明专利技术联合文本特征以及声学特征建立韵律层级标注模型,可以为韵律层级的标注提供更加丰富的特征,提高韵律层级标注的准确性,提升语音合成的效果。

A Method of Prosodic Hierarchical Labeling, Method and Device of Model Training

【技术实现步骤摘要】
一种韵律层级标注的方法、模型训练的方法及装置
本专利技术涉及人工智能领域,尤其涉及一种韵律层级标注的方法、模型训练的方法以及相关装置。
技术介绍
为了实现高质量的语音合成系统,海量准确标注好韵律层级结构的数据至关重要,韵律层级结构是对语音的节奏及其停顿进行建模,一个能够准确自动标注韵律层级结构的方法,对快速构建语音合成语料库、提升语音合成的自然度有着重要意义。目前,对韵律层级结构自动标注需要用机器学习方法训练一个自动标注模型,在特征选择上主要有两种,一种是用文本特征,先分词,再提取词语的文本特征,通过机器学习方法判决该词的韵律层级结构类型,另一种是用声学特征,主要是依靠检测音频的停顿位置,依据停顿时长的大小来区分不同的韵律层级结构类型。然而,实际情况下,标注任务仅利用文本数据,则没有考虑到韵律层级结构边界前一个音节的时长有延长以及语调短语边界处往往伴有短时停顿的现象,而仅利用声学特征,难以准确地同时标注三层韵律层级结构,而且忽略了文本特征与声学特征的内在联系,降低了韵律层级结构的标注效果,影响了语音合成所依赖的语料库的质量。
技术实现思路
本专利技术实施例提供了一种韵律层级标注的方法、模型训练的方法及装置,联合文本特征以及声学特征建立韵律层级标注模型,可以为韵律层级提供更加丰富的特征,采用更加准确的韵律层级标注模型能够提高韵律层级标注的准确性,提升语音合成的效果。有鉴于此,本专利技术第一方面提供一种韵律层级标注的方法,包括:获取待标注文本数据以及音频数据,其中,所述待标注文本数据与所述音频数据之间具有对应关系,所述待标注文本数据包括至少一个词语,每个词语对应于一个词语标识;根据所述待标注文本数据提取每个词语的待标注文本特征集合,其中,所述待标注文本特征集合包括词性、词长以及词后标点类型;根据所述音频数据提取所述每个词语的声学特征集合,其中,所述声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;根据所述每个词语的词语标识、所述每个词语的待标注文本特征集合以及所述每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。本专利技术第二方面提供一种模型训练的方法,包括:获取待训练文本数据以及待训练音频数据,其中,所述待训练文本数据与所述待训练音频数据之间具有对应关系,所述待训练文本数据中包括至少一个词语,每个词语对应于一个词语标识;根据所述待训练文本数据提取每个词语的待训练文本特征集合,其中,所述待训练文本特征集合包括词性、词长以及词后标点类型;根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,其中,所述待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;对所述每个词语对应的词语标识、所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,其中,所述韵律层级标注模型用于对韵律层级结构进行标注。本专利技术第三方面提供一种韵律层级标注装置,包括:获取模块,用于获取待标注文本数据以及音频数据,其中,所述待标注文本数据与所述音频数据之间具有对应关系,所述待标注文本数据包括至少一个词语,每个词语对应于一个词语标识;提取模块,用于根据所述获取模块获取的所述待标注文本数据提取每个词语的待标注文本特征集合,其中,所述待标注文本特征集合包括词性、词长以及词后标点类型;所述提取模块,还用于根据所述获取模块获取的所述音频数据提取所述每个词语的声学特征集合,其中,所述声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;预测模块,用于根据所述每个词语的词语标识、所述提取模块提取的所述每个词语的待标注文本特征集合以及所述每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。在一种可能的设计中,在本专利技术实施例的第三方面的第一种实现方式中,所述预测模块,具体用于通过所述韵律层级标注模型确定韵律词、韵律短语以及语调短语的至少一种;或,通过所述韵律层级标注模型确定韵律词和/或韵律短语。本专利技术第四方面提供一种模型训练装置,包括:获取模块,用于获取待训练文本数据以及待训练音频数据,其中,所述待训练文本数据与所述待训练音频数据之间具有对应关系,所述待训练文本数据中包括至少一个词语,每个词语对应于一个词语标识;提取模块,用于根据所述获取模块获取的所述待训练文本数据提取每个词语的待训练文本特征集合,其中,所述待训练文本特征集合包括词性、词长以及词后标点类型;所述提取模块,还用于根据所述获取模块获取的所述待训练音频数据提取所述每个词语的待训练声学特征集合,其中,所述待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;训练模块,用于对所述每个词语对应的词语标识、所述提取模块提取的所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,其中,所述韵律层级标注模型用于对韵律层级结构进行标注。在一种可能的设计中,在本专利技术实施例的第四方面的第一种实现方式中,所述模型训练装置还包括处理模块以及生成模块;所述处理模块,用于在所述获取模块获取待训练文本数据以及待训练音频数据之后,对所述待训练文本数据进行分词处理,得到至少一个词语;所述获取模块,还用于根据预设词语标识关系获取目标词语所对应的目标词语标识,其中,所述预设词语标识关系用于表示预先设定的每个词语与词语标识之间的关系,所述目标词语属于所述处理模块处理得到的所述至少一个词语中的任意一个词语;所述生成模块,用于生成所述待训练文本数据中所述目标词语所对应的目标词向量;所述训练模块,具体用于对所述获取模块获取的所述目标词语标识以及所述生成模块生成的所述目标词向量进行训练,得到第一模型参数,其中,所述第一模型参数用于生成所述韵律层级标注模型中的词嵌入层。在一种可能的设计中,在本专利技术实施例的第四方面的第二种实现方式中,所述提取模块,具体用于获取所述待训练文本数据中目标词语的词性、词长以及词后标点类型,其中,所述词性表示词语的语法分类结果,所述词长表示词语的字数,所述词后标点类型用于表示在词语之后所对应的标点类型;获取所述待训练文本数据中关联词语的词性、词长以及词后标点类型,其中,所述关联词语为与所述目标词语具有关联关系的词语;所述训练模块,具体用于对所述目标词语的词性、词长以及词后标点类型,和所述关联词语的词性、词长以及词后标点类型进行训练,得到第二模型参数,所述第二模型参数用于生成所述韵律层级标注模型中的文本神经网络。在一种可能的设计中,在本专利技术实施例的第四方面的第三种实现方式中,所述模型训练装置还包括对齐模块;所述对齐模块,用于所述获取模块获取待训练文本数据以及待训练音频数据之后,对所述待训练文本数据以及所述待训练音频数据进行强制对齐,得到时间对齐的文本;所述提取模块,具体用于根据所述时间对齐文本确定所述目标词语的词尾音节时长。在一种可能的设计中,在本专利技术实施例的第四方面的第四种实现方式中,所述提取模块,具体用于根据所述时间对齐文本确定所述目标词语的词后停顿时长。在一种可能的设计中,在本专利技术实施例的第四方面的第五种实现方式中,所述提取模块,具体用于根据所述时间对齐文本本文档来自技高网...

【技术保护点】
1.一种韵律层级标注的方法,其特征在于,包括:获取待标注文本数据以及音频数据,其中,所述待标注文本数据与所述音频数据之间具有对应关系,所述待标注文本数据包括至少一个词语,每个词语对应于一个词语标识;根据所述待标注文本数据提取每个词语的待标注文本特征集合,其中,所述待标注文本特征集合包括词性、词长以及词后标点类型;根据所述音频数据提取所述每个词语的声学特征集合,其中,所述声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;根据所述每个词语的词语标识、所述每个词语的待标注文本特征集合以及所述每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。

【技术特征摘要】
1.一种韵律层级标注的方法,其特征在于,包括:获取待标注文本数据以及音频数据,其中,所述待标注文本数据与所述音频数据之间具有对应关系,所述待标注文本数据包括至少一个词语,每个词语对应于一个词语标识;根据所述待标注文本数据提取每个词语的待标注文本特征集合,其中,所述待标注文本特征集合包括词性、词长以及词后标点类型;根据所述音频数据提取所述每个词语的声学特征集合,其中,所述声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;根据所述每个词语的词语标识、所述每个词语的待标注文本特征集合以及所述每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。2.根据权利要求1所述的方法,其特征在于,所述通过韵律层级标注模型获取韵律层级结构,包括:通过所述韵律层级标注模型确定韵律词、韵律短语以及语调短语的至少一种;或,通过所述韵律层级标注模型确定韵律词和/或韵律短语。3.一种模型训练的方法,其特征在于,包括:获取待训练文本数据以及待训练音频数据,其中,所述待训练文本数据与所述待训练音频数据之间具有对应关系,所述待训练·文本数据中包括至少一个词语,每个词语对应于一个词语标识;根据所述待训练文本数据提取每个词语的待训练文本特征集合,其中,所述待训练文本特征集合包括词性、词长以及词后标点类型;根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,其中,所述待训练声学特征集合包括词尾音节时长、词后停顿时长、词尾音节声学统计特征以及词间声学特征变化值;对所述每个词语对应的词语标识、所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,其中,所述韵律层级标注模型用于对韵律层级结构进行标注。4.根据权利要求3所述的方法,其特征在于,所述获取待训练文本数据以及待训练音频数据之后,所述方法还包括:对所述待训练文本数据进行分词处理,得到至少一个词语;根据预设词语标识关系获取目标词语所对应的目标词语标识,其中,所述预设词语标识关系用于表示预先设定的每个词语与词语标识之间的关系,所述目标词语属于所述至少一个词语中的任意一个词语;生成所述待训练文本数据中所述目标词语所对应的目标词向量;所述对所述每个词语对应的词语标识、所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,包括:对所述目标词语标识以及所述目标词向量进行训练,得到第一模型参数,其中,所述第一模型参数用于生成所述韵律层级标注模型中的词嵌入层。5.根据权利要求3所述的方法,其特征在于,所述根据所述待训练文本数据提取每个词语的待训练文本特征集合,包括:获取所述待训练文本数据中目标词语的词性、词长以及词后标点类型,其中,所述词性表示词语的语法分类结果,所述词长表示词语的字数,所述词后标点类型用于表示在词语之后所对应的标点类型;获取所述待训练文本数据中关联词语的词性、词长以及词后标点类型,其中,所述关联词语为与所述目标词语具有关联关系的词语;所述对所述每个词语对应的词语标识、所述每个词语的待训练文本特征集合以及所述每个词语的待训练声学特征集合进行训练,得到韵律层级标注模型,包括:对所述目标词语的词性、词长以及词后标点类型,和所述关联词语的词性、词长以及词后标点类型进行训练,得到第二模型参数,所述第二模型参数用于生成所述韵律层级标注模型中的文本神经网络。6.根据权利要求3所述的方法,其特征在于,所述获取待训练文本数据以及待训练音频数据之后,所述方法还包括:对所述待训练文本数据以及所述待训练音频数据进行强制对齐,得到时间对齐的文本;所述根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,包括:根据所述时间对齐文本确定所述目标词语的词尾音节时长。7.根据权利要求6所述的方法,其特征在于,所述根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,包括:根据所述时间对齐文本确定所述目标词语的词后停顿时长。8.根据权利要求6所述的方法,其特征在于,所述根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,包括:根据所述时间对齐文本以及从所述待训练音频数据里提取的基频信息,计算得到所述目标词语的词尾音节浊音起始帧的帧序号以及浊音结束帧的帧序号;提取所述待训练音频数据的对数基频曲线以及对数能量曲线;根据所述目标词语的词尾音节浊音起始帧的帧序号、浊音结束帧的帧序号、所述对数基频曲线以及对数能量曲线,计算得到所述目标词语的词尾音节声学统计特征,其中,所述词尾音节声学统计特征包括所述对数基频曲线的最大值、最小值、区间范围、平均值以及方差中的至少一项,所述词尾音节声学统计特征还包括所述对数能量曲线的最大值、最小值、区间范围、平均值以及方差中的至少一项。9.根据权利要求6所述的方法,其特征在于,所述根据所述待训练音频数据提取所述每个词语的待训练声学特征集合,包括:根据所述时间对齐文本以及从所述待训练音频数据里提取的基频信息,计算得到所述目标词语的最后一个浊音帧的帧序号以及所述目标词语的下一个相邻词语词首的浊音帧的帧序号;根据所述目标词语最后一个浊音帧的帧序号以及所述目标词语的下一个相邻词语词首的浊音帧的帧序号,以及从所述待训练音频数据中分帧提取的基频信息以及能量信息,确定所述目标词语的词尾浊音帧以及下一个相邻词语词首浊音帧这之间基频值以...

【专利技术属性】
技术研发人员:吴志勇杜耀康世胤苏丹俞栋
申请(专利权)人:清华大学深圳研究生院腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1