音律边界标签标注方法和语音合成方法技术

技术编号:39034551 阅读:13 留言:0更新日期:2023-10-10 11:47
本公开关于一种音律边界标签标注方法和语音合成方法,涉及人工智能技术领域,可以提高音律边界标签标注的准确率。该标注方法包括:获取样本文本的音素序列、标点序列以及样本文本对应的语音片段;样本文本包括文字和标点;音素序列包括音素以及初始音律边界标签;通过初始声学模型,得到样本文本对应的音频特征;初始声学模型通过音素序列、标点序列和语音片段训练得到;根据音频特征,确定初始音律边界标签各自对应的分布时长;根据分布时长,对初始音律边界标签进行更新,得到目标音律边界标签;目标音律边界标签为对应的分布时长满足时长阈值的初始音律边界标签。足时长阈值的初始音律边界标签。足时长阈值的初始音律边界标签。

【技术实现步骤摘要】
音律边界标签标注方法和语音合成方法


[0001]本公开涉及人工智能
,尤其涉及一种音律边界标签标注方法和语音合成方法。

技术介绍

[0002]语音片段合成技术是智能语音片段交互的核心技术之一。运用语音片段合成技术的语音片段合成系统通常包括前端模型和后端模型。前端模型通常为声学模型,可以对输入的文本进行预测,得到该文本的音频特征。后端模型通常为声码器模型,可以将前端模型得到的音频特征合成为语音片段波形,以便于语音片段合成系统或其他系统根据该语音片段波形输出语音片段。
[0003]其中,前端模型可以利用训练样本训练获得。前端模型的训练样本包括带有音律边界标签的样本文本、以及该样本文本对应的语音片段。
[0004]但是,目前的音律边界标签的确定准确率较低。

技术实现思路

[0005]基于上述技术问题,本公开提供一种音律边界标签标注方法和语音合成方法,可以通过分布时长对自动标注的初始音律边界标签进行筛选,筛选出更符合实际发音效果的目标音律边界标签,提高标注音律边界标签的准确率。
[0006]根据本公开实施例的第一方面,提供一种音律边界标签标注方法,该方法包括:获取样本文本的音素序列、标点序列以及样本文本对应的语音片段;样本文本包括文字和标点;音素序列包括音素以及初始音律边界标签;音素用于表示文字对应的发音;初始音律边界标签用于在音素序列中标记语音片段中的发音停顿;标点序列包括标点;通过初始声学模型,得到样本文本对应的音频特征;初始声学模型通过音素序列、标点序列和语音片段训练得到;根据音频特征,确定初始音律边界标签各自对应的分布时长;根据分布时长,对初始音律边界标签进行更新,得到目标音律边界标签;所述目标音律边界标签为对应的分布时长满足时长阈值的初始音律标签。
[0007]可选地,根据分布时长,对初始音律边界标签进行更新,得到目标音律边界标签,包括:删除初始音律边界标签中,对应的分布时长小于时长阈值的初始音律边界标签,得到目标音律边界标签。
[0008]可选地,在通过初始声学模型,得到样本文本对应的音频特征之前,该方法还包括:将音素序列和标点序列进行拼接,得到拼接后的序列;将拼接后的序列和语音片段输入待训练模型进行训练,得到初始声学模型;通过初始声学模型,得到样本文本对应的音频特征,包括:利用初始声学模型对拼接后的序列进行编码处理,得到音频特征。
[0009]可选地,音频特征还包括音素特征和韵律特征;利用初始声学模型对拼接后的序列进行编码得到音频特征,包括:利用初始声学模型对音素序列进行编码处理,得到音素特征;音素特征用于指示音素序列中的音素的发音;利用初始声学模型对标点序列进行编码
处理,得到韵律特征;韵律特征用于指示标点序列中的标点对应的韵律。
[0010]可选地,获取样本文本的音素序列和标点序列,包括:获取样本文本;对样本文本进行分词,得到分词结果;分词结果包括样本文本中的文字、样本文本中的标点、以及一个或多个分词标签;识别分词结果中的文字,得到分词结果中每个文字各自对应的音素所组成的音素序列;根据每个分词标签在分词结果中的相对位置,在音素序列中插入一个多个初始音律边界标签;每个分词标签在分词结果中的相对位置,与该分词标签对应的初始音律边界标签在音素序列中的相对位置相同;根据音素序列和分词结果中的标点,得到标点序列,标点序列的长度与音素序列的长度相同。
[0011]可选地,针对分词结果中的任意一个第一标点,根据音素序列和分词结果中的标点,得到标点序列,包括:根据第一标点,确定目标音素在音素序列中的相对位置和目标标签在音素序列中的相对位置;目标音素为音素序列中与第一标点相关的音素;目标标签为分词结果中第一标签之前的一个分词标签所对应的初始音律边界标签;根据目标音素在音素序列中的相对位置和目标标签在音素序列中的相对位置,确定标点序列;标点序列中的第一目标位置和第二目标位置均为第一标点;第一目标位置与目标音素在音素序列中的相对位置相同;第二目标位置与目标标签在音素序列中的相对位置相同;标点序列中除第一目标位置和第二目标位置之外的位置均为填充字段。
[0012]根据本公开实施例的第二方面,提供一种音律边界标签标注装置,该装置包括:第一获取模块、第一处理模块、以及第一更新模块。
[0013]第一获取模块,用于获取样本文本的音素序列、标点序列以及样本文本对应的语音片段;样本文本包括文字和标点;音素序列包括音素以及初始音律边界标签;音素用于表示文字对应的发音;初始音律边界标签用于在音素序列中标记语音片段中的发音停顿;标点序列包括标点。
[0014]第一处理模块,用于通过初始声学模型,得到样本文本对应的音频特征;初始声学模型通过音素序列、标点序列和语音片段训练得到。
[0015]第一更新模块,用于根据音频特征,确定初始音律边界标签各自对应的分布时长;根据分布时长,对初始音律边界标签进行更新,得到目标音律边界标签;目标音律边界标签为对应的分布时长满足时长阈值的初始音律边界标签。
[0016]可选地,第一更新模块,具体用于删除所述初始音律边界标签中,对应的分布时长小于所述时长阈值的初始音律边界标签,得到所述目标音律边界标签。
[0017]可选地,在通过初始声学模型,得到样本文本对应的音频特征之前,第一处理模块,还用于将音素序列和标点序列进行拼接,得到拼接后的序列;将拼接后的序列和语音片段输入待训练模型进行训练,得到初始声学模型;第一处理模块,具体用于利用初始声学模型对拼接后的序列进行编码处理,得到音频特征。
[0018]可选地,第一处理模块,具体用于利用初始声学模型对音素序列进行编码处理,得到音素特征;音素特征用于指示音素序列中音素的发音;利用初始声学模型对标点序列进行编码处理,得到韵律特征;韵律特征用于指示标点序列中的标点对应的韵律。
[0019]可选地,第一获取模块,具体用于获取样本文本;对样本文本进行分词,得到分词结果;分词结果包括样本文本中的文字、样本文本中的标点、以及一个或多个分词标签;识别分词结果中的文字,得到分词结果中的每个文字各自对应的音素所组成的音素序列;根
据每个分词标签在分词结果中的相对位置,在音素序列中插入一个或多个初始音律边界标签;每个分词标签在分词结果中的相对位置,与该分词标签对应的初始音律边界标签在音素序列中的相对位置相同;根据音素序列和分词结果中的标点,得到标点序列;标点序列的长度与音素序列的长度相同。
[0020]可选地,针对分词结果中的任意一个第一标点,第一获取模块,具体用于根据第一标点,确定目标音素在音素序列中的相对位置和目标标签在音素序列中的相对位置;目标音素为音素序列中与第一标点相关的音素;目标标签为,分词结果中第一标点之前的一个分词标签所对应的初始音律边界标签;根据目标音素在音素序列中的相对位置和目标标签在音素序列中的相对位置,确定标点序列;标点序列中的第一目标位置和第二目标位置均为第一标点;第一目标位置与目标音素在音素序列中的相对位置相同;第二目标位置与目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音律边界标签标注方法,其特征在于,所述方法包括:获取样本文本的音素序列、标点序列以及所述样本文本对应的语音片段;所述样本文本包括文字和标点;所述音素序列包括音素以及初始音律边界标签;所述音素用于表示所述文字对应的发音;所述初始音律边界标签用于在所述音素序列中标记所述语音片段中的发音停顿;所述标点序列包括所述标点;通过初始声学模型,得到所述样本文本对应的音频特征;所述初始声学模型通过所述音素序列、所述标点序列和所述语音片段训练得到;根据所述音频特征,确定所述初始音律边界标签各自对应的分布时长;根据所述分布时长,对所述初始音律边界标签进行更新,得到目标音律边界标签;所述目标音律边界标签为对应的分布时长满足时长阈值的初始音律边界标签。2.根据权利要求1所述的方法,其特征在于,所述根据所述分布时长,对所述初始音律边界标签进行更新,得到目标音律边界标签,包括:删除所述初始音律边界标签中,对应的分布时长小于所述时长阈值的初始音律边界标签,得到所述目标音律边界标签。3.根据权利要求1或2所述的方法,其特征在于,在通过初始声学模型,得到所述样本文本对应的音频特征之前,还包括:将所述音素序列和所述标点序列进行拼接,得到拼接后的序列;将所述拼接后的序列和所述语音片段输入待训练模型进行训练,得到所述初始声学模型;所述通过初始声学模型,得到所述样本文本对应的音频特征,包括:利用所述初始声学模型对所述拼接后的序列进行编码处理,得到所述音频特征。4.根据权利要求3所述的方法,其特征在于,所述音频特征还包括音素特征和韵律特征;所述利用所述初始声学模型对所述拼接后的序列进行编码处理,得到所述音频特征,包括:利用所述初始声学模型对所述音素序列进行编码处理,得到所述音素特征;所述音素特征用于指示所述音素序列中的音素的发音;利用所述初始声学模型对所述标点序列进行编码处理,得到所述韵律特征;所述韵律特征用于指示所述标点序列中的标点对应的韵律。5.根据权利要求4所述的方法,其特征在于,所述获取样本文本的音素序列和标点序列,包括:获取所述样本文本;对所述样本文本进行分词,得到分词结果;所述分词结果包括所述样本文本中的文字、所述样本文本中的标点、以及一个或多个分词标签;识别所述分词结果中的文字,得到所述分词结果中的每个文字各自对应的音素所组成的所述音素序列;根据每个分词标签在所述分词结果中的相对位置,在所述音素序列中插入所述一个或多个初始音律边界标签;所述每个分词标签在所述分词结果中的相对位置,与该分词标签对应的初始音律边界标签在所述音素序列中的相对位置相同;根据所述音素序列和所述分词结果中的标点,得到所述标点序列;所述标点序列的长
度与所述音素序列的长度相同。6.根据权利要求5所述的方法,其特征在于,针对所述分词结果中的任意一个第一标点,所述根据所述音素序列和所述分词结果中的标点,得到所述标点序列,包括:根据所述第一标点,确定目标音素在所述音素序列中的相对位置和目标标签在所述音素序列中的相对位置;所述目标音素为所述音素序列中与所述第一标点相关的音素;所述目标标签为,所述分词结果中所述第一标点之前的一个分词标签所对应的初始音律边界标签;根据所述目标音素在所述音素序列中的相对位置和目标标签在所述音素序列中的相对位置,确定所述标点序列;所述标点序列中的第一目标位置和第二目标位置均为所述第一标点;所述第一目标位置与所述目标音素在所述音素序列中的相对位置相同;所述第二目标位置与所述目标标签在所述音素序列中的相对位置相同;所述标点序列中除所述第一目标位置和所述第二目标位置之外的位置均为填充字段。7.一种基于音律边界标签的语音合成方法,其特征在于,所述方法包括:获取待合成文本的音素序列和标点序列;所述待合成文本包括文字和标点;所述音素序列包括音素以及初始音律边界标签;所述音素用于表示所述文字对应的发音;所述标点序列包括所述标点;利用目标声学模型对所述音素序列和所述标点序列进行预测,得到所述待合成文本对应的初始音频特征;所述目标声学模型通过对初始声学模型进行训练得到,所述初始声学模型通过样本文本的音素序列、标点序列以及所述样本文本对应的语音片段训练得到;根据所述初始音频特征,确定所述待合成文本的音素序列的初始音律边界标签各自对应的分布时长;根据所述分布时长,对所述待合成文本的音素序列的初始音律边界标签进行更新,得到所述待合成文本的音素序列的目标音律边界标签;所述待合成文本的音素序列的目标音律边界标签为对应的分布时长满足时长阈值的初始音律边界标签;根据所述待合成文本的音素序列的目标音律边界标签,得到所述待...

【专利技术属性】
技术研发人员:强春雨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1