【技术实现步骤摘要】
音律边界标签标注方法和语音合成方法
[0001]本公开涉及人工智能
,尤其涉及一种音律边界标签标注方法和语音合成方法。
技术介绍
[0002]语音片段合成技术是智能语音片段交互的核心技术之一。运用语音片段合成技术的语音片段合成系统通常包括前端模型和后端模型。前端模型通常为声学模型,可以对输入的文本进行预测,得到该文本的音频特征。后端模型通常为声码器模型,可以将前端模型得到的音频特征合成为语音片段波形,以便于语音片段合成系统或其他系统根据该语音片段波形输出语音片段。
[0003]其中,前端模型可以利用训练样本训练获得。前端模型的训练样本包括带有音律边界标签的样本文本、以及该样本文本对应的语音片段。
[0004]但是,目前的音律边界标签的确定准确率较低。
技术实现思路
[0005]基于上述技术问题,本公开提供一种音律边界标签标注方法和语音合成方法,可以通过分布时长对自动标注的初始音律边界标签进行筛选,筛选出更符合实际发音效果的目标音律边界标签,提高标注音律边界标签的准确率。
[0006]根据本公开实施例的第一方面,提供一种音律边界标签标注方法,该方法包括:获取样本文本的音素序列、标点序列以及样本文本对应的语音片段;样本文本包括文字和标点;音素序列包括音素以及初始音律边界标签;音素用于表示文字对应的发音;初始音律边界标签用于在音素序列中标记语音片段中的发音停顿;标点序列包括标点;通过初始声学模型,得到样本文本对应的音频特征;初始声学模型通过音素序列、标点序列和语音片段训练得到; ...
【技术保护点】
【技术特征摘要】
1.一种音律边界标签标注方法,其特征在于,所述方法包括:获取样本文本的音素序列、标点序列以及所述样本文本对应的语音片段;所述样本文本包括文字和标点;所述音素序列包括音素以及初始音律边界标签;所述音素用于表示所述文字对应的发音;所述初始音律边界标签用于在所述音素序列中标记所述语音片段中的发音停顿;所述标点序列包括所述标点;通过初始声学模型,得到所述样本文本对应的音频特征;所述初始声学模型通过所述音素序列、所述标点序列和所述语音片段训练得到;根据所述音频特征,确定所述初始音律边界标签各自对应的分布时长;根据所述分布时长,对所述初始音律边界标签进行更新,得到目标音律边界标签;所述目标音律边界标签为对应的分布时长满足时长阈值的初始音律边界标签。2.根据权利要求1所述的方法,其特征在于,所述根据所述分布时长,对所述初始音律边界标签进行更新,得到目标音律边界标签,包括:删除所述初始音律边界标签中,对应的分布时长小于所述时长阈值的初始音律边界标签,得到所述目标音律边界标签。3.根据权利要求1或2所述的方法,其特征在于,在通过初始声学模型,得到所述样本文本对应的音频特征之前,还包括:将所述音素序列和所述标点序列进行拼接,得到拼接后的序列;将所述拼接后的序列和所述语音片段输入待训练模型进行训练,得到所述初始声学模型;所述通过初始声学模型,得到所述样本文本对应的音频特征,包括:利用所述初始声学模型对所述拼接后的序列进行编码处理,得到所述音频特征。4.根据权利要求3所述的方法,其特征在于,所述音频特征还包括音素特征和韵律特征;所述利用所述初始声学模型对所述拼接后的序列进行编码处理,得到所述音频特征,包括:利用所述初始声学模型对所述音素序列进行编码处理,得到所述音素特征;所述音素特征用于指示所述音素序列中的音素的发音;利用所述初始声学模型对所述标点序列进行编码处理,得到所述韵律特征;所述韵律特征用于指示所述标点序列中的标点对应的韵律。5.根据权利要求4所述的方法,其特征在于,所述获取样本文本的音素序列和标点序列,包括:获取所述样本文本;对所述样本文本进行分词,得到分词结果;所述分词结果包括所述样本文本中的文字、所述样本文本中的标点、以及一个或多个分词标签;识别所述分词结果中的文字,得到所述分词结果中的每个文字各自对应的音素所组成的所述音素序列;根据每个分词标签在所述分词结果中的相对位置,在所述音素序列中插入所述一个或多个初始音律边界标签;所述每个分词标签在所述分词结果中的相对位置,与该分词标签对应的初始音律边界标签在所述音素序列中的相对位置相同;根据所述音素序列和所述分词结果中的标点,得到所述标点序列;所述标点序列的长
度与所述音素序列的长度相同。6.根据权利要求5所述的方法,其特征在于,针对所述分词结果中的任意一个第一标点,所述根据所述音素序列和所述分词结果中的标点,得到所述标点序列,包括:根据所述第一标点,确定目标音素在所述音素序列中的相对位置和目标标签在所述音素序列中的相对位置;所述目标音素为所述音素序列中与所述第一标点相关的音素;所述目标标签为,所述分词结果中所述第一标点之前的一个分词标签所对应的初始音律边界标签;根据所述目标音素在所述音素序列中的相对位置和目标标签在所述音素序列中的相对位置,确定所述标点序列;所述标点序列中的第一目标位置和第二目标位置均为所述第一标点;所述第一目标位置与所述目标音素在所述音素序列中的相对位置相同;所述第二目标位置与所述目标标签在所述音素序列中的相对位置相同;所述标点序列中除所述第一目标位置和所述第二目标位置之外的位置均为填充字段。7.一种基于音律边界标签的语音合成方法,其特征在于,所述方法包括:获取待合成文本的音素序列和标点序列;所述待合成文本包括文字和标点;所述音素序列包括音素以及初始音律边界标签;所述音素用于表示所述文字对应的发音;所述标点序列包括所述标点;利用目标声学模型对所述音素序列和所述标点序列进行预测,得到所述待合成文本对应的初始音频特征;所述目标声学模型通过对初始声学模型进行训练得到,所述初始声学模型通过样本文本的音素序列、标点序列以及所述样本文本对应的语音片段训练得到;根据所述初始音频特征,确定所述待合成文本的音素序列的初始音律边界标签各自对应的分布时长;根据所述分布时长,对所述待合成文本的音素序列的初始音律边界标签进行更新,得到所述待合成文本的音素序列的目标音律边界标签;所述待合成文本的音素序列的目标音律边界标签为对应的分布时长满足时长阈值的初始音律边界标签;根据所述待合成文本的音素序列的目标音律边界标签,得到所述待...
【专利技术属性】
技术研发人员:强春雨,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。