一种韵律标注方法、装置及应用制造方法及图纸

技术编号：36946736 阅读：8 留言：0更新日期：2023-03-22 19:07

本申请提供了一种韵律标注方法、装置及应用，能够使录制的语音音频韵律和标注文本韵律精确匹配。方法包括：获取特定说话人根据经过韵律标注的第一文本录制的第一语音数据，第一文本包括多个韵律标签，不同韵律标签表示的停顿的持续时长不同；根据第一语音数据和第一文本，统计多个韵律标签中每一韵律标签的持续时长，以获取每一韵律标签的持续时长的统计数据；根据每一韵律标签对应的统计数据，确定每一韵律标签持续时长的取值范围；获取特定说话人根据未经过韵律标注的第二文本录制的第二语音数据；根据第二语音数据获取第二语音数据各个停顿的持续时长，根据每一韵律标签的持续时长的取值范围和各个停顿的持续时长，对第二文本进行韵律标注。文本进行韵律标注。文本进行韵律标注。

全部详细技术资料下载

【技术实现步骤摘要】
一种韵律标注方法、装置及应用

[0001]本申请涉及自然语言处理
，尤其涉及一种韵律标注方法、装置及应用。

技术介绍

[0002]在语音合成技术中，韵律表示为合成语音的停顿。为了让智能语音交互更加人性化，目前的文本到语音(Text To Speech，TTS)神经网络模型，通常需要学习音频的韵律的特征，使得合成的语音更加自然流畅。按照停顿的长短和位置，用韵律标签#1、#2、#3和#4表示不同的停顿，其中，#1为韵律词的边界，表示短暂停顿；#2为韵律短语的边界，表示拉长音或者短暂停顿；#3表示语义完整的较明显停顿和语调下降；#4表示句末，是每个编号对应的句子结尾的标注。
[0003]目前主流韵律标注方案为通过语义进行韵律标注，以标贝数据集(一种公开数据集)的第71句为例，“二敬家住北五环外，上班要去亚运村华堂商场。”按照语义划分，标注的文本为“二敬家#2住#1北五#1环外#3，上班#2要去#1亚运村#2华堂#1商场#4。”但是，在说话人根据标注的文本进行录制的时候，往往存在两个问题：1、很难完全按照根据语义划分好的韵律标注进行朗读；2、在进行韵律朗读的时候，把握不好各个韵律停顿的时长，例如#1和#2的短停顿。因此，造成了录制的语音音频的韵律和标注文本的韵律不匹配的问题，使用这种韵律不匹配的语音音频和标注文本对语音合成模型进行训练，使得该模型无法学习到韵律的特征，从而造成合成的语音不能明显的体现出上述各个韵律标签表示的停顿。
[0004]因此，如何获取和录制语音音频的韵律匹配的韵律标注的文本成为亟待...

【技术保护点】

【技术特征摘要】
1.一种韵律标注方法，其特征在于，包括：获取特定说话人根据第一文本录制的第一语音数据，所述第一文本为经过韵律标注的文本，所述第一文本包括多个韵律标签，所述多个韵律标签中不同的韵律标签表示的停顿的持续时长不同；根据所述第一语音数据和所述第一文本，统计所述多个韵律标签中每一韵律标签的持续时长，以获取所述每一韵律标签的持续时长的统计数据；根据所述每一韵律标签对应的所述统计数据，确定所述每一韵律标签的持续时长的取值范围；获取所述特定说话人根据第二文本录制的第二语音数据，所述第二文本为未经过韵律标注的文本；根据所述第二语音数据获取所述第二语音数据中各个停顿的持续时长，且根据所述每一韵律标签的持续时长的取值范围和所述各个停顿的持续时长，对所述第二文本进行韵律标注。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：若所述第一文本中的韵律标签和所述第一语音数据中的停顿不匹配，根据所述第一语音数据中的停顿重新确定所述第一文本中的韵律标签。3.根据权利要求1或2所述的方法，其特征在于，所述根据所述每一韵律标签对应的所述统计数据，确定所述每一韵律标签的持续时长的取值范围，包括：根据所述每一韵律标签对应的所述统计数据，确定所述每一韵律标签的持续时长的均值和标准差；基于正态分布分析方法，根据所述每一韵律标签的持续时长的均值和标准差，确定所述每一韵律标签的持续时长的取值范围。4.根据权利要求3所述的方法，其特征在于，所述根据所述每一韵律标签的持续时长的均值和标准差，确定所述每一韵律标签的持续时长的取值范围，包括：根据所述每一韵律标签的持续时长的均值和标准差，确定所述每一韵律标签的持续时长的均值与标准差的差值，以及所述每一韵律标签的持续时长的均值与标准差的和值；根据所述每一韵律标签对应的所述差值和所述和值，确定所述每一韵律标签的持续时长的取值范围。5.根据权利要求1或2所述的方法，其特征在于，所述根据所述第二语音数据获取所述第二语音数据中各个停顿的持续时长，且根据所述每一韵律标签的持续时长的取值范围和所述各个停顿的持续时长，对所述第二文本进行韵律标注，包括：对所述第二文本进行拼音化处理，以获取拼音文本；基于蒙特利尔强制对准器MFA算法，根据所述第二语音数据和所述拼音文本，获取各个停顿对应的开始时刻和结束时刻，每一停顿表示其前一音素的结束时刻和后一音素的开始时刻之间具有间隔；根据所述每一停顿的开始时刻和结束时刻确定所述每一停顿的持续时长；根据所述每一停顿的持续时长和所述每一韵律标签的持续时长的取值范围，确定所述每一停顿对应的韵律标签；根据所述每一停顿对应的韵律标签对所述第二...

【专利技术属性】
技术研发人员：赵言，姚树杰，樊冯飞，
申请(专利权)人：鼎富新动力北京智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人