一种韵律短语标注方法和装置制造方法及图纸

技术编号：26175190 阅读：37 留言：0更新日期：2020-10-31 14:07

本发明专利技术提供了一种韵律短语标注方法和装置，涉及语音合成技术领域。本发明专利技术提供的韵律短语标注方法和装置，在韵律短语标注过程中，根据语音数据中每个音频帧的PPGs和基频值确定语音数据的韵律短语边界，可以避免人工对语音数据的韵律短语进行标注，从而快速的确定语音数据的韵律短语边界，提高韵律短语标注的效率。并且，根据语音数据的PPGs和基频值确定韵律短语边界，并不受人为主观音素的干扰，可以提高韵律短语边界的准确性。

A method and device for prosodic phrase tagging

全部详细技术资料下载

【技术实现步骤摘要】
一种韵律短语标注方法和装置
本专利技术涉及语音合成
，特别是涉及一种韵律短语标注方法和装置。
技术介绍
随着计算机性能的发展，语音合成技术的发展越来越趋向基于大型语料库的波形拼接方法。语料库在语音结构和语音单元的有效覆盖率成为提高合成语音质量的关键。对语料库中的语音数据进行详细的韵律标注是检查语料库数据覆盖率的基础。韵律标注是对语音数据中的韵律词、韵律词组、韵律短语和语调短语等不同层级的单元进行划分，确定语音数据中的韵律词、韵律词组、韵律短语和语调短语的边界的过程。其中，由于每个韵律短语都是一段语调落定的听感，对于合成语音语义分段表征、节拍的稳定感至关重要，因此在韵律标注中，确定语音数据中的韵律短语边界，对语音数据中的韵律短语进行标注至关重要。目前，主要由人工根据语音数据中的停顿和低音线来确定韵律短语边界，对语音数据的韵律短语进行标注。由人工对语音数据的韵律短语进行标注时，效率低下、无法满足需求，并且主观性高，标注得到的韵律短语边界的准确率较低。
技术实现思路
鉴于上述问题，提出了本...

【技术保护点】
1.一种韵律短语标注方法，其特征在于，所述方法包括：/n获取语音数据，并将所述语音数据划分为多个第一音频帧；/n根据所述多个第一音频帧，确定所述语音数据中的每个第一文字、每个所述第一文字分别对应的所述第一音频帧、以及每个所述第一音频帧的音素后验概率，并确定每个所述第一音频帧的基频值；/n根据第一目标音频帧的基频值和音素后验概率，确定所述第一目标音频帧的概率值，所述第一目标音频帧为所述多个第一音频帧中的任意一个音频帧，所述概率值表征所述第一目标音频帧为所述语音数据的韵律短语边界对应的音频帧的概率；/n根据每个所述第一文字分别对应的所述第一目标音频帧的概率值，确定所述韵律短语边界。/n

【技术特征摘要】
1.一种韵律短语标注方法，其特征在于，所述方法包括：
获取语音数据，并将所述语音数据划分为多个第一音频帧；
根据所述多个第一音频帧，确定所述语音数据中的每个第一文字、每个所述第一文字分别对应的所述第一音频帧、以及每个所述第一音频帧的音素后验概率，并确定每个所述第一音频帧的基频值；
根据第一目标音频帧的基频值和音素后验概率，确定所述第一目标音频帧的概率值，所述第一目标音频帧为所述多个第一音频帧中的任意一个音频帧，所述概率值表征所述第一目标音频帧为所述语音数据的韵律短语边界对应的音频帧的概率；
根据每个所述第一文字分别对应的所述第一目标音频帧的概率值，确定所述韵律短语边界。

2.根据权利要求1所述的方法，其特征在于，所述根据第一目标音频帧的基频值和音素后验概率，确定所述第一目标音频帧的概率值，包括：
将所述第一目标音频帧的基频值和音素后验概率输入第一模型，得到所述第一目标音频帧的概率值。

3.根据权利要求2所述的方法，其特征在于，在所述将所述第一目标音频帧的基频值和音素后验概率输入第一模型之前，还包括：
获取多个样本语音数据、以及每个所述样本语音数据的韵律短语边界；
将目标样本语音数据划分为多个第二音频帧，并根据所述多个第二音频帧，确定所述目标样本语音数据中的每个第二文字、每个所述第二文字分别对应的所述第二音频帧、以及每个所述第二音频帧的音素后验概率，并确定每个所述第二音频帧的基频值，所述目标样本语音数据为所述多个样本语音数据中的任意一个样本语音数据；
根据每个所述第二文字分别对应的所述第二音频帧，设置所述多个第二音频帧中与所述目标样本语音数据的韵律短语边界对应的第二音频帧的标签为第一标签、以及设置所述多个第二音频帧中除与所述目标样本语音数据的韵律短语边界对应的第二音频帧之外的第二音频帧的标签为第二标签，所述第一标签与所述第二标签为不同的标签；
根据第二目标音频帧的标签、音素后验概率和基频值对第一预设模型进行训练，得到所述第一模型，所述第二目标音频帧为所述多个第二音频帧中的任意一个音频帧。

4.根据权利要求1所述的方法，其特征在于，所述根据第一目标音频帧的基频值和音素后验概率，确定所述第一目标音频帧的概率值，包括：
将所述第一目标音频帧的音素后验概率输入第二模型，得到所述第一目标音频帧的第一权重；
将所述第一目标音频帧的基频值和第一权重输入第一模型，得到所述第一目标音频帧的概率值。

5.根据权利要求4所述的方法，其特征在于，在所述将所述第一目标音频帧的音素后验概率输入第二模型，得到所述第一目标音频帧的第一权重之前，还包括：
获取多个样本语音数据、以及每个所述样本语音数据的韵律短语边界；
将目标样本语音数据划分为多个第二音频帧，并根据所述多个第二音频帧，确定所述目标样本语音数据中的每个第二文字、每个所述第二文字分别对应的所述第二音频帧、以及每个所述第二音频帧的音素后验概率，并确定每个所述第二音频帧的基频值，所述目标样本语音数据为所述多个样本语音数据中的任意一个样本语音数据；
根据每个所述第二文字分别对应的所述第二音频帧，设置所述多个第二音频帧中与所述目标样本语音数据的韵律短语边界对应的第二音频帧的标签为第一标签、以及设置所述多个第二音频帧中除与所述目标样本语音数据的韵律短语边界对应的第二音频帧之外的第二音频帧的标签为第二标签，所述第一标签与所述第二标签为不同的标签；
将第二目标音频帧的音素后验概率输入第二预设模型，得到所述第二目标音频帧的第二权重，所述第二目标音频帧为所述多个第二音频帧中的任意一个音频帧；
根据所述第二目标音频帧的标签、第二权重和基频值对第一预设模型和所述第二预设模型进行训练，得到所述...

【专利技术属性】
技术研发人员：王愈，李健，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人