韵律层级标注方法、装置、设备和存储介质制造方法及图纸

技术编号：25892342 阅读：50 留言：0更新日期：2020-10-09 23:36

本申请公开了韵律层级标注方法、装置、设备和存储介质，涉及自然语言处理和深度学习技术领域。具体实现方案为：对待标注文本数据进行处理，得到所述待标注文本数据中音素的文本特征表示；根据所述待标注文本数据和所述待标注文本数据关联的音频数据，确定所述待标注文本数据中音素的声学特征表示；根据所述待标注文本数据中音素的文本特征表示和声学特征表示，确定所述待标注文本数据中音素的组合特征表示；根据所述待标注文本数据中音素的组合特征表示，确定所述待标注文本数据的标注韵律层级信息。本申请技术提高了韵律层级标注的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
韵律层级标注方法、装置、设备和存储介质
本申请涉及语音
，尤其涉及自然语言处理和深度学习
，具体涉及一种韵律层级标注方法、装置、设备和存储介质。
技术介绍
随着人工智能技术的发展，智能语音交互广泛应用于工作生活的各个领域，例如通过AI(ArtificialIntelligence，人工智能)合成主播播报新闻、通过智能音箱播报语音消息等。语音合成通过将文字信息转化为语音，是智能语音交互的基础。韵律层级标注利用人们发音停顿的特点，根据停顿的时间长度，将韵律分为不同的韵律层级，是影响合成语音自然度的关键因素。
技术实现思路
本公开提供了一种用于韵律层级标注方法、装置、设备以及存储介质。根据本公开的一方面，提供了一种韵律层级标注方法，包括：对待标注文本数据进行处理，得到所述待标注文本数据中音素的文本特征表示；根据所述待标注文本数据和所述待标注文本数据关联的音频数据，确定所述待标注文本数据中音素的声学特征表示；根据所述待标注文本数据中音素的文本特征表示和声学特征表...

【技术保护点】
1.一种韵律层级标注方法，包括：/n对待标注文本数据进行处理，得到所述待标注文本数据中音素的文本特征表示；/n根据所述待标注文本数据和所述待标注文本数据关联的音频数据，确定所述待标注文本数据中音素的声学特征表示；/n根据所述待标注文本数据中音素的文本特征表示和声学特征表示，确定所述待标注文本数据中音素的组合特征表示；/n根据所述待标注文本数据中音素的组合特征表示，确定所述待标注文本数据的标注韵律层级信息。/n

【技术特征摘要】
1.一种韵律层级标注方法，包括：
对待标注文本数据进行处理，得到所述待标注文本数据中音素的文本特征表示；
根据所述待标注文本数据和所述待标注文本数据关联的音频数据，确定所述待标注文本数据中音素的声学特征表示；
根据所述待标注文本数据中音素的文本特征表示和声学特征表示，确定所述待标注文本数据中音素的组合特征表示；
根据所述待标注文本数据中音素的组合特征表示，确定所述待标注文本数据的标注韵律层级信息。

2.根据权利要求1所述的方法，其中，所述根据所述待标注文本数据和所述待标注文本数据关联的音频数据，确定所述待标注文本数据中音素的声学特征表示，包括：
对所述待标注文本数据和所述待标注文本数据关联的音频数据进行对齐，得到所述待标注文本数据中音素的音频时长区间；
根据所述音素的音频时长区间，对所述音频数据进行处理，得到所述待标注文本数据中音素的声学特征表示。

3.根据权利要求2所述的方法，其中，所述根据所述音素的音频时长区间，对所述音频数据进行处理，得到所述待标注文本数据中音素的声学特征表示，包括：
对所述音频数据进行处理，得到所述音素的音频时长区间中音频帧的小波变换能量特征；
对所述音频帧的小波变换能量特征进行压缩，得到所述待标注文本数据中音素的声学特征表示。

4.根据权利要求1所述的方法，其中，所述对待标注文本数据进行处理，得到所述待标注文本数据中音素的文本特征表示，包括：
确定所述待标注文本数据的音素信息和初始韵律层级信息；
根据所述音素信息和所述初始韵律层级信息，确定所述待标注文本数据中音素的文本特征表示。

5.根据权利要求1所述的方法，其中，所述根据所述待标注文本数据中音素的组合特征表示，确定所述待标注文本数据的标注韵律层级信息，包括：
将所述待标注文本数据中音素的组合特征表示作为韵律层级标注模型的输入，并根据所述韵律层级标注模型的输出确定所述待标注文本数据的标注韵律层级信息。

6.根据权利要求5所述的方法，确定所述待标注文本数据的标注韵律层级信息之后，还包括：
根据所述标注韵律层级信息关联的音频时长区间，确定所述标注韵律层级信息关联的音频静音时长；
根据所述音频静音时长和所述韵律层级标注模型输出的预测概率，对所述待标注文本数据的标注韵律层级信息进行调整。

7.根据权利要求6所述的方法，其中，所述根据所述音频静音时长，对所述待标注文本数据的标注韵律层级信息进行调整，包括：
若所述待标注文本数据中任一位置处的标注韵律层级信息为语调短语，且该标注韵律层级信息关联的音频静音时长小于静音时长阈值，则将所述韵律层级标注模型在该位置处输出的第二预测概率所属的韵律层级信息作为该位置处的标注韵律层级信息。

8.一种韵律层级标注装置，包括：
文本特征模块，用于对待标注文本数据进行处理，得到所述待标注文本数据中音素的文本特征表示；
声学特征模块，用于根据所...

【专利技术属性】
技术研发人员：高正坤，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人