用于输出信息的方法和装置制造方法及图纸

技术编号：23606721 阅读：38 留言：0更新日期：2020-03-28 07:20

本申请实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括：获取待标注的样本音节对应的基频曲线；从基频曲线中提取出基频序列；将基频序列转换成样本值序列；将样本值序列与已知边界调类型的基准序列进行聚类，得到样本值序列的边界调类型作为待标注的样本音节的边界调类型，以及输出待标注的样本音节的边界调类型。该实施方式实现了在英文语音合成系统中的边界调的自动标注，从而缩短了标注时间并节约了成本。

Methods and devices for outputting information

全部详细技术资料下载

【技术实现步骤摘要】
用于输出信息的方法和装置
本申请实施例涉及语音合成
，具体涉及用于输出信息的方法和装置。
技术介绍
英语的发音中没有声调，主要通过语调的变化来表达情感，如疑问语句的句尾一般用上扬的语调来表示疑问语气。因此，英文合成系统中，需要加入语调信息才能较好的合成带情感的声音，目前的英文情感合成系统中，大部分都加入了边界调信息来表征语调的变化类型。相关的英文情感合成系统已经能较好的合成带情感的语音，但是训练数据的情感类型需要进行人工标注，不仅要求标注人员有较强的英语专业知识，还需要耗费较大的人力和财力。
技术实现思路
本申请实施例提出了用于输出信息的方法和装置。第一方面，本申请实施例提供了一种用于输出信息的方法，包括：获取待标注的样本音节对应的基频曲线；从基频曲线中提取出基频序列；将基频序列转换成样本值序列；将样本值序列与已知边界调类型的基准序列进行聚类，得到样本值序列的边界调类型作为待标注的样本音节的边界调类型。输出待标注的样本音节的边界调类型。在一些实施例中，将基频序列转换成样本值序...

【技术保护点】
1.一种用于输出信息的方法，包括：/n获取待标注的样本音节对应的基频曲线；/n从所述基频曲线中提取出基频序列；/n将所述基频序列转换成样本值序列；/n将所述样本值序列与已知边界调类型的基准序列进行聚类，得到所述样本值序列的边界调类型作为所述待标注的样本音节的边界调类型；/n输出所述待标注的样本音节的边界调类型。/n

【技术特征摘要】
20180831 CN 20181101274351.一种用于输出信息的方法，包括：
获取待标注的样本音节对应的基频曲线；
从所述基频曲线中提取出基频序列；
将所述基频序列转换成样本值序列；
将所述样本值序列与已知边界调类型的基准序列进行聚类，得到所述样本值序列的边界调类型作为所述待标注的样本音节的边界调类型；
输出所述待标注的样本音节的边界调类型。

2.根据权利要求1所述的方法，其中，所述将所述基频序列转换成样本值序列，包括：
对所述基频序列进行采样和插值得到预定长度的基频对数序列作为样本值序列。

3.根据权利要求1所述的方法，其中，所述将所述基频序列转换成样本值序列，包括：
对所述基频序列进行离散余弦变换，将离散余弦变换系数作为样本值序列。

4.根据权利要求1所述的方法，其中，所述将所述样本值序列与已知边界调类型的基准序列进行聚类，包括：
通过皮尔逊相关系数将所述样本值序列与第一基准序列进行聚类，按相关系数的正负将所述样本值序列聚为两类，斜率为正的类记为第一类，为负的类记为第二类；
通过欧式距离将所述样本值序列与第二基准序列进行聚类，按基频整体的高低将第一类聚类为第三类和第四类，将第二类聚类为第五类和第六类；
通过欧式距离将所述样本值序列与第三基准序列进行聚类，按基频的变化幅度将所述第三类、所述第四类、所述第五类、所述第六类分别聚为两类。

5.根据权利要求1-4之一所述的方法，其中，所述方法还包括：
获取待合成的英文文本，其中，所述英文文本包括至少一个单词，单词包括至少一个音节；
对于所述至少一个单词中的单词，提取出该单词的特征，以及将该单词的特征输入预先训练的前端预测模型，输出该单词的最后一个音节的边界调类型；
将所述英文文本和所述英文文本中各单词的最后一个音节的边界调类型输入预先训练的后端声学模型，输出声学参数；
基于输出的声学参数将所述英文文本合成英文语音。

6.根据权利要求5所述的方法，其中，所述前端预测模型通过如下方式训练得到的：
获取第一训练样本集合，第一训练样本包括样本单词和与样本单词的最后一个样本音节对应的边界调类型；
将所述第一训练样本集合中的第一训练样本的样本单词作为输入，将与输入的样本单词的最后一个样本音节对应的边界调类型作为输出，训练得到前端预测模型。

7.根据权利要求5所述的方法，其中，所述后端声学模型通过如下方式训练得到的：
获取第二训练样本集合，第二训练样本包括样本音素序列对应的样本音节的边界调类型和与样本音素序列对应的声学参数；
将所述第二训练样本集合中的第二训练样本的样本音素序列和样本音素序列对应的样本音节的边界调类型作为输入，将与输入的样本音素序列对应的声学参数作为输出，训练得到后端声学模型。

8.一种用于输出信息的装置，包括：
获取单元，被配置成获取待标注的样本音节对应的基频曲线；
提取单元，被配置成从所述基频曲线中提取出基频序列；...

【专利技术属性】
技术研发人员：周志平，盖于涛，陈昌滨，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人