一种用于语音合成系统的合成语音质量评估方法技术方案

技术编号：37782790 阅读：11 留言：0更新日期：2023-06-09 09:13

本发明专利技术公开了一种用于语音合成系统的合成语音质量评估方法，包括：创建合成语音质量数据集，建立包含语音合成系统合成语音的数据集，将数据集中的语音进行语音感知质量评价测试得到数据标签，以数据标签作为分数衡量语音质量；创建语音质量分数预测模型对合成语音进行预测；将待测合成语音输入语音质量分数预测模型，由合成语音质量数据集对语音质量分数预测模型进行训练，输出合成语音质量预测分数。通过对语音合成系统合成语音进行质量评价，使用基于深度学习的方法，建立合成语音质量数据集，使用该数据集训练一个语音质量分数预测模型，使得语音质量分数预测模型能够对语音合成系统合成的语音预测出质量分数。系统合成的语音预测出质量分数。系统合成的语音预测出质量分数。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于语音合成系统的合成语音质量评估方法

[0001]本专利技术涉及语音语音质量评估领域，特别涉及一种用于语音合成系统的合成语音质量评估方法。

技术介绍

[0002]语音质量的评估对于衡量与提高语音合成系统的质量十分重要。然而，目前基于人的测听的评价指标有着较高的人力成本，并且有一定的误差。这是因为每个人的看法与喜好不同，例如对不同音色、不同口音、不同语速的接受程度，影响了评价结果的客观性和准确性。另一方面，一些其他语音相关的任务中，都有着相当客观的评价指标，例如自动语音识别中的单词错误率，说话人识别中的说话人错误率，这些指标可以直接作为这些任务的衡量和优化指标，但是并不能套用在语音合成中。大多数基于深度学习的语音合成系统在训练过程中，会使用声学参数和音素时长的最大似然(或最小误差)来训练和优化。但是这些标准尽管能在训练过程中使用，却不能被作为评估合成语音质量的指标，因为当使用语音合成系统数据集以外的文本时，并没有相应的参考语音可以用来计算声学参数和音素时长，此时这些标准是不可用的，另外这些标准也不能反应听众对于合成语音的主观感知评价。
[0003]客观的评价方法，如梅尔倒谱距离在语音转换领域经常被用来衡量转换后的语音质量，但这些指标主要是测量声学参数的失真，不能很好地衡量听者的主观感受。由国际电信联盟电信标准分局发布的语音质量感知评估(PESQ)在工业应用中经常被用来评价语音质量，然而，这种方法需要高质量的参考语音，这一局限性使其不能直接适用于合成语音的评价，因为合成语音往往没有相应的原始语音，而且该方法...

【技术保护点】

【技术特征摘要】
1.一种用于语音合成系统的合成语音质量评估方法，其特征在于，包括：创建合成语音质量数据集，建立包含语音合成系统合成语音的数据集，将数据集中的语音进行语音感知质量评价测试得到数据标签，以数据标签作为分数衡量语音质量；创建语音质量分数预测模型对合成语音进行预测；将待测合成语音输入语音质量分数预测模型，由合成语音质量数据集对语音质量分数预测模型进行训练，输出合成语音质量预测分数。2.根据权利要求1所述的一种用于语音合成系统的合成语音质量评估方法，其特征在于，所述语音合成系统所采用的合成文本包含了长句和短句，合成语音作为合成语音质量数据集的音频样本，所述合成语音经过质量评价后获得MOS分数，MOS分数作为数据标签。3.根据权利要求2所述的一种用于语音合成系统的合成语音质量评估方法，其特征在于，所述合成语音采用多个不同发音人的语音，所述数据标签所对应的MOS分数为单条语音分数的平均值。4.根据权利要求2所述的一种用于语音合成系统的合成语音质量评估方法，其特征在于，所述语音质量分数预测模型基于卷积神经网络和自注意力机制模型，所述语音质量分数预测模型的输入是从语音...

【专利技术属性】
技术研发人员：陈紫东，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人