【技术实现步骤摘要】
一种用于语音合成系统的合成语音质量评估方法
[0001]本专利技术涉及语音语音质量评估领域,特别涉及一种用于语音合成系统的合成语音质量评估方法。
技术介绍
[0002]语音质量的评估对于衡量与提高语音合成系统的质量十分重要。然而,目前基于人的测听的评价指标有着较高的人力成本,并且有一定的误差。这是因为每个人的看法与喜好不同,例如对不同音色、不同口音、不同语速的接受程度,影响了评价结果的客观性和准确性。另一方面,一些其他语音相关的任务中,都有着相当客观的评价指标,例如自动语音识别中的单词错误率,说话人识别中的说话人错误率,这些指标可以直接作为这些任务的衡量和优化指标,但是并不能套用在语音合成中。大多数基于深度学习的语音合成系统在训练过程中,会使用声学参数和音素时长的最大似然(或最小误差)来训练和优化。但是这些标准尽管能在训练过程中使用,却不能被作为评估合成语音质量的指标,因为当使用语音合成系统数据集以外的文本时,并没有相应的参考语音可以用来计算声学参数和音素时长,此时这些标准是不可用的,另外这些标准也不能反应听众对于合成语音的
【技术保护点】
【技术特征摘要】
1.一种用于语音合成系统的合成语音质量评估方法,其特征在于,包括:创建合成语音质量数据集,建立包含语音合成系统合成语音的数据集,将数据集中的语音进行语音感知质量评价测试得到数据标签,以数据标签作为分数衡量语音质量;创建语音质量分数预测模型对合成语音进行预测;将待测合成语音输入语音质量分数预测模型,由合成语音质量数据集对语音质量分数预测模型进行训练,输出合成语音质量预测分数。2.根据权利要求1所述的一种用于语音合成系统的合成语音质量评估方法,其特征在于,所述语音合成系统所采用的合成文本包含了长句和短句,合成语音作为合成语音质量数据集的音频样本,所述合成语音经过质量评价后获得MOS分数,MOS分数作为数据标签。3.根据权利要求2所述的一种用于语音合成系统的合成语音质量评估方法,其特征在于,所述合成语音采用多个不同发音人的语音,所述数据标签所对应的MOS分数为单条语音分数的平均值。4.根据权利要求2所述的一种用于语音合成系统的合成语音质量评估方法,其特征在于,所述语音质量分数预测模型基于卷积神经网络和自注意力机制模型,所述语音质量分数预测模型的输入是从语音...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。