一种用于语音合成系统的合成语音质量评估方法技术方案

技术编号:37782790 阅读:11 留言:0更新日期:2023-06-09 09:13
本发明专利技术公开了一种用于语音合成系统的合成语音质量评估方法,包括:创建合成语音质量数据集,建立包含语音合成系统合成语音的数据集,将数据集中的语音进行语音感知质量评价测试得到数据标签,以数据标签作为分数衡量语音质量;创建语音质量分数预测模型对合成语音进行预测;将待测合成语音输入语音质量分数预测模型,由合成语音质量数据集对语音质量分数预测模型进行训练,输出合成语音质量预测分数。通过对语音合成系统合成语音进行质量评价,使用基于深度学习的方法,建立合成语音质量数据集,使用该数据集训练一个语音质量分数预测模型,使得语音质量分数预测模型能够对语音合成系统合成的语音预测出质量分数。系统合成的语音预测出质量分数。系统合成的语音预测出质量分数。

【技术实现步骤摘要】
一种用于语音合成系统的合成语音质量评估方法


[0001]本专利技术涉及语音语音质量评估领域,特别涉及一种用于语音合成系统的合成语音质量评估方法。

技术介绍

[0002]语音质量的评估对于衡量与提高语音合成系统的质量十分重要。然而,目前基于人的测听的评价指标有着较高的人力成本,并且有一定的误差。这是因为每个人的看法与喜好不同,例如对不同音色、不同口音、不同语速的接受程度,影响了评价结果的客观性和准确性。另一方面,一些其他语音相关的任务中,都有着相当客观的评价指标,例如自动语音识别中的单词错误率,说话人识别中的说话人错误率,这些指标可以直接作为这些任务的衡量和优化指标,但是并不能套用在语音合成中。大多数基于深度学习的语音合成系统在训练过程中,会使用声学参数和音素时长的最大似然(或最小误差)来训练和优化。但是这些标准尽管能在训练过程中使用,却不能被作为评估合成语音质量的指标,因为当使用语音合成系统数据集以外的文本时,并没有相应的参考语音可以用来计算声学参数和音素时长,此时这些标准是不可用的,另外这些标准也不能反应听众对于合成语音的主观感知评价。
[0003]客观的评价方法,如梅尔倒谱距离在语音转换领域经常被用来衡量转换后的语音质量,但这些指标主要是测量声学参数的失真,不能很好地衡量听者的主观感受。由国际电信联盟电信标准分局发布的语音质量感知评估(PESQ)在工业应用中经常被用来评价语音质量,然而,这种方法需要高质量的参考语音,这一局限性使其不能直接适用于合成语音的评价,因为合成语音往往没有相应的原始语音,而且该方法评价的结果并不注重合成语音的自然度。
[0004]通过对听众的主观感受进行分类并指定分级评价标准,平均意见得分(MOS)和其他主观评价方法可以将听众对语音的主观评价量化为等级,这可以很好地衡量语音的自然度和听众对语音的主观感受。然而,MOS分数需要通过语音主观质量评价测试来收集,当有很多音频样本时,这将需要大量的时间和人力成本,因为语音主观质量评价测试需要多个听众用他们的测量和分数覆盖所有的语音,从而得到较为客观的感知质量评价结果。
[0005]基于深度学习的合成语音质量评价方法中,Quality

Net通过基于双向长短期记忆网络(Bi

LSTM)的模型,其预测得分与PESQ得分高度相关,为语音增强提供了有效的非侵入式评价。然而,对于纯粹的预测语音合成系统合成语音质量而言,作为语音增强指标的PESQ分数并不能作为衡量合成语音自然度的标准。Mos

Net采用了基于卷积神经网络和双向长短期记忆网络的模型,能够预测转换后的语音质量。该模型在预测系统质量方面有较好的表现,但是这项工作的主要目标是评估语音转换系统。
[0006]因此,有必要探索一种用于语音合成系统的合成语音质量评估方法。

技术实现思路

[0007]本专利技术要解决的技术问题是克服现有技术的缺陷,提供一种用于语音合成系统的合成语音质量评估方法。
[0008]为了解决上述技术问题,本专利技术提供了如下的技术方案:
[0009]本专利技术一种用于语音合成系统的合成语音质量评估方法,包括:
[0010]创建合成语音质量数据集,建立包含语音合成系统合成语音的数据集,将数据集中的语音进行语音感知质量评价测试得到数据标签,以数据标签作为分数衡量语音质量;
[0011]创建语音质量分数预测模型对合成语音进行预测;
[0012]将待测合成语音输入语音质量分数预测模型,由合成语音质量数据集对语音质量分数预测模型进行训练,输出合成语音质量预测分数。
[0013]作为本专利技术的一种优选技术方案,所述语音合成系统所采用的合成文本包含了长句和短句,合成语音作为合成语音质量数据集的音频样本,所述合成语音经过质量评价后获得MOS分数,MOS分数作为数据标签。
[0014]作为本专利技术的一种优选技术方案,所述合成语音采用多个不同发音人的语音,所述数据标签所对应的MOS分数为单条语音分数的平均值。
[0015]作为本专利技术的一种优选技术方案,所述语音质量分数预测模型基于卷积神经网络和自注意力机制模型,所述语音质量分数预测模型的输入是从语音合成系统合成语音中提取出的特征,所述语音质量分数预测模型的输出则是对这条合成语音所预测的MOS分数,所述数据集对合成语音质量分数预测模型进行训练之后预测合成语音的感知质量。
[0016]作为本专利技术的一种优选技术方案,所述合成语音输入语音质量分数预测模型前需进行处理,处理步骤为:预加重、分帧、加窗、短时傅里叶变换,所述预加重采用一阶高通滤波器:H(z)=1

μz
‑1,其中,μz
‑1的取值为0.9—1.0,所述分帧对语音信号进行分析提取特征参数用于后续处理和加工语音信号,其中提取的特征参数包括语音的短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数,所采用的帧长时间的取值为10

30ms,所述加窗采用的窗函数包括汉明窗、矩形窗,所述短时傅里叶变换将一帧信号做傅里叶变换得到频谱。
[0017]作为本专利技术的一种优选技术方案,所述合成语音产生的能量谱经由梅尔滤波器组提取特征。
[0018]与现有技术相比,本专利技术的有益效果如下:
[0019]本专利技术通过对语音合成系统合成语音进行质量评价,使用基于深度学习的方法,建立合成语音质量数据集,使用该数据集训练一个语音质量分数预测模型,使得语音质量分数预测模型能够对语音合成系统合成的语音预测出质量分数。
附图说明
[0020]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0021]图1是本专利技术的整体流程图;
[0022]图2是本专利技术的语音质量分数预测模型示意图;
具体实施方式
[0023]以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。
[0024]实施例1
[0025]如图1

2所示,本专利技术提供一种用于语音合成系统的合成语音质量评估方法,包括:
[0026]创建合成语音质量数据集,建立包含语音合成系统合成语音的数据集,将数据集中的语音进行语音感知质量评价测试得到数据标签,以数据标签作为分数衡量语音质量;
[0027]创建语音质量分数预测模型对合成语音进行预测;
[0028]将待测合成语音输入语音质量分数预测模型,由合成语音质量数据集对语音质量分数预测模型进行训练,输出合成语音质量预测分数。
[0029]进一步的,语音合成系统所采用的合成文本包含了长句和短句,合成语音作为合成语音质量数据集的音频样本,合成语音经过质量评价后获得MOS分数,MOS分数作为数据标签。
[0030]进一步的,合成语音采用多个不同发音人的语音,数据标签所对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于语音合成系统的合成语音质量评估方法,其特征在于,包括:创建合成语音质量数据集,建立包含语音合成系统合成语音的数据集,将数据集中的语音进行语音感知质量评价测试得到数据标签,以数据标签作为分数衡量语音质量;创建语音质量分数预测模型对合成语音进行预测;将待测合成语音输入语音质量分数预测模型,由合成语音质量数据集对语音质量分数预测模型进行训练,输出合成语音质量预测分数。2.根据权利要求1所述的一种用于语音合成系统的合成语音质量评估方法,其特征在于,所述语音合成系统所采用的合成文本包含了长句和短句,合成语音作为合成语音质量数据集的音频样本,所述合成语音经过质量评价后获得MOS分数,MOS分数作为数据标签。3.根据权利要求2所述的一种用于语音合成系统的合成语音质量评估方法,其特征在于,所述合成语音采用多个不同发音人的语音,所述数据标签所对应的MOS分数为单条语音分数的平均值。4.根据权利要求2所述的一种用于语音合成系统的合成语音质量评估方法,其特征在于,所述语音质量分数预测模型基于卷积神经网络和自注意力机制模型,所述语音质量分数预测模型的输入是从语音...

【专利技术属性】
技术研发人员:陈紫东
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1