一种合成语音的质量评测方法、装置、存储介质及设备制造方法及图纸

技术编号:37764085 阅读:23 留言:0更新日期:2023-06-06 13:22
本申请公开了一种合成语音的质量评测方法、装置、存储介质及计算设备,涉及语音处理技术领域,该方法包括:获取第一合成语音以及对第一合成语音进行测评的目标人群的特征信息,然后根据目标人群的特征信息进行画像空间建模,获得目标人群的画像空间,接着根据第一合成语音和目标人群的画像空间,通过评分模型预测目标人群对第一合成语音的评分。上述方法根据目标人群的特征信息进行画像空间建模,基于画像空间获得虚拟评测者的评测者特征,基于第一合成语音和评测者特征,通过评分模型可以预测目标人群对第一合成语音的评分。即使在不同使用场景,也能自动构建相应的目标人群的画像空间,以预测目标人群对合成语音的评分,省时省力,更加个性化。更加个性化。更加个性化。

【技术实现步骤摘要】
一种合成语音的质量评测方法、装置、存储介质及设备


[0001]本申请涉及语音处理
,尤其涉及一种合成语音的质量评测方法、装置、存储介质及计算设备、计算机程序产品。

技术介绍

[0002]随着语音技术尤其是语音合成(speech synthesis)、语音增强、语音转换技术的不断发展,产生了大量的合成语音。衡量语音合成系统、语音增强系统或语音转换系统的好坏通常是通过对上述系统输出的合成语音进行质量评测实现。
[0003]对于合成语音的质量评测可以通过专业的测试人员对该合成语音进行主观评分实现。考虑到主观评分需要大量测试人员进行听力测试,并提供感知评级导致主观评估非常耗时且成本昂贵。基于此,业界尝试使用基于深度学习的评估模型来预测人类对合成语音的主观评分。
[0004]由于个体差异会导致不同的测试人员对同一条语音评价各不相同,当前已有方法都是使用所有测试人员的平均分数,也即平均主观意见分(mean opinion score,MOS)作为评价结果。在训练基于深度学习的评估模型时,可以将MOS作为训练目标。<br/>[0005]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种合成语音的质量评测方法,其特征在于,包括:获取第一合成语音以及对所述第一合成语音进行测评的目标人群的特征信息;根据所述目标人群的特征信息进行画像空间建模,获得所述目标人群的画像空间;根据所述第一合成语音和所述目标人群的画像空间,通过评分模型预测所述目标人群对所述第一合成语音的评分。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取多个训练样本,所述多个训练样本中的每个训练样本包括一条第二合成语音、至少一个评测者的特征信息以及所述至少一个评测者对所述第二合成语音的真实评分;利用所述多个训练样本进行模型训练获得所述评分模型。3.根据权利要求2所述的方法,其特征在于,所述利用所述多个训练样本进行模型训练获得所述评分模型,包括:对所述训练样本中的所述第二合成语音进行编码得到语音特征,以及对所述训练样本中的所述评测者的特征信息进行编码得到评测者特征;对所述语音特征和所述评测者特征进行拼接,将拼接后的特征输入基础网络,根据所述基础网络输出的预测评分和所述真实评分更新所述基础网络的参数,获得所述评分模型。4.根据权利要求3所述的方法,其特征在于,所述评测者特征中携带有所述评测者的标识。5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述第一合成语音和所述目标人群的画像空间,通过评分模型预测所述目标人群对所述第一合成语音的评分,包括:从所述目标人群的画像空间中采样得到虚拟评测者的评测者特征;根据所述第一合成语音的语音特征和所述虚拟评测者的评测...

【专利技术属性】
技术研发人员:杨盾刘利娟潘嘉
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1