【技术实现步骤摘要】
本专利技术属于语音音高轮廓预测与合成语音自然度评估领域,尤其涉及一种基于语音音高轮廓的合成语音自然度评估方法和装置。
技术介绍
1、随着人工智能和自然语言处理技术的快速发展,合成语音技术已经取得了显著的进步。合成语音,亦称为语音合成,是指使用计算机技术生成人类语音的过程。早期的语音合成系统侧重于文字到语音的转换,但合成的语音通常缺乏自然度和表达力。近年来,通过深度学习方法在该领域的普及,合成语音的自然度和流畅性有了显著提升。
2、合成语音的自然度是评估语音合成系统质量的一个关键指标。自然度高的合成语音更易于被听众接受,能提供更加舒适和真实的听觉体验。在多种应用场景中,如虚拟助手、自动语音回应系统以及有声读物的制作中,高自然度的合成语音尤为重要。
3、目前,合成语音自然度的评估方法主要分为主观评估和客观评估方法。主观评估通常通过听众对合成语音样本的听感进行评分来进行。主观评估方法依赖于人类听众的主观评分或偏好选择,如均值意见得分(mean opnion score,mos)测试、比较类别评定(comparative
...【技术保护点】
1.一种基于语音音高轮廓的合成语音自然度评估方法,其特征在于,包括:
2.根据权利要求1所述的一种基于语音音高轮廓的合成语音自然度评估方法,其特征在于,所述将所述待评估的合成语音音频及其转写文本输入至语音-文本强制对齐器中,得到字层级的强制对齐结果具体为:使用语音-文本强制对齐器,并预加载发声字典与声学模型权重;再输入所述语音音频及其转写文本,得到字层级的强制对齐结果TGfa。
3.根据权利要求1所述的一种基于语音音高轮廓的合成语音自然度评估方法,其特征在于,所述将所述待评估的合成语音音频输入至音高轮廓提取器中,得到标记未发声状态的音高轮廓序列
...【技术特征摘要】
1.一种基于语音音高轮廓的合成语音自然度评估方法,其特征在于,包括:
2.根据权利要求1所述的一种基于语音音高轮廓的合成语音自然度评估方法,其特征在于,所述将所述待评估的合成语音音频及其转写文本输入至语音-文本强制对齐器中,得到字层级的强制对齐结果具体为:使用语音-文本强制对齐器,并预加载发声字典与声学模型权重;再输入所述语音音频及其转写文本,得到字层级的强制对齐结果tgfa。
3.根据权利要求1所述的一种基于语音音高轮廓的合成语音自然度评估方法,其特征在于,所述将所述待评估的合成语音音频输入至音高轮廓提取器中,得到标记未发声状态的音高轮廓序列具体为:将所述待评估的语音音频输入至音高轮廓提取器中,获得音高轮廓序列fs及发声状态序列vs;并将gs与vs乘积得到为标记未发声状态的音高轮廓序列,中状态为发声的帧音高估计值为fs中的对应数值,未发声的帧对应音高估计值为空缺值nan。
4.根据权利要求1所述的一种基于语音...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。