当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于语音音高轮廓的合成语音自然度评估方法和装置制造方法及图纸

技术编号:41735910 阅读:35 留言:0更新日期:2024-06-19 12:55
本发明专利技术公开了一种基于语音音高轮廓的合成语音自然度评估方法和装置,包括将待评估的合成语音音频及其转写文本输入语音‑文本强制对齐器中,得到字层级的强制对齐结果;将待评估的合成语音音频输入音高轮廓提取器中,得到标记未发声状态的音高轮廓序列;将字层级的强制对齐结果输入多层级文本特征提取器中,得到文本特征多元序列;将文本特征多元序列输入音高轮廓预测模型中,得到标记未发声状态的参考音高轮廓序列;将标记未发声状态的音高轮廓序列和标记未发声状态的参考音高轮廓序列输入自然度计算器中,得到自然度评估分数。本发明专利技术将音高轮廓引入合成语音自然度评估任务中,从韵律的角度实现合成语音自然度的评估。

【技术实现步骤摘要】

本专利技术属于语音音高轮廓预测与合成语音自然度评估领域,尤其涉及一种基于语音音高轮廓的合成语音自然度评估方法和装置


技术介绍

1、随着人工智能和自然语言处理技术的快速发展,合成语音技术已经取得了显著的进步。合成语音,亦称为语音合成,是指使用计算机技术生成人类语音的过程。早期的语音合成系统侧重于文字到语音的转换,但合成的语音通常缺乏自然度和表达力。近年来,通过深度学习方法在该领域的普及,合成语音的自然度和流畅性有了显著提升。

2、合成语音的自然度是评估语音合成系统质量的一个关键指标。自然度高的合成语音更易于被听众接受,能提供更加舒适和真实的听觉体验。在多种应用场景中,如虚拟助手、自动语音回应系统以及有声读物的制作中,高自然度的合成语音尤为重要。

3、目前,合成语音自然度的评估方法主要分为主观评估和客观评估方法。主观评估通常通过听众对合成语音样本的听感进行评分来进行。主观评估方法依赖于人类听众的主观评分或偏好选择,如均值意见得分(mean opnion score,mos)测试、比较类别评定(comparative category 本文档来自技高网...

【技术保护点】

1.一种基于语音音高轮廓的合成语音自然度评估方法,其特征在于,包括:

2.根据权利要求1所述的一种基于语音音高轮廓的合成语音自然度评估方法,其特征在于,所述将所述待评估的合成语音音频及其转写文本输入至语音-文本强制对齐器中,得到字层级的强制对齐结果具体为:使用语音-文本强制对齐器,并预加载发声字典与声学模型权重;再输入所述语音音频及其转写文本,得到字层级的强制对齐结果TGfa。

3.根据权利要求1所述的一种基于语音音高轮廓的合成语音自然度评估方法,其特征在于,所述将所述待评估的合成语音音频输入至音高轮廓提取器中,得到标记未发声状态的音高轮廓序列具体为:将所述待评估...

【技术特征摘要】

1.一种基于语音音高轮廓的合成语音自然度评估方法,其特征在于,包括:

2.根据权利要求1所述的一种基于语音音高轮廓的合成语音自然度评估方法,其特征在于,所述将所述待评估的合成语音音频及其转写文本输入至语音-文本强制对齐器中,得到字层级的强制对齐结果具体为:使用语音-文本强制对齐器,并预加载发声字典与声学模型权重;再输入所述语音音频及其转写文本,得到字层级的强制对齐结果tgfa。

3.根据权利要求1所述的一种基于语音音高轮廓的合成语音自然度评估方法,其特征在于,所述将所述待评估的合成语音音频输入至音高轮廓提取器中,得到标记未发声状态的音高轮廓序列具体为:将所述待评估的语音音频输入至音高轮廓提取器中,获得音高轮廓序列fs及发声状态序列vs;并将gs与vs乘积得到为标记未发声状态的音高轮廓序列,中状态为发声的帧音高估计值为fs中的对应数值,未发声的帧对应音高估计值为空缺值nan。

4.根据权利要求1所述的一种基于语音...

【专利技术属性】
技术研发人员:朱天翊丁鼐邹家杰
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1