语音合成效果评价方法及装置、电子设备及可读存储介质制造方法及图纸

技术编号：35734866 阅读：14 留言：0更新日期：2022-11-26 18:36

本发明专利技术公开了一种语音合成效果评价方法及装置、电子设备及可读存储介质。其中，该方法包括：将合成音频的音频谱图输入至预先训练完成的语音效果评价模型；通过语音效果评价模型中的编码器，根据音频谱图确定第一向量；通过语音效果评价模型中的解码器，根据第一向量确定合成音频的评价得分。本发明专利技术解决了由于相关技术中语音合成效果需要人工进行评价，而导致语音合成效果评测工作耗时费力的技术问题。语音合成效果评测工作耗时费力的技术问题。语音合成效果评测工作耗时费力的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成效果评价方法及装置、电子设备及可读存储介质

[0001]本专利技术涉及语音合成
，具体而言，涉及一种语音合成效果评价方法及装置、电子设备及可读存储介质。

技术介绍

[0002]语音合成，即将文本转化为音频的过程，通常有两种评测方式
‑‑‑
客观评测和主观评测。客观评测可以评价语音合成前端各系统的效果，如多音字模块、自动标音等；而主观评测部分，则是对整个语音合成效果的自然度和可懂度进行评价。
[0003]由于主观评测的不可替代性，语音合成系统的评估难度遂变得很大。人工的主观参与必然会将参评人的个人喜好引入到最终的评测结果中，例如，参评人对音色的喜好程度会影响她/他对自然度的判断，若想要降低人为因素的影响，只能靠加大参评人的数量和评测用例的总量。也正是因为人工的参与，这项评测工作必然是耗时且耗费较大的。
[0004]可见，相关技术中针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种语音合成效果评价方法及装置、电子设备及可读存储介质，以至少解决由于相关技术中语音合成效果需要人工进行评价，而导致语音合成效果评测工作耗时费力的技术问题。
[0006]根据本专利技术实施例的一个方面，提供了一种语音合成效果评价方法，包括：将合成音频的音频谱图输入至预先训练完成的语音效果评价模型；通过所述语音效果评价模型中的编码器，根据所述音频谱图确定第一向量；通过所述语音效果评价模型中的解码器，根据所述第一向量确定所述合成音频的评...

【技术保护点】

【技术特征摘要】
1.一种语音合成效果评价方法，其特征在于，包括：将合成音频的音频谱图输入至预先训练完成的语音效果评价模型；通过所述语音效果评价模型中的编码器，根据所述音频谱图确定第一向量；通过所述语音效果评价模型中的解码器，根据所述第一向量确定所述合成音频的评价得分。2.根据权利要求1所述的方法，其特征在于，通过所述语音效果评价模型中的编码器，根据所述音频谱图确定第一向量，包括：通过所述编码器，根据所述音频谱图的时间序列确定多个第二向量，其中，所述多个第二向量分别与所述时间序列对应。3.根据权利要求2所述的方法，其特征在于，通过所述编码器，根据所述音频谱图的时间序列确定多个第二向量，包括：通过全卷积神经网络对所述音频谱图进行特征提取，以得到所述多个第二向量。4.根据权利要求2所述的方法，其特征在于，通过所述语音效果评价模型中的解码器，根据所述第一向量确定所述合成音频的评价得分，包括：将所述多个第二向量依次输入至所述解码器中的全连接层、激活函数层以及随机失活层，以得到第三向量；通过所述解码器中的平均池化层，根据所述第三向量确定所述评价得分。5.根据权利要求2所述的方法，其特征在于，所述解码器包括长短期记忆网络，其中，通过所述语音效果评价模型中的解码器，根据所述第一向量确定所述合成音频的评价得分，包括：通过长短期记忆网络，根据所述时间序列以及所述多个第二向量确定所...

【专利技术属性】
技术研发人员：李睿端，李健，陈明，武卫东，
申请(专利权)人：北京捷通数智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人