语音合成效果评价方法及装置、电子设备及可读存储介质制造方法及图纸

技术编号:35734866 阅读:14 留言:0更新日期:2022-11-26 18:36
本发明专利技术公开了一种语音合成效果评价方法及装置、电子设备及可读存储介质。其中,该方法包括:将合成音频的音频谱图输入至预先训练完成的语音效果评价模型;通过语音效果评价模型中的编码器,根据音频谱图确定第一向量;通过语音效果评价模型中的解码器,根据第一向量确定合成音频的评价得分。本发明专利技术解决了由于相关技术中语音合成效果需要人工进行评价,而导致语音合成效果评测工作耗时费力的技术问题。语音合成效果评测工作耗时费力的技术问题。语音合成效果评测工作耗时费力的技术问题。

【技术实现步骤摘要】
语音合成效果评价方法及装置、电子设备及可读存储介质


[0001]本专利技术涉及语音合成
,具体而言,涉及一种语音合成效果评价方法及装置、电子设备及可读存储介质。

技术介绍

[0002]语音合成,即将文本转化为音频的过程,通常有两种评测方式
‑‑‑
客观评测和主观评测。客观评测可以评价语音合成前端各系统的效果,如多音字模块、自动标音等;而主观评测部分,则是对整个语音合成效果的自然度和可懂度进行评价。
[0003]由于主观评测的不可替代性,语音合成系统的评估难度遂变得很大。人工的主观参与必然会将参评人的个人喜好引入到最终的评测结果中,例如,参评人对音色的喜好程度会影响她/他对自然度的判断,若想要降低人为因素的影响,只能靠加大参评人的数量和评测用例的总量。也正是因为人工的参与,这项评测工作必然是耗时且耗费较大的。
[0004]可见,相关技术中针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种语音合成效果评价方法及装置、电子设备及可读存储介质,以至少解决由于相关技术中语音合成效果需要人工进行评价,而导致语音合成效果评测工作耗时费力的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种语音合成效果评价方法,包括:将合成音频的音频谱图输入至预先训练完成的语音效果评价模型;通过所述语音效果评价模型中的编码器,根据所述音频谱图确定第一向量;通过所述语音效果评价模型中的解码器,根据所述第一向量确定所述合成音频的评价得分。
[0007]进一步地,通过所述语音效果评价模型中的编码器,根据所述音频谱图确定第一向量,包括:通过所述编码器,根据所述音频谱图的时间序列确定多个第二向量,其中,所述多个第二向量分别与所述时间序列对应。
[0008]进一步地,通过所述编码器,根据所述音频谱图的时间序列确定多个第二向量,包括:通过全卷积神经网络对所述音频谱图进行特征提取,以得到所述多个第二向量。
[0009]进一步地,通过所述语音效果评价模型中的解码器,根据所述第一向量确定所述合成音频的评价得分,包括:将所述多个第二向量依次输入至所述解码器中的全连接层、激活函数层以及随机失活层,以得到第三向量;通过所述解码器中的平均池化层,根据所述第三向量确定所述评价得分。
[0010]进一步地,所述解码器包括长短期记忆网络,其中,通过所述语音效果评价模型中的解码器,根据所述第一向量确定所述合成音频的评价得分,包括:通过长短期记忆网络,根据所述时间序列以及所述多个第二向量确定所述评价得分。
[0011]根据本专利技术实施例的另一方面,还提供了一种语音合成效果评价装置,包括:输入模块,用于将合成音频的音频谱图输入至预先训练完成的语音效果评价模型;确定模块,用
于通过所述语音效果评价模型中的编码器,根据所述音频谱图确定第一向量;评价模块,用于通过所述语音效果评价模型中的解码器,根据所述第一向量确定所述合成音频的评价得分。
[0012]进一步地,所述确定模块包括:确定单元,用于通过所述编码器,根据所述音频谱图的时间序列确定多个第二向量,其中,所述多个第二向量分别与所述时间序列对应。
[0013]进一步地,所述第一确定单元包括:特征提取子模块,用于通过全卷积神经网络对所述音频谱图进行特征提取,以得到所述多个第二向量。
[0014]进一步地,所述评价模块包括:输入单元,用于将所述多个第二向量依次输入至所述解码器中的全连接层、激活函数层以及随机失活层,以得到第三向量;第一评价单元,用于通过所述解码器中的平均池化层,根据所述第三向量确定所述评价得分。
[0015]进一步地,所述解码器包括长短期记忆网络,其中,所述评价模块包括:第二评价单元,用于通过长短期记忆网络,根据所述时间序列以及所述多个第二向量确定所述评价得分。
[0016]根据本专利技术实施例的另一方面,还提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如上所述的语音合成效果评价方法的步骤。
[0017]根据本专利技术实施例的另一方面,还提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上所述的语音合成效果评价方法的步骤。
[0018]在本专利技术实施例中,通过将合成音频的音频谱图输入至预先训练完成的语音效果评价模型;通过语音效果评价模型中的编码器,根据音频谱图确定第一向量;通过语音效果评价模型中的解码器,根据第一向量确定合成音频的评价得分,达到了通过语音效果评价模型对合成音频进行评价的目的,从而实现了降低人工投入的技术效果,进而解决了由于相关技术中语音合成效果需要人工进行评价,而导致语音合成效果评测工作耗时费力的技术问题。
附图说明
[0019]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0020]图1是根据本专利技术实施例的一种可选的语音合成效果评价方法的流程示意图;
[0021]图2是根据本专利技术实施例的一种可选的语音效果评价模型的结构示意图;
[0022]图3是根据本专利技术实施例的又一种可选的语音效果评价模型的结构示意图;
[0023]图4是根据本专利技术实施例的一种可选的语音合成效果评价装置的框架示意图。
具体实施方式
[0024]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范
围。
[0025]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0026]实施例1
[0027]根据本专利技术实施例,提供了一种语音合成效果评价方法,如图1所示,该方法具体可以包括以下步骤:
[0028]S102,将合成音频的音频谱图输入至预先训练完成的语音效果评价模型;
[0029]S104,通过语音效果评价模型中的编码器,根据音频谱图确定第一向量;
[0030]S106,通过语音效果评价模型中的解码器,根据第一向量确定合成音频的评价得分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成效果评价方法,其特征在于,包括:将合成音频的音频谱图输入至预先训练完成的语音效果评价模型;通过所述语音效果评价模型中的编码器,根据所述音频谱图确定第一向量;通过所述语音效果评价模型中的解码器,根据所述第一向量确定所述合成音频的评价得分。2.根据权利要求1所述的方法,其特征在于,通过所述语音效果评价模型中的编码器,根据所述音频谱图确定第一向量,包括:通过所述编码器,根据所述音频谱图的时间序列确定多个第二向量,其中,所述多个第二向量分别与所述时间序列对应。3.根据权利要求2所述的方法,其特征在于,通过所述编码器,根据所述音频谱图的时间序列确定多个第二向量,包括:通过全卷积神经网络对所述音频谱图进行特征提取,以得到所述多个第二向量。4.根据权利要求2所述的方法,其特征在于,通过所述语音效果评价模型中的解码器,根据所述第一向量确定所述合成音频的评价得分,包括:将所述多个第二向量依次输入至所述解码器中的全连接层、激活函数层以及随机失活层,以得到第三向量;通过所述解码器中的平均池化层,根据所述第三向量确定所述评价得分。5.根据权利要求2所述的方法,其特征在于,所述解码器包括长短期记忆网络,其中,通过所述语音效果评价模型中的解码器,根据所述第一向量确定所述合成音频的评价得分,包括:通过长短期记忆网络,根据所述时间序列以及所述多个第二向量确定所...

【专利技术属性】
技术研发人员:李睿端李健陈明武卫东
申请(专利权)人:北京捷通数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1