合成语音评估方法、装置、设备及存储介质制造方法及图纸

技术编号:33430427 阅读:14 留言:0更新日期:2022-05-19 00:21
本发明专利技术提供一种合成语音评估方法、装置、设备及存储介质,涉及人工智能,包括:将自然语音输入至第一语音神经网络模型,选取至少一个编码层,获取该至少一个编码层提取的编码结果作为第一编码集;其中该至少一个编码层不包括第一神经网络模型的输出层;将合成语音输入至第一语音神经网络模型,获取该至少一个编码层提取的编码结果作为第二编码集;根据第一编码集及第二编码集,获取语音感知距离作为合成语音的评估结果。本发明专利技术不依赖人力,提升了合成语音的自然性评估的评估效率。语音的自然性评估的评估效率。语音的自然性评估的评估效率。

【技术实现步骤摘要】
合成语音评估方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种合成语音评估方法、装置、设备及存储介质。

技术介绍

[0002]随着深度学习的发展,语音合成系统在合成语音的真实性上取得了巨大的成功,某些模型生成的合成语音几乎可以假乱真。
[0003]以往为了评估合成语音的自然性(指合成语音是否像真人说话,说话人语气是否自然等等),往往依赖于人力进行主观评价,例如,传统的MOS得分评估方法。由于对合成语音的自然性的评估依赖于人力,因此,其评估结果可能不够客观,并且在需要对大量合成语音进行评估时,评估速度慢,评估效率差。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术实施例提出一种合成语音评估方法、装置、设备及存储介质。
[0005]一方面,本专利技术实施例提供一种合成语音评估方法,包括:将自然语音输入至第一语音神经网络模型,选取至少一个编码层,获取所述至少一个编码层提取的编码结果作为第一编码集;其中所述至少一个编码层不包括所述第一神经网络模型的输出层;将合成语音输入至所述第一语音神经网络模型,获取所述至少一个编码层提取的编码结果作为第二编码集;根据所述第一编码集及所述第二编码集,获取语音感知距离作为合成语音的评估结果。
[0006]根据本专利技术实施例的合成语音评估方法,至少具有如下有益效果:通过将自然语音和合成语音输入同一语音神经网络,获取选定的至少一层的编码结果得到两个编码集,根据编码集的结果计算出语音感知距离,得到合成语音的评估结果;整个过程可以不依赖人力自动进行,提升了合成语音的自然性评估的评估效率;此外,用作评估的语音神经网络可以是任意的,自然语音和合成语音的内容不必要对应或有联系,因此,提高了适应的范围。
[0007]根据本专利技术的一些实施例,所述根据所述第一编码集及所述第二编码集,获取语音感知距离包括:获取所述第一编码集的均值和协方差矩阵;获取所述第二编码集的均值和协方差矩阵;根据所述第一编码集的均值、所述第一编码集的协方差矩阵、所述第二编码集的均值和所述第二编码集的协方差矩阵,得出所述语音感知距离。
[0008]根据本专利技术的一些实施例,所述根据所述第一编码集的均值、所述第一编码集的协方差矩阵、所述第二编码集的均值和所述第二编码集的协方差矩阵,得出所述语音感知距离,包括:
[0009][0010]其中,SFID(S
real
,S
generated
)表示语音感知距离,S
real
表示第一编码集,S
generated
表示第二编码集,tr()表示矩阵的迹,即对矩阵的主对角元素求和,表示所述第一编码集中第i个编码层编码结果的均值,表示所述第一编码集中第i个编码层的协方差矩阵,表示所述第二编码集中第i个编码层编码结果的均值,表示所述第二编码集中第i个编码层的协方差矩阵,i=1,2..,k,其中k为选取的编码层的总数。
[0011]根据本专利技术的一些实施例,所述至少一个编码层至少包括:所述第一语音神经网络模型从输入侧至输出侧方向的第一个激活层。
[0012]根据本专利技术的一些实施例,所述至少一个编码层被配置为:所述第一语音神经网络模型从输入侧至输出侧方向的第一个激活层、所述第一语音神经网络模型从输出侧至输入侧方向的第一个特征层和所述第一语音神经网络模型从输出侧至输入侧方向的第二个特征层。
[0013]另一方面,本专利技术实施例提供一种合成语音评估装置,包括:第一模块,用于将自然语音输入至第一语音神经网络模型,选取至少一个编码层,获取所述至少一个编码层提取的编码结果作为第一编码集;其中所述至少一个编码层不包括所述第一神经网络模型的输出层;第二模块,用于将合成语音输入至所述第一语音神经网络模型,获取所述至少一个编码层提取的编码结果作为第二编码集;第三模块,用于根据所述第一编码集及所述第二编码集,获取语音感知距离作为合成语音的评估结果。
[0014]根据本专利技术实施例的合成语音评估装置,至少具有如下有益效果:通过将自然语音和合成语音输入同一语音神经网络,获取选定的至少一层的编码结果得到两个编码集,根据编码集的结果计算出语音感知距离,得到合成语音的评估结果;整个过程可以不依赖人力自动进行,提升了合成语音的自然性评估的评估效率;此外,用作评估的语音神经网络可以是任意的,自然语音和合成语音的内容不必要对应或有联系,因此,提高了适应的范围。
[0015]另一方面,本专利技术实施例提供一种计算机设备,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述的合成语音评估方法。
[0016]另一方面,本一种计算机可读存储介质,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现上述的合成语音评估方法。
[0017]本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0018]本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0019]图1是本专利技术实施例提供的合成语音评估方法的步骤流程示意图。
[0020]图2是本专利技术实施例中语音感知距离的计算步骤流程示意图。
[0021]图3是本专利技术实施例的方法不同的语音合成模型得出的合成语音的评估的实验结果示意。
[0022]图4是本专利技术实施例提供的合成语音评估装置的模块示意图。
[0023]图5是本专利技术实施例提供的电子设备的模块示意图。
具体实施方式
[0024]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本专利技术的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。“第一”、“第二”等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。在本后续的描述中,对方法步骤的连续标号是为了方便审查和理解,结合本专利技术的整体技术方案以及各个步骤之间的逻辑关系,调整步骤之间的实施顺序并不会影响本专利技术技术方案所达到的技术效果。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。
[0025]参照图1,本实施例公开了一种合成语音评估方法,涉及人工智能,包括但不限于以下步骤S100至S300。
[0026]步骤S100,将自然语音输入至第一语音神经网络模型,选取至少一个编码层,获取该至少一个编码层提取的编码结果作为第一编码集;其中至少一个编码层不包括第一神经网络模型的输出层。
[0027]其中,第一语音神经网络模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种合成语音评估方法,其特征在于,包括:将自然语音输入至第一语音神经网络模型,选取至少一个编码层,获取所述至少一个编码层提取的编码结果作为第一编码集;其中所述至少一个编码层不包括所述第一神经网络模型的输出层;将合成语音输入至所述第一语音神经网络模型,获取所述至少一个编码层提取的编码结果作为第二编码集;根据所述第一编码集及所述第二编码集,获取语音感知距离作为合成语音的评估结果。2.根据权利要求1所述的合成语音评估方法,其特征在于,所述根据所述第一编码集及所述第二编码集,获取语音感知距离包括:按编码层获取所述第一编码集的均值和协方差矩阵;按编码层获取所述第二编码集的均值和协方差矩阵;根据所述第一编码集的均值、所述第一编码集的协方差矩阵、所述第二编码集的均值和所述第二编码集的协方差矩阵,得出所述语音感知距离。3.根据权利要求2所述的合成语音评估方法,其特征在于,所述根据所述第一编码集的均值、所述第一编码集的协方差矩阵、所述第二编码集的均值和所述第二编码集的协方差矩阵,得出所述语音感知距离,包括:其中,SFID(S
real
,S
generated
)表示语音感知距离,S
real
表示第一编码集,S
generated
表示第二编码集,tr()表示矩阵的迹,即对矩阵的主对角元素求和,表示所述第一编码集中第i个编码层编码结果的均值,表示所述第一编码集中第i个编码层的协方差矩阵,表示所述第二编码集中第i个编...

【专利技术属性】
技术研发人员:王通司玉景李全忠何国涛蒲瑶
申请(专利权)人:普强时代珠海横琴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1