合成语音评估方法、装置、设备及存储介质制造方法及图纸

技术编号：33430427 阅读：14 留言：0更新日期：2022-05-19 00:21

本发明专利技术提供一种合成语音评估方法、装置、设备及存储介质，涉及人工智能，包括：将自然语音输入至第一语音神经网络模型，选取至少一个编码层，获取该至少一个编码层提取的编码结果作为第一编码集；其中该至少一个编码层不包括第一神经网络模型的输出层；将合成语音输入至第一语音神经网络模型，获取该至少一个编码层提取的编码结果作为第二编码集；根据第一编码集及第二编码集，获取语音感知距离作为合成语音的评估结果。本发明专利技术不依赖人力，提升了合成语音的自然性评估的评估效率。语音的自然性评估的评估效率。语音的自然性评估的评估效率。

全部详细技术资料下载

【技术实现步骤摘要】
合成语音评估方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种合成语音评估方法、装置、设备及存储介质。

技术介绍

[0002]随着深度学习的发展，语音合成系统在合成语音的真实性上取得了巨大的成功，某些模型生成的合成语音几乎可以假乱真。
[0003]以往为了评估合成语音的自然性(指合成语音是否像真人说话,说话人语气是否自然等等)，往往依赖于人力进行主观评价，例如，传统的MOS得分评估方法。由于对合成语音的自然性的评估依赖于人力，因此，其评估结果可能不够客观，并且在需要对大量合成语音进行评估时，评估速度慢，评估效率差。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此，本专利技术实施例提出一种合成语音评估方法、装置、设备及存储介质。
[0005]一方面，本专利技术实施例提供一种合成语音评估方法，包括：将自然语音输入至第一语音神经网络模型，选取至少一个编码层，获取所述至少一个编码层提取的编码结果作为第一编码集；其中所述至少一个编码层不包括所述第一神经网络模型的输出层；将合成语音输入至所述第一语音神经网络模型，获取所述至少一个编码层提取的编码结果作为第二编码集；根据所述第一编码集及所述第二编码集，获取语音感知距离作为合成语音的评估结果。
[0006]根据本专利技术实施例的合成语音评估方法，至少具有如下有益效果：通过将自然语音和合成语音输入同一语音神经网络，获取选定的至少一层的编码结果得到两个编码集，根据编码集的结果计算...

【技术保护点】

【技术特征摘要】
1.一种合成语音评估方法，其特征在于，包括：将自然语音输入至第一语音神经网络模型，选取至少一个编码层，获取所述至少一个编码层提取的编码结果作为第一编码集；其中所述至少一个编码层不包括所述第一神经网络模型的输出层；将合成语音输入至所述第一语音神经网络模型，获取所述至少一个编码层提取的编码结果作为第二编码集；根据所述第一编码集及所述第二编码集，获取语音感知距离作为合成语音的评估结果。2.根据权利要求1所述的合成语音评估方法，其特征在于，所述根据所述第一编码集及所述第二编码集，获取语音感知距离包括：按编码层获取所述第一编码集的均值和协方差矩阵；按编码层获取所述第二编码集的均值和协方差矩阵；根据所述第一编码集的均值、所述第一编码集的协方差矩阵、所述第二编码集的均值和所述第二编码集的协方差矩阵，得出所述语音感知距离。3.根据权利要求2所述的合成语音评估方法，其特征在于，所述根据所述第一编码集的均值、所述第一编码集的协方差矩阵、所述第二编码集的均值和所述第二编码集的协方差矩阵，得出所述语音感知距离，包括：其中，SFID(S
real
,S
generated
)表示语音感知距离，S
real
表示第一编码集，S
generated
表示第二编码集，tr()表示矩阵的迹，即对矩阵的主对角元素求和，表示所述第一编码集中第i个编码层编码结果的均值，表示所述第一编码集中第i个编码层的协方差矩阵，表示所述第二编码集中第i个编...

【专利技术属性】
技术研发人员：王通，司玉景，李全忠，何国涛，蒲瑶，
申请(专利权)人：普强时代珠海横琴信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人