语音判别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：31094354 阅读：25 留言：0更新日期：2021-12-01 13:02

本公开涉及一种语音判别方法、装置、电子设备及存储介质，上述方法包括：获取待判别语音；提取所述待判别语音的声学特征和语言风格特征；对所述声学特征和所述语言风格特征进行语音拼接处理，得到融合特征；将所述融合特征输入语音判别器，以判别所述待判别语音是真实语音或是生成语音。采用上述技术手段，解决现有技术中，鉴别生成语音和真实语音的准确率低，以及鉴别生成语音和真实语音的方法不具有普适性的问题。普适性的问题。普适性的问题。

全部详细技术资料下载

【技术实现步骤摘要】
语音判别方法、装置、电子设备及存储介质

[0001]本公开涉及语音识别领域，尤其涉及一种语音判别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着深度学习技术的发展，利用语音合成和语音转换技术得到的生成语音与真人发出的真实语音的相似度大幅提高，甚至以假乱真，在医疗、娱乐等领域有着广泛的应用，但是也给不法分子提供了利用生成语音进行网络诈骗的技术条件，对人民安全、社会稳定造成了极大的威胁，因此，对生成语音的鉴别技术成为了当今社会的迫切需求。现有技术往往使用声学特征鉴别生成语音和真实语音，但是仅使用声学特征，并不能很好地鉴别生成语音和真实语音。
[0003]在实现本公开构思的过程中，专利技术人发现相关技术中至少存在如下技术问题：鉴别生成语音和真实语音的准确率低，以及鉴别生成语音和真实语音的方法不具有普适性的问题。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种语音判别方法、装置、电子设备及存储介质，以至少解决现有技术中，鉴别生成语音和真实语音...

【技术保护点】

【技术特征摘要】
1.一种语音的判别方法，其特征在于，包括：获取待判别语音；提取所述待判别语音的声学特征和语言风格特征；对所述声学特征和所述语言风格特征进行语音拼接处理，得到融合特征；将所述融合特征输入语音判别器，以判别所述待判别语音是真实语音或生成语音。2.根据权利要求1所述的方法，其特征在于，提取所述待判别语音的语言风格特征，包括：通过语音识别技术将所述待判别语音转换为待判别文本；将所述待判别文本输入语言风格特征提取模型，通过所述语言风格特征提取模型中的特征提取网络输出语言风格特征，其中，所述语言风格特征提取模型已通过训练，使得所述特征提取网络学习并保存有所述待判别文本和所述语言风格特征的对应关系。3.根据权利要求2所述的方法，其特征在于，所述将所述待判别文本输入语言风格特征提取模型之前，所述方法还包括：获取第一训练语音数据集，其中，所述第一训练语音数据集包括多条真实语音，每条真实语音包括：语音内容信息和发音对象信息；通过所述语音识别技术将所述第一训练语音数据集中的所述每条真实语音转换为文本信息，得到训练文本数据集；使用所述训练文本数据集训练所述语言风格特征提取模型，其中，所述语言风格特征提取模型，包括：特征提取网络和分类网络；其中，所述特征提取网络用于提取所述第一训练语音数据集中的所述每条真实语音对应的语言风格特征，所述每条真实语音对应的所述语言风格特征是从所述每条真实语音中的所述语音内容信息中提取到的；所述分类网络用于根据所述每条真实语音对应的所述语言风格特征，确定所述每条真实语音的所述发音对象信息。4.根据权利要求1所述的方法，其特征在于，所述将所述融合特征输入语音判别器，以判别所述待判别语音是真实语音或生成语音，包括：将所述融合特征输入语音判别器，得到所述待判别语音对应的生成概率；在所述生成概率大于等于预设阈值的情况下，将所述待判别语音确定为所述生成语音；在所述生成概率小于所述预设阈值的情况下，将所述待判别语音确定为所述真实语音。5.根据权利要求1至...

【专利技术属性】
技术研发人员：陶建华，遆敬苗，易江燕，傅睿博，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人