【技术实现步骤摘要】
生成语音的检测方法、装置、电子设备及存储介质
[0001]本公开涉及语音识别领域,尤其涉及一种生成语音的检测方法、装置、电子设备及存储介质。
技术介绍
[0002]随着深度学习的快速发展,语音合成技术也日趋成熟,已能生成与真人相媲美的语音,在人机交互、智能家居、娱乐、教育等领域有广泛的应用。但是不良用途的语音合成技术也给人民和社会带来危害,因此,对生成语音的检测技术成为了当今社会的迫切需求。现有技术往往使用声学特征检测生成语音或者音素时长特征检测生成语音,但是声学特征检测和音素时长特征检测生成语音的方法准确率不够高、检测过程中使用到的检测模型的泛化性不足。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下技术问题:检测生成语音的准确率不够高,以及检测过程中使用到的检测模型的泛化性不足等问题。
技术实现思路
[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种生成语音的检测方法、装置、电子设备及存储介质,以至少解决现有技术中,检测生成语音的准 ...
【技术保护点】
【技术特征摘要】
1.一种生成语音的检测方法,其特征在于,包括:获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果,其中,所述语音检测结果,包括:所述待检测语音是真实语音和所述待检测语音是生成语音。2.根据权利要求1所述的方法,其特征在于,所述将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征之前,包括:获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征;将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量;对所述训练语音词向量和所述训练语音音向量进行所述拼接处理,得到第三融合特征,并对所述第三融合特征进行第一标注处理;使用随机梯度下降算法,根据经过所述第一标注处理之后的第三融合特征训练所述韵律节奏预测模型。3.根据权利要求1或2所述的方法,其特征在于,所述韵律节奏预测模型包括:多层自注意力网络,其中,每层所述自注意力网络包括:多个自注意力头函数。4.根据权利要求1所述的方法,其特征在于,所述将所述第二融合特征输入语音检测模型,输出语音检测结果之前,所述方法还包括:获取训练语音数据集,其中,所述训练语音数据集包括多条训练语音,所述训练语音为真实语音或生成语音;提取所述训练语音数据集中每条训练语音的第三声学特征和第四声学特征;将所述第三声学特征输入所述语音识别模型,输出所述第三声学特征对应的训练语音文本序列;分别通过所述词嵌入模型与所述语音嵌入模型提取所述训练语音文本序列的训练语音词向量和训练语音音向量;对所述训练语音词向量和所述训练语音音向量进行所述拼接处理,得到第三融合特征,并将所述第三融合特征输入所述韵律节奏预测模型,输出训练语音韵律节奏特征;对所述训练语音韵律节奏特征和第四声学特征进行所述拼接处理,得到第四融合特征,并对所述第四融合特征进行第二标注处理;使用随机梯度下降算法,根据经过所述第二标注...
【专利技术属性】
技术研发人员:易江燕,陶建华,傅睿博,聂帅,梁山,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。