一种说话人相关防语音合成攻击方法和系统技术方案

技术编号:37137266 阅读:61 留言:0更新日期:2023-04-06 21:38
本发明专利技术提供一种说话人相关防语音合成攻击方法和系统,包括:S1:获取合成音频和真实语音;S2:利用合成音频和真实语音,以及相应的合成音频标签和真实语音标签,训练神经网络模型,得到训练好的神经网络模型;具体训练包括:输入合成音频和真实语音,以及相应的合成音频标签和真实语音标签;利用一维卷积网络对合成音频和真实语音进行初步的特征提取,同时利用预训练的声纹特征模型提取声纹特征,再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均;再通过融合层进行融合,再经过频率

【技术实现步骤摘要】
一种说话人相关防语音合成攻击方法和系统


[0001]本专利技术涉及误差补偿领域,特别是指一种说话人相关防语音合成攻击方法和系统。

技术介绍

[0002]随着声纹识别技术的日益普及,防攻击变得越来越受重视,其中防语音合成攻击的主要研究目的是实现检测一段录音是真人还是人工合成的音频,避免被他人盗用声纹信息,而说话人相关指的是已知一段说话人语音,判断是否为该人物的伪造语音。防攻击是任何声纹识别系统必不可少的,是其系统的重要组成部分,其中语音合成攻击随着近年来技术的进步(语音克隆)变得越来越容易获得,攻击类型多样,已经成为主要的攻击手段之一。声纹识别系统需要根据音频来区分用户身份,完成用户授权。现有的声纹识别系统对语音合成攻击缺乏有效的检测机制,主要的检测手段还是通过人工设计特征,根据提取的特征进行分类。
[0003]但是现在的防语音合成攻击方法存在一定的局限性:
[0004]首先,音频特征提取主要是人工设计的,比如梅尔倒谱系数(MFCC),这类特征多是为语音识别系统设计,符合人类听觉系统特征,但是有时人耳也很难区分是否是合成语音,因此本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种说话人相关防语音合成攻击方法,其特征在于,包括:S1:获取合成音频和真实语音;S2:利用合成音频和真实语音,以及相应的合成音频标签和真实语音标签,训练神经网络模型,得到训练好的神经网络模型,具体训练包括:输入合成音频和真实语音,以及相应的合成音频标签和真实语音标签;利用一维卷积网络对合成音频和真实语音进行初步的特征提取,经过6层Res

net网络,对时间维度的特征和频率维度的特征进行特征提取,同时利用预训练的声纹特征模型提取声纹特征,再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均,得到加权平均后的时间维度的特征,将提取的频率维度的特征利用频率维度图注意力网络进行加权平均,得到加权平均后的频率维度的特征;将声纹特征、加权平均后的时间维度的特征以及加权平均后的频率维度的特征通过融合层进行融合,再经过频率

时间注意力网络完成Attention操作和池化操作,进入合成检测模型进行检测;完成模型训练;S3:根据训练好的神经网络模型进行防语音合成攻击检测。2.根据权利要求1所述的一种说话人相关防语音合成攻击方法,其特征在于,获取合成音频和真实语音后还包括数据扩增,所述数据扩增包括但不限于:加躁、编码变换、加混响。3.根据权利要求1所述的一种说话人相关防语音合成攻击方法,其特征在于,训练的损失函数L为:其中c=1,2,...C,C表示分类个数,n=1,2...N,N表示样本个数,x
n,c
表示类别为c的样本输入,w
c
为权重。4.根据权利要求1所述的一种说话人相关防语音合成攻击方法,其特征在于,所述时间维度图注意力网络、频率维度图注意力网络以及频率

时间注意力网络,具体结构为:时间维度图注意力网络:时间维度特征加权平均层,转置层,注意力层,池化层以及映射层;频率维度图注意力网络:频率维度特征加权平均层,转置层,注意力层,池化层以及映射层频率

时间注意力网络:注意力层,池化层以及映射层。5.一种说话人相关防语音合成攻击系统,其特征在于,包括:语音获取单元:获取合成音频和真实语音;模型训练单元:利用合成音频和真实语音,以及相应的合成音频标签和真实语音标签,训练神经网络模型,得到训练好的神经网络模型,具体训练包...

【专利技术属性】
技术研发人员:杨洪肖龙源李海洲滕默帅李稀敏叶志坚
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1