【技术实现步骤摘要】
基于残差注意力网络的语音鉴伪方法及系统
[0001]本公开属于语音检测和深度学习
,尤其涉及一种基于残差注意力网络的语音鉴伪方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。
[0003]语音不仅传递了需要表达的内容信息,也包含了说话人所独特的身份特征,可以用于验证说话人的身份,但自动说话人验证系统容易受到语音伪造攻击,对人们的利益以及社会安全造成威胁,因此研究语音伪造检测技术具有重要意义。
[0004]专利技术人发现,虽然残差神经网络已经被广泛应用于语音伪造检测领域并取得了良好的性能,通过将残差连接引入卷积神经网络并对残差块进行标准化,残差网络结构能够训练深层网络以实现极具竞争力的识别性能,但是,当输入特征空间变得更加复杂时,简单地增加残差神经网络的深度和宽度并不能充分发挥其性能潜力,无法满足此类场景下对于语音伪造检测准确率的需求。
技术实现思路
[0005]本公开为了解决上述问题,提供了一种基于残差注意力网络的语音鉴伪方法及系统,所述方案通过采用残差注意力网络结构,显式建模通道之间的相互依赖性,自适应地重新校准通道方向的特征响应,对于不同时间帧部分的语音特征给予不同的权重,从而可以有效的关注语音伪造的部分,并通过基于单分类损失函数进行模型训练,有效提高了语音伪造检测的准确率。
[0006]根据本公开实施例的第一个方面,提供了一种基于残差注意力网络的语音鉴伪方法,包括:
[0007]获取待检测的音频数据, ...
【技术保护点】
【技术特征摘要】
1.一种基于残差注意力网络的语音鉴伪方法,其特征在于,包括:获取待检测的音频数据,并进行相应预处理;对预处理后的音频数据进行特征提取,并对提取的语音特征数据进行分针处理,获得固定帧长的语音信号特征数据;基于所述语音信号特征数据,利用预先训练的残差注意网络模型,获得增强后的特征数据;其中,所述残差注意网络模型包括顺序连接的卷积模块、多尺度残差模块、收缩激励单元、注意力池化模块以及全连接层,所述收缩激励单元接收所述多尺度残差模块输出的深层特征向量,并顺序经过全局平均池化操作、全连接层、ReLU激活函数、全连接层及sigmod函数获得通道特征向量的注意力分值,并通过将通道特征向量的注意力分值与多尺度残差模块的输出相乘,得到收缩激励单元的输出;将增强后的特征数据输入预先训练的分类器中,获得语音鉴伪结果。2.如权利要求1所述的一种基于残差注意力网络的语音鉴伪方法,其特征在于,所述多尺度残差模块接收经卷积处理获得的特征向量,所述特征向量经卷积层将特征图按照通道维度均匀分割成若干子集;将除第一子集外的剩余子集经卷积滤波器处理,且从第三个子集开始,将其与前一子集的输出相加后输入卷积滤波器,获得各子集对应的输出值;将各子集的输出值进行拼接,并输入卷积层获得处理结果;将处理结果与所述卷积模块的输出进行残差连接,获得深层特征向量。3.如权利要求1所述的一种基于残差注意力网络的语音鉴伪方法,其特征在于,所述收缩激励单元的处理流程具体包括:将多尺度残差模块的输出进行全局平均池化操作,沿通道维度压缩整个空间维度进行特征聚合映射,得到1
×1×
C的特征向量,其中,C表示通道数目;将所述特征向量输入第一个全连接层,把C个通道压缩成C/R个通道,并经过ReLU激活函数层,得到通道压缩后的特征向量,其中,R表示压缩比例;将经通道压缩后的特征向量输入到第二个全连接层,把C/R个通道恢复回C个通道,并采用sigmod函数得到通道特征向量的注意力分值;将通道特征向量的注意力分值与多尺度残差模块的输出相乘,得到收缩激励单元的输出。4.如权利要求1所述的一种基于残差注意力网络的语音鉴伪方法,其特征在于,所述注意力池化模块的处理流程具体包括:将收缩激励单元输出的每个时间帧深层特征向量与预设线性变换矩阵相乘,所有时间帧共享参数,并采用tanh激活函数得到注意力分数;采用softmax函数将获得的注意力分数进行归一化放缩至[0,1]得到注意力权重;计算加权后特征向量的一阶和二阶统计特征进行拼接,再经过全连接层进行线性变换得到最终的全局特征向量。5.如权利要求1所述的一种基于残差注...
【专利技术属性】
技术研发人员:张鹏,赵靖,柏绪恒,朱光慧,汪付强,李健,王春鹏,吴晓明,马宾,
申请(专利权)人:齐鲁工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。