基于残差注意力网络的语音鉴伪方法及系统技术方案

技术编号:36959263 阅读:58 留言:0更新日期:2023-03-22 19:19
本公开提供了一种基于残差注意力网络的语音鉴伪方法及系统,所述方案包括:获取待检测的音频数据,并进行相应预处理;对预处理后的音频数据进行特征提取,并对提取的语音特征数据进行分针处理,获得固定帧长的语音信号特征数据;基于所述语音信号特征数据,利用预先训练的残差注意网络模型,获得增强后的特征数据;其中,所述残差注意网络模型包括顺序连接的卷积模块、多尺度残差模块、收缩激励单元、注意力池化模块以及全连接层;将增强后的特征数据输入预先训练的分类器中,获得语音鉴伪结果。果。果。

【技术实现步骤摘要】
基于残差注意力网络的语音鉴伪方法及系统


[0001]本公开属于语音检测和深度学习
,尤其涉及一种基于残差注意力网络的语音鉴伪方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。
[0003]语音不仅传递了需要表达的内容信息,也包含了说话人所独特的身份特征,可以用于验证说话人的身份,但自动说话人验证系统容易受到语音伪造攻击,对人们的利益以及社会安全造成威胁,因此研究语音伪造检测技术具有重要意义。
[0004]专利技术人发现,虽然残差神经网络已经被广泛应用于语音伪造检测领域并取得了良好的性能,通过将残差连接引入卷积神经网络并对残差块进行标准化,残差网络结构能够训练深层网络以实现极具竞争力的识别性能,但是,当输入特征空间变得更加复杂时,简单地增加残差神经网络的深度和宽度并不能充分发挥其性能潜力,无法满足此类场景下对于语音伪造检测准确率的需求。

技术实现思路

[0005]本公开为了解决上述问题,提供了一种基于残差注意力网络的语音鉴伪方法及系统,所述方案通过采用残差注意力网络结构,显式建模通道之间的相互依赖性,自适应地重新校准通道方向的特征响应,对于不同时间帧部分的语音特征给予不同的权重,从而可以有效的关注语音伪造的部分,并通过基于单分类损失函数进行模型训练,有效提高了语音伪造检测的准确率。
[0006]根据本公开实施例的第一个方面,提供了一种基于残差注意力网络的语音鉴伪方法,包括:
[0007]获取待检测的音频数据,并进行相应预处理;
[0008]对预处理后的音频数据进行特征提取,并对提取的语音特征数据进行分针处理,获得固定帧长的语音信号特征数据;
[0009]基于所述语音信号特征数据,利用预先训练的残差注意网络模型,获得增强后的特征数据;其中,所述残差注意网络模型包括顺序连接的卷积模块、多尺度残差模块、收缩激励单元、注意力池化模块以及全连接层,所述收缩激励单元接收所述多尺度残差模块输出的深层特征向量,并顺序经过全局平均池化操作、全连接层、ReLU激活函数、全连接层及sigmod函数获得通道特征向量的注意力分值,并通过将通道特征向量的注意力分值与多尺度残差模块的输出相乘,得到收缩激励单元的输出;
[0010]将增强后的特征数据输入预先训练的分类器中,获得语音鉴伪结果。
[0011]进一步的,所述多尺度残差模块接收经卷积处理获得的特征向量,所述特征向量经卷积层将特征图按照通道维度均匀分割成若干子集;将除第一子集外的剩余子集经卷积
滤波器处理,且从第三个子集开始,将其与前一子集的输出相加后输入卷积滤波器,获得各子集对应的输出值;将各子集的输出值进行拼接,并输入卷积层获得处理结果;将处理结果与所述卷积模块的输出进行残差连接,获得深层特征向量。
[0012]进一步的,所述收缩激励单元的处理流程具体包括:
[0013]将多尺度残差模块的输出进行全局平均池化操作,沿通道维度压缩整个空间维度进行特征聚合映射,得到1
×1×
C的特征向量,其中,C表示通道数目;
[0014]将所述特征向量输入第一个全连接层,把C个通道压缩成C/R个通道,并经过ReLU激活函数层,得到通道压缩后的特征向量,其中,R表示压缩比例;
[0015]将经通道压缩后的特征向量输入到第二个全连接层,把C/R个通道恢复回C个通道,并采用sigmod函数得到通道特征向量的注意力分值;
[0016]将通道特征向量的注意力分值与多尺度残差模块的输出相乘,得到收缩激励单元的输出。
[0017]进一步的,所述注意力池化模块的处理流程具体包括:
[0018]将收缩激励单元输出的每个时间帧深层特征向量与预设线性变换矩阵相乘,所有时间帧共享参数,并采用tanh激活函数得到注意力分数;
[0019]采用softmax函数将获得的注意力分数进行归一化放缩至[0,1]得到注意力权重;
[0020]计算加权后特征向量的一阶和二阶统计特征进行拼接,再经过全连接层进行线性变换得到最终的全局特征向量。
[0021]进一步的,所述卷积模块包括顺序连接的卷积层、批量标准化层及ReLU激活函数。
[0022]进一步的,所述对预处理后的音频数据进行特征提取,并对提取的语音特征数据进行分针处理,具体为:对预处理的音频数据,以预设采样频率、预设窗口长度、预设数量FFT点和预设数量滤波器及其增量和双增量系数提取线性频率倒谱系数特征,并对提取到的语音特征数据进行分帧处理,获得预设帧长的语音信号特征数据。
[0023]进一步的,所述残差注意网络模型的训练具体为:
[0024]获取训练集和验证集的语音特征数据;
[0025]将训练集语音特征数据输入到卷积模块获得特征向量;
[0026]将特征向量输入到多尺度残差模块获得深层特征向量;
[0027]将深层特征输入到收缩激励单元,获得通道注意力增强的特征向量;
[0028]将通道注意力增强的特征向量输入到注意力池化模块,生成全局特征向量,把特征向量输入到全连接层进行分类;
[0029]使用单分类损失函数进行训练,保存模型参数;
[0030]把验证集数据输入到模型中进行验证,根据验证结果调整模型参数,得到训练后的注意力残差网络模型。
[0031]根据本公开实施例的第二个方面,提供了一种基于残差注意力网络的语音鉴伪系统,包括:
[0032]数据获取单元,其被配置为获取待检测的音频数据,并进行相应预处理;
[0033]特征提取单元,其被配置为对预处理后的音频数据进行特征提取,并对提取的语音特征数据进行分针处理,获得固定帧长的语音信号特征数据;
[0034]特征增强单元,其被配置为基于所述语音信号特征数据,利用预先训练的残差注
意网络模型,获得增强后的特征数据;其中,所述残差注意网络模型包括顺序连接的卷积模块、多尺度残差模块、收缩激励单元、注意力池化模块以及全连接层,所述收缩激励单元接收所述多尺度残差模块输出的深层特征向量,并顺序经过全局平均池化操作、全连接层、ReLU激活函数、全连接层及sigmod函数获得通道特征向量的注意力分值,并通过将通道特征向量的注意力分值与多尺度残差模块的输出相乘,得到收缩激励单元的输出;
[0035]鉴伪单元,其用于将增强后的特征数据输入预先训练的分类器中,获得语音鉴伪结果。
[0036]根据本公开实施例的第三方面,提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上所述的一种基于残差注意力网络的语音鉴伪方法。
[0037]根据本公开实施例的第四方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上所述的一种基于残差注意力网络的语音鉴伪方法。
[0038]与现有技术相比,本公开的有益效果是:
[0039]本公开提供本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于残差注意力网络的语音鉴伪方法,其特征在于,包括:获取待检测的音频数据,并进行相应预处理;对预处理后的音频数据进行特征提取,并对提取的语音特征数据进行分针处理,获得固定帧长的语音信号特征数据;基于所述语音信号特征数据,利用预先训练的残差注意网络模型,获得增强后的特征数据;其中,所述残差注意网络模型包括顺序连接的卷积模块、多尺度残差模块、收缩激励单元、注意力池化模块以及全连接层,所述收缩激励单元接收所述多尺度残差模块输出的深层特征向量,并顺序经过全局平均池化操作、全连接层、ReLU激活函数、全连接层及sigmod函数获得通道特征向量的注意力分值,并通过将通道特征向量的注意力分值与多尺度残差模块的输出相乘,得到收缩激励单元的输出;将增强后的特征数据输入预先训练的分类器中,获得语音鉴伪结果。2.如权利要求1所述的一种基于残差注意力网络的语音鉴伪方法,其特征在于,所述多尺度残差模块接收经卷积处理获得的特征向量,所述特征向量经卷积层将特征图按照通道维度均匀分割成若干子集;将除第一子集外的剩余子集经卷积滤波器处理,且从第三个子集开始,将其与前一子集的输出相加后输入卷积滤波器,获得各子集对应的输出值;将各子集的输出值进行拼接,并输入卷积层获得处理结果;将处理结果与所述卷积模块的输出进行残差连接,获得深层特征向量。3.如权利要求1所述的一种基于残差注意力网络的语音鉴伪方法,其特征在于,所述收缩激励单元的处理流程具体包括:将多尺度残差模块的输出进行全局平均池化操作,沿通道维度压缩整个空间维度进行特征聚合映射,得到1
×1×
C的特征向量,其中,C表示通道数目;将所述特征向量输入第一个全连接层,把C个通道压缩成C/R个通道,并经过ReLU激活函数层,得到通道压缩后的特征向量,其中,R表示压缩比例;将经通道压缩后的特征向量输入到第二个全连接层,把C/R个通道恢复回C个通道,并采用sigmod函数得到通道特征向量的注意力分值;将通道特征向量的注意力分值与多尺度残差模块的输出相乘,得到收缩激励单元的输出。4.如权利要求1所述的一种基于残差注意力网络的语音鉴伪方法,其特征在于,所述注意力池化模块的处理流程具体包括:将收缩激励单元输出的每个时间帧深层特征向量与预设线性变换矩阵相乘,所有时间帧共享参数,并采用tanh激活函数得到注意力分数;采用softmax函数将获得的注意力分数进行归一化放缩至[0,1]得到注意力权重;计算加权后特征向量的一阶和二阶统计特征进行拼接,再经过全连接层进行线性变换得到最终的全局特征向量。5.如权利要求1所述的一种基于残差注...

【专利技术属性】
技术研发人员:张鹏赵靖柏绪恒朱光慧汪付强李健王春鹏吴晓明马宾
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1