当前位置: 首页 > 专利查询>浙江大学专利>正文

一种语音对抗样本识别模型训练方法及系统技术方案

技术编号:33632727 阅读:14 留言:0更新日期:2022-06-02 01:39
本发明专利技术公开了一种语音对抗样本识别模型训练方法及系统,属于对抗样本识别领域。包括:获取音频数据集,包含正常和对抗音频数据;获取每一个音频数据在一定频率范围的频谱图,生成频谱特征;计算不同频率范围下的所有音频数据的Fratio值和Fratio累计值,得到关于采样频率的Fratio累计值的单调递增曲线f;根据单调递增曲线f设计滤波器组,并对音频数据集中的所有音频进行滤波操作;利用滤波后的音频数据集对语音对抗样本识别模型进行训练。本发明专利技术通过设计的滤波器组放大了正常音频数据与对抗音频数据的关键差异部分,为对抗样本的识别提供了新方法,且模型训练简单,在较少的训练代价下,具备较高的识别精度。具备较高的识别精度。具备较高的识别精度。

【技术实现步骤摘要】
一种语音对抗样本识别模型训练方法及系统


[0001]本专利技术涉及对抗样本识别领域,尤其涉及一种语音对抗样本识别模型训练方法及系统。

技术介绍

[0002]随着人工智能技术的不断发展,越来越多的基于人工智能技术的应用被广泛使用在了生活中,包括语音内容识别、智能助手等等。这类基于人工智能模型来处理业务需求的方法却拥有脆弱性,容易遭受语音对抗样本的攻击。语音对抗样本是一种在原始音频上叠加一个人耳难以察觉的扰动,造成人工智能模型识别的结果出错的一种攻击方式。
[0003]现有的识别语音对抗样本的方法大多是利用正常样本和对抗样本在时域或者频域上的微小差别进行的。但由于微小差异难以捕捉,直接使用深度学习网络的方式进行容易出现模型的训练成本过大的问题。

技术实现思路

[0004]本专利技术为了解决上述技术问题,提供了一种语音对抗样本识别模型训练方法及系统,通过利用音频数据的Fratio累计值设计滤波器组,放大了正常音频和对抗音频间的微小差距,使得模型训练的代价减小,训练速度快,精度高。
[0005]为实现上述目的,本专利技术的第一个目的在于提供一种语音对抗样本识别模型训练方法,包括:
[0006]步骤1:获取音频数据集,所述的音频数据集包含正常音频数据与对抗音频数据;
[0007]步骤2:设计音频的采样频率,得到音频数据集中每一个音频数据在(0

m)频率范围的频谱图,根据离散的采样点生成频谱特征;m表示采样频率范围的最大值;
[0008]步骤3:计算不同频率范围下的所有音频数据的Fratio值和Fratio累计值,得到关于采样频率的Fratio累计值的单调递增曲线f;
[0009]步骤4:根据单调递增曲线f设计滤波器组,并对音频数据集中的所有音频进行滤波操作;
[0010]步骤5:利用滤波后的音频数据集对语音对抗样本识别模型进行训练。
[0011]进一步的,所述的采样频率范围为0

16k。
[0012]进一步的,所述的Fratio值的计算公式为:
[0013][0014][0015][0016]其中,表示第i类中第j个音频的频谱特征,j=1,2,

,N,N表示音频数据集中第i类的音频数量,i=1,2,分别对应正常类和对抗类;u
i
表示第i类中N个音频的频谱特征的均值,u表示全部音频的频谱特征的均值。
[0017]进一步的,所述的单调递增曲线f具体为:
[0018]在(0

m)频率范围内设置不同的采样频率(m1,m2,

,m
i
,

,m
n
),获取在(0

m
i
)频率范围的频谱图,计算该频率范围下的所有音频数据的Fratio值,记作所述的Fratio累计值为
[0019]遍历所有的(0

m
i
)频率范围组合,得到不同频率范围下的所有音频数据的Fratio累计值,构成关于频率的单调递增曲线f。
[0020]进一步的,所述的滤波器组的设计方法为:
[0021]将单调递增曲线f的值域等分为M个标志点,每一个标志点对应一个频率点,该频率点即为滤波器的中心频率点,得到一组滤波器中心点向量为:
[0022][0023]其中,Max表示单调递增曲线f的值域最大值;(C
i
,1)表示第i个滤波器的中心点,该中心点与相邻两点(C
i
‑1,0)和(C
i+1
,0)相连,即可得到一个三角滤波器;遍历C
i
,i=1,2,

,M,得到M个三角滤波器。
[0024]进一步的,将音频数据集中的所有音频的频谱特征和滤波器组进行卷积计算,实现滤波器组对音频的滤波操作。
[0025]本专利技术的另一个目的在于提供一种语音对抗样本识别系统,包括:
[0026]音频预处理模块,其采用上述的语音对抗样本识别模型训练方法得到的滤波器组,对音频数据集中的所有音频进行滤波操作;
[0027]对抗样本识别模块,其用于将滤波后的待识别音频数据作为输入,得到该音频的判别分数;
[0028]识别结果展示模块,其用于将判别分数与阈值进行比较,若高于阈值,则发出警报提示检测到对抗音频,并在系统界面上进行可视化展示。
[0029]优选的,所述的音频预处理模块包括:
[0030]音频数据集获取模块,其用于获取待识别的音频数据集;
[0031]频域变换模块,其用于将待识别的音频数据集中的音频数据进行频域变换得到频谱图,根据离散的采样点生成频谱特征;
[0032]滤波模块,其用于将频谱特征与权利要求1得到的滤波器组进行卷积计算,得到滤波后的待识别音频数据。
[0033]优选的,所述的对抗样本识别模块为权利要求1训练好的语音对抗样本识别模型。
[0034]与现有技术相比,本专利技术通过利用Fratio来设计滤波器以放大正常音频与对抗音频间的微小差距,为对抗音频的识别提供了新方法,且模型训练简单,在较少的训练代价
下,具备较高的识别精度。
附图说明
[0035]图1为本专利技术提供的一种语音对抗样本识别模型训练方法的流程框图。
[0036]图2为本专利技术提供的一种滤波器设计方法示意图。
[0037]图3为本专利技术提供的一种基于ResNet的深度学习模型框架。
[0038]图4为本专利技术提供的一种语音对抗样本识别系统的流程框图。
具体实施方式
[0039]下面结合附图对专利技术的技术框架进行说明。
[0040]现有的识别语音对抗样本的方法大多是利用正常样本和对抗样本在时域或者频域上的微小差别进行的。但由于微小差异难以捕捉,直接使用深度学习网络的方式进行容易出现模型的训练成本过大的问题。
[0041]为了能够解决现有技术中对于对抗样本和正常样本差异不敏感的问题,本专利技术实施例提供一种语音对抗样本识别模型训练方法及系统。
[0042]以下结合附图,详细说明本专利技术中各实施例提供的技术方案。附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0043]一种语音对抗样本识别模型训练方法,如附图1所示,所述方法包括:
[0044]步骤S101,获取音频数据集,包含正常音频数据与对抗音频数据;本实施例中,获取的正常音频数据以及对抗音频数据各约5000条,其中对抗音频数据标签标记为1,正常音频数据标签标记为0。
[0045]步骤S102,利用数据集中包含的全部音频计算Fratio值。
[0046]步骤S103,根据Fratio值设计滤波器组,并对音频进行滤波。
[0047]步骤S104,将滤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音对抗样本识别模型训练方法,其特征在于,包括:步骤1:获取音频数据集,所述的音频数据集包含正常音频数据与对抗音频数据;步骤2:设计音频的采样频率,得到音频数据集中每一个音频数据在(0

m)频率范围的频谱图,根据离散的采样点生成频谱特征;m表示采样频率范围的最大值;步骤3:计算不同频率范围下的所有音频数据的Fratio值和Fratio累计值,得到关于采样频率的Fratio累计值的单调递增曲线f;步骤4:根据单调递增曲线f设计滤波器组,并对音频数据集中的所有音频进行滤波操作;步骤5:利用滤波后的音频数据集对语音对抗样本识别模型进行训练。2.根据权利要求1所述的语音对抗样本识别模型训练方法,其特征在于,所述的采样频率范围为0

16k。3.根据权利要求1所述的语音对抗样本识别模型训练方法,其特征在于,所述的Fratio值的计算公式为:值的计算公式为:值的计算公式为:其中,表示第i类中第j个音频的频谱特征,j=1,2,

,N,N表示音频数据集中第i类的音频数量,i=1,2,分别对应正常类和对抗类;u
i
表示第i类中N个音频的频谱特征的均值,u表示全部音频的频谱特征的均值。4.根据权利要求3所述的语音对抗样本识别模型训练方法,其特征在于,所述的单调递增曲线f具体为:在(0

m)频率范围内设置不同的采样频率(m1,m2,...,m
i
,...,m
n
),获取在(0

m
i
)频率范围的频谱图,计算该频率范围下的所有音频数据的Fratio值,记作所述的Fratio累计值为遍历所有的(0

m
i
)频率范围组合,得到不同...

【专利技术属性】
技术研发人员:徐文渊冀晓宇程雨诗何睿文高逸卓
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1