检测说话人欺骗攻击的优化方法及系统技术方案

技术编号:22596225 阅读:48 留言:0更新日期:2019-11-20 11:49
本发明专利技术实施例提供一种检测说话人欺骗攻击的优化方法。该方法包括:接收带有真实标签或欺骗标签的训练数据集,对训练数据集内的各音频进行前端特征提取,获得各音频的频谱特征,对频谱特征进行随机遮掩;将随机遮掩后的各频谱特征输入至神经网络模型,通过神经网络模型确定出随机遮掩后各音频的后验概率,根据真实标签或欺骗标签以及随机遮掩后各音频的后验概率对神经网络模型进行训练,确定说话人欺骗攻击检测模型;将待测音频输入,确定欺骗攻击检测结果。本发明专利技术实施例还提供一种检测说话人欺骗攻击的优化系统。本发明专利技术实施例通过改进的频谱特征的数据增强,可以在数据量受限的训练数据集上训练,得到泛化性能较高的模型,提高系统的整体性能。

The optimization method and system of detecting the deception attack of the speaker

The embodiment of the invention provides an optimization method for detecting a speaker deception attack. The method includes: receiving the training data set with real label or deceptive label, extracting the front-end features of each audio in the training data set, obtaining the spectrum features of each audio and random masking the spectrum features; inputting the spectrum features after random masking into the Shenjing network model, and determining the posterior probability of each audio after random masking through the neural network model, The neural network model is trained according to the real label or deception label and the posterior probability of each audio after random masking to determine the detection model of the speaker deception attack; the audio to be tested is input to determine the detection result of deception attack. The embodiment of the invention also provides an optimization system for detecting a speaker deception attack. The embodiment of the invention can train on the training data set with limited data amount through the data enhancement of improved spectrum features, obtain the model with high generalization performance, and improve the overall performance of the system.

【技术实现步骤摘要】
检测说话人欺骗攻击的优化方法及系统
本专利技术涉及音频检测领域,尤其涉及一种检测说话人欺骗攻击的优化方法及系统。
技术介绍
说话人欺骗检测技术通常用于说话人识别系统中,用于检测输入的音频是欺骗攻击还是真实音频,根据是否在传感器级别执行欺骗攻击,它们可以分为两类:具有语音合成(SS)和语音转换(VC)攻击的逻辑访问(LA)条件,以及具有重放的物理访问(PA)条件攻击。开发反欺骗系统是为了保护说话人识别系统免受恶意欺骗攻击,并确保真正的(真实的)说话人身份。常用的技术是基于频谱特征(即傅里叶变换之后的特征)的说话人欺骗检测系统,系统采用的模型可以是简单的混合高斯模型,也可以是深度神经网络模型。在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:这些技术的问题在于其泛化性能较差,表现在:集内测试时,由于测试集中加入了新的欺骗类型,验证集和测试集往往有较大的性能差距;跨数据集测试时,性能往往远差于集内测试的性能。由于在训练集中缺少和测试集相似的数据类型(欺骗类型),导致训练出来的模型对于训练中未见过的数据无法做出准本文档来自技高网...

【技术保护点】
1.一种检测说话人欺骗攻击的优化方法,所述方法包括:/n接收带有真实标签或欺骗标签的训练数据集,对所述训练数据集内的各音频进行前端特征提取,获得各音频的频谱特征,对所述频谱特征进行随机遮掩,以模拟欺骗场景中未知的数据,防止数据过拟合;/n将随机遮掩后的各频谱特征输入至神经网络模型,通过所述神经网络模型确定出随机遮掩后各音频的后验概率,根据所述真实标签或欺骗标签以及所述随机遮掩后各音频的后验概率对所述神经网络模型进行训练,确定说话人欺骗攻击检测模型,其中,所述后验概率用于判断随机遮掩后各音频是真实音频或是欺骗攻击;/n将待测音频输入至所述说话人欺骗攻击检测模型中,以确定所述待测音频的欺骗攻击检测...

【技术特征摘要】
1.一种检测说话人欺骗攻击的优化方法,所述方法包括:
接收带有真实标签或欺骗标签的训练数据集,对所述训练数据集内的各音频进行前端特征提取,获得各音频的频谱特征,对所述频谱特征进行随机遮掩,以模拟欺骗场景中未知的数据,防止数据过拟合;
将随机遮掩后的各频谱特征输入至神经网络模型,通过所述神经网络模型确定出随机遮掩后各音频的后验概率,根据所述真实标签或欺骗标签以及所述随机遮掩后各音频的后验概率对所述神经网络模型进行训练,确定说话人欺骗攻击检测模型,其中,所述后验概率用于判断随机遮掩后各音频是真实音频或是欺骗攻击;
将待测音频输入至所述说话人欺骗攻击检测模型中,以确定所述待测音频的欺骗攻击检测结果。


2.根据权利要求1所述的方法,其中,所述频谱特征的维度为时域*频域;
所述随机掩模包括:随机屏蔽音频帧、随机屏蔽所述频谱特征的频域、对所述频谱特征的时域进行音频帧变形。


3.根据权利要求2所述的方法,其中,随机屏蔽所述频谱特征的频域包括:
随机遮掩所述频谱特征的低频段信号或中频段信号或高频段信号,以使模型的训练聚焦于非遮掩的音频区域。


4.根据权利要求1所述的方法,其中,在所述接收带有真实标签或欺骗标签的训练数据集之后,所述方法还包括:
将所述训练数据集划分为第一数据集和第二数据集,其中所述第一数数据集中音频的数量大于等于第二数据集;
将所述第一数据集用于训练所述说话人欺骗攻击检测模型,通过所述第二数据集对所述说话人欺骗攻击检测模型进行校验,根据所述校验的结果对所述说话人欺骗攻击检测模型进一步训练。


5.一种检测说话人欺骗攻击的优化系统,所述方法包括:
频谱特征确定程序模块,用于接收带有真实标签或欺骗标签的训练数据集,对所述训练数据集内的各音频进行前端特征提取,获得各音频的频谱特征,对所述频谱特征进...

【专利技术属性】
技术研发人员:俞凯王鸿基丁翰林
申请(专利权)人:苏州思必驰信息科技有限公司上海交通大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1