一种端到端的声纹识别防重放攻击方法、装置及可读介质制造方法及图纸

技术编号：32975881 阅读：9 留言：0更新日期：2022-04-09 11:52

本发明专利技术公开了一种端到端的声纹识别防重放攻击方法、装置及可读介质，通过获取待识别语音数据，并将待识别语音数据进行预处理并转换为音频序列数据，音频序列数据为浮点型数据；将音频序列数据输入经训练的声纹防重放识别模型，声纹防重放识别模型包括相接的五个卷积单元和一个全连接层，其中，每个卷积单元包括依次连接的一维卷积层、最大池化层和批归一化层，输出识别结果，基于识别结果确定待识别语音数据为真实音频或录音重放音频。本发明专利技术的声纹防重放识别模型的输入数据不需要先经过特征提取便可进行识别，可实现跨设备和跨场景的端到端的录音重放声纹防攻击检测。的端到端的录音重放声纹防攻击检测。的端到端的录音重放声纹防攻击检测。

全部详细技术资料下载

【技术实现步骤摘要】
一种端到端的声纹识别防重放攻击方法、装置及可读介质

[0001]本专利技术涉及声纹识别领域，具体涉及一种端到端的声纹识别防重放攻击方法、装置及可读介质。

技术介绍

[0002]随着声纹识别技术的日益普及，声纹识别防重放攻击的主要研究目的是实现检测一段录音是真人还是预先录制好的音频，避免被他人盗用声纹信息。录音重放防攻击是任何声纹识别系统必不可少的，是声纹识别系统的重要组成部分。声纹识别系统需要根据音频来区分用户身份，完成用户授权。现有的声纹识别系统缺乏有效的检测机制，录音重放声纹防攻击系统首先将输入的语音进行特征提取，也就是人工设计，然后对提取的特征进行分类。
[0003]但是现在的录音重放声纹防攻击方法存在一定的局限性：
[0004]首先，音频特征提取主要是人工设计的方式，比如梅尔倒谱系数(MFCC)，这类音频特征大多是为语音识别系统设计，符合人类听觉系统特征，但是有时人耳也很难区分是否是录音重放，因此不一定适用于录音重放检测的场景。
[0005]其次，环境噪声、录音设备和播放设备对录音重放声纹防攻击检测结果影响较大，场景覆盖较少。

技术实现思路

[0006]针对上述提到的
技术介绍
中存在的问题。本申请的实施例的目的在于提出了一种端到端的声纹识别防重放攻击方法、装置及可读介质，来解决以上
技术介绍
部分提到的技术问题。
[0007]第一方面，本申请的实施例提供了一种端到端的声纹识别防重放攻击方法，包括以下步骤：
[0008]S1，获取待识别语音数据，并将待识别语音数...

【技术保护点】

【技术特征摘要】
1.一种端到端的声纹识别防重放攻击方法，其特征在于，包括以下步骤：S1，获取待识别语音数据，并将所述待识别语音数据进行预处理并数字转换为音频序列数据，所述音频序列数据为浮点型数据；S2，将所述音频序列数据输入经训练的声纹防重放识别模型，所述声纹防重放识别模型包括相接的五个卷积单元和一个全连接层，其中，每个卷积单元包括依次连接的一维卷积层、最大池化层和批归一化层，输出识别结果，基于所述识别结果确定所述待识别语音数据为真实音频或录音重放音频。2.根据权利要求1所述的端到端的声纹识别防重放攻击方法，其特征在于，所述步骤S1中将所述待识别语音数据进行预处理并转换为音频序列数据，具体包括：将所述待识别语音数据进行VAD处理，提取有效语音片段；将所述有效语音片段进行数字转换，由字节数组型数据为浮点型数据，并得到具有时间序列的音频序列数据。3.根据权利要求1所述的端到端的声纹识别防重放攻击方法，其特征在于，所述声纹防重放识别模型的训练过程中具体包括：将收集到的不同设备和/或场景下的真实音频和录音重放音频进行人工标注、预处理和数字转换，并对所述声纹防重放识别模型进行训练，直至所述声纹防重放识别模型达到预期效果或直至满足训练结束条件。4.根据权利要求1所述的端到端的声纹识别防重放攻击方法，其特征在于，所述声纹防重放识别模型中的一维卷积层的感受野为160，步长为16。5.一种端到端的声纹识别防重放攻击装置，其特征在于，包括：数据转换模块，被配置为获取待识别语音数据，并将所述待识别语音数据进行预处理并数字转换为音频序列数据，所述音频序列数据为浮点型数据；识别模块，被配置为将...

【专利技术属性】
技术研发人员：杨洪，肖龙源，李稀敏，叶志坚，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人