基于单分类多尺度残差网络的语音鉴伪方法及系统技术方案

技术编号：36205248 阅读：48 留言：0更新日期：2023-01-04 12:00

本发明专利技术公开了基于单分类多尺度残差网络的语音鉴伪方法及系统；其中所述方法，包括：获取待鉴别的语音数据；对语音数据进行分帧加窗处理；对分帧加窗处理后的语音数据进行特征提取操作；将提取的特征输入到训练后的多尺度残差神经网络模型中，生成置信度分数，根据置信度分数确定待鉴别的语音数据是真实语音还是伪造语音；其中，训练后的多尺度残差神经网络模型，使用单分类Softmax损失函数进行训练，学习一个特征空间，压缩真实语音表示并注入角度余量以分离嵌入空间中的伪造语音。余量以分离嵌入空间中的伪造语音。余量以分离嵌入空间中的伪造语音。

全部详细技术资料下载

【技术实现步骤摘要】
基于单分类多尺度残差网络的语音鉴伪方法及系统

[0001]本专利技术涉及语音检测和深度学习
，特别是涉及基于单分类多尺度残差网络的语音鉴伪方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
，并不必然构成现有技术。
[0003]近年来，在司法取证、新闻报道、科学研究等领域中频繁出现音频篡改的事件，严重危害了音频文件的安全应用。研究语音伪造技术，保障数据的真实性和完整性，对语音认证系统安全、司法取证、社会稳定等具有重要意义。人类的声音可以用来验证说话人的身份，自动说话人验证系统可能会被伪造攻击所欺骗，例如模仿(模仿或双胞胎)、重放(预先录制的音频)、文本到语音(将文本转换为口语单词)和语音转换(将语音从源说话人转换为目标说话人)。
[0004]许多现有的神经网络结构已经被应用于设计对抗伪造攻击的强有力的对抗措施，例如轻型卷积神经网络(LCNN)和残差神经网络(ResNet)。这些模型在时域和频域建模方面表现出很强的能力，并且在捕获欺骗线索方面取得了很好的性能。基于残差神经网络和轻型卷积神经网络的系统主要有两个维度来控制模型的容量，即宽度和深度。但是简单地增加宽度和深度对于提高模型的容量是无效的。具体而言，由于反电子欺骗对策的开发需要对看不见的电子欺骗攻击的高度概括，由于大量的参数，仅增加宽度和深度很容易导致过拟合。

技术实现思路

[0005]针对训练数据和测试数据之间特征分布不匹配以及残差网络中层数增加导致的过拟合问题，提供了基于单分类多尺度残差网...

【技术保护点】

【技术特征摘要】
1.基于单分类多尺度残差网络的语音鉴伪方法，其特征是，包括：获取待鉴别的语音数据；对语音数据进行分帧加窗处理；对分帧加窗处理后的语音数据进行特征提取操作；将提取的特征输入到训练后的多尺度残差神经网络模型中，生成置信度分数，根据置信度分数确定待鉴别的语音数据是真实语音还是伪造语音；其中，训练后的多尺度残差神经网络模型，使用单分类Softmax损失函数进行训练，学习一个特征空间，压缩真实语音表示并注入角度余量以分离嵌入空间中的伪造语音。2.如权利要求1所述的基于单分类多尺度残差网络的语音鉴伪方法，其特征是，所述训练后的多尺度残差神经网络模型，其网络结构包括：依次连接的卷积层C1、批量标准化层P1、激活函数层J1、第一多尺度残差模块、第二多尺度残差模块、第三多尺度残差模块、第四多尺度残差模块、卷积层C2、批量标准化层P2、激活函数层J2、池化层、全连接层、单分类Softmax损失函数层和输出层。3.如权利要求1所述的基于单分类多尺度残差网络的语音鉴伪方法，其特征是，所述训练后的多尺度残差神经网络模型，其工作原理包括：输入特征经过9
×
3的卷积层C1、批量标准化层P1、激活函数层J1得到特征向量，特征向量输入到堆叠的4个多尺度残差模块得到深层特征向量，深层特征向量再经过3
×
3卷积层C2、批量标准化层P2、激活函数层J2，对深层特征进行池化操作后，输入到全连接层进行分类，使用单分类Softmax损失函数计算得到置信度分数，进而得到输入语音数据的分类结果。4.如权利要求2所述的基于单分类多尺度残差网络的语音鉴伪方法，其特征是，所述第一多尺度残差模块，包括：卷积层C3；卷积层C3对输入的特征图按照通道维度均匀分割为s个子集，s个子集用u
i
表示，i∈{1,2,
…
,s}；对第一子集u1不进行任何操作，输出值z1＝u1；除u1外，每个u
i
由3
×
3卷积滤波器K
i
处理；从i＝3开始，将u
i
与K
i
‑1的输出相加，然后输入到卷积滤波器K
i
，卷积滤波器K
i
输出值为z
i
；用公式表示为：最后将所有的输出值z
i
进行拼接，将拼接后的输出值输入到卷积层C4中；卷积层C4的输出端与卷积层C3的输入端进行残差连接。5.如权利要求1所述的基于单分类多尺度残差网络的语音鉴伪方法，其特征是，所述训练后的多尺度残差神经网络模型，其训练过程包括：构建训练集和测试集；所述训练集和测试集均为已知语音真...

【专利技术属性】
技术研发人员：张鹏，赵靖，柏绪恒，梁艳，张建强，汪付强，刘祥志，吴晓明，
申请(专利权)人：齐鲁工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人