基于域不变表征学习的跨域语音鉴伪方法及系统技术方案

技术编号：39657809 阅读：9 留言：0更新日期：2023-12-09 11:26

本发明专利技术提供一种基于域不变表征学习的跨域语音鉴伪方法及系统，通过获取待鉴别的音频数据，并将音频数据进行转换格式和重采样预处理；将预处理后的音频数据输入语音识别模型进行第一级特征提取；将所提取的第一级特征输入预设的语音鉴伪模型中，进行语音鉴伪；本发明专利技术的基于域不变表征学习的跨域语音鉴伪方法及系统通过改进的语音识别大模型获取的第一级特征来提高跨域语音鉴伪系统的鲁棒性；通过使用三个不同的损失函数对特征空间进行约束，形成了域不变的理想语音鉴伪特征空间；并达到了提高跨域场景下语音鉴伪系统的分类准确性的技术效果

全部详细技术资料下载

【技术实现步骤摘要】
基于域不变表征学习的跨域语音鉴伪方法及系统

[0001]本专利技术属于语音识别
，具体涉及一种基于域不变表征学习的跨域语音鉴伪方法
、
系统
、
电子设备以及存储介质
。

技术介绍

[0002]随着深度学习在语音合成和语音转换领域的深入应用，生成的以目标说话人为基础的虚假音频达到了以假乱真的程度
。
但是，虚假音频对信息安全产生了较大的威胁
。
[0003]现有技术中基于深度学习的虚假音频检测的模型结构通常由前端特征提取和后端主干网络构成；对于前端特征目前主要分为四类：手工特征，身份特征，原始输入，预训练特征
。
其中，手工特征包括梅尔频率倒谱系数
MFCC、
线性频率倒谱数
LFCC
等特征；身份特征指利用
i
‑
vector、x
‑
vector
等语音的身份特征信息对真假语音进行鉴别；原始输入指无需提取任何特征直接对语音信号进行鉴别；预训练特征指使用语音大模型提取语音的高级特征以提高对真实场景的鲁棒性
。
目前，主干网络以卷积神经网络为主，如残差网络
Resnet
，轻量卷积网络
LCNN
等，最后由分类器对输入音频的真假进行二分类判断
。
例如
Galina
等人提出使用
LFCC
特征和改进的轻量卷积网络进行二分类判断；
Jung<...

【技术保护点】

【技术特征摘要】
1.
一种基于域不变表征学习的跨域语音鉴伪方法，其特征在于，包括：获取待鉴伪的音频数据，并将所述音频数据进行转换格式和重采样预处理；将所述预处理后的音频数据输入语音识别模型进行第一级特征提取；将所提取的第一级特征输入预设的语音鉴伪模型中，进行语音鉴伪；其中，所述语音鉴伪模型的获取方法包括：基于预设的训练数据集通过预训练的语音识别模型获取第一级特征，并输入主干网络生成语音鉴伪特征空间向量；利用二分交叉熵对下采样的所述语音鉴伪特征空间向量进行真假二分类判断，训练所述语音鉴伪模型，直至所述语音鉴伪模型的特征空间符合预设的约束优化，将特征空间符合预设的约束优化的语音鉴伪模型作为训练好的语音鉴伪模型；其中，所述预设的约束优化包括通过域鉴别器对抗损失函数对真实域的特征空间进行约束优化，以及通过三元组最小化损失函数对真实域的特征空间和虚假域的特征空间进行约束优化
。2.
根据权利要求1所述的基于域不变表征学习的跨域语音鉴伪方法，其特征在于，通过域鉴别器对抗损失函数对真实域的特征空间进行约束优化通过以下公式实现，，其中，
D
代表域鉴别器，
d
代表域标签，
G
代表特征生成器，
P(X
r
)
代表真实域的语音特征的分布；
Y
D
代表
X
r
所处的域
。3.
根据权利要求1所述的基于域不变表征学习的跨域语音鉴伪方法，其特征在于，所述通过三元组最小化损失函数对真实域的特征空间和虚假域的特征空间进行约束优化通过以下公式实现：，其中，代表锚点样本，代表真实样本，代表虚假样本，
α
为边界值
。4.
根据权利要求1所述的基于域不变表征学习的跨域语音鉴伪方法，其特征在于，所述预设的训练数据集为通过
ASVspoof2019LA
数据集
、WaveFake
数据集和
FakeAVCeleb
数据集获得
。5.
根据权利要求1所述的基于域不变表征学习的跨域语音鉴伪方法，其特征在于，在将所述预处理后的音频数据输入语音识别模型进行第一级特征提取的步骤中，语音识别模型进行第...

【专利技术属性】
技术研发人员：程皓楠，谢元坤，叶龙，
申请(专利权)人：中国传媒大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人