基于域不变表征学习的跨域语音鉴伪方法及系统技术方案

技术编号:39657809 阅读:9 留言:0更新日期:2023-12-09 11:26
本发明专利技术提供一种基于域不变表征学习的跨域语音鉴伪方法及系统,通过获取待鉴别的音频数据,并将音频数据进行转换格式和重采样预处理;将预处理后的音频数据输入语音识别模型进行第一级特征提取;将所提取的第一级特征输入预设的语音鉴伪模型中,进行语音鉴伪;本发明专利技术的基于域不变表征学习的跨域语音鉴伪方法及系统通过改进的语音识别大模型获取的第一级特征来提高跨域语音鉴伪系统的鲁棒性;通过使用三个不同的损失函数对特征空间进行约束,形成了域不变的理想语音鉴伪特征空间;并达到了提高跨域场景下语音鉴伪系统的分类准确性的技术效果

【技术实现步骤摘要】
基于域不变表征学习的跨域语音鉴伪方法及系统


[0001]本专利技术属于语音识别
,具体涉及一种基于域不变表征学习的跨域语音鉴伪方法

系统

电子设备以及存储介质


技术介绍

[0002]随着深度学习在语音合成和语音转换领域的深入应用,生成的以目标说话人为基础的虚假音频达到了以假乱真的程度

但是,虚假音频对信息安全产生了较大的威胁

[0003]现有技术中基于深度学习的虚假音频检测的模型结构通常由前端特征提取和后端主干网络构成;对于前端特征目前主要分为四类:手工特征,身份特征,原始输入,预训练特征

其中,手工特征包括梅尔频率倒谱系数
MFCC、
线性频率倒谱数
LFCC
等特征;身份特征指利用
i

vector、x

vector
等语音的身份特征信息对真假语音进行鉴别;原始输入指无需提取任何特征直接对语音信号进行鉴别;预训练特征指使用语音大模型提取语音的高级特征以提高对真实场景的鲁棒性

目前,主干网络以卷积神经网络为主,如残差网络
Resnet
,轻量卷积网络
LCNN
等,最后由分类器对输入音频的真假进行二分类判断

例如
Galina
等人提出使用
LFCC
特征和改进的轻量卷积网络进行二分类判断;
Jung<br/>等人提出了频域时域融合图注意力机制网络
AASIST
,通过对原始语音进行时域和频域信息的抓取,并使用一种新的堆叠图注意力层方法对提取的语音时频信息进行融合判断

但是,上述语音鉴伪网络结构是基于有限的训练数据进行监督训练后获得的,在与训练数据分布一致的测试集中语音鉴伪表现性能会很好,但对于未知的伪造类型或应用场景,语音鉴伪性能往往会产生下降;针对上述泛化性问题,目前研究者的解决方法是使用数据增强提升训练数据的数量

例如
Ariel
等人使用不同的压缩编码,信道等对原始数据进行增强来获得高泛化性
。Piotr
等人使用三种不同的语音伪造数据集进行混合,使用该数据集进行训练的模型既有泛化性又有了稳定性

但是,当前深度语音伪造方法是层出不穷,训练集中的伪造方法分布始终无法跟上实际场景中的伪造方法分布,仅用数据增强的方式无法解决当前虚假音频检测模型的泛化性问题

[0004]因此,亟需一种泛化性好的基于域不变表征学习的跨域语音鉴伪方法


技术实现思路

[0005]本专利技术提供一种基于域不变表征学习的跨域语音鉴伪方法

系统

电子设备以及存储介质,用以克服现有技术中存在的至少一个技术问题

[0006]为实现上述目的,本专利技术提供一种基于域不变表征学习的跨域语音鉴伪方法,方法包括:获取待鉴伪的音频数据,并将所述音频数据进行转换格式和重采样预处理;将所述预处理后的音频数据输入语音识别模型进行第一级特征提取;将所提取的第一级特征输入预设的语音鉴伪模型中,进行语音鉴伪;其中,所述语音鉴伪模型的获取方法包括:
将所提取的第一级特征输入预设的语音鉴伪模型中,进行语音鉴伪;其中,所述语音鉴伪模型的获取方法包括:基于预设的训练数据集通过预训练的语音识别模型获取第一级特征,并输入主干网络生成语音鉴伪特征空间向量;利用二分交叉熵对下采样的所述语音鉴伪特征空间向量进行真假二分类判断,训练所述语音鉴伪模型,直至所述语音鉴伪模型的特征空间符合预设的约束优化,将特征空间符合预设的约束优化的语音鉴伪模型作为训练好的语音鉴伪模型;其中,所述预设的约束优化包括通过域鉴别器对抗损失函数对真实域的特征空间进行约束优化,以及通过三元组最小化损失函数对真实域的特征空间和虚假域的特征空间进行约束优化

[0007]进一步,优选的,通过域鉴别器对抗损失函数对真实域的特征空间进行约束优化通过以下公式实现,
[0008]其中,
D
代表域鉴别器,
d
代表域标签,
G
代表特征生成器,
P(X
r
)
代表真实域的语音特征的分布;
Y
D
代表
X
r
所处的域

[0009]进一步,优选的,所述通过三元组最小化损失函数对真实域的特征空间和虚假域的特征空间进行约束优化通过以下公式实现:
[0010]其中,代表锚点样本,代表真实样本,代表虚假样本,
α
为边界值

[0011]进一步,优选的,所述预设的训练数据集为通过
ASVspoof2019LA
数据集,
WaveFake
数据集和
FakeAVCeleb
数据集获得

[0012]进一步,优选的,在将所述预处理后的音频数据输入语音识别模型进行第一级特征提取的步骤中,语音识别模型进行第一级特征提取通过特征提取器实现,在所述语音识别模型的训练过程中,所述特征提取器的梯度处于冻结状态;所述第一级特征为
1024
维的隐变量

[0013]进一步,优选的,所述特征生成主干网络包括
LCNN
网络和两层双向
LSTM
结构;所述
LCNN
网络采用的激活函数为
MFM
激活函数

[0014]进一步,优选的,当待鉴伪的音频数据长度不足4秒时,采用零填充方法使所述待鉴伪的音频数据的长度达到4秒

[0015]为了解决上述问题,本专利技术还提供一种基于域不变表征学习的跨域语音鉴伪系统,包括:采样单元,用于获取待鉴伪的音频数据,并将所述音频数据进行转换格式和重采样预处理;特征提取单元,用于将所述预处理后的音频数据输入语音识别模型进行第一级特征提取;鉴伪单元,用于将所提取的第一级特征输入预设的语音鉴伪模型中,进行语音鉴伪;其中,所述语音鉴伪模型的获取方法包括:基于预设的训练数据集通过预训练的语音识别模型获取第一级特征,并输入主干网络生成语音鉴伪特征空间向量;利用二分交叉熵对
下采样的所述语音鉴伪特征空间向量进行真假二分类判断,训练所述语音鉴伪模型,直至所述语音鉴伪模型的特征空间符合预设的约束优化,将特征空间符合预设的约束优化的语音鉴伪模型作为训练好的语音鉴伪模型;其中,所述预设的约束优化包括通过域鉴别器对抗损失函数对真实域的特征空间进行约束优化,以及通过三元组最小化损失函数对真实域的特征空间和虚假域的特征空间进行约束优化

[0016]为了解决上述问题,本专利技术还提供一种电子设备,电子设备包括:存储器,存储至少一个指令;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于域不变表征学习的跨域语音鉴伪方法,其特征在于,包括:获取待鉴伪的音频数据,并将所述音频数据进行转换格式和重采样预处理;将所述预处理后的音频数据输入语音识别模型进行第一级特征提取;将所提取的第一级特征输入预设的语音鉴伪模型中,进行语音鉴伪;其中,所述语音鉴伪模型的获取方法包括:基于预设的训练数据集通过预训练的语音识别模型获取第一级特征,并输入主干网络生成语音鉴伪特征空间向量;利用二分交叉熵对下采样的所述语音鉴伪特征空间向量进行真假二分类判断,训练所述语音鉴伪模型,直至所述语音鉴伪模型的特征空间符合预设的约束优化,将特征空间符合预设的约束优化的语音鉴伪模型作为训练好的语音鉴伪模型;其中,所述预设的约束优化包括通过域鉴别器对抗损失函数对真实域的特征空间进行约束优化,以及通过三元组最小化损失函数对真实域的特征空间和虚假域的特征空间进行约束优化
。2.
根据权利要求1所述的基于域不变表征学习的跨域语音鉴伪方法,其特征在于,通过域鉴别器对抗损失函数对真实域的特征空间进行约束优化通过以下公式实现,,其中,
D
代表域鉴别器,
d
代表域标签,
G
代表特征生成器,
P(X
r
)
代表真实域的语音特征的分布;
Y
D
代表
X
r
所处的域
。3.
根据权利要求1所述的基于域不变表征学习的跨域语音鉴伪方法,其特征在于,所述通过三元组最小化损失函数对真实域的特征空间和虚假域的特征空间进行约束优化通过以下公式实现:,其中,代表锚点样本,代表真实样本,代表虚假样本,
α
为边界值
。4.
根据权利要求1所述的基于域不变表征学习的跨域语音鉴伪方法,其特征在于,所述预设的训练数据集为通过
ASVspoof2019LA
数据集
、WaveFake
数据集和
FakeAVCeleb
数据集获得
。5.
根据权利要求1所述的基于域不变表征学习的跨域语音鉴伪方法,其特征在于,在将所述预处理后的音频数据输入语音识别模型进行第一级特征提取的步骤中,语音识别模型进行第...

【专利技术属性】
技术研发人员:程皓楠谢元坤叶龙
申请(专利权)人:中国传媒大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1