当前位置: 首页 > 专利查询>华侨大学专利>正文

联合时域和频域的伪造语音检测方法、装置、设备及介质制造方法及图纸

技术编号:37543223 阅读:22 留言:0更新日期:2023-05-12 16:12
本发明专利技术提供了联合时域和频域的伪造语音检测方法、装置、设备及介质,包括:获取多组样本自然语音和样本伪造语音,构建语音样本库,并对语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组;根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,将时域和频域信号组输入至伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;获取待检测语音样本,对语音样本进行预处理,生成与相对应的时域和频域信号;将时域和频域信号输入至伪造语音检测模型中,进行检测,生成判别结果。旨在解决现有决策融合方法忽略了各模型在训练过程中的交互,使得不同特征不能充分地有机结合的问题。结合的问题。结合的问题。

【技术实现步骤摘要】
联合时域和频域的伪造语音检测方法、装置、设备及介质


[0001]本专利技术涉及多媒体安全
,具体涉及联合时域和频域的伪造语音检测方法、装置、设备及介质。

技术介绍

[0002]近些年,深度学习在语音伪造方面取得了巨大的成功,高质量的伪造语音给恶意攻击者提供了欺骗受害者和自动说话人验证(ASV)系统的机会,从而导致信任危机和威胁系统安全。伪造语音主要是通过文本到语音(Text

to

Speech, TTS)和语音转换(Voice Conversion, VC)产生的。其中,文本到语音是指将给定的文本转换成自然语音;语音转换是指仅改变语音中说话人的身份。
[0003]最新的伪造语音检测方法大多利用深度神经网络提取可区分真伪语音的特征并实现检测,从特征类型角度可细分为三类:基于频域特征的方法、基于时域特征的方法和基于混合特征的方法。基于频域特征的方法借助语音的频域信号实现伪造检测,语音的频域信号包括线性倒谱系数、对数功率谱、恒Q倒谱系数等。虽然频域信号更容易找到伪造语音的潜在特性,但在频域信号生成的过程中往往会损失一部分信息,这就在一定程度上降低了伪造语音检测的性能。为了避免信号在时频转换过程中的信息损失,基于时域特征方法被提出,它利用语音的时域信号实现伪造检测;即利用短时傅里叶变换等方法将时域信号转为频域信号(称为时频转变),这个过程有一部分信息(相位信息)将被丢弃,由于这个信息缺失,催生了利用时域信息实现伪造检测。该方法的代表工作有:利用残差网络直接从原始波形数据提取特征;利用sinc卷积对时域语音信号进行预处理并通过图神经网络实现伪造检测。上述的两种方法都是在单域,即时域或频域上进行伪造语音检测,仅能考虑到单域的特征,这可能导致可区分真伪语音的特征不够全面,降低伪造检测方法的性能。
[0004]为了能够发挥时域和频域特征各自的优势,基于混合特征的方法被提出。该方法在基于单域特征模型的基础上,利用决策融合的方法聚合不同的模型的预测结果。融合两个模型输出分数,取得了优于单域模型的检测性能,决策融合可以很容易融合多个模型的预测结果,具有很好的灵活性,但是该决策融合方法忽略了各模型在训练过程中的交互,不同特征不能充分地有机结合。
[0005]有鉴于此,提出本申请。

技术实现思路

[0006]有鉴于此,本专利技术的目的在于提供联合时域和频域的伪造语音检测方法、装置、设备及介质,能够有效解决现有技术中的决策融合方法忽略了各模型在训练过程中的交互,使得不同特征不能充分地有机结合的问题。
[0007]本专利技术公开了联合时域和频域的伪造语音检测方法, 包括:获取多组样本自然语音和样本伪造语音,构建语音样本库,并对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组,其中,所述
预处理包括时域预处理和频域预处理;根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;获取待检测语音样本,对所述待检测语音样本进行预处理,生成与所述待检测语音样本相对应的时域信号和频域信号;将所述时域信号和所述频域信号输入至所述伪造语音检测模型中,进行检测,生成判别结果。
[0008]优选地,对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组,具体为:设时域操作的窗口维度为,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理,生成维时域信号,其形式化过程为,其中,为拼接的次数,,,,给定的语音样本为,为该语音样本中的第个采样数据值,d为时域操作的窗口维度,为采样数据的个数,z0为含有d个采样数据值的语音片段,z
j
为含有n个采样数据值的语音片段,z
k+1
为含有d

t
T
n个采样数据值的语音片段;设定频域操作的窗口大小,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为的频域信号。
[0009]优选地,设定频域操作的窗口大小,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为的频域信号,具体为:对给定的语音样本进行预加重处理,其形式化过程为,其中,为比例系数;对预加重后的语音样本进行短时傅里叶变换,得到频域复数矩阵M,其形式化过程为,其中,为短时傅里叶变换,其窗口长度为,帧移为,为频域复数矩阵的行数,为频域复数矩阵的列数,对于给定的复数,为实部,为虚部,为虚数单位,;对矩阵M中的各元素的模的平方取对数,得到大小为的对数功率谱,其形式
化过程为;对对数功率谱S进行拼接和截断处理,得到大小为的频域信号,其形式化过程为,其中,为拼接的次数,,,,其中,Z0为大小为的对数功率谱,Z
j
为大小为的对数功率谱,Zk+1为大小为h
×
(w

t
F
c)的对数功率谱,c为频域复数矩阵的列数。
[0010]优选地,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,具体为:时域分支网络的功能是获取时域特征,主要由预处理层、残差层、特征压缩层和映射层组成,其工作流程如下:以语音的时域信号作为网络的输入,经过预处理层后,生成特征,该过程可形式化为,其中,为预处理层的网络参数集合;经过残差层得到特征,该过程可形式化为,为残差层的网络参数集合;利用特征压缩层实现特征降维得到时域特征,该过程可以形式化为,其中,为特征压缩层的网络参数集合;映射层以时域特征为输入,输出自然语音的预测概率,该过程可以形式化为,其中,为映射层的网络参数集合;利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值,该过程可以形式化为,其中,N为语音样本的数目,为第i个语音样本对应的标签,为时域分支网络对第i个语音样本进行预测的概率。
[0011]优选地,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,还包括:频域分支网络的功能是获取频域特征,主要由预处理层、带有注意力机制的残差层、全局平均池化层和映射层组成,其工作流程如下:以语音的频域信号作为网络的输入,经过预处理层后得到特征,该过程可形式化为,其中,为预处理层的网络参数集合;经过残差层得到特征,该过程可形式化为,其中,为残差层的网络参数集合;
经过全局平均池化层展平特征得到频域特征,其过程可以形式化为;映射层以频域特征为输入,输出自然语音的预测概率,该过程可以形式化为,其中,为映射层的网络参数集合;利用交叉熵损失函数计算某个语音样本的类别预测概率和对应标签的损失值,该过程可以形式化为,其中,N为语音样本的数目,为第i个语音样本对应的标签,为频域分支网络对第i个语音样本进行预测的概率。
[0012]优选地,根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.联合时域和频域的伪造语音检测方法, 其特征在于,包括:获取多组样本自然语音和样本伪造语音,构建语音样本库,并对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组,其中,所述预处理包括时域预处理和频域预处理;根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练,生成伪造语音检测模型;获取待检测语音样本,对所述待检测语音样本进行预处理,生成与所述待检测语音样本相对应的时域信号和频域信号;将所述时域信号和所述频域信号输入至所述伪造语音检测模型中,进行检测,生成判别结果。2.根据权利要求1所述的联合时域和频域的伪造语音检测方法,其特征在于,对所述语音样本库中的每条语音样本进行预处理,生成具有特定维度的时域信号组和频域信号组,具体为:设时域操作的窗口维度为,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理,生成维时域信号,其形式化过程为,其中,为拼接的次数,,,,给定的语音样本为,为该语音样本中的第个采样数据值,d为时域操作的窗口维度,为采样数据的个数,z0为含有d个采样数据值的语音片段,z
j
为含有n个采样数据值的语音片段,z
k+1
为含有d

t
T
n个采样数据值的语音片段;设定频域操作的窗口大小,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为的频域信号。3.根据权利要求2所述的联合时域和频域的伪造语音检测方法,其特征在于,设定频域操作的窗口大小,对所述语音样本库中的每条语音样本提取语音的对数功率谱,通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为的频域信号,具体为:对给定的语音样本进行预加重处理,其形式化过程为,其中,为比例系数;对预加重后的语音样本进行短时傅里叶变换,得到频域复数矩阵M,其形式化过程为,其中,为短时傅里叶变换,其窗口长度为,帧移为,为频域复数矩阵的行数,为频
域复数矩阵的列数,对于给定的复数,为实部,为虚部,为虚数单位,;对矩阵M中的各元素的模的平方取对数,得到大小为的对数功率谱,其形式化过程为;对对数功率谱S进行拼接和截断处理,得到大小为的频域信号,其形式化过程为,其中, 为拼接的次数, ,,,其中,Z0为大小为的对数功率谱,Z
j
为大小为的对数功率谱,Zk+1为大小为h
×
(w

t
F
c)的对数功率谱,c为频域复数矩阵的列数。4.根据权利要求1所述的联合时域和频域的伪造语音检测方法,其特征在于,根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型,具体为:时域分支网络的功能是获取时域特征,主要由预处理层、残差层、特征压缩层和映射层组成,其工作流程如下:以语音的时域信号作为网络的输入,经过预处理层后,生成特征,该过程可形式化为,其中,为预处理层的网络参数集合;经过残差层得到特征,该过程可形式化为,为残差层的网络参数集合;利用特征压缩层实现特征降维得到时域特征,该过程可以形式化为,其中,为特征压缩层的网络参数集合;映射层以时域特征为输入,输出自然语音的预测概率,该过程可以形式化为,其中,为映射层的网络参数集合;利用交...

【专利技术属性】
技术研发人员:田晖张强卢璥全韩彧李越
申请(专利权)人:华侨大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1