联合时域和频域的伪造语音检测方法、装置、设备及介质制造方法及图纸

技术编号：37543223 阅读：22 留言：0更新日期：2023-05-12 16:12

本发明专利技术提供了联合时域和频域的伪造语音检测方法、装置、设备及介质，包括：获取多组样本自然语音和样本伪造语音，构建语音样本库，并对语音样本库中的每条语音样本进行预处理，生成具有特定维度的时域信号组和频域信号组；根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型，将时域和频域信号组输入至伪造语音检测训练模型中进行联合训练，生成伪造语音检测模型；获取待检测语音样本，对语音样本进行预处理，生成与相对应的时域和频域信号；将时域和频域信号输入至伪造语音检测模型中，进行检测，生成判别结果。旨在解决现有决策融合方法忽略了各模型在训练过程中的交互，使得不同特征不能充分地有机结合的问题。结合的问题。结合的问题。

全部详细技术资料下载

【技术实现步骤摘要】
联合时域和频域的伪造语音检测方法、装置、设备及介质

[0001]本专利技术涉及多媒体安全
，具体涉及联合时域和频域的伪造语音检测方法、装置、设备及介质。

技术介绍

[0002]近些年，深度学习在语音伪造方面取得了巨大的成功，高质量的伪造语音给恶意攻击者提供了欺骗受害者和自动说话人验证(ASV)系统的机会，从而导致信任危机和威胁系统安全。伪造语音主要是通过文本到语音(Text
‑
to
‑
Speech, TTS)和语音转换(Voice Conversion, VC)产生的。其中，文本到语音是指将给定的文本转换成自然语音；语音转换是指仅改变语音中说话人的身份。
[0003]最新的伪造语音检测方法大多利用深度神经网络提取可区分真伪语音的特征并实现检测，从特征类型角度可细分为三类：基于频域特征的方法、基于时域特征的方法和基于混合特征的方法。基于频域特征的方法借助语音的频域信号实现伪造检测，语音的频域信号包括线性倒谱系数、对数功率谱、恒Q倒谱系数等。虽然频域信号更容易找到伪造语音的潜在特性，但在频域信号生成的过程中往往会损失一部分信息，这就在一定程度上降低了伪造语音检测的性能。为了避免信号在时频转换过程中的信息损失，基于时域特征方法被提出，它利用语音的时域信号实现伪造检测；即利用短时傅里叶变换等方法将时域信号转为频域信号（称为时频转变），这个过程有一部分信息（相位信息）将被丢弃，由于这个信息缺失，催生了利用时域信息实现伪造检测。该方法的代表工作有：利用残差网络直接从原始波形数据提...

【技术保护点】

【技术特征摘要】
1.联合时域和频域的伪造语音检测方法, 其特征在于，包括：获取多组样本自然语音和样本伪造语音，构建语音样本库，并对所述语音样本库中的每条语音样本进行预处理，生成具有特定维度的时域信号组和频域信号组，其中，所述预处理包括时域预处理和频域预处理；根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型，并将所述时域信号组和所述频域信号组输入至所述伪造语音检测训练模型中进行联合训练，生成伪造语音检测模型；获取待检测语音样本，对所述待检测语音样本进行预处理，生成与所述待检测语音样本相对应的时域信号和频域信号；将所述时域信号和所述频域信号输入至所述伪造语音检测模型中，进行检测，生成判别结果。2.根据权利要求1所述的联合时域和频域的伪造语音检测方法，其特征在于，对所述语音样本库中的每条语音样本进行预处理，生成具有特定维度的时域信号组和频域信号组，具体为：设时域操作的窗口维度为，通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理，生成维时域信号，其形式化过程为，其中，为拼接的次数，，，，给定的语音样本为，为该语音样本中的第个采样数据值，d为时域操作的窗口维度，为采样数据的个数，z0为含有d个采样数据值的语音片段，z
j
为含有n个采样数据值的语音片段，z
k+1
为含有d
‑
t
T
n个采样数据值的语音片段；设定频域操作的窗口大小，对所述语音样本库中的每条语音样本提取语音的对数功率谱，通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为的频域信号。3.根据权利要求2所述的联合时域和频域的伪造语音检测方法，其特征在于，设定频域操作的窗口大小，对所述语音样本库中的每条语音样本提取语音的对数功率谱，通过拼接或截断的方式对所述语音样本库中的每条语音样本进行处理得到大小为的频域信号，具体为：对给定的语音样本进行预加重处理，其形式化过程为，其中，为比例系数；对预加重后的语音样本进行短时傅里叶变换，得到频域复数矩阵M，其形式化过程为，其中，为短时傅里叶变换，其窗口长度为，帧移为，为频域复数矩阵的行数，为频
域复数矩阵的列数，对于给定的复数，为实部，为虚部，为虚数单位，；对矩阵M中的各元素的模的平方取对数，得到大小为的对数功率谱，其形式化过程为；对对数功率谱S进行拼接和截断处理，得到大小为的频域信号，其形式化过程为，其中，为拼接的次数，，，，其中，Z0为大小为的对数功率谱，Z
j
为大小为的对数功率谱，Zk+1为大小为h
×
(w
‑
t
F
c)的对数功率谱，c为频域复数矩阵的列数。4.根据权利要求1所述的联合时域和频域的伪造语音检测方法，其特征在于，根据时域分支网络、频域分支网络和跨域融合网络组成构建伪造语音检测训练模型，具体为：时域分支网络的功能是获取时域特征，主要由预处理层、残差层、特征压缩层和映射层组成，其工作流程如下：以语音的时域信号作为网络的输入，经过预处理层后,生成特征，该过程可形式化为，其中，为预处理层的网络参数集合；经过残差层得到特征，该过程可形式化为，为残差层的网络参数集合;利用特征压缩层实现特征降维得到时域特征，该过程可以形式化为，其中，为特征压缩层的网络参数集合；映射层以时域特征为输入，输出自然语音的预测概率，该过程可以形式化为，其中，为映射层的网络参数集合；利用交...

【专利技术属性】
技术研发人员：田晖，张强，卢璥，全韩彧，李越，
申请(专利权)人：华侨大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人