解耦声纹和内容的合成音频检测方法、装置、设备和介质制造方法及图纸

技术编号:39040318 阅读:9 留言:0更新日期:2023-10-10 11:53
本发明专利技术实施例提供一种解耦声纹和内容的合成音频检测方法、装置、设备和介质,涉及合成音频检测技术领域。其中,这种合成音频检测方法包含步骤S1至步骤S5。S1、获取待检测音频。S2、根据待检测音频,通过深度神经网络提取声纹特征。S3、根据待检测音频,通过内容编码器提取内容特征。S4、根据待检测音频,以声纹特征和内容特征作为噪声参考,通过信号分离神经网络,获取剥离声纹特征和内容特征的鲁棒抗噪真伪特征。S5、根据鲁棒抗噪真伪特征,通过全连接神经网络判断待检测音频是否为合成音频,获取判断结果。本发明专利技术实施例的合成音频检测方法彻底解耦音频中的说话人身份信息以及文本信息,从而对剩余部分进行深度合成检测,大大提高了识别精度,以及低鲁棒性。以及低鲁棒性。以及低鲁棒性。

【技术实现步骤摘要】
解耦声纹和内容的合成音频检测方法、装置、设备和介质


[0001]本专利技术涉及合成音频检测
,具体而言,涉及一种解耦声纹和内容的合成音频检测方法、装置、设备和介质。

技术介绍

[0002]声纹是用电声学仪器显示的携带言语信息的声波频谱。成年以后人的声音可保持长期相对稳定。每个人的发声习惯有所不同,并且每个人的发声器官均有所区别,所以声纹具有特定性。音频深度合成技术能够合成出符合目标说话人的音色以及定制化语音内容信息。
[0003]深度合成音频检测是对音频进行检测分析,判断音频是合成音频或真实录制的音频。常规的按照声纹判断是否为深度合成音频的方式在深度合成音频上收效甚微;而按照文本相关的方式进行深度合成音频检测又限制过大,应用场景过窄。
[0004]有鉴于此,申请人在研究了现有的技术后特提出本申请。

技术实现思路

[0005]本专利技术提供了一种解耦声纹和内容的合成音频检测方法、装置、设备和介质,以改善上述技术问题中的至少一个。
[0006]第一方面、本专利技术实施例提供了一种解耦声纹和内容的合成音频检测方法,其包含步骤S1至步骤S5。
[0007]S1、获取待检测音频。
[0008]S2、根据待检测音频,通过深度神经网络提取声纹特征。
[0009]S3、根据待检测音频,通过内容编码器提取内容特征。
[0010]S4、根据待检测音频,以声纹特征和内容特征作为噪声参考,通过信号分离神经网络,获取剥离声纹特征和内容特征的鲁棒抗噪真伪特征。
>[0011]S5、根据鲁棒抗噪真伪特征,通过全连接神经网络判断待检测音频是否为合成音频,获取判断结果。
[0012]第二方面、本专利技术实施例提供了一种解耦声纹和内容的合成音频检测装置,其包含:初始音频获取模块,用于获取待检测音频。
[0013]声纹特征提取模块,用于根据待检测音频,通过深度神经网络提取声纹特征。
[0014]内容特征提取模块,用于根据待检测音频,通过内容编码器提取内容特征。
[0015]解耦模块,用于根据待检测音频,以声纹特征和内容特征作为噪声参考,通过信号分离神经网络,获取剥离声纹特征和内容特征的鲁棒抗噪真伪特征。
[0016]判别模块,用于根据鲁棒抗噪真伪特征,通过全连接神经网络判断待检测音频是否为合成音频,获取判断结果。
[0017]第三方面、本专利技术实施例提供了一种解耦声纹和内容的合成音频检测设备,其包括处理器、存储器,以及存储在存储器内的计算机程序。计算机程序能够被处理器执行,以实现如第一方面任意一段所说的解耦声纹和内容的合成音频检测方法。
[0018]第四面、本专利技术实施例提供了一种计算机可读存储介质。计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行如第一方面任意一段所说的解耦声纹和内容的合成音频检测方法。
[0019]通过采用上述技术方案,本专利技术可以取得以下技术效果:本专利技术实施例的合成音频检测方法彻底解耦音频中的说话人身份信息(即声纹)以及文本信息(即内容),从而对剩余部分进行深度合成检测,大大提高了识别精度以及鲁棒性。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0021]图1是合成音频检测方法的流程示意图。
[0022]图2是合成音频检测方法的网络结构图。
[0023]图3是通过深度神经网络提取声纹特征的网络结构图。
[0024]图4是通过内容编码器提取内容特征的网络结构图。
[0025]图5是合成音频检测装置的结构示意图。
实施方式
[0026]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]实施例一、请参阅图1至图4,本专利技术第一实施例提供一种解耦声纹和内容的合成音频检测方法,其可由解耦声纹和内容的合成音频检测设备来执行(以下简称:合成音频检测设备)。特别地,由合成音频检测设备中的一个或多个处理器来执行,以实现步骤S1至步骤S5。
[0028]S1、获取待检测音频。
[0029]具体的,待检测音频需要经过预处理转化为神经网络能够识别的向量。预处理包括但不限于语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等。对待检测音频进行预处理属于本领域技术人员的常规技术手段,本专利技术在此不再赘述。
[0030]可以理解的是,所述合成音频检测设备可以是便携笔记本计算机、台式机计算机、服务器、智能手机或者平板电脑等具有计算性能的电子设备。
[0031]S2、根据待检测音频,通过深度神经网络提取声纹特征。
[0032]具体的,所述声纹特征为声纹嵌入表示,即能够表达声源特征的声波频谱。
[0033]如图3所示,在上述实施例的基础上,本专利技术的一个可选地实施例中,深度神经网络为LSTM长短期记忆神经网络。步骤S2具体包括步骤S21和步骤S22。
[0034]S21、根据待检测音频,按照预设帧长和帧移进行分帧和加窗,获取音频帧。
[0035]S22、分别使用LSTM长短期记忆神经网络将每个音频帧转化为中间态表示,并将每个音频帧的中间态表示输入后一个音频帧的LSTM长短期记忆神经网络中,最后一个LSTM长短期记忆神经网络输出待检测音频对应的声源的声纹特征。
[0036]在本实施例中,使用LSTM长短期记忆神经网络(即深度神经网络)提取输入音频中的说话人特征信息((即d

vector)。其中,深度神经网络可以叠加多层LSTM,还可使用经过说话人识别任务预训练所得的神经网络前端。
[0037]优选地,先对音频预处理,将待检测音频W1按照设定帧长和帧移来分帧,加窗,再将帧经过梅尔滤波器,取对数得出表示这一帧的向量。
[0038]具体的,构建一个滑动窗口以某个固定长度选中多个帧,然后对每个窗口运行LSTM神经网络获取这个窗口的中间态表示,将每个窗口的中间态表示依次送入第二个LSTM,最后一个窗口的输出即为整段音频的d

vector表示。
[0039]在其它实施例中,可以使用其它现有的基于预训练的CPC、wav2vec、wav2vec2.0等提声纹表征的神经网络来代替LSTM长短期记忆神经网络。也可以使用i

vector、x

vector等声纹特征来代替d

vector,本专利技术对此不做具体限定。
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种解耦声纹和内容的合成音频检测方法,其特征在于,包含:获取待检测音频;根据所述待检测音频,通过深度神经网络提取声纹特征;根据所述待检测音频,通过内容编码器提取内容特征;根据所述待检测音频,以所述声纹特征和所述内容特征作为噪声参考,通过信号分离神经网络,获取剥离所述声纹特征和所述内容特征的鲁棒抗噪真伪特征;根据所述鲁棒抗噪真伪特征,判断所述待检测音频是否为合成音频,获取判断结果。2.根据权利要求1所述的解耦声纹和内容的合成音频检测方法,其特征在于,所述深度神经网络为LSTM长短期记忆神经网络;所述根据所述待检测音频,通过深度神经网络提取声纹特征,具体包括:根据所述待检测音频,按照预设帧长和帧移进行分帧和加窗,获取音频帧;分别使用LSTM长短期记忆神经网络将每个音频帧转化为中间态表示,并将每个音频帧的中间态表示输入后一个音频帧的LSTM长短期记忆神经网络中,最后一个LSTM长短期记忆神经网络输出所述待检测音频对应的声源的声纹特征。3.根据权利要求1所述的解耦声纹和内容的合成音频检测方法,其特征在于,所述内容编码器包含残差块和下采样块;其中,所述下采样块为全卷积神经网络;所述全卷积神经网络为跨步卷积。4.根据权利要求1所述的解耦声纹和内容的合成音频检测方法,其特征在于,根据所述待检测音频,以所述声纹特征和所述内容特征作为噪声参考,通过信号分离神经网络,获取剥离所述声纹特征和所述内容特征的鲁棒抗噪真伪特征,具体包括:使用平行协同注意力机制将声纹特征与内容特征进行融合,得到融合特征;使用交替协同注意力机制将融合特征从待检测音频中解耦出来,获得鲁棒抗噪真伪特征。5.根据权利要求4所述的解耦声纹和内容的合成音频检测方法,其特征在于,使用平行协同注意力机制将声纹特征与内容特征进行融合,得到融合特征具体包括:将提取出的声纹特征和内容特征通过LSTM网络进行编码,得到对应的编码s与编码c;根据编码s与编码c计算相关性矩阵T,随后利用相关性矩阵T计算编码s与编码c对应的注意力矩阵P
s
与P
c
,并将编码s乘以矩阵P
s
,编码c乘以矩阵P
c
,所得的结果再连接随后展平获得声纹特征与内容特征的融合特征。6.根据权利要求5所述的解耦声纹和内容的合成音频检测方法,其特征在于,使用交替协同注意力机制将融合特征从待检测音频中解耦出来,获得鲁棒抗噪真伪特征包括:将所述融合特征以及...

【专利技术属性】
技术研发人员:温正棋汪智勇
申请(专利权)人:中科极限元杭州智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1