一种基于时空特征注意力模型的伪造音频检测方法及装置制造方法及图纸

技术编号:39183500 阅读:11 留言:0更新日期:2023-10-27 08:31
本发明专利技术公开了一种基于时空特征注意力模型的伪造音频检测方法及装置,包括以下步骤:(1)构建一个基于时空特征注意力的检测模型;(2)基于已有的只包含平稳音频的英文公开数据集,对检测模型进行预训练;(3)混合中文音频数据集和英文音频数据集,同时引入不同音频信号失真手段,得到跨语言模态的复杂音频数据集;(4)对复杂音频数据集进行数据增强;(5)利用数据增强后的复杂音频数据集对预训练后的检测模型进行重新训练,通过将检测模型的能力迁移训练到复杂音频,得到最终检测模型;(6)将待检测的音频输入到最终检测模型,得到是否为伪造音频的检测结果。本发明专利技术能够在跨语言模态和存在信道扰动的情况下将伪造音频精准检测。在信道扰动的情况下将伪造音频精准检测。在信道扰动的情况下将伪造音频精准检测。

【技术实现步骤摘要】
一种基于时空特征注意力模型的伪造音频检测方法及装置


[0001]本专利技术属于音频检测领域,尤其是涉及一种基于时空特征注意力模型的伪造音频检测方法及装置。

技术介绍

[0002]随着人工智能的发展,人工智能赋能的内容生成技术逐渐成熟,包括视频,音频和文本等。这些机器生成技术,一方面推动了人类社会发展,另外一方面,也带来了新的挑战。在互联网领域,一个主要的安全威胁来自于伪造的视频音频等,可能会带来错误的信息。因此为了防范这类机器生成的内容带来的安全威胁,研究如何检测伪造音频是一个重要的研究课题。
[0003]如公开号为CN113409771A的中国专利文献公开了一种伪造音频的检测方法、伪造音频的检测系统和计算机可读存储介质,该方法包括:获取待测音频和真实音频;提取待测音频和真实音频中属于共用音素状态的音频部分,其中,共用音素状态为待测音频和真实音频中均存在的音素状态,音频部分包括属于待测音频的第一音频部分和属于真实音频的第二音频部分;基于第一音频部分和第二音频部分之间的特征相似度,确定待测音频是否为伪造音频。
[0004]公开号为CN116092522A中国专利文献公开了一种伪造语音检测方法,所述方法具体包括:提取待检测语音信号的音频特征;提取待检测语音信号的基频微扰特征和振幅微扰特征;通过卷积神经网络将音频特征转化为一维嵌入式特征;将一维嵌入式特征、基频微扰特征和振幅微扰特征拼接在一起,得到一维隐式特征;将一维隐式特征输入分类网络确定待检测语音信号是否为伪造语音信号。
[0005]针对伪造音频的检测任务存在多方面的挑战。第一个挑战在于精准地检测伪造音频,近年来受到深度学习技术的启发,针对这一挑战,有大量的工作提出新的网络架构,建立了不同具有较强捕捉虚假特征的模型。第二个挑战在于不同语言的模态,由于音频的语言类别多种多样,针对这一挑战,许多工作试图建立具有跨语言模态检测伪造音频的能力。第三个挑战在于鲁棒性,音频在通过信道传输(包括数字信道和物理信道)时,会引入大量的噪声和信息失真,这些来自外部信道的影响,会使得检测伪造音频变得更加困难,因此许多工作致力于建立鲁棒顽健的模型,能够在不同程度的干扰下都能取得较高的准确率。
[0006]目前大量的工作集中在第一个挑战上,即在目前公开的特定数据集上取得更好的检测效果。因此,研究对信道扰动具有鲁棒性,能够跨语言模态进行精准检测伪造音频的系统是一个非常重要的研究问题。

技术实现思路

[0007]本专利技术提供了一种基于时空特征注意力模型的伪造音频检测方法及装置,能够在跨语言模态和存在信道扰动的情况下将伪造音频精准检测。
[0008]一种基于时空特征注意力模型的伪造音频检测方法,包括以下步骤:
[0009](1)构建一个基于时空特征注意力的检测模型;
[0010](2)基于已有的只包含平稳音频的英文公开数据集,对检测模型进行预训练;
[0011](3)混合中文音频数据集和英文音频数据集,同时引入不同音频信号失真手段,得到跨语言模态的复杂音频数据集;
[0012](4)对步骤(3)中得到的复杂音频数据集进行数据增强;
[0013](5)利用数据增强后的复杂音频数据集对预训练后的检测模型进行重新训练,通过将检测模型的能力迁移训练到复杂音频,得到最终检测模型;
[0014](6)将待检测的音频输入到最终检测模型,得到是否为伪造音频的检测结果。
[0015]本专利技术基于时空特征图注意力的模型来构建基本的检测能力,进而提出多方面的数据增强手段,构建基于中文英文的数据集,同时进行加噪,裁剪,变速等,强化模型对于跨语言模态的通用性以及对信号干扰的鲁棒性。
[0016]步骤(1)中,基于时空特征注意力的检测模型用于同时捕捉音频时间维度特征和空间维度特征,并利用深度学习注意力机制,检测伪造音频。
[0017]检测模型检测伪造音频时,预测结果直接输出为二值表示。
[0018]所述检测模型的具体结构包括依次连接的编码器、卷积层、图模块、最大化图操作层以及池化层;
[0019]其中,图模块设有两个,池化层的输出进行二值判断,得到伪造音频和自然音频的判别结果。
[0020]步骤(3)中,引入不同音频信号失真手段具体包括:随机噪声添加、随检时间片段删除、随机编码压缩

解码、随机频域片段删除。
[0021]一种基于时空特征注意力模型的伪造音频检测装置,包括:
[0022]检测模块:包含基于时空特征注意力模型的检测模型,输入为一个音频样本,用于捕捉音频特征,输出是否为伪造音频的判别结果;
[0023]预训练模块:用于通过只包含平稳音频的英文公开数据集对检测模型进行预训练;
[0024]数据生成模块:用于构建复杂的、包含不同信道扰动的跨语言数据集;
[0025]迁移训练模块:用于将预训练的检测模型在跨语言数据集上进行重新训练,迁移模型检测能力到复杂音频样本。
[0026]一种基于时空特征注意力模型的伪造音频检测装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述伪造音频检测方法。
[0027]一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述伪造音频检测方法。
[0028]与现有技术相比,本专利技术具有以下有益效果:
[0029]本专利技术提出的基于时空特征注意力模型和多语言增强数据集的伪造音频检测方法,能够检测不同语种的伪造音频(包括中英文),能够在多种信号失真的情况下正常工作(包括不同数字信道传输),能够在复杂物理空间下高效工作(物理噪声和房间混响),可以为检测伪造音频提供稳定鲁棒且高效的解决方案。
附图说明
[0030]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0031]图1为本专利技术构建的基于时空特征注意力的检测模型的结构图;
[0032]图2为本专利技术通过数据增强的数据生成流程框图;
[0033]图3为本专利技术实施例中一种模型训练和迁移学习流程框图。
具体实施方式
[0034]下面结合附图和实施例对本专利技术做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本专利技术的理解,而对其不起任何限定作用。
[0035]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0036]需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时空特征注意力模型的伪造音频检测方法,其特征在于,包括以下步骤:(1)构建一个基于时空特征注意力的检测模型;(2)基于已有的只包含平稳音频的英文公开数据集,对检测模型进行预训练;(3)混合中文音频数据集和英文音频数据集,同时引入不同音频信号失真手段,得到跨语言模态的复杂音频数据集;(4)对步骤(3)中得到的复杂音频数据集进行数据增强;(5)利用数据增强后的复杂音频数据集对预训练后的检测模型进行重新训练,通过将检测模型的能力迁移训练到复杂音频,得到最终检测模型;(6)将待检测的音频输入到最终检测模型,得到是否为伪造音频的检测结果。2.根据权利要求1所述的基于时空特征注意力模型的伪造音频检测方法,其特征在于,步骤(1)中,基于时空特征注意力的检测模型用于同时捕捉音频时间维度特征和空间维度特征,并利用深度学习注意力机制,检测伪造音频。3.根据权利要求2所述的基于时空特征注意力模型的伪造音频检测方法,其特征在于,检测模型检测伪造音频时,预测结果直接输出为二值表示。4.根据权利要求1所述的基于时空特征注意力模型的伪造音频检测方法,其特征在于,所述检测模型的具体结构包括依次连接的编码器、卷积层、图模块、最大化图操作层以及池化层;其中,图模块设有两个,池化层的输出进行二值判断...

【专利技术属性】
技术研发人员:卢立王琨巴钟杰林峰任奎
申请(专利权)人:浙江大学杭州国际科创中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1