一种基于时空特征注意力模型的伪造音频检测方法及装置制造方法及图纸

技术编号：39183500 阅读：11 留言：0更新日期：2023-10-27 08:31

本发明专利技术公开了一种基于时空特征注意力模型的伪造音频检测方法及装置，包括以下步骤：(1)构建一个基于时空特征注意力的检测模型；(2)基于已有的只包含平稳音频的英文公开数据集，对检测模型进行预训练；(3)混合中文音频数据集和英文音频数据集，同时引入不同音频信号失真手段，得到跨语言模态的复杂音频数据集；(4)对复杂音频数据集进行数据增强；(5)利用数据增强后的复杂音频数据集对预训练后的检测模型进行重新训练，通过将检测模型的能力迁移训练到复杂音频，得到最终检测模型；(6)将待检测的音频输入到最终检测模型，得到是否为伪造音频的检测结果。本发明专利技术能够在跨语言模态和存在信道扰动的情况下将伪造音频精准检测。在信道扰动的情况下将伪造音频精准检测。在信道扰动的情况下将伪造音频精准检测。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于时空特征注意力模型的伪造音频检测方法及装置

[0001]本专利技术属于音频检测领域，尤其是涉及一种基于时空特征注意力模型的伪造音频检测方法及装置。

技术介绍

[0002]随着人工智能的发展，人工智能赋能的内容生成技术逐渐成熟，包括视频，音频和文本等。这些机器生成技术，一方面推动了人类社会发展，另外一方面，也带来了新的挑战。在互联网领域，一个主要的安全威胁来自于伪造的视频音频等，可能会带来错误的信息。因此为了防范这类机器生成的内容带来的安全威胁，研究如何检测伪造音频是一个重要的研究课题。
[0003]如公开号为CN113409771A的中国专利文献公开了一种伪造音频的检测方法、伪造音频的检测系统和计算机可读存储介质，该方法包括：获取待测音频和真实音频；提取待测音频和真实音频中属于共用音素状态的音频部分，其中，共用音素状态为待测音频和真实音频中均存在的音素状态，音频部分包括属于待测音频的第一音频部分和属于真实音频的第二音频部分；基于第一音频部分和第二音频部分之间的特征相似度，确定待测音频是否为伪造音频。
[0004]公开号为CN116092522A中国专利文献公开了一种伪造语音检测方法，所述方法具体包括：提取待检测语音信号的音频特征；提取待检测语音信号的基频微扰特征和振幅微扰特征；通过卷积神经网络将音频特征转化为一维嵌入式特征；将一维嵌入式特征、基频微扰特征和振幅微扰特征拼接在一起，得到一维隐式特征；将一维隐式特征输入分类网络确定待检测语音信号是否为伪造语音信号。
[0005]针对伪造音频...

【技术保护点】

【技术特征摘要】
1.一种基于时空特征注意力模型的伪造音频检测方法，其特征在于，包括以下步骤：(1)构建一个基于时空特征注意力的检测模型；(2)基于已有的只包含平稳音频的英文公开数据集，对检测模型进行预训练；(3)混合中文音频数据集和英文音频数据集，同时引入不同音频信号失真手段，得到跨语言模态的复杂音频数据集；(4)对步骤(3)中得到的复杂音频数据集进行数据增强；(5)利用数据增强后的复杂音频数据集对预训练后的检测模型进行重新训练，通过将检测模型的能力迁移训练到复杂音频，得到最终检测模型；(6)将待检测的音频输入到最终检测模型，得到是否为伪造音频的检测结果。2.根据权利要求1所述的基于时空特征注意力模型的伪造音频检测方法，其特征在于，步骤(1)中，基于时空特征注意力的检测模型用于同时捕捉音频时间维度特征和空间维度特征，并利用深度学习注意力机制，检测伪造音频。3.根据权利要求2所述的基于时空特征注意力模型的伪造音频检测方法，其特征在于，检测模型检测伪造音频时，预测结果直接输出为二值表示。4.根据权利要求1所述的基于时空特征注意力模型的伪造音频检测方法，其特征在于，所述检测模型的具体结构包括依次连接的编码器、卷积层、图模块、最大化图操作层以及池化层；其中，图模块设有两个，池化层的输出进行二值判断...

【专利技术属性】
技术研发人员：卢立，王琨，巴钟杰，林峰，任奎，
申请(专利权)人：浙江大学杭州国际科创中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人