一种视听伪造检测方法及装置制造方法及图纸

技术编号:33726072 阅读:14 留言:0更新日期:2022-06-08 21:20
本发明专利技术提供一种视听伪造检测方法及装置,该方法包括:获取待测视频数据;其中,待测视频数据包括至少两个视频帧,每个视频帧均包括至少一组由人脸图像和音频数据组成的视听对;将各视听对输入至训练好的双流网络,得到待测视频数据的伪造检测结果;其中,双流网络包括图像网络分支、音频网络分支和预测网络;图像网络分支用于提取人脸图像的面部关键点特征,并基于面部关键点特征提取人脸图像的帧间一致性特征;音频网络分支用于提取音频数据的音频特征,并基于音频特征提取音频数据的时间一致性特征;预测网络基于帧间一致性特征和时间一致性特征获取待测视频数据的伪造检测结果。本发明专利技术能够全面准确地对待测视频数据进行真伪检测。检测。检测。

【技术实现步骤摘要】
一种视听伪造检测方法及装置


[0001]本专利技术涉及机器学习
,尤其涉及一种视听伪造检测方法及装置。

技术介绍

[0002]最近几年来,深度学习的快速发展使得人们可以利用神经网络尤其是生成对抗网络生成高可信度的伪造视频,导致单从人类视觉上难以分辨。所以伪造产品在社交媒体上传播的安全问题逐渐成为社会关注的热点,如何提出一种高效的伪造检测策略显得十分重要。
[0003]以往的伪造检测工作大多是捕捉视频帧内的伪影。随着伪造技术的不断完善,这类伪造检测方法的缺点或者所依赖的线索被逐渐攻克。
[0004]传统伪造方法生成的伪造视频大多是按帧处理。帧间的不协调性很容易就可以被人眼识破。然而,现在基于学习的deepfake,尤其是对抗生成网络生成的视频具有较高的真实性,造成现有伪造检测方法无法对待测视频数据进行准确有效地检测。

技术实现思路

[0005]本专利技术提供一种视听伪造检测方法及装置,用以解决现有技术中无法对待测视频数据进行准确有效地检测的缺陷,实现伪造检测准确性地有效提高。
[0006]本专利技术提供一种视听伪造检测方法,包括:
[0007]获取待测视频数据;其中,所述待测视频数据包括至少两个视频帧,每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对;
[0008]将各所述视听对输入至训练好的双流网络,得到所述待测视频数据的伪造检测结果;
[0009]其中,所述双流网络包括图像网络分支、音频网络分支和预测网络;
[0010]所述图像网络分支用于提取所述人脸图像的面部关键点特征,并基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
[0011]所述音频网络分支用于提取所述音频数据的音频特征,并基于所述音频特征提取所述音频数据的时间一致性特征;
[0012]所述预测网络用于基于所述人脸图像的帧间一致性特征和所述音频数据的时间一致性特征获取所述待测视频数据的伪造检测结果。
[0013]根据本专利技术提供的一种视听伪造检测方法,所述图像网络分支包括依次连接的第一特征提取网络和帧间一致性提取模块;所述音频网络分支包括依次连接的第二特征提取网络和时间一致性提取模块;
[0014]所述第一特征提取网络和所述第二特征提取网络分别用于提取所述人脸图像的面部关键点特征和所述音频数据的音频特征;
[0015]所述帧间一致性提取模块用于基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
[0016]所述时间一致性提取模块用于基于所述音频特征提取所述音频数据的时间一致性特征;
[0017]其中,所述第一特征提取网络和所述第二特征提取网络分别基于样本数据集中人脸图像的帧内一致性损失和音频数据的内部一致性损失进行训练。
[0018]根据本专利技术提供的一种视听伪造检测方法,所述第一特征提取网络包括依次连接的人脸及关键点检测网络和关键点校正网络;其中,
[0019]所述人脸及关键点检测网络用于对所述人脸图像进行人脸检测,并对所述人脸检测结果进行关键点检测,得到面部初始关键点;
[0020]所述关键点校正网络用于对所述面部初始关键点进行关键点提取,得到所述面部关键点特征。
[0021]根据本专利技术提供的一种视听伪造检测方法,所述第二特征提取网络包括依次连接的声谱图提取模块、第一音频特征提取模块、注意力图提取模块、第二音频特征提取模块、跨模态注意力模块和第三音频特征提取模块;
[0022]所述声谱图提取模块用于提取所述音频数据的声谱图;
[0023]所述第一音频特征提取模块用于对所述声谱图进行特征提取,得到所述音频数据的第一初始特征;
[0024]所述注意力图提取模块用于根据所述第一初始特征提取所述音频数据的注意力图;
[0025]所述第二音频特征提取模块用于对所述注意力图进行特征提取,得到所述音频数据的第二初始特征;
[0026]所述跨模态注意力模块用于基于所述面部关键点特征和所述第二初始特征获取所述音频数据的跨模态注意力;
[0027]所述第三音频特征提取模块用于根据所述音频数据的第二初始特征和所述跨模态注意力获取所述音频数据的音频特征。
[0028]根据本专利技术提供的一种视听伪造检测方法,所述注意力图提取模块是利用真、假声谱图的差异作为监督信号进行训练得到的。
[0029]根据本专利技术提供的一种视听伪造检测方法,所述跨模态注意力模块基于跨模态对比损失函数训练得到;其中,所述跨模态对比损失函数包括视听对同步损失和中心点损失;所述视听对同步损失表示单个所述视听对的人脸图像和音频数据之间的同步度;所述中心点损失表示不同的所述视听对之间在真、假分类层面上的区别度。
[0030]根据本专利技术提供的一种视听伪造检测方法,所述人脸图像的帧内一致性损失的计算包括:
[0031]基于所述面部关键点特征确定所述样本数据集中每个人脸图像的中心线,并计算所述样本数据集中相邻视频帧的所述人脸图像的中心线的一致性,得到所述样本数据集中所述人脸图像的帧内特征值;
[0032]基于所述样本数据集中所述人脸图像的帧内特征值的均值与所述帧内特征值的二元交叉熵计算所述人脸图像的帧内一致性损失。
[0033]根据本专利技术提供的一种视听伪造检测方法,所述音频数据的内部一致性损失的计算包括:
[0034]将所述样本数据集中各音频数据的音频特征均划分为至少两组音频子特征;
[0035]分别计算每一组所述音频子特征与其他各组所述音频子特征的特征差值或特征相似性,以得到所述样本数据集的音频数据的内部一致性特征;
[0036]基于所述内部一致性特征,对所述样本数据集中的各音频数据的音频特征进行采样,得到音频采样特征;
[0037]基于所述样本数据集中的音频数据的音频采样特征与内部一致性特征的二元交叉熵,计算所述音频数据的内部一致性损失。
[0038]根据本专利技术提供的一种视听伪造检测方法,所述基于所述面部关键点特征提取所述人脸图像的帧间一致性特征,包括:
[0039]计算相邻所述视频帧的所述面部关键点特征的帧间差值,以作为所述人脸图像的帧间特征值;
[0040]将所述人脸图像的帧间特征值输入至第一编解码模型,以得到所述人脸图像的帧间一致性特征。
[0041]本专利技术还提供一种视听伪造检测装置,包括:
[0042]数据获取模块,用于获取待测视频数据;其中,所述待测视频数据包括至少两个视频帧,每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对;
[0043]真伪检测模块,用于将各所述视听对输入至训练好的双流网络,得到所述待测视频数据的伪造检测结果;
[0044]其中,所述双流网络包括图像网络分支、音频网络分支和预测网络;
[0045]所述图像网络分支用于提取所述人脸图像的面部关键点特征,并基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
[0046]所述音频网络分支用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视听伪造检测方法,其特征在于,包括:获取待测视频数据;其中,所述待测视频数据包括至少两个视频帧,每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对;将各所述视听对输入至训练好的双流网络,得到所述待测视频数据的伪造检测结果;其中,所述双流网络包括图像网络分支、音频网络分支和预测网络;所述图像网络分支用于提取所述人脸图像的面部关键点特征,并基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;所述音频网络分支用于提取所述音频数据的音频特征,并基于所述音频特征提取所述音频数据的时间一致性特征;所述预测网络用于基于所述人脸图像的帧间一致性特征和所述音频数据的时间一致性特征获取所述待测视频数据的伪造检测结果。2.根据权利要求1所述的一种视听伪造检测方法,其特征在于,所述图像网络分支包括依次连接的第一特征提取网络和帧间一致性提取模块;所述音频网络分支包括依次连接的第二特征提取网络和时间一致性提取模块;所述第一特征提取网络和所述第二特征提取网络分别用于提取所述人脸图像的面部关键点特征和所述音频数据的音频特征;所述帧间一致性提取模块用于基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;所述时间一致性提取模块用于基于所述音频特征提取所述音频数据的时间一致性特征;其中,所述第一特征提取网络和所述第二特征提取网络分别基于样本数据集中人脸图像的帧内一致性损失和音频数据的内部一致性损失进行训练。3.根据权利要求2所述的一种视听伪造检测方法,其特征在于,所述第一特征提取网络包括依次连接的人脸及关键点检测网络和关键点校正网络;其中,所述人脸及关键点检测网络用于对所述人脸图像进行人脸检测,并对所述人脸检测结果进行关键点检测,得到面部初始关键点;所述关键点校正网络用于对所述面部初始关键点进行关键点提取,得到所述面部关键点特征。4.根据权利要求2所述的一种视听伪造检测方法,其特征在于,所述第二特征提取网络包括依次连接的声谱图提取模块、第一音频特征提取模块、注意力图提取模块、第二音频特征提取模块、跨模态注意力模块和第三音频特征提取模块;所述声谱图提取模块用于提取所述音频数据的声谱图;所述第一音频特征提取模块用于对所述声谱图进行特征提取,得到所述音频数据的第一初始特征;所述注意力图提取模块用于根据所述第一初始特征提取所述音频数据的注意力图;所述第二音频特征提取模块用于对所述注意力图进行特征提取,得到所述音频数据的第二初始特征;所述跨模态注意力模块用于基于所述面部关键点特征和所述第二初始特征获取所述音频数据的跨模态注意力;
所述第三音频特征提取模块用于根据所述音频数据的第二初始特征和所述跨模态注意力获取所述音频数据的音频特征。5.根据权利要...

【专利技术属性】
技术研发人员:赫然黄怀波刘晨雨李佳段俊贤
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1