【技术实现步骤摘要】
一种视听伪造检测方法及装置
[0001]本专利技术涉及机器学习
,尤其涉及一种视听伪造检测方法及装置。
技术介绍
[0002]最近几年来,深度学习的快速发展使得人们可以利用神经网络尤其是生成对抗网络生成高可信度的伪造视频,导致单从人类视觉上难以分辨。所以伪造产品在社交媒体上传播的安全问题逐渐成为社会关注的热点,如何提出一种高效的伪造检测策略显得十分重要。
[0003]以往的伪造检测工作大多是捕捉视频帧内的伪影。随着伪造技术的不断完善,这类伪造检测方法的缺点或者所依赖的线索被逐渐攻克。
[0004]传统伪造方法生成的伪造视频大多是按帧处理。帧间的不协调性很容易就可以被人眼识破。然而,现在基于学习的deepfake,尤其是对抗生成网络生成的视频具有较高的真实性,造成现有伪造检测方法无法对待测视频数据进行准确有效地检测。
技术实现思路
[0005]本专利技术提供一种视听伪造检测方法及装置,用以解决现有技术中无法对待测视频数据进行准确有效地检测的缺陷,实现伪造检测准确性地有效提高。
[0 ...
【技术保护点】
【技术特征摘要】
1.一种视听伪造检测方法,其特征在于,包括:获取待测视频数据;其中,所述待测视频数据包括至少两个视频帧,每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对;将各所述视听对输入至训练好的双流网络,得到所述待测视频数据的伪造检测结果;其中,所述双流网络包括图像网络分支、音频网络分支和预测网络;所述图像网络分支用于提取所述人脸图像的面部关键点特征,并基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;所述音频网络分支用于提取所述音频数据的音频特征,并基于所述音频特征提取所述音频数据的时间一致性特征;所述预测网络用于基于所述人脸图像的帧间一致性特征和所述音频数据的时间一致性特征获取所述待测视频数据的伪造检测结果。2.根据权利要求1所述的一种视听伪造检测方法,其特征在于,所述图像网络分支包括依次连接的第一特征提取网络和帧间一致性提取模块;所述音频网络分支包括依次连接的第二特征提取网络和时间一致性提取模块;所述第一特征提取网络和所述第二特征提取网络分别用于提取所述人脸图像的面部关键点特征和所述音频数据的音频特征;所述帧间一致性提取模块用于基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;所述时间一致性提取模块用于基于所述音频特征提取所述音频数据的时间一致性特征;其中,所述第一特征提取网络和所述第二特征提取网络分别基于样本数据集中人脸图像的帧内一致性损失和音频数据的内部一致性损失进行训练。3.根据权利要求2所述的一种视听伪造检测方法,其特征在于,所述第一特征提取网络包括依次连接的人脸及关键点检测网络和关键点校正网络;其中,所述人脸及关键点检测网络用于对所述人脸图像进行人脸检测,并对所述人脸检测结果进行关键点检测,得到面部初始关键点;所述关键点校正网络用于对所述面部初始关键点进行关键点提取,得到所述面部关键点特征。4.根据权利要求2所述的一种视听伪造检测方法,其特征在于,所述第二特征提取网络包括依次连接的声谱图提取模块、第一音频特征提取模块、注意力图提取模块、第二音频特征提取模块、跨模态注意力模块和第三音频特征提取模块;所述声谱图提取模块用于提取所述音频数据的声谱图;所述第一音频特征提取模块用于对所述声谱图进行特征提取,得到所述音频数据的第一初始特征;所述注意力图提取模块用于根据所述第一初始特征提取所述音频数据的注意力图;所述第二音频特征提取模块用于对所述注意力图进行特征提取,得到所述音频数据的第二初始特征;所述跨模态注意力模块用于基于所述面部关键点特征和所述第二初始特征获取所述音频数据的跨模态注意力;
所述第三音频特征提取模块用于根据所述音频数据的第二初始特征和所述跨模态注意力获取所述音频数据的音频特征。5.根据权利要...
【专利技术属性】
技术研发人员:赫然,黄怀波,刘晨雨,李佳,段俊贤,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。