一种人脸视频篡改攻击检测方法、装置以及设备制造方法及图纸

技术编号：37311544 阅读：10 留言：0更新日期：2023-04-21 22:54

本说明书实施例公开了一种人脸视频篡改攻击检测方法、装置以及设备。方案包括：利用训练得到的语音基础模型，从待检测人脸视频中提取语音特征；利用训练得到的视觉基础模型，从所述待检测人脸视频中提取视觉特征；将所述语音特征和所述视觉特征输入一致性模型进行处理，所述一致性模型是根据训练样本的语音与视觉之间的一致性信息，以及反映所述训练样本是否受到了人脸视频篡改攻击的样本标签训练得到的；根据所述一致性模型的所述处理的结果，判断所述待检测人脸视频是否受到了人脸视频篡改攻击。篡改攻击。篡改攻击。

全部详细技术资料下载

【技术实现步骤摘要】
一种人脸视频篡改攻击检测方法、装置以及设备

[0001]本说明书涉及机器学习
，尤其涉及一种人脸视频篡改攻击检测方法、装置以及设备。

技术介绍

[0002]deepfakes攻击在近年来成为了人脸识别系统和内容平台的面临的主要风险之一。deepfakes攻击主要通过篡改视频中人物的身份(比如，通过替换面部图片)或篡改音频的内容，来伪造虚假的内容以攻击人脸识别系统。
[0003]由于deepfakes攻击的多样性，deepfakes攻击检测一直非常有难度。基于此，如何有效地检测deepfakes攻击是人工智能领域必须解决的一个问题。

技术实现思路

[0004]本说明书一个或多个实施例提供一种人脸视频篡改攻击检测方法、装置、设备以及存储介质，用以解决如下技术问题：如何有效地检测deepfakes攻击。
[0005]为解决上述技术问题，本说明书一个或多个实施例是这样实现的：
[0006]本说明书一个或多个实施例提供的一种人脸视频篡改攻击检测方法，包括：
[0007]利用训练得到的语音基础模型，从待检测人脸视频中提取语音特征；
[0008]利用训练得到的视觉基础模型，从所述待检测人脸视频中提取视觉特征；
[0009]将所述语音特征和所述视觉特征输入一致性模型进行处理，所述一致性模型是根据训练样本的语音与视觉之间的一致性信息，以及反映所述训练样本是否受到了人脸视频篡改攻击的样本标签训练得到的；
[0010]根据所述一致性模型的所述处理的结果，判断所述...

【技术保护点】

【技术特征摘要】
1.一种人脸视频篡改攻击检测方法，包括：利用训练得到的语音基础模型，从待检测人脸视频中提取语音特征；利用训练得到的视觉基础模型，从所述待检测人脸视频中提取视觉特征；将所述语音特征和所述视觉特征输入一致性模型进行处理，所述一致性模型是根据训练样本的语音与视觉之间的一致性信息，以及反映所述训练样本是否受到了人脸视频篡改攻击的样本标签训练得到的；根据所述一致性模型的所述处理的结果，判断所述待检测人脸视频是否受到了人脸视频篡改攻击。2.如权利要求1所述的方法，所述一致性模型包括语音视觉特征编码器、一致性分类模块、第一篡改分类模块；所述将所述语音特征和所述视觉特征输入一致性模型进行处理，具体包括；将所述语音特征和所述视觉特征输入所述语音视觉特征编码器进行编码，得到一致性特征；将所述一致性特征分别输入所述一致性分类模块、所述第一篡改分类模块进行分类。3.如权利要求2所述的方法，所述根据所述一致性模型的所述处理的结果，判断所述待检测人脸视频是否受到了人脸视频篡改攻击，具体包括：获取所述一致性分类模块分类得到的一致性概率；获取所述第一篡改分类模块分类得到的篡改攻击概率；若所述一致性概率大于设定的相应阈值，且所述篡改攻击概率小于设定的相应阈值，则判断所述待检测人脸视频未受到人脸视频篡改攻击。4.如权利要求2或3所述的方法，所述将所述语音特征和所述视觉特征输入一致性模型进行处理之前，所述方法还包括：根据反映所述训练样本的语音与视觉之间的一致性信息的样本标签，计算所述一致性分类模块对应的一致性分类损失；根据所述反映所述训练样本是否受到了人脸视频篡改攻击的样本标签，计算所述第一篡改分类模块对应的第一篡改分类损失；根据所述一致性分类损失和所述第一篡改分类损失，训练得到所述一致性模型。5.如权利要求1所述的方法，所述语音基础模型包括语音特征编码器、第二篡改分类模块、多任务监督模块；所述利用训练得到的语音基础模型，从待检测人脸视频中提取语音特征之前，所述方法还包括：将语音训练样本输入所述语音特征编码器进行编码，得到样本语音特征；将所述样本语音特征输入所述第二篡改分类模块处理，根据相应得到的分类结果，计算第二篡改分类损失；将所述样本语音特征输入所述多任务监督模块处理，根据相应得到的多任务处理结果，计算多任务监督损失；根据所述第二篡改分类损失和所述多任务监督损失，训练所述语音基础模型。6.如权利要求5所述的方法，所述多任务包括语音信号重建任务、语音信号频段一致性任务。
7.如权利要求1所述的方法，所述视觉基础模型包括多颜色空间编码器、颜色空间特征转换器、第三篡改分类模块；所述利用训练得到的视觉基础模型，从所述待检测人脸视频中提取视觉特征之前，所述方法还包括：将图像训练样本在不同颜色空间的图像输入所述多颜色空间编码器进行编码，得到各所述颜色空间分别的对应的颜色空间图像特征；将各所述颜色空间图像特征分别输入所述颜色空间特征转换器处理，以向其他的颜色空间转换，得到颜色空间转换图像特征，并据此计算颜色空间转换损失；将所述颜色空间图像特征和所述颜色空间转换图像特征，输入所述第三篡改分类模块处理，根据相应得到的分类结果，计算第三篡改分类损失；根据所述颜色空间转换损失和所述第三篡改分类损失，训练所述视觉基础模型。8.如权利要求7所述的方法，所述不同颜色空间包括以下至少两种：RGB、HSV、LAB、YUV。9.一种人脸视频篡改攻击检测装置，包括：语音特征提取模块，利用训练得到的语音基础模型，从待检测人脸视频中提取语音特征；视觉特征提取模块，利用训练得到的视觉基础模型，从所述待检测人脸视频中提取视觉特征；一致性处理模块，将所述语音特征和所述视觉特征输入一致性模型进行处理，所述一致性模型是根据训练样本的语音与视觉之间的一致性信息...

【专利技术属性】
技术研发人员：曹佳炯，丁菁汀，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人