【技术实现步骤摘要】
一种基于对比学习系统的多模态样本植入方法
[0001]本专利技术属于信息安全领域,更具体地,涉及一种基于对比学习系统的多模态样本植入方法
。
技术介绍
[0002]近年来,对比学习
(Contrastive Learning)
在大规模无标注数据上的预训练模型得到了广泛的应用
(
如车道检测
、
人脸识别等
)。
然而,其面临的安全和隐私问题也越来越引起学者的关注
。
针对对比学习模型正向推理过程中存在的安全威胁和挑战,本专利技术聚焦于对比学习系统的多模态样本植入方法
。
该方法会将精心构造的数据注入训练集,使得在投毒数据集上训练出来的模型会出现分类错误,严重威胁了对比学习模型的安全性
。
[0003]在对比分类器中,攻击者所能做的就是试图控制图像的嵌入,并希望
(
在攻击者控制之外
)
该嵌入将被错误分类
。
现有工作攻击的目标都是单端编码器函数
(
要么是文本编码器,要么是图像编码器
)。
第一种方法是保持文本编码器参数不变,然后更新图像编码器参数降低对比损失值;或者是保持图像编码器参数不变,那么图像编码器的输出保持不变,然后更新文本编码器参数以最小对比损失值
。
目前针对多模态对比学习模型的投毒攻击尚未深入研究,主要研究集中在多模态对比学习模型中的图像编码器上
。
最近,
C ...
【技术保护点】
【技术特征摘要】
1.
一种基于对比学习系统的多模态样本植入方法,其特征在于,包括:
S1.
基于选取特定的目标样本与基类样本构造相应的多模态样本进行系统植入;
S2.
将投毒样本与干净数据集融合进行目标模型训练,将目标样本输入目标模型得到预测值;
S3.
基于目标样本与基类样本生成相应透明度的底水印样本;
S4.
通过计算带有水印的样本与目标样本之间的欧式距离,确定在该透明度下采样的样本数量;
S5.
添加水印之后的样本通过特定的优化算法后生成投毒样本
。2.
根据权利要求1所述的一种基于对比学习系统的多模态样本植入方法,其特征在于,步骤
S1
具体包括:从下游任务数据集中测试集某一类别
y
t
中选取特定的样本
x
t
作为目标样本,从不同于该类别
y
t
的类别
y
b
中随机选取样本
x
b
作为基类样本,基类是攻击者指定的目标标签
。3.
根据权利要求4所述的一种预训练的多模态对比学习方法的特定目标投毒攻击算法,其特征在于,步骤
S4
具体包括:基于
Beta
分布的生成器采样得到
N
个
α
i
,由于相对于更远的点,更近的点对目标样本的预测结果具有更大的影响,本发明利用反距离加权得到在每个
...
【专利技术属性】
技术研发人员:刘高扬,桂宾,陈健,吴伟玲,王琛,彭凯,王良源,梅松,付超,
申请(专利权)人:武汉盛信鸿通科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。