当前位置: 首页 > 专利查询>武汉大学专利>正文

基于迭代优化的抗图像增强数据脱敏方法及系统技术方案

技术编号:39602649 阅读:11 留言:0更新日期:2023-12-03 20:02
本发明专利技术公开了一种基于迭代优化的抗图像增强的数据脱敏方法及系统

【技术实现步骤摘要】
基于迭代优化的抗图像增强数据脱敏方法及系统


[0001]本专利技术属于人工智能安全领域,特别是涉及一种基于迭代优化噪声及图像增强策略

动态步长调整算法和非局部残差网络的抗图像增强的数据脱敏方法及系统


技术介绍

[0002]深度学习模型的成功主要归功于大规模的数据集,如
ImageNet

MS

COCO。
然而,而在这些常用的数据集中,一些图像样本在数据收集者和图像所有者之间并没有相互协议

这引起了未经授权使用个人数据进行商业训练的隐私担忧,因为即使是黑盒深度学习模型也会泄露其训练数据的敏感信息

例如,从
GPT
‑2模型中可以推断出私人用户信息,包括姓名和电子邮箱地址

[0003]为了保护个人数据不被滥用,研究人员提出了不可学习样本的概念以保护私有数据不被用于训练

主要的原理是在图像中添加难以察觉的噪声,以在不降低图像感知质量的情况下消除从这些图像中学习到知识的可能

[0004]图像增强是一种常用的数据预处理技术,以提高模型训练性能

研究者发现不可学习的样本也容易受到图像增强的影响

例如使用传统
Emin
方法在
CIFAR

10
数据集上测试结果表明,在具有图像增强的不可学习示例上训练的模型的测试精度比在未进行图像增强的不可学习例子上训练的模型高
44.76%。
这就需要保护脱敏数据的稳定性免受图像增强技术的潜在破坏

[0005]在已有的研究中,研究者通常采用产生错误最小化噪声来构造不可学习的样本,减少训练示例的错误接近于零,防止模型在训练过程中受到目标函数的惩罚,从而使模型产生了一种错觉,即这些训练示例“没有什么”可以学习

最近研究发现,对抗训练也会破坏不可学习性,研究者提出通过考虑对抗训练对损失函数的影响来生成鲁棒性更强的不可学习样本


技术实现思路

[0006]本专利技术的目的在于针对传统数据脱敏方法在使用先进的图像增强场景下实施困难的缺陷,充分利用噪声生成和图像增强技术的特性,提供一种基于迭代优化噪声及图像增强策略

动态步长调整算法和非局部残差网络的抗图像增强的数据脱敏方法

[0007]本专利技术的目的是通过以下技术方案来实现的:一种基于迭代优化的抗图像增强的数据脱敏方法,其核心方法包含以下步骤:步骤1:模型初始化和预训练:为了兼顾噪声的可用性和在图像增强场景下的稳定性,本专利技术需要训练一个增强策略更新模型和一个噪声生成源模型,其结构可以是深度神经网络

为了初始化,首先使用一部分干净样本预训练模型一定轮次以更新增强策略;而在设计源模型时,考虑到图像增强鼓励模型关注数据全局特征的特性,在创建不可学习的样本时也需相应地考虑全局特征以抵消图像增强的影响,因此在源模型中加入
了非局部模块

为了方便后续操作,首先初始化现有噪声为0,且噪声的尺寸与图片相同

[0008]步骤2:增强策略更新:相同考虑到图像增强可以被视为通过合成遵循底层分布的额外数据点来丰富数据集

因此,有效的图像增强应该保持底层数据的分布,确保增强图像的分布与原始数据的分布一致,同时在增强样本批上计算的梯度也应倾向于与基于原始样本批计算的梯度一致

为了优化增强策略以实现梯度对齐,对于一小批私有样本,本方案首先将其加上现有噪声得到扰动图像,然后用少量轮次训练增强策略更新模型,采用不同的图像增强策略来最大限度地提高扰动数据和使用增强的扰动数据的平均梯度之间的余弦相似性,即求解一个
max
优化问题

此外,本方案假设来自同一类的图像通常具有相似的特征表示,因此可以采用类级增强策略,即在每一轮次为每类样本选择一种特定的增强策略

[0009]步骤3:抗增强噪声生成,该步骤由以下子步骤实现:
3.1
生成增强扰动图像:在扰动图像上应用步骤2得到的最优增强策略,得到一组增强扰动样本,记为或

[0010]3.2
训练模型:本方案的目标是让源模型在扰动图像上的损失尽可能小,从而使得商业模型更难从扰动图像中学习到知识

因此使用步骤
3.1
得到的增强扰动样本训练源模型,使用交叉熵作为损失函数

[0011]3.3
更新噪声:在每一轮训练后,利用图像梯度信息更新噪声

本方案的目标是在最小化噪声,使其难以被人类视觉检测,并且几乎不影响图像质量的同时让源模型在扰动图像上的损失尽可能小,这可以视作一个
min

min
二层优化问题

本方案基于投影梯度下降算法进行迭代更新以寻找最优解,将噪声的生成转化为源模型和噪声更新的迭代过程

此外,本方案使用动态步长调整的方法来寻找扰动样本,提高了迭代过程的效率,降低了过拟合的风险

[0012]3.4
检查错误率:检查更新后的扰动样本在源模型上的错误率是否小于设置阈值,若小于则退出循环并输出最终的噪声

否则重新进入步骤2更新增强策略

[0013]本专利技术的有益效果是,该方法基于迭代优化噪声及图像增强策略出发,将噪声生成表示为一个三层的
min

min

max
优化问题作为训练的基础,通过使用动态步长调整算法更新噪声,向源模型中加入非局部残差网络进行训练,实现了以合理的训练成本最小化扰动噪声与训练损失而保证生成噪声的可用性,提高数据脱敏效果,并减少图像质量损失

最终可以应用于实际工业生产现场,确保生产的安全可靠运行以及产品的高质量追求

附图说明
[0014]图1是本专利技术实施例的总流程图

[0015]图2是本专利技术中增强策略更新流程图

[0016]图3是本专利技术中抗增强噪声生成流程图

[0017]图4是非局部模块结构示意图

具体实施方式
[0018]下面结合附图和具体实施例对本专利技术作进一步的详细描述:实施例一图1为本专利技术的基于迭代优化噪声及图像增强策略的深度学习数据脱敏方法框架的总流程,该方法包括以下步骤:步骤1:模型初始化和预训练:为了兼顾噪声的可用性和在图像增强场景下的稳定性,本专利技术需要训练一个增强策略更新模型和一个噪声生成源模型,其模型结构可以是深度神经网络,如
ResNet

VGG


为了初始化,首先使用一部分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于迭代优化的抗图像增强数据脱敏方法,其特征在于,包括以下步骤:步骤1,包括训练一个增强策略更新模型和一个噪声生成源模型;其中,模型和模型的结构均为深度神经网络,使用一部分干净样本预训练模型一定轮次以更新增强策略,在源模型中加入了非局部模块;步骤2,利用添加了噪音的扰动图像少量轮次训练增强策略更新模型;采用不同的图像增强策略来最大限度地提高扰动数据和使用增强的扰动数据的平均梯度之间的余弦相似性,求解最优增强策略;步骤3,步骤2求解的最优增强策略,对应的样本即增强扰动样本,使用增强扰动样本训练源模型,在每一轮训练后,利用图像梯度信息更新噪声,更新噪声视作一个
min

min
二层优化问题,即最小化噪声,使其难以被人类视觉检测,并且不影响图像质量的同时让源模型在扰动图像上的损失尽可能小;检查更新后的扰动样本在源模型上的错误率是否小于设置阈值,若小于设置阈值则退出循环并输出最终的噪声,否则重新进入步骤2更新增强策略
。2.
根据权利要求1所述的基于迭代优化的抗图像增强数据脱敏方法,其特征在于:所述步骤1中非局部模块作为残差块连接到目标模型,采用高斯嵌入非局部模块的版本,在嵌入空间中计算高斯距离
。3.
根据权利要求1所述的基于迭代优化的抗图像增强数据脱敏方法,其特征在于:所述步骤1还包括初始化现有噪声为0,且噪声的尺寸与图片相同
。4.
根据权利要求1所述的基于迭代优化的抗图像增强数据脱敏方法,其特征在于:步骤2采用的增强策略,即在每一轮为每类样本选择一种特定的增强策略,具体而言,可以看作是一个增强数组,其中表示为第类选择的增强操作,将增强操作集定义为,幅度集设置为,更新增强策略如下:其中表示应用操作和幅度的增强,为从一...

【专利技术属性】
技术研发人员:杨德淞何秉坤王骞龚雪鸾
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1