【技术实现步骤摘要】
一种基于CGAN的均匀样本生成的数据提取方法
[0001]本专利技术涉及数据提取
,具体指一种基于
CGAN
的均匀样本生成的数据提取方法
。
技术介绍
[0002]随着人工智能的快速发展和广泛应用,机器学习即服务
(MLaaS)
已成为一种常见的模式
。
通过按查询付费的方式,即使是最复杂的机器学习模型也可以为客户提供服务
。
这种模式使用户能够避免耗时的数据收集
、
超参数调优和模型训练过程
。
然而,
MLaaS
提供商为了让客户访问他们的模型进行预测,也会面临知识产权的风险,例如敏感的训练数据
、
优化的超参数或学习的模型参数,同时,
MLaaS
提供商提供的服务接口也会导致潜在风险,如模型窃取攻击
。
[0003]当前的较为常见的数据提取方法为模型窃取攻击,这种提取方法需要使用替代数据集进行查询
。
然而,对于一些数据量少并且种类单一的数据集来说,无法获得替代数据集,因此模型窃取攻击这种数据提取方法逐渐演变为无数据模型提取
。
无数据模型提取不需要替代数据集,可以通过生成对抗网络
(GAN)
来生成伪造的数据集,从而大大降低数据提取的难度
。
然而,现有的无数据模型提取生成数据的方式是随机生成的,容易导致类别不平衡的问题,无法确保数据提取的准确度和提取的效率
。r/>
技术实现思路
[0004]本专利技术提出一种基于
CGAN
的均匀样本生成的数据提取方法,利用基于条件生成对抗网络
(CGAN)
的均衡样本生成器来生成类别平衡的伪造数据集,以减少类别不平衡现象并提高模型提取的效率
。
[0005]为了解决上述技术问题,本专利技术的技术方案为:
[0006]一种基于
CGAN
的均匀样本生成的数据提取方法,该方法包括如下步骤:
[0007]步骤
1.
使用均匀分布采样样本伪标签
l
;
[0008]步骤
2.
使用高斯分布采样初始向量
z
;
[0009]步骤
3.
组合
(z
,
l)
,送入
CGAN
生成器
G
,得到生成图像,其中
CGAN
生成器相比有
GAN
生成器多了一个指定的生成图像的标签;
[0010]步骤
4.
将步骤3生成的图像送入目标模型,得到目标模型的输出;
[0011]步骤
5.
将步骤3生成的图像送入替代模型,得到替代模型的输出;
[0012]步骤
6.
使用交叉熵计算步骤4和步骤5的输出的损失,样本伪标签
l
和步骤5输出之间的损失,反向传播更新生成器
G
;
[0013]步骤
7.
重复步骤1‑6直到样本伪标签
l
和步骤5的输出之间的损失不再变化或变化小于阈值
θ
。
[0014]步骤
8.
重复步骤1‑3,将生成图像送入替代模型得到替代模型的输出
。
[0015]步骤
9.
将替代模型的输出与样本伪标签
l
做交叉熵损失,反向更新替代模型的权
重
。
[0016]步骤
10.
重复步骤8‑9,直到替代模型精度稳定
。
[0017]上述技术方案中,首先使用均匀采样生成类标签
l
,然后从高斯分布中采样向量
z
,将
l
和
z
组合输入到
CGAN
,使用
CGAN
生成图像
x
,然后将
x
输入到目标模型中得到目标模型的输出,接着使用
(x
,
V(x))
标签对来训练替代模型,得到替代模型的输出
C
,最后通过交叉熵损失函数比较目标模型和替代模型的
(V(x)
,
C(x))
差异以及
(l
,
V(x))
差异,反向传播梯度更新生成器
CGAN。
待
CGAN
循环训练一定轮次后,即
(l
,
V(x))
的损失几乎不改变的时候,使用
CGAN
生成图像单独训练替代模型直到达到最优替代模型
。
[0018]本专利技术具有以下的特点和有益效果:
[0019]使用传统
GAN
生成的数据来训练替代模型的时候,容易遇到模式崩溃问题,即
GAN
陷入只生成一种类别图像的模式中,在这种模式下,
GAN
生成的图片虽然类别正确,但是由于其仅仅生成了一种类别的图片,无法让替代模型学习到目标模型对其他类别的分类概率,所以会导致最终训练的替代模型精度低
。
采用上述技术方案,使用
CGAN
生成器,相比传统
GAN
,可生成均匀样本,即
CGAN
是在样本伪标签的指导下来根据输入的属于高斯分布的噪声来生成指定伪标签的图像,因为样本伪标签属于均匀分布,可以覆盖所需全部类别,所以
CGAN
不会陷入像
GAN
一样的模式崩溃问题,避免了生成样本类别不均衡的问题
。
[0020]相比于传统
GAN
,
CGAN
由于生成的是均匀样本,可以很好的学习到全部类别的样本空间特征,所以可以提高训练替代模型的准确率
。
附图说明
[0021]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图
。
[0022]图1为本专利技术实施例一种基于
CGAN
的均匀样本生成的数据提取方法的系统架构图
。
具体实施方式
[0023]需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合
。
[0024]本专利技术提供了一种基于
CGAN
的均匀样本生成的数据提取方法,如图1所示,本实施例在公共图像数据集
(Cifar
‑
10、Cifar
‑
100)
进行评本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种基于
CGAN
的均匀样本生成的数据提取方法,其特征在于,包括如下步骤:步骤
1.
从均匀分布
U(0,N
‑
1)
中采样样本伪标签
l
,
N
为样本类别数;步骤
2.
从高斯分布
N(0,1)
中采样初始向量
z
;步骤
3.
样本伪标签
l
和初始向量
z
进行拼接得到组合
(z
,
l)
,送入
CGAN
生成器
G
,得到生成图像
x
;步骤
4.
将步骤3生成的图像送入目标模型,得到目标模型的输出一维向量
V(x)
;步骤
5.
将步骤3生成的图像送入替代模型,得到替代模型的输出一维向量
C(x)
;步骤
6.
使用交叉熵计算一维向量
V(x)
和一维向量
C(x)
的损失,样本伪标签
l
和一维向量
C(x)
之间的损失,反向传播更新
CGAN
生成器
G
;步骤
7.
重复步骤1‑6直到样本伪标签
l
和一维向量
C(x)
的损失不再变化或变化小于阈值
θ
;步骤
8.
重复步骤1‑3,将生成图像送入替代模型得到替代模型的输出;步骤
9.
将替代模型的输出与样本伪标签
l
做交叉熵损失,反向更新替代模型的权重;步骤
10.
重复步骤8‑9,直到替代模型精度稳定
。2.
根据权利要求1所述的一种基于
CGAN
的均匀样本生成的数据提取方法,其特征在于,所述步骤3中,样本伪标签
l
和初始向量
z
的拼接方法为:设
z
=
(x1,x2,
…
,xn)
,
l∈(0,n
‑
1)<...
【专利技术属性】
技术研发人员:李尤慧子,随鹏,殷昱煜,梁婷婷,李玉,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。