一种模型盗用的检测、模型的训练方法和装置制造方法及图纸

技术编号:23892402 阅读:22 留言:0更新日期:2020-04-22 07:00
说明书披露一种模型盗用的检测、模型的训练方法和装置。一种模型盗用的检测方法,包括:获取目标分类模型的若干对抗样本,所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成;将各对抗样本输入待检测分类模型,得到对应的分类结果;对匹配所述对抗样本分类标签的分类结果进行统计;判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。上述方案可使用对抗样本检测是否有其他模型盗用所述目标分类模型,从而实现目标分类模型私有数据的盗用检测。

Detection of model embezzlement, training method and device of model

【技术实现步骤摘要】
一种模型盗用的检测、模型的训练方法和装置
本说明书涉及人工智能领域,尤其涉及一种模型盗用的检测、模型的训练方法和装置。
技术介绍
随着人工智能的不断发展,机器学习模型的性能越来越好。训练一个性能表现优异的机器学习模型需要大量的样本、计算资源等,这使得模型本身成为一种重要的资产。与此同时,许多攻击者为了自身的利益,会通过各种手段盗取线上部署的模型,例如,盗取模型的参数、样本等数据,这对模型的安全造成了巨大的威胁。
技术实现思路
有鉴于此,本说明书提供一种模型盗用的检测、模型的训练方法和装置。具体地,本说明书是通过如下技术方案实现的:一种模型盗用的检测方法,包括:获取目标分类模型的若干对抗样本,所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成;将各对抗样本输入待检测分类模型,得到对应的分类结果;对匹配所述对抗样本分类标签的分类结果进行统计;判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模本文档来自技高网...

【技术保护点】
1.一种模型盗用的检测方法,包括:/n获取目标分类模型的若干对抗样本,所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成;/n将各对抗样本输入待检测分类模型,得到对应的分类结果;/n对匹配所述对抗样本分类标签的分类结果进行统计;/n判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。/n

【技术特征摘要】
1.一种模型盗用的检测方法,包括:
获取目标分类模型的若干对抗样本,所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成;
将各对抗样本输入待检测分类模型,得到对应的分类结果;
对匹配所述对抗样本分类标签的分类结果进行统计;
判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。


2.根据权利要求1所述方法,所述若干对抗样本的生成过程,包括:
确定原始分类模型的对抗对象,所述原始分类模型由所述第二真子集中的样本训练得到;
将所述对抗对象输入所述原始分类模型,得到分类结果;
若所述分类结果匹配所述分类标签,则将所述对抗对象添加到所述第二真子集的样本中,得到所述样本对应的对抗样本。


3.根据权利要求2所述方法,所述原始分类模型为图像分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述图像分类模型的基础对抗图像;
调整所述基础对抗图像在指定区域的像素值,将调整后得到的对抗图像作为所述对抗对象。


4.根据权利要求3所述方法,所述指定区域距离所述基础对抗图像边缘的最小距离小于预定距离。


5.根据权利要求3所述方法,所述将所述对抗对象添加到所述第二真子集中的样本中,得到所述样本对应的对抗样本,包括:
针对所述第二真子集中的样本,将所述调整后得到的对抗图像的各个像素点的像素值与所述样本的各个像素点的像素值对应相加,得到所述样本对应的对抗样本。


6.根据权利要求2所述方法,所述原始分类模型为文本分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述文本分类模型的基础对抗词;
调整所述基础对抗词中的指定字符,将调整后得到的对抗词作为所述对抗对象。


7.根据权利要求6所述方法,所述将所述对抗对象添加到所述第二真子集中的样本中,得到所述样本对应的对抗样本,包括:
针对所述第二真子集中的样本,将所述样本中的基础对抗词替换为调整后得到的对抗词,得到所述样本对应的对抗样本。


8.根据权利要求6所述方法,所述调整所述基础对抗词中的指定字符,包括:
将所述基础对抗词中的指定字符调整为形近字或同音字。


9.根据权利要求2所述方法,所述若干对抗样本的分类标签相同,所述分类标签匹配所述原始分类模型的分类结果。


10.根据权利要求1所述方法,所述统计结果为匹配所述对抗样本分类标签的分类结果的数量/比例,所述盗用条件为所述统计结果达到对应的阈值。


11.根据权利要求1所述方法,在确定所述待检测分类模型盗用所述目标分类模型后,所述方法还包括:
发送告警信息。


12.一种模型的训练方法,包括:
获取原始分类模型的若干样本;
分别为各样本生成对应的对抗样本,得到若干对抗样本;
为各对抗样本添加分类标签,所述分类标签匹配所述原始分类模型的分类结果;
采用所述样本与所述对抗样本对所述原始分类模型进行重新训练,得到目标分类模型;
其中,所述对抗样本用于对待检测分类模型进行检测,针对所述对抗样本,采用所述待检测分类模型预测分类结果,统计匹配对应分类标签的分类结果,当统计结果符合盗用条件时,确定所述待检测分类模型盗用所述目标分类模型。


13.根据权利要求12所述方法,所述为样本生成对应的对抗样本,包括:
确定所述原始分类模型的对抗对象;
将所述对抗对象输入所述原始分类模型,得到分类结果;
若所述分类结果匹配所述分类标签,则将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本。


14.根据权利要求13所述方法,所述原始分类模型为图像分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述图像分类模型的基础对抗图像;
调整所述基础对抗图像在指定区域的像素值,将调整后得到的对抗图像作为所述对抗对象。


15.根据权利要求14所述方法,所述指定区域距离所述基础对抗图像边缘的最小距离小于预定距离。


16.根据权利要求14所述方法,所述将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本,包括:
针对所述原始分类模型的样本,将所述调整后得到的对抗图像的各个像素点的像素值与所述样本的各个像素点的像素值对应相加,得到所述样本对应的对抗样本。


17.根据权利要求13所述方法,所述原始分类模型为文本分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述文本分类模型的基础对抗词;
调整所述基础对抗词中的指定字符,将调整后得到的对抗词作为所述对抗对象。


18.根据权利要求17所述方法,所述将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本,包括:
针对所述原始分类模型的样本,将所述样本中的基础对抗词替换为调整后得到的对抗词,得到所述样本对应的对抗样本。


19.根据权利要求17所述方法,所述调整所述基础对抗词中的指定字符,...

【专利技术属性】
技术研发人员:翁海琴薛峰
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1