当前位置: 首页 > 专利查询>浙江大学专利>正文

一种在间接协作学习背景下的投毒恶意用户的剔除方法技术

技术编号:38093258 阅读:7 留言:0更新日期:2023-07-06 09:06
本发明专利技术公开了一种在间接协作学习背景下的投毒恶意用户的剔除方法,涉及信息安全技术领域。该方法为:运用聚类算法对用户上传的每一种掩码特征的值进行聚类分析,分为两个簇;若两个簇的聚类中心的欧氏距离大于阈值,则该特征为指示性特征;上述指示性特征内包含用户数较少的簇为可疑簇,将其中的用户标记为可疑用户;当某一用户被多次标记为可疑后,将其作为恶意用户剔除。利用余下良性用户上传的掩码特征训练得到的间接协作学习的全局模型,能够应对投毒攻击的鲁棒性,而几乎不损失模型精度。度。度。

【技术实现步骤摘要】
一种在间接协作学习背景下的投毒恶意用户的剔除方法


[0001]本专利技术涉及信息安全
,特别是涉及一种在间接协作学习背景下的投毒恶意用户的剔除方法。

技术介绍

[0002]一些企业采用协作学习来了解客户对其产品的行为。他们以评论、反馈或其他属性的形式从用户那里收集数据。在这项工作中,我们将收集数据并在其上处理学习算法的实体称为服务器。服务器并不一定需要是一个中心化的实体。服务器的任务可以在参与者之间以分布式的方式执行。向服务器提交数据的参与者或客户称为用户。用户可以是拥有自己数据集的个人、团体或公司。用户并不知道或了解其他用户的训练数据的任何直接信息。在间接协作学习设置下,用户不是直接将原始数据提交给服务器,而是掩码自己数据的一些信息,并将其发送给服务器。这既节省了带宽(数据成本),又产生了更好的隐私。被屏蔽的信息称为被屏蔽的特征。用户在他们的机器上计算一个本地模型,该模型生成掩码特征。服务器从所有用户中收集这些掩码特征,并执行操作(例如求和)来生成一个全局训练的模型。这个全局模型从整个数据集中捕获特征,因此具有非常高的准确性。在上述讨论的间接协作学习环境中,我们认为有常数分数(f)的用户是恶意的。这些恶意用户被激励修改或毒害训练数据集,以影响全局模型的准确性。例如,垃圾邮件发送者可以将真正的电子邮件标记为垃圾邮件,从而降低学习到的垃圾邮件过滤器的准确性。这样的垃圾邮件过滤器会将真实内容的电子邮件指定为垃圾邮件,从而降低过滤器在用户中的可信度。在合理情况下,大多数用户是诚实的,而一小部分用户f(ε<g<n/2)是恶意的,其中,ε为任意小的一个数值,n为总的用户数。
[0003]研究表明,第一,无论训练数据的底层分布δ是什么,掩码特征的分布δ

在相对宽容的标准下与之保持一致,即δ~δ

;第二,对训练数据的投毒攻击会直接影响一些特定的掩码特征(称为指示性特征)的分布,即假设i是一个指示性特征,那么在统计误差范围内,。因此,在这种攻击场景中,来自大多数良性用户的指示性特征将表现出类似的分布,而来自恶意用户的指示性特征将表现出异常的分布。但是现有技术中并没有给出如何区分这些恶意的用户以及剔除他们的方法,因此导致间接协作学习全局模型的准确率和抵抗投毒攻击的鲁棒性不高。

技术实现思路

[0004]本专利技术提供了一种在间接协作学习背景下的投毒恶意用户的剔除方法,实现了存在恶意用户的情况下对深度学习模型的保护。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种在间接协作学习背景下的投毒恶意用户的剔除方法,所述方法包括:
[0007]运用聚类算法对用户(包括良性用户和恶意用户,且恶意用户在所有用户中所占比例小于50%)上传的每一种掩码特征的值进行聚类分析,分为两个簇;若两个簇的聚类中
心的欧氏距离大于阈值,则该特征为指示性特征;上述指示性特征内包含用户数较少的簇为可疑簇,将其中的用户标记为可疑用户;当某一用户被多次标记为可疑后,将其作为恶意用户剔除。
[0008]上述技术方案中,进一步地,获取用户上传的掩码特征,并运用聚类算法对每一种特征所有用户上传的值进行分析。以k均值聚类算法为例,取k=2,即本次聚类分析生成两个簇;针对某个掩码特征,在所有用户上传的值中随机选取两个值p1
(0)
和p2
(0)
作为初始聚类中心;计算剩余所有值与p1
(0)
和p2
(0)
的欧氏距离与哪个聚类中心更近则归到该聚类中心所属簇下,其中n为掩码特征的值的维数;计算本次生成的两个簇的质心,作为新的聚类中心p1
(1)
和p2
(1)
;如此循环,直到p1
(i)
=p1
(i+1)
且p2
(i)
=p2
(i+1)
为止,其中i为算法循环次数。将最后得到的聚类中心记为p1和p2。
[0009]若p1和p2的欧氏距离则该特征是指示性的,即在该特征上良性用户与恶意用户展示出分布上的差异。α依据原有掩码特征的分布不同而不同,需要根据实践选取合适的值。例如在MNIST数据集上选取α=0.02,在GTSRB数据集上选取α=0.0045能够取得比较好的效果。
[0010]该指示性特征内包含用户数少于50%的簇为可疑簇,其中用户为可疑用户。
[0011]对所有特征进行上述分析,得到指示性特征共m个,某个用户出现在这些指示性特征的可疑簇内n次,τ=n/m。根据实践,τ>0.5时认为该用户为恶意用户能够达到较好效果,且能够尽量不误剔除良性用户。
[0012]将剔除恶意用户的掩码特征上传给终端服务器即可生成最终的全局模型。
附图说明
[0013]图1为间接协作学习示意图;
[0014]图2为聚类分析示意图;
[0015]图3为本专利技术流程示意图。
具体实施方式
[0016]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]本专利技术的目的是提供一种在间接协作学习背景下的投毒恶意用户的剔除方法,实现存在恶意用户的情况下对深度学习模型的保护。
[0018]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。
[0019]首先,对本专利技术所涉及的一些专业术语进行具体说明:
[0020]间接协作学习:协作学习(collaborative learning)指的是从不同来源收集数据,将其组合以生成更大的数据集,并以此为基础训练深度学习模型的方法。间接协作学习(如图1),与直接学习模型直接传递用户数据不同,每个用户根据其自身数据进行部分计
算,仅向服务器提交掩码特征,从而较好地保护了用户隐私,同时减少了服务器的计算成本。
[0021]聚类分析:如图2,是一种将研究对象分为相对同质的群组或簇(clusters)的统计分析技术。
[0022]图3为本专利技术在间接协作学习背景下的投毒恶意用户的剔除方法的流程图。参见图3,该投毒恶意用户的剔除方法包括:
[0023]步骤101:获取各用户上传的掩码特征,该掩码特征是用户在本地经过部分训练和处理的,具有一定隐私保护的功能。
[0024]步骤102:利用上述掩码特征训练间接协作学习的全局模型10代,使得良性用户和恶意用户显示出足够的差异,同时降低后续计算成本。训练模型10代后获得的新的掩码特征用于后续步骤。
[0025]步骤103:运用k均值聚类算法对一个掩码特征内所有用户上传的值进行分析。
[0026]1031)取k=2,即本次本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在间接协作学习背景下的投毒恶意用户的剔除方法,其特征在于,所述方法为:运用聚类算法对用户上传的每一种掩码特征的值进行聚类分析,分为两个簇;若两个簇的聚类中心的欧氏距离大于阈值,则该特征为指示性特征;所述指示性特征内包含用户数较少的簇为可疑簇,将其中的用户标记为可疑用户;当某一用户被多次标记为可疑用户后,将其作为恶意用户剔除。2.根据权利要求1所述的在间接协作学习背景下的投毒恶意用户的剔除方法,其特征在于,所述聚类算法为k均值聚类算法,运用聚类算法对用户上传的每一种掩码特征的值进行聚类分析,具体为:1)针对某个掩码特征,在所有用户上传的值中随机选取两个值p1
(0)
和p2
(0)
作为初始聚类中心;2)计算剩余所有值与p1
(0)
和p2
(0)
的欧氏距离与哪个聚类中心更近则归到该聚类中心所属簇下,其中n为掩码特征的值的维数;计算本次生成的两个簇的质心,作为新的聚类中心p1
(1)
和p2

【专利技术属性】
技术研发人员:陈艳姣徐文渊姚孝轩白怡杰
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1