【技术实现步骤摘要】
基于掩码梯度的机器学习数据遗忘方法
[0001]本专利技术属于机器学习领域,涉及数据遗忘方法,具体涉及一种基于掩码梯度的机器学习数据遗忘方法,可用于机器学习数据遗忘过程,恢复数据对提取的特征和模型的影响。
技术介绍
[0002]如今,机器学习模型在众多场景中应用广泛,然而在训练数据中可能存在一些异常数据,会对系统造成伤害;其次,随着隐私保护法的颁布,要求用户拥有在模型中删除自身数据的权力,而当前的模型训练器无法提取特定数据。为此,机器学习数据遗忘方法被提出用以解决此类问题,其允许从已经训练好的机器学习模型中消除对特定数据的记忆,恢复数据对模型的影响。现有方法可以分为基于再训练和基于总和的数据遗忘方法,基于总和的遗忘方法在少量求和的基础上训练模型,每个求和都是训练样本的一些有效可计算变换的总和,要忘记一个样本,只需从相应的总和中减去该样本,然后更新模型,然而,对于自适应模型,从总和中减去样本很容易导致过度遗忘无关记忆,降低其效用;基于再训练的遗忘方法在删除要遗忘的样本后重新训练模型,其中SISA框架将训练集划分为片,并通过增量 ...
【技术保护点】
【技术特征摘要】
范数正则化项;ω表示动态惩罚项,D0表示包含随机选取的N个f
t
学习过数据的数据组,∑表示求和操作,L
cross
(x)表示Cross
‑
entropy交叉熵损失函数,d表示参数θ的指定维数。5.根据权利要求1所述的基于神经元掩蔽的机器学习数据遗忘方法,其特征在于,步骤(4a)中所述的N个f
t
未曾学习过的影评数据的后验分布P,其计算方法为:基于Shannon熵理论,首先随机选取一组包含N个f
t
未曾学习过的影评数据D'={x'1,x'2,...,x'
n
,...,x'
N
},计算其后验集Υ'={y'1,y'2,...,y'
n
,...,y'
N
},并利用下式计算得到P:其...
【专利技术属性】
技术研发人员:马卓,杨昊,刘洋,杨易龙,李腾,张俊伟,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。