基于掩码梯度的机器学习数据遗忘方法技术

技术编号:37804868 阅读:66 留言:0更新日期:2023-06-09 09:34
本发明专利技术提出了一种基于掩码梯度的机器学习数据遗忘方法,实现步骤为:获取待遗忘数据集并构建包括情感分析模型和掩码梯度生成器的机器学习系统;初始化参数;更新模型权重参数;对掩码梯度生成器进行优化;达到迭代次数后获取遗忘数据集后的更新模型。本发明专利技术在生成掩码梯度时,是通过掩码梯度生成器和情感分析模型相互作用、共同学习来生成的,避免了现有技术由于在生成掩码信息时仅使用训练图像和待训练图像识别模型,直接将训练图像输入待训练图像识别模型中获取训练识别结果和训练掩码结果而造成的优化梯度方向并不是最优的缺陷,有效提高了机器学习数据遗忘的遗忘率,并且降低了过度遗忘造成的准确度损失。且降低了过度遗忘造成的准确度损失。且降低了过度遗忘造成的准确度损失。

【技术实现步骤摘要】
基于掩码梯度的机器学习数据遗忘方法


[0001]本专利技术属于机器学习领域,涉及数据遗忘方法,具体涉及一种基于掩码梯度的机器学习数据遗忘方法,可用于机器学习数据遗忘过程,恢复数据对提取的特征和模型的影响。

技术介绍

[0002]如今,机器学习模型在众多场景中应用广泛,然而在训练数据中可能存在一些异常数据,会对系统造成伤害;其次,随着隐私保护法的颁布,要求用户拥有在模型中删除自身数据的权力,而当前的模型训练器无法提取特定数据。为此,机器学习数据遗忘方法被提出用以解决此类问题,其允许从已经训练好的机器学习模型中消除对特定数据的记忆,恢复数据对模型的影响。现有方法可以分为基于再训练和基于总和的数据遗忘方法,基于总和的遗忘方法在少量求和的基础上训练模型,每个求和都是训练样本的一些有效可计算变换的总和,要忘记一个样本,只需从相应的总和中减去该样本,然后更新模型,然而,对于自适应模型,从总和中减去样本很容易导致过度遗忘无关记忆,降低其效用;基于再训练的遗忘方法在删除要遗忘的样本后重新训练模型,其中SISA框架将训练集划分为片,并通过增量学习训练模型,每多训本文档来自技高网...

【技术保护点】

【技术特征摘要】
范数正则化项;ω表示动态惩罚项,D0表示包含随机选取的N个f
t
学习过数据的数据组,∑表示求和操作,L
cross
(x)表示Cross

entropy交叉熵损失函数,d表示参数θ的指定维数。5.根据权利要求1所述的基于神经元掩蔽的机器学习数据遗忘方法,其特征在于,步骤(4a)中所述的N个f
t
未曾学习过的影评数据的后验分布P,其计算方法为:基于Shannon熵理论,首先随机选取一组包含N个f
t
未曾学习过的影评数据D'={x'1,x'2,...,x'
n
,...,x'
N
},计算其后验集Υ'={y'1,y'2,...,y'
n
,...,y'
N
},并利用下式计算得到P:其...

【专利技术属性】
技术研发人员:马卓杨昊刘洋杨易龙李腾张俊伟
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1