基于隐私保护机器遗忘算法的推荐模型生成方法及装置制造方法及图纸

技术编号:38340806 阅读:13 留言:0更新日期:2023-08-02 09:21
本申请提供基于隐私保护机器遗忘算法的推荐模型生成方法及装置,其中所述基于隐私保护机器遗忘算法的推荐模型生成方法包括:获取多个模型,其中,多个模型基于多个样本集对初始推荐模型训练获得,多个样本集通过划分待训练样本集获得;基于待遗忘数据的数据信息,在多个样本集中确定待更新样本集,并删除待更新样本集中的待遗忘数据,确定第一样本集;基于第一样本集,训练初始推荐模型,获得第一推荐模型;聚合第一推荐模型的模型参数和第二推荐模型的模型参数,其中,第二推荐模型为除待更新样本集以外的其他样本集训练的模型;基于聚合后的模型参数生成目标推荐模型,不仅节省了模型的算力资源,还能提高模型使用性能。还能提高模型使用性能。还能提高模型使用性能。

【技术实现步骤摘要】
基于隐私保护机器遗忘算法的推荐模型生成方法及装置


[0001]本申请涉及计算机
,特别涉及基于隐私保护机器遗忘算法的推荐模型生成方法。本申请同时涉及项目推荐方法,基于隐私保护机器遗忘算法的推荐模型生成装置,一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]推荐模型被广泛应用于不同的场景,如在线购物、音乐推荐、电影推荐等。为了能够准确高效地为用户进行推荐,推荐模型需要使用用户真实的数据作为训练集,以提高模型的可用性,但这种方式用户真实数据会一直保存在服务器端,增加了用户隐私数据泄露的风险。
[0003]为了能够删除用户真实数据,或者是过滤掉具有噪音且应用于模型训练效果差的数据,模型需要执行遗忘的操作,但目前推荐模型的结构不支持部分数据的机器遗忘,只能通过完全重新训练模型来实现,这将带来较大的计算量,同时也会导致推荐模型性能低。

技术实现思路

[0004]有鉴于此,本申请实施例提供了基于隐私保护机器遗忘算法的推荐模型生成方法。本申请同时涉及项目推荐方法,基于隐私保护机器遗忘算法的推荐模型生成装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的重新训练模型计算量大、模型性能低的问题。
[0005]根据本申请实施例的第一方面,提供了一种基于隐私保护机器遗忘算法的推荐模型生成方法,包括:获取多个模型,其中,所述多个模型基于多个样本集对初始推荐模型训练获得,所述多个样本集通过划分待训练样本集获得;基于待遗忘数据的数据信息,在所述多个样本集中确定待更新样本集,并删除所述待更新样本集中的待遗忘数据,确定第一样本集;基于所述第一样本集,训练所述初始推荐模型,获得第一推荐模型;聚合所述第一推荐模型的模型参数和第二推荐模型的模型参数,其中,所述第二推荐模型为除所述待更新样本集以外的其他样本集训练的模型;基于聚合后的模型参数生成目标推荐模型。
[0006]根据本申请实施例的第二方面,提供了一种项目推荐方法,包括:获取目标用户的用户信息;将所述用户信息输入目标推荐模型,得到针对所述目标用户的项目推荐信息,其中,所述目标推荐模型为利用上述的基于隐私保护机器遗忘算法的推荐模型生成方法得到。
[0007]根据本申请实施例的第三方面,提供了一种基于隐私保护机器遗忘算法的推荐模型生成装置,包括:
模型获取模块,被配置为获取多个模型,其中,所述多个模型基于多个样本集对初始推荐模型训练获得,所述多个样本集通过划分待训练样本集获得;样本集更新模块,被配置为基于待遗忘数据的数据信息,在所述多个样本集中确定待更新样本集,并删除所述待更新样本集中的待遗忘数据,确定第一样本集;模型训练模块,被配置为基于所述第一样本集,训练所述初始推荐模型,获得第一推荐模型;参数聚合模块,被配置为聚合所述第一推荐模型的模型参数和第二推荐模型的模型参数,其中,所述第二推荐模型为除所述待更新样本集以外的其他样本集训练的模型;模型生成模块,被配置为基于聚合后的模型参数生成目标推荐模型。
[0008]根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述基于隐私保护机器遗忘算法的推荐模型生成方法的步骤。
[0009]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述基于隐私保护机器遗忘算法的推荐模型生成方法的步骤。
[0010]本申请提供的基于隐私保护机器遗忘算法的推荐模型生成方法,获取多个模型,其中,所述多个模型基于多个样本集对初始推荐模型训练获得,所述多个样本集通过划分待训练样本集获得;基于待遗忘数据的数据信息,在所述多个样本集中确定待更新样本集,并删除所述待更新样本集中的待遗忘数据,确定第一样本集;基于所述第一样本集,训练所述初始推荐模型,获得第一推荐模型;聚合所述第一推荐模型的模型参数和第二推荐模型的模型参数,其中,所述第二推荐模型为除所述待更新样本集以外的其他样本集训练的模型;基于聚合后的模型参数生成目标推荐模型。
[0011]本申请一实施例,通过获取多个样本集对初始推荐模型分别训练多个模型,并在接收到待遗忘数据的数据信息之后,可在该待遗忘数据所在的样本集中,删除掉待遗忘数据,获得第一样本集,进而,仅对删除待遗忘数据的第一样本集对应的模型进行重新训练,避免了由于更新了待训练样本,还需要重新训练初始推荐模型,将带来较大的算力浪费;另外,通过聚合重新训练后的推荐模型的模型参数和原未重新训练模型的模型参数,可以构建经过机器遗忘处理后的新的目标推荐模型,不仅节省了模型的算力资源,还能提高推荐模型的生成效率以及模型使用性能。
附图说明
[0012]图1是本申请一实施例提供的一种基于隐私保护机器遗忘算法的推荐模型生成方法的架构示意图;图2是本申请一实施例提供的一种基于隐私保护机器遗忘算法的推荐模型生成方法的流程图;图3是本申请一实施例提供的一种基于隐私保护机器遗忘算法的推荐模型生成方法的模型生成示意图;图4是本申请一实施例提供的一种项目推荐方法的流程图;图5是本申请一实施例提供的一种基于隐私保护机器遗忘算法的推荐模型生成装
置的结构示意图;图6是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
[0013]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0014]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0015]应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0016]首先,对本申请一个或多个实施例涉及的名词术语进行解释。
[0017]机器遗忘:机器学习中删除用户数据、删除噪声或损坏的训练数据。
[0018]隐私保护:是指使个人或集体等实体不愿意被外人知道的信息得到应有的保护。隐私包含的范围很广,对于个人来说,一类重要的隐私是个人的身份信息,即利用该信息可以直接或间接地通过连接查询追溯到某个人;对于集体来说,隐私一般是指代表一个团体各种行为的敏感信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于隐私保护机器遗忘算法的推荐模型生成方法,其特征在于,包括:获取多个模型,其中,所述多个模型基于多个样本集对初始推荐模型训练获得,所述多个样本集通过划分待训练样本集获得;基于待遗忘数据的数据信息,在所述多个样本集中确定待更新样本集,并删除所述待更新样本集中的待遗忘数据,确定第一样本集;基于所述第一样本集,训练所述初始推荐模型,获得第一推荐模型;聚合所述第一推荐模型的模型参数和第二推荐模型的模型参数,其中,所述第二推荐模型为除所述待更新样本集以外的其他样本集训练的模型;基于聚合后的模型参数生成目标推荐模型。2.根据权利要求1所述的方法,其特征在于,所述基于待遗忘数据的数据信息,在所述多个样本集中确定待更新样本集,包括:响应于数据遗忘指令,获取待遗忘数据的数据信息;基于所述数据信息在所述多个样本集中,确定所述待遗忘数据所在的样本集为待更新样本集。3.根据权利要求1所述的方法,其特征在于,所述获取多个模型之前,还包括:获取待训练样本集;基于所述待训练样本集中的用户信息,划分所述待训练样本集,获得多个样本集;基于所述多个样本集分别对初始推荐模型进行训练,获得多个模型。4.根据权利要求3所述的方法,其特征在于,所述基于所述待训练样本集中的用户信息,划分所述待训练样本,获得多个样本集,包括:对所述待训练样本集中的数据内容进行格式转换,确定交互矩阵向量;基于所述待训练样本集中的用户信息,对所述交互矩阵向量进行聚类处理,获得多个样本集;其中,所述样本集中包括用户信息向量、项目信息向量、所述用户信息向量与所述项目信息向量之间的关联信息向量。5.根据权利要求1所述的方法,其特征在于,所述聚合所述第一模型参数和所述第二推荐模型中的第二模型参数,包括:提取所述第二推荐模型中的模型参数,获得第二模型参数;基于注意力机制,聚合所述第一模型参数和所述第二模型参数。6.根据权利要求5所述的方法,其特征在于,所述基于注意力机制,聚...

【专利技术属性】
技术研发人员:郑小林陈超超李宇渊刘俊麟
申请(专利权)人:杭州金智塔科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1