【技术实现步骤摘要】
一种基于联邦学习的多模态推荐方法及系统
[0001]本专利技术涉及计算机信息推荐
,具体而言,涉及一种基于联邦学习的多模态推荐方法及系统
。
技术介绍
[0002]随着大数据技术的飞速发展以及居民消费观念的提高,越来越多的人投入到“网购大军”中
。
但是互联网数据呈现爆炸性增长,并还在呈现倍增的趋势
。
海量信息出现的同时,人们难以在大规模数据中找到自己想要的商品,因此便出现了个性化推荐方法
。
但是大部分推荐方法是基于单模态信息进行推荐
。
多模态推荐方法通常利用贝叶斯个性化排序损失中随机采样的负例来指导用户
/
项目表示的学习,这增加了大型图的计算成本,也可能给训练过程带来噪声的监督信号
。
[0003]在大多数情况下,数据分散的保存在各个企业手中,而各个企业希望在不公开自己数据的情况下,联合其他企业
(
利用各个企业所持有的数据
)
一起训练一个模型,该模型能够帮助企业获取更大的利益
。
但是随着国内外相关数据隐私保护法律的颁布,企业直接使用多方数据就造成了隐私泄露问题,随着人们对隐私保护需求的日益增长,保护隐私和安全显得越来越重要
。
[0004]因此,如何实现一种在多模态推荐的情况下同时保障多方的数据不出本地,断绝数据在上传过程中的隐私泄露,并提高推荐算法的精度,是本领域技术人员要亟待解决的问题
。
技术实现思路
>[0005]本专利技术要解决的技术问题是:
[0006]现有的多模态推荐方法,难以保障多方的数据不出本地
、
断绝数据在上传过程中的隐私泄露并实现高精度的推荐
。
[0007]本专利技术为解决上述技术问题所采用的技术方案:
[0008]本专利技术提供了一种基于联邦学习的多模态推荐方法,所述方法基于联邦学习模型,包括一个服务端和多个客户端,包括如下步骤:
[0009]步骤1:多个客户端分别对本地数据集进行预处理,本地数据集包括文本和图像,将预处理的数据集划分为训练集
、
验证集和测试集;
[0010]步骤2:服务器端构建多模态模型及损失函数,并将所述多模态模型及损失函数下发至各客户端;
[0011]步骤3:各客户端基于训练集对服务器端下发的模型进行训练,通过反向传播更新网络参数,采用验证集验证模型性能,采用测试集对每轮训练的模型进行测试,将最优测试结果的模型参数上传至服务器端;
[0012]步骤4:服务器端接收到各客户端上传的模型参数后,对不同客户端上传的模型参数进行聚合得到聚合模型,服务端基于本地数据集对所述聚合模型进行训练,并将训练后
的聚合模型再次下发到客户端;
[0013]步骤5:客户端对服务器端下发的模型再次进行初始化,并基于验证集和测试集对模型进行验证和测试,得到多模态推荐模型,模型根据用户嵌入与所有候选项嵌入的内积,得到候选项目的推荐结果,实现联邦多模态推荐
。
[0014]进一步地,步骤1中对数据进行预处理,具体过程为:首先从数据集中提取
U
‑
I
交互图,其中
U
代表用户,
I
代表商品,其次采用
k
‑
score
过滤方法,对交互图索引值进行重新分配,生成
k
‑
score
交互图;基于生成的
k
‑
score
交互图,对商品的图像和文本特征分别进行一一对应,组成数据集;
[0015]将数据集的文本和图像转成连续性向量,再分别转换成嵌入向量;将图像特征和文本特征根据相同的用户
ID
进行合并,得到预处理的数据集
。
[0016]进一步地,所述
k
‑
score
过滤方法的
k
值为5,生成的
k
‑
score
交互图由
userID、itemID、rating、timestamp、x_label
信息组成,其中,
userID
代表用户
ID
,
itemID
代表商品
ID
,
rating
代表用户对商品的评分,
timestamp
代表时间戳,
x_label
代表对应的标签
。
[0017]进一步地,所述对商品的图像和文本特征分别进行一一对应,生成的数据集包括:
itemID
,
asin
,
title
,
price
,
imUrl
,
related
,
brand
,
categories
,
salesRamk
及
description
;
[0018]其中,
asin
表示产品编码,
title
表示商品名称,
price
表示商品价格,
imUrl
表示商品图片链接,
related
表示相关商品,
salesRank
表示折扣信息,
brand
表示商品的品牌,
categories
表示商品所属的目录类别
。
[0019]进一步地,步骤2中损失函数的构建方法为:
[0020]步骤
21、
将预处理后的用户数据和项目数据输入至下发的模型得到模态特定特征表示为其中
m∈M
表示来自完整模态
M
的特定模态,
d
m
表示特征的维数;使用基于多层感知器
MLP
的投影函数
fm
将其投影到一个潜在的低维上;
[0021]步骤
22、
使用带有残留连接的骨干网对
U
‑
I
交互图的结构进行编码;
[0022]步骤
23、
利用多模态潜在空间转换器,得到三种类型的潜在嵌入,包括:用户
ID
嵌入
、
项目
ID
嵌入和单模态项目嵌入;
[0023]步骤
24、
将三种嵌入输入至对比视图生成器中,生成三种对比视图;
[0024]步骤
25、
基于三种视图,构建最终的损失函数
。
[0025]进一步地,步骤
21
基于的方法为:
[0026]h
m
=
e
m
W
m
+b
...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于联邦学习的多模态推荐方法,其特征在于,所述方法基于联邦学习模型,包括一个服务端和多个客户端,包括如下步骤:步骤1:多个客户端分别对本地数据集进行预处理,本地数据集包括文本和图像,将预处理的数据集划分为训练集
、
验证集和测试集;步骤2:服务器端构建多模态模型及损失函数,并将所述多模态模型及损失函数下发至各客户端;步骤3:各客户端基于训练集对服务器端下发的模型进行训练,通过反向传播更新网络参数,采用验证集验证模型性能,采用测试集对每轮训练的模型进行测试,将最优测试结果的模型参数上传至服务器端;步骤4:服务器端接收到各客户端上传的模型参数后,对不同客户端上传的模型参数进行聚合得到聚合模型,服务端基于本地数据集对所述聚合模型进行训练,并将训练后的聚合模型再次下发到客户端;步骤5:客户端对服务器端下发的模型再次进行初始化,并基于验证集和测试集对模型进行验证和测试,得到多模态推荐模型,模型根据用户嵌入与所有候选项嵌入的内积,得到候选项目的推荐结果,实现联邦多模态推荐
。2.
根据权利要求1所述的基于联邦学习的多模态推荐方法,其特征在于,步骤1中对数据进行预处理,具体过程为:首先从数据集中提取
U
‑
I
交互图,其中
U
代表用户,
I
代表商品,其次采用
k
‑
score
过滤方法,对交互图索引值进行重新分配,生成
k
‑
score
交互图;基于生成的
k
‑
score
交互图,对商品的图像和文本特征分别进行一一对应,组成数据集;将数据集的文本和图像转成连续性向量,再分别转换成嵌入向量;将图像特征和文本特征根据相同的用户
ID
进行合并,得到预处理的数据集
。3.
根据权利要求2所述的基于联邦学习的多模态推荐方法,其特征在于,所述
k
‑
score
过滤方法的
k
值为5,生成的
k
‑
score
交互图由
userID、itemID、rating、timestamp、x_label
信息组成,其中,
userID
代表用户
ID
,
itemID
代表商品
ID
,
rating
代表用户对商品的评分,
timestamp
代表时间戳,
x_label
代表对应的标签
。4.
根据权利要求3所述的基于联邦学习的多模态推荐方法,其特征在于,所述对商品的图像和文本特征分别进行一一对应,生成的数据集包括:
itemID
,
asin
,
title
,
price
,
imUrl
,
related
,
brand
,
categories
,
salesRamk
及
description
;其中,
asin
表示产品编码,
title
表示商品名称,
price
表示商品价格,
imUrl
表示商品图片链接,
related
表示相关商品,
salesRank
表示折扣信息,
技术研发人员:张宏国,高宇航,叶子,马超,黄海,于海宁,吴英东,
申请(专利权)人:哈尔滨工业大学中数深圳时代科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。