【技术实现步骤摘要】
一种基于多模态对比学习的离线强化学习商品推荐系统
[0001]本专利技术涉及一种基于多模态对比学习的离线强化学习商品推荐系统,涉及多模态信息获取和处理,并结合机器学习,提高商品推荐系统的性能
。
技术介绍
[0002]在目前的商品推荐系统中,强化学习所需要的用户行为数据必须从实际使用场景中获取,而在线强化学习周期较长且在学习过程中难以为用户提供稳定的推荐服务,代价较大
。
此外,如何在强化学习所需要的用户数据中嵌入更为丰富的信息也是一大问题,现有的强化学习数据往往关心用户对于商品的行为,而商品本身所具有的属性难以结合到强化学习的数据中
。
强化学习所需数据本身信息量的不足在很大程度上影响了强化学习的商品推荐效果
。
综上所述,强化学习在商品推荐系统中的应用存在着不稳定
、
效果差等问题,使得其在实际应用中存在诸多困难
。
技术实现思路
[0003]专利技术目的:针对现有技术中存在的问题与不足,本专利技术提供一种基于多模态对比学习的离线强化学习商品推荐系统,通过多模态对比学习将商品属性嵌入到强化学习的数据中,并采用了离线强化学习的方法,缓解了强化学习在商品推荐系统中的不稳定
、
效果差等问题,能够为用户提供稳定的商品推荐服务
。
利用对比学习综合多个模态信息的特征,并利用这些特征组成用户状态,通过离线强化学习算法生成商品的推荐策略,最终为用户提供更加精准稳定的商品推荐服务,提高商品推荐系统的性 ...
【技术保护点】
【技术特征摘要】
1.
一种基于多模态对比学习的离线强化学习商品推荐系统,其特征在于,包括多模态信息获取模块
、
模型构建模块和商品信息推荐模块;所述多模态信息获取模块利用对比学习综合商品多模态信息获取特征表示;所述模型构建模块将商品推荐系统建模为强化学习问题;所述商品信息推荐模块,利用离线强化学习算法生成商品信息推荐策略
。2.
根据权利要求1所述的基于多模态对比学习的离线强化学习商品推荐系统,其特征在于,所述多模态信息获取模块,收集商品的图像
、
描述商品的文本和商品基本特征的多模态信息;利用对比学习算法对于多模态信息进行整合,形成商品的特征表示,记作
E。3.
根据权利要求1所述的基于多模态对比学习的离线强化学习商品推荐系统,其特征在于,所述模型构建模块,将用户产生行为的商品的特征表示和用户基本信息组成用户的当前时刻状态,记作
S_t
;推荐系统针对用户状态推荐的商品作为动作记作
a
;用户对于给出的推荐商品的反馈作为奖赏,记作
r
;将用户在给出推荐系统产生行为的商品
、
用户之前产生行为的商品和用户的基本信息组成下一时刻状态,记作
S_t+1。4.
根据权利要求1所述的基于多模态对比学习的离线强化学习商品推荐系统,其特征在于,所述商品信息推荐模块,利用离线强化学习算法生成商品信息推荐策略;首先对用户行为日志根据时间进行排序;接着,利用日志中用户产生行为的商品获得商品特征,结合商品特征和用户基本信息作为
S_t
;选择用户在日志中下一个产生行为的商品和随机挑选的商品作为推荐系统给出的推荐商品作为
a
;用户对于推荐商品的反馈作为奖赏
r
,用户在推荐商品后的行为加入到日志中,产生行为的新商品特征和
S_t
组成用户下一时刻状态
S_t+1
;
St
,
a
,
r
,
S_t+1
共同组成转移元组,多个转移元组组成离线数据集,通过离线强化学习算法在离线数据集上来训练生成商品推荐系统的推荐策略
。5.
根据权利要求1所述的基于多模态对比学习的离线强化学习商品推荐系统,其特征在于,所述多模态信息获取模块,利用对比学习综合商品多模态信息获取特征表示的实现过程具体为:步骤
100
,收集商品图像
、
描述商品的文字和商品基本特征的多模态信息;步骤
101
,对描述商品的文字信息通过翻译工具翻译成另一种语言,再把所述另一种语言翻译回原来的语言,得到一段意思相近但表达方式不同的文本信息,这段文本信息与原有的商品图像和商品基本特征构成正样本;步骤
102
,对描述商品的文字信息进行文本特征提取,得到
TF
‑
IDF
特征表示,根据
TF
‑
IDF
特征表示在商品文本库中搜索得到相似的描述商品文本字信,所述相似的描述商品文本字信与原有的商品图像和商品基本特征构成负样本;步骤
103
,对商品基本特征按照非零值个数进行排序,从最稀疏的特征开始,依次与后面的特征计算同时为非零值的比例,如...
【专利技术属性】
技术研发人员:詹德川,叶翰嘉,韩路,陶博文,周志华,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。