当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于多模态对比学习的离线强化学习商品推荐系统技术方案

技术编号:39590101 阅读:25 留言:0更新日期:2023-12-03 19:42
本发明专利技术公开一种基于多模态对比学习算法的离线强化学习商品推荐系统,首先获取商品的相关图像

【技术实现步骤摘要】
一种基于多模态对比学习的离线强化学习商品推荐系统


[0001]本专利技术涉及一种基于多模态对比学习的离线强化学习商品推荐系统,涉及多模态信息获取和处理,并结合机器学习,提高商品推荐系统的性能


技术介绍

[0002]在目前的商品推荐系统中,强化学习所需要的用户行为数据必须从实际使用场景中获取,而在线强化学习周期较长且在学习过程中难以为用户提供稳定的推荐服务,代价较大

此外,如何在强化学习所需要的用户数据中嵌入更为丰富的信息也是一大问题,现有的强化学习数据往往关心用户对于商品的行为,而商品本身所具有的属性难以结合到强化学习的数据中

强化学习所需数据本身信息量的不足在很大程度上影响了强化学习的商品推荐效果

综上所述,强化学习在商品推荐系统中的应用存在着不稳定

效果差等问题,使得其在实际应用中存在诸多困难


技术实现思路

[0003]专利技术目的:针对现有技术中存在的问题与不足,本专利技术提供一种基于多模态对比学习的离线强化学习商品推荐系统,通过多模态对比学习将商品属性嵌入到强化学习的数据中,并采用了离线强化学习的方法,缓解了强化学习在商品推荐系统中的不稳定

效果差等问题,能够为用户提供稳定的商品推荐服务

利用对比学习综合多个模态信息的特征,并利用这些特征组成用户状态,通过离线强化学习算法生成商品的推荐策略,最终为用户提供更加精准稳定的商品推荐服务,提高商品推荐系统的性

[0004]技术方案:一种基于多模态对比学习的离线强化学习商品推荐系统,包括多模态信息获取模块

模型构建模块和商品信息推荐模块;
[0005]所述多模态信息获取模块利用对比学习综合商品多模态信息获取特征表示;
[0006]收集商品的图像

描述商品的文本和商品基本特征的多模态信息;利用对比学习算法对于多模态信息进行整合,形成商品的特征表示,记作
E

[0007]所述模型构建模块将商品推荐系统建模为强化学习问题;
[0008]用户产生行为的商品的特征表示和用户基本信息
(
例如年龄

性别

地区等
)
组成用户的当前时刻状态,记作
S_t
;推荐系统针对用户状态推荐的商品作为动作记作
a
;用户对于给出的推荐商品的反馈作为奖赏,记作
r
;将用户在给出推荐系统产生行为的商品

用户之前产生行为的商品和用户的基本信息组成下一时刻状态,记作
S_t+1

[0009]所述商品信息推荐模块,利用离线强化学习算法生成商品信息推荐策略;
[0010]首先对用户行为日志根据时间进行排序;接着,利用日志中用户产生行为的商品获得商品特征,结合商品特征和用户基本信息作为
S_t
;选择用户在日志中下一个产生行为的商品和随机挑选的商品作为推荐系统给出的推荐商品作为
a
;用户对于推荐商品的反馈作为奖赏
r
,用户在推荐商品后的行为加入到日志中,产生行为的新商品特征和
S_t
组成用户下一时刻状态
S_t+1

St

a

r

S_t+1
共同组成转移元组,多个转移元组组成离线数据集,
通过离线强化学习算法在离线数据集上来训练生成商品推荐系统的推荐策略

[0011]在在线环境下,利用训练得到的策略为用户实时进行商品信息推荐

[0012]所述多模态信息获取模块,利用对比学习综合商品多模态信息获取特征表示的实现过程具体为:
[0013]步骤
100
,收集商品图像

描述商品的文字和商品基本特征的多模态信息;
[0014]步骤
101
,对描述商品的文字信息通过翻译工具翻译成另一种语言,再把所述另一种语言翻译回原来的语言,得到一段意思相近但表达方式不同的文本信息,这段文本信息与原有的商品图像和商品基本特征构成正样本;
[0015]步骤
102
,对描述商品的文字信息进行文本特征提取,得到
TF

IDF
特征表示,根据
TF

IDF
特征表示在商品文本库中搜索得到相似的描述商品文本字信,所述相似的描述商品文本字信与原有的商品图像和商品基本特征构成负样本;
[0016]步骤
103
,对商品基本特征按照非零值个数进行排序,从最稀疏的特征开始,依次与后面的特征计算同时为非零值的比例,如果互斥程度低于阈值,将两个特征同时加入一个互斥特征集合中,重复上述过程,直到所有特征都加入互斥特征集合;对于在同一个互斥特征集合中的特征,可以将商品原有基本特征中的某一个特征改变为与该特征在同一互斥特征集合中的特征,改变后的商品基本特征和原有的商品图像和描述商品的文字构成负样本;
[0017]步骤
104
,根据步骤
101
构造的正样本,与原始商品样本组成正样本对,根据步骤
102
和步骤
103
构造的负样本对与原始商品样本组成负样本对,应用对比学习损失使得同一商品样本的不同模态特征之间的相似度最大化,不同商品样本特征之间的相似度最小化,获得商品的特征表示

[0018]所述模型构建模块将商品推荐系统建模为强化学习问题的实现流程具体为:
[0019]步骤
200
,收集用户日志,包括用户的基本信息和用户对商品的行为记录信息;
[0020]步骤
201
,从用户日志中提取用户基本信息和用户产生行为的商品,并获取商品的特征表示,通过在某一时刻
t
之前用户的基本信息和商品特征表示可以得到用户在当前时刻的状态
S_t

[0021]步骤
202
,在用户日志中查找用户在下一时刻产生行为的商品,并在全部商品中随机挑选商品,共同构成推荐系统为该用户生成的商品推荐列表,可以认为是商品推荐系统执行的动作
a

[0022]步骤
203
,根据用户日志在当前时刻之后的产生行为的商品和推荐列表中商品的交集,可以得到用户对该推荐列表的满意程度,交集元素的数量与推荐列表中商品数量的比值视为奖赏
r

[0023]步骤
204
,用户在与商品推荐列表产生交互后,根据日志在下一时刻之前用户产生行为的商品和用户的基本信息,构成用户在下一时刻的状态
S_t+1。
[0024]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多模态对比学习的离线强化学习商品推荐系统,其特征在于,包括多模态信息获取模块

模型构建模块和商品信息推荐模块;所述多模态信息获取模块利用对比学习综合商品多模态信息获取特征表示;所述模型构建模块将商品推荐系统建模为强化学习问题;所述商品信息推荐模块,利用离线强化学习算法生成商品信息推荐策略
。2.
根据权利要求1所述的基于多模态对比学习的离线强化学习商品推荐系统,其特征在于,所述多模态信息获取模块,收集商品的图像

描述商品的文本和商品基本特征的多模态信息;利用对比学习算法对于多模态信息进行整合,形成商品的特征表示,记作
E。3.
根据权利要求1所述的基于多模态对比学习的离线强化学习商品推荐系统,其特征在于,所述模型构建模块,将用户产生行为的商品的特征表示和用户基本信息组成用户的当前时刻状态,记作
S_t
;推荐系统针对用户状态推荐的商品作为动作记作
a
;用户对于给出的推荐商品的反馈作为奖赏,记作
r
;将用户在给出推荐系统产生行为的商品

用户之前产生行为的商品和用户的基本信息组成下一时刻状态,记作
S_t+1。4.
根据权利要求1所述的基于多模态对比学习的离线强化学习商品推荐系统,其特征在于,所述商品信息推荐模块,利用离线强化学习算法生成商品信息推荐策略;首先对用户行为日志根据时间进行排序;接着,利用日志中用户产生行为的商品获得商品特征,结合商品特征和用户基本信息作为
S_t
;选择用户在日志中下一个产生行为的商品和随机挑选的商品作为推荐系统给出的推荐商品作为
a
;用户对于推荐商品的反馈作为奖赏
r
,用户在推荐商品后的行为加入到日志中,产生行为的新商品特征和
S_t
组成用户下一时刻状态
S_t+1

St

a

r

S_t+1
共同组成转移元组,多个转移元组组成离线数据集,通过离线强化学习算法在离线数据集上来训练生成商品推荐系统的推荐策略
。5.
根据权利要求1所述的基于多模态对比学习的离线强化学习商品推荐系统,其特征在于,所述多模态信息获取模块,利用对比学习综合商品多模态信息获取特征表示的实现过程具体为:步骤
100
,收集商品图像

描述商品的文字和商品基本特征的多模态信息;步骤
101
,对描述商品的文字信息通过翻译工具翻译成另一种语言,再把所述另一种语言翻译回原来的语言,得到一段意思相近但表达方式不同的文本信息,这段文本信息与原有的商品图像和商品基本特征构成正样本;步骤
102
,对描述商品的文字信息进行文本特征提取,得到
TF

IDF
特征表示,根据
TF

IDF
特征表示在商品文本库中搜索得到相似的描述商品文本字信,所述相似的描述商品文本字信与原有的商品图像和商品基本特征构成负样本;步骤
103
,对商品基本特征按照非零值个数进行排序,从最稀疏的特征开始,依次与后面的特征计算同时为非零值的比例,如...

【专利技术属性】
技术研发人员:詹德川叶翰嘉韩路陶博文周志华
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1