基于对比学习和有模型强化学习的多模态商品推荐系统技术方案

技术编号：40035951 阅读：7 留言：0更新日期：2024-01-16 18:58

本发明专利技术公开一种基于对比学习和有模型强化学习的多模态商品推荐系统。首先，获取推荐系统中的商品图像、文字和标签的多模态数据，以及已经收集的用户行为数据，通过以对比学习为主的无监督学习方法构建商品特征；接着，利用构建好的商品特征以及用户行为数据构建用户特征作为状态，定义推荐商品为动作以及用户反馈为环境奖赏，训练离线强化学习模型；最后，将该模型作为预训练模型，部署到真实场景，当系统收集到新的用户行为数据时，及时更新模型。本发明专利技术利用强化学习的框架，应用对比学习多模态任务，综合大量商品与用户购物信息，构建了用户与推荐系统交互的马尔可夫过程，提升了推荐系统的精准性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于对比学习和有模型强化学习的多模态商品推荐系统，属于商品推荐系统，涉及多模态表示学习、对比学习、强化学习等领域。

技术介绍

1、强化学习在推荐系统领域的应用，主要是为了解决传统推荐算法面对日益丰富的信息资源、用户偏好多样化等问题。传统方法存在一些局限性，例如推荐结果过于单一、无法处理冷启动等问题。强化学习作为一种可学习的策略选择方法，具有自适应性、动态性、学习能力强等优点。随着移动互联网、社交网络、电商平台等信息技术的快速发展，数据的规模和复杂度也在不断增加，深度强化学习可以处理更加复杂规模的数据，有模型强化学习可以有效利用已经收集的数据，学习更加稳定鲁棒的策略。

2、多模态问题在推荐系统中相对研究较少。商品的模态属性随着互联网的发展而增加，深度学习通常被用于多模态问题以学得模态各自的表征。现有的获取多模态表征的技术通常使用直接拼接法或是模态融合法，直接拼接多个模态特征无法考虑模态之间关联性，而现有的模态融合尽管解决了这一问题，却难以考虑相同标签商品之间的关联性。

技术实现思路

1、专利技术目的：传统的推荐系统主要基于用户行为数据进行推荐，但是存在数据稀疏性等问题，导致推荐准确性不高。针对现有技术中存在的问题与不足，本专利技术提供一种基于对比学习和有模型强化学习的多模态商品推荐系统。本专利技术考虑使用对比学习方法融合模态特征，通过构建正负样本的方式将相同标签的商品进行关联，学习有效任务表征，对多模态信息进行融合。本专利技术通过引入多模态数据和对比学习

2、由于任务所限，本方法假设用户的行为轨迹数据不会过长，过长会导致隐变量维度有限无法完整刻画过去历史信息。这样的假设也是合理的，因为我们将用户每一次从系统打开到关闭的一段时间内视为同一轨迹数据。

3、具体来说，本专利技术的关键是利用对比学习技术学习商品的多模态表征，并用部分可观察强化学习对推荐系统问题建模，使用有模型强化学习方法从观测序列中学习系统模型，利用模型构建推荐策略。

4、技术方案：一种基于对比学习和有模型强化学习的多模态商品推荐系统，包括基于对比学习的多模态特征融合模块、基于有模型强化学习的推荐系统离线预训练模块，以及系统部署到真实场景的强化学习在线更新模块。

5、基于对比学习的多模态特征融合模块中：收集推荐商品的信息，包括图像、文字描述，以及标签；对图像进行数据增强，进行对比学习图像表征；对商品文字描述利用对比学习方法学习文字表征；对具有相同标签商品的图像表征与文字表征使用对比学习方法学习商品的多模态表征。

6、基于有模型强化学习的推荐系统离线预训练模块中：定义部分可观察强化学习的观测、状态、动作、转移函数，以及奖赏函数；利用已收集的用户行为数据和商品数据作为离线强化学习轨迹数据，将观测通过编码器生成嵌入，通过嵌入构建隐状态，训练循环状态空间模型；利用训练好的模型，在模型中使用行动者-评论家方法学习策略。

7、系统部署到真实场景的强化学习在线更新模块中：对于真实场景中的用户，将其数据编码到循环状态空间模型，利用行动者的结果推荐给用户商品；利用持续获取的用户行为数据，将其构建为强化学习模型的轨迹，以此更新循环状态空间模型、行动者神经网络和评论家神经网络。

8、基于对比学习的多模态特征融合模块的具体实现过程为：

9、步骤100，提取平台的商品图像、文字描述、以及标签，构成一个数据集；

10、步骤101，构建一个图像特征提取神经网络；对于图像，对其进行数据增强，利用原始图像，数据增强后的图像，以及其他图像，使用信息噪声对比估计损失进行训练直到收敛；

11、步骤102，构建一个文字特征提取神经网络；对于商品的文字描述，对其进行数据增强，利用原始文字、数据增强后的文字，以及其他文字，使用信息噪声对比估计损失进行训练；对于商品文字描述，使用掩码语言模型进行训练；

12、步骤103，构建一个融合图像与文字特征的神经网络；利用步骤101与步骤102对商品提取的图像和文字特征，将其输入到融合特征网络，将与其相同标签的其他商品的融合特征作为正样本，不同标签的商品的融合特征作为负样本，使用信息噪声对比估计损失进行训练直到收敛。

13、基于有模型强化学习的推荐系统离线预训练模块的具体实现过程具体为：

14、步骤200，定义状态s_t为1时刻到当前t时刻用户被推荐的商品以及用户的行为数据，其中用户被推荐的商品表征由步骤103获得，观测为用户当前时刻被推荐的商品以及用户做出的行为反应，动作为系统为用户推荐的商品，转移函数为上一状态s_t经过当前被推荐动作后，加上用户做出行为反应到达的新的被推荐商品及用户行为序列s_{t+1}，奖赏函数为用户对当前推荐商品做出的数值反应；将已有的用户行为数据构建成上述离线轨迹序列；

15、步骤201，构建编码器和解码器；构建用于建模环境变化的循环状态空间模型；

16、步骤202，将步骤200获取的离线轨迹序列，用于训练步骤201中的编码器与解码器，以及循环状态空间模型，最小化重构损失、奖赏预测，以及状态转移的先验分布与后验分布的距离，直到收敛；

17、步骤203，利用步骤202中训练好的模型，作为新的部分可观察马尔可夫决策过程，将其用于训练行动者-评论家算法，最小化轨迹回报与状态值之间的损失，并根据评论家预测的状态值函数训练行动者网络。

18、系统部署到真实场景的强化学习在线更新模块的具体实现过程为：

19、步骤300，将系统部署到真实场景，将真实场景中用户的数据建模成观测序列，利用编码器结合循环状态空间模型中获得隐状态，作为行动者的输入获得最优动作即当前推荐商品；

20、步骤301，将系统部署后收集到的新的用户数据，作为新的轨迹，存入经验回放中；

21、步骤302，定期从经验回放中采样数据更新编码器、解码器、循环状态空间模型，以及行动者和评论家网络；之后重复步骤301。

22、一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的基于对比学习和有模型强化学习的多模态商品推荐系统。

23、一本文档来自技高网...

【技术保护点】

1.一种基于对比学习和有模型强化学习的多模态商品推荐系统，其特征在于，包括基于对比学习的多模态特征融合模块、基于有模型强化学习的推荐系统离线预训练模块，以及系统部署到真实场景的强化学习在线更新模块；

2.根据权利要求1所述的基于对比学习和有模型强化学习的多模态商品推荐系统，其特征在于，基于对比学习的多模态特征融合模块的具体实现过程为：

3.根据权利要求2所述的基于对比学习和有模型强化学习的多模态商品推荐系统，其特征在于，基于有模型强化学习的推荐系统离线预训练模块的具体实现过程具体为：

4.根据权利要求1所述的基于对比学习和有模型强化学习的多模态商品推荐系统，其特征在于，系统部署到真实场景的强化学习在线更新模块的具体实现过程为：

5.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-4中任一项所述的基于对比学习和有模型强化学习的多模态商品推荐系统。

6.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利

...

【技术特征摘要】

2.根据权利要求1所述的基于对比学习和有模型强化学习的多模态商品推荐系统，其特征在于，基于对比学习的多模态特征融合模块的具体实现过程为：

4.根据...

【专利技术属性】
技术研发人员：詹德川，叶翰嘉，韩路，邵明浩，周志华，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人