一种强化学习优化LFM的协同过滤推荐算法制造技术

技术编号:28838023 阅读:34 留言:0更新日期:2021-06-11 23:35
本发明专利技术公开了一种强化学习优化LFM的协同过滤推荐算法,包括训练与预测两部分。所述训练部分主要包括两步:第一步,首先采用LFM算法对训练集进行模型训练,第二步,对强化学习模型进行训练;所述预测部分主要包括两步:第一步,首先根据LFM推荐模型得到预测评分值;第二步利用优化模型对预测评分进行优化。本发明专利技术的强化学习优化LFM的协同过滤推荐算法,考虑到时间效应对推荐性能的影响,通过马尔科夫决策过程对用户、评分、图书、时间进行建模,并用强化学习Q‑learning算法对推荐算法进行优化,提升推荐效果,完成预测。

【技术实现步骤摘要】
一种强化学习优化LFM的协同过滤推荐算法
本专利技术涉及计算机工程的
,尤其涉及一种强化学习优化LFM的协同过滤推荐算法。
技术介绍
随着互联网、物联网和云计算的高速发展,现实社会信息的数量飞速增长,面对各式各样繁多的信息,如何获取个性化服务成了人们目前迫切的要求。个性化推荐通过各种推荐算法分析用户的行为喜好,有效过滤用户不需要的信息,从而为用户进行个性化的推荐。目前,个性化推荐已被广泛应用到社交、新闻、音乐、电影以及图书系统中,如酷狗音乐、淘宝商品推荐、和电子图书推荐等。协同过滤(CollaborationFiltering,CF)是推荐算法中应用广泛的技术之一,主要分为基于内存和基于模型的协同过滤推荐算法两大类。其中,基于内存的协同过滤推荐系统主要是通过分析“用户-项目”评分矩阵来计算相似度,通过相似度进行预测推荐;而基于模型的协同过滤推荐算法采用数据挖掘、机器学习以及统计学等方法,对评分数据的潜在规律进行学习并建立预测模型,然后使用所得模型为用户生成合理的推荐内容。潜在因子模式(LFM)是基于模型推荐算法的一种,它是基于矩阵本文档来自技高网...

【技术保护点】
1.一种强化学习优化LFM的协同过滤推荐算法,其特征在于,包括训练与预测两部分;/n所述训练部分主要包括两步:/n第一步,首先采用隐语义模型LFM对训练集进行训练,以得到LFM推荐模型;/n第二步,对强化学习模型进行训练,利用马尔科夫决策过程奖惩函数式计算状态转移的奖惩值,完成强化学习Q表的更新,以用于LFM推荐评分的优化模型;/n所述预测部分主要包括两步:/n第一步,首先根据LFM推荐模型得到预测评分值;/n第二步,通过将LFM推荐算法得到的预测评分进一步采用马尔科夫决策过程中的奖赏函数进行优化,建立推荐预测评分与马尔科夫决策过程之间的映射关系,并用强化学习Q-learning算法进行模型训...

【技术特征摘要】
1.一种强化学习优化LFM的协同过滤推荐算法,其特征在于,包括训练与预测两部分;
所述训练部分主要包括两步:
第一步,首先采用隐语义模型LFM对训练集进行训练,以得到LFM推荐模型;
第二步,对强化学习模型进行训练,利用马尔科夫决策过程奖惩函数式计算状态转移的奖惩值,完成强化学习Q表的更新,以用于LFM推荐评分的优化模型;
所述预测部分主要包括两步:
第一步,首先根据LFM推荐模型得到预测评分值;
第二步,通过将LFM推荐算法得到的预测评分进一步采用马尔科夫决策过程中的奖赏函数进行优化,建立推荐预测评分与马尔科夫决策过程之间的映射关系,并用强化学习Q-learning算法进行模型训练,以优化预测过程得到最终的预测评分。


2.如权利要求1所述的强化学习优化LFM的协同过滤推荐算法,其特征在于,所述LFM推荐模型的公式为:



其中两个低秩矩阵分别为user-class矩阵class-item矩阵;RUI表示预测评分;PU,K表示指用户对某一特定类别的偏好程度;QK,i表示指某一图书在特定类别中所占的权重。


3.如权利要求1所述的强化学习优化LFM的协同过滤推荐算法,其特征在于,所述马尔科夫决策过程由一个五元组<S,A,P,γ,Rew>表示,其中S表示状态空间,A表示动作空间,P表示状态转移概率,γ表示折扣因子,Rew表示回报函数,智能体感知当前环境中的状态信息,根据当前状态选择执行某些动作,环境根据选择的动作给智能体反馈一个奖惩信号,根据这个奖惩信号,智能体就从一个状态转移到了下一个状态。


4.如权利要求1所述的强化学习优化LFM...

【专利技术属性】
技术研发人员:沈学利吴彤彤
申请(专利权)人:辽宁工程技术大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1