【技术实现步骤摘要】
一种基于深度强化学习的推荐系统构建方法
本专利技术涉及推荐系统
,具体涉及一种基于深度强化学习的推荐系统构建方法。
技术介绍
推荐系统是智能电子商务系统中不可或缺的一部分,通过用户的历史浏览数据向用户推荐可能所需的项目是其主要任务。常用的推荐系统方法有协同过滤、矩阵分解和基于内容的排序等。然而,这些常用的推荐方法往往把用户的偏好建模为一个静态的过程,通过一些贪婪的排序方法向用户进行推荐,不能考虑用户偏好的动态变化。最近的一些研究表明,将推荐系统建模为一个强化学习问题,通过最大化用户未来可能给出的总评分作为优化目标,可以有效地对用户的偏好进行动态建模,提升推荐系统的表现与性能。然而,由于推荐系统自身存在的一些特点,采用强化学习方法进行推荐系统构建的过程中,常常面临着如下两个问题:1)推荐系统中推荐的项目数往往巨大,用强化学习来解决时,需要考虑这种巨大的动作空间问题带来的优化困难;2)对用户观测到的状态建模,在用户与推荐系统交互的过程中,会产生用户反馈的时序信息,如何将这种时序信息提取并建模用户的状态、描述用户的行 ...
【技术保护点】
1.一种基于深度强化学习的推荐系统构建方法,其特征在于包括如下步骤:/nS1)建立用户与推荐系统交互的特征表征集合/n用户与推荐系统交互的过程采用马尔可夫决策过程<S,A,P,R>表示,其中,S为状态集合,即用户与推荐系统交互的特征表征集合,A为用户可选择的项目集合,在t时刻下选择的项目记为a
【技术特征摘要】
1.一种基于深度强化学习的推荐系统构建方法,其特征在于包括如下步骤:
S1)建立用户与推荐系统交互的特征表征集合
用户与推荐系统交互的过程采用马尔可夫决策过程<S,A,P,R>表示,其中,S为状态集合,即用户与推荐系统交互的特征表征集合,A为用户可选择的项目集合,在t时刻下选择的项目记为at,P(st+1|st,at)为状态转移函数,即当前时刻状态st下用户选择项目at后下一时刻状态st+1的概率,R(st+1|st,at)为回报函数,即用户对当前状态st选择项目at后用户的评分,推荐系统的优化目标是最大化用户的期望总评分;
S2)建立用户与推荐系统交互的状态表征
根据所有用户的历史记录,建立U行M列的用户评分矩阵,其中,U为用户的总数,M为推荐项目的总数,评分矩阵的第i行第j列表示第i个用户对第j个项目的评分,如果用户没有评价过该项目则评分设为0,用该矩阵的每一列作为每个推荐项目的特征;
根据每个用户与推荐系统交互过程中的历史记录,采用深度神经网络进行特征抽取,作为用户与推荐系统交互的状态表征;
S3)推荐系统的建模
采用演员-批评家(Actor-critic)框架对推荐系统进行建模,其中,演员模块输入当前观测到的用户状态,输出基于用户的状态所给予的推荐项目,批评家模块接收当前状态及选择项目的表示作为输入,负责对当前用户观测到的状态下的可选择条目进行评估,评估其未来可能收到的期望回报;
演员模块和批评家模块均采用神经网络表示;
S4)推荐系统的训练
采用确定性策略梯度算法DDPG,利用用户的历史数据训练演员网络和批评家网络;
S5)推荐系统的部署
在线上部署平台上,利用步骤S4)训练好的演员网络,根据用户的当前状态,结合演员模块与批评家模块的输出值,推荐相应的项目。<...
【专利技术属性】
技术研发人员:石龙翔,金苍宏,李卓蓉,吴明晖,
申请(专利权)人:浙大城市学院,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。