基于上下文多臂赌博机的电商个性化推荐方法技术

技术编号:22001981 阅读:32 留言:0更新日期:2019-08-31 05:52
本发明专利技术公开了一种基于上下文多臂赌博机的电商个性化推荐方法,通过计算上下文信息与上下文多臂赌博机动作特征的相似度,将相似度与模型动作估计值结合为一个新的动作估计值,选择新的动作估计值最大的动作进行推荐。上下文赌博机模型利用的部分是选择相似度最大的动作,根据上下文信息进行推荐;探索的部分是选择估计值最大的动作,对应于推荐系统中的热门推荐,最后根据用户的反馈更新模型。本发明专利技术同时利用上下文信息和动作估计值进行动作选择,通过利用来最大化立即奖赏;通过探索发掘用户潜在偏好的信息,增加推荐内容的多样性。同时在上下文信息未知时,通过探索进行推荐,有效解决了推荐领域中的冷启动问题。

Personalized Recommendation Method for E-commerce Based on Context Dobby Gambling Machine

【技术实现步骤摘要】
基于上下文多臂赌博机的电商个性化推荐方法
本专利技术涉及一种电商个性化推荐方法,特别是涉及一种基于上下文多臂赌博机的电商个性化推荐方法。
技术介绍
强化学习是智能体从环境状态到行为映射的学习,用于解决序列决策问题。任何决策问题都涉及探索与利用,其中利用是根据当前已知知识经验选择最优策略,探索是尝试其他次优策略。利用能获得最大立即奖赏,但当学习不充分时,算法会陷入局部最优,而探索能充分学习各策略的奖赏,发现最优策略而不易使智能体陷入局部最优,有助于最大化累积回报,但探索需要花费更多的学习时间,同时减缓了算法的收敛速度,探索与利用实际是相互矛盾的。多臂赌博机(Multi-armedBandit,称为MAB)问题是强化学习中平衡探索与利用的经典问题,对应强化学习中单步学习任务。多臂赌博机的一个变体是上下文赌博机(ContextualMAB,称为CMAB),引入了上下文特征。CMAB动作的奖赏由上下文特征和动作共同决定,并且动作的奖赏满足独立同分布。目前三个最突出的上下文赌博机模型是:(1)奖赏与上下文特征满足利普西茨连续性(2)奖赏与上下文特征满足一种线性关系(3)奖赏回报满足一个固定策略本文档来自技高网...

【技术保护点】
1.一种基于上下文多臂赌博机的电商个性化推荐方法,其特征在于,包括以下步骤:S1、输入数据;S2、初始化上下文多臂赌博机模型的动作集合A和动作特征集合B,所述动作集合为待推荐信息集合,所述动作特征集合为待推荐信息特征集合;S3、设置上下文多臂赌博机模型动作估计值Q(i)为待推荐信息i的点击率、动作选择次数T(i)=0为待推荐信息i的推荐次数和累积回报Sum=0为待推荐信息i的点击量,其中i∈A;S4、获得当前所有的待推荐信息的点击率Q(i);S5、判断t时刻是否存在上下文信息xt,若存在则转入步骤S6,否则转入步骤S9,所述上下文信息xt为被推荐用户的用户兴趣偏好特征;S6、计算上下文信息xt...

【技术特征摘要】
1.一种基于上下文多臂赌博机的电商个性化推荐方法,其特征在于,包括以下步骤:S1、输入数据;S2、初始化上下文多臂赌博机模型的动作集合A和动作特征集合B,所述动作集合为待推荐信息集合,所述动作特征集合为待推荐信息特征集合;S3、设置上下文多臂赌博机模型动作估计值Q(i)为待推荐信息i的点击率、动作选择次数T(i)=0为待推荐信息i的推荐次数和累积回报Sum=0为待推荐信息i的点击量,其中i∈A;S4、获得当前所有的待推荐信息的点击率Q(i);S5、判断t时刻是否存在上下文信息xt,若存在则转入步骤S6,否则转入步骤S9,所述上下文信息xt为被推荐用户的用户兴趣偏好特征;S6、计算上下文信息xt与所有动作特征Bi相似度sim(i),其中i∈A;S7、根据相似度sim(i)和动作估计值Q(i),其中i∈A,计算新的动作估计值Q′;S8、根据新的动作估计值Q′进行推荐信息选择,t时刻选择动作k=argmaxiQ′(i),i∈A,转到步骤S10;S9、根据动作估计值Q进行动作选择,t时刻选择动作k=argmaxiQ(i),i∈A;S10、由t时刻用户反馈rt,更新累积回报Sum...

【专利技术属性】
技术研发人员:钟珊杨馨悦伏玉琛应文豪卫梦
申请(专利权)人:常熟理工学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1