当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于用户行为模型的推荐策略优化方法和系统技术方案

技术编号:34563663 阅读:60 留言:0更新日期:2022-08-17 12:52
本发明专利技术公开了一种基于用户行为模型的推荐策略优化方法和系统,基于生成对抗模仿学习算法从用户与视频推荐系统的离线交互数据中构建出能够反映用户行为偏好的用户行为模型。通过让强化学习智能体与用户行为模型进行交互收集数据,并基于强化学习算法PPO来优化视频推荐策略的相关指标得到最优推荐策略,降低了强化学习直接在推荐系统上试错带来的成本代价,并且显著地提升了推荐策略的即时交互指标和长期交互指标。该最优推荐策略部署到真实的推荐系统进行在线评估,若相关指标不符合系统的要求,则继续收集新的交互数据并重复用户模拟器构建过程和推荐策略优化过程,直至推荐策略的相关指标满足系统要求。策略的相关指标满足系统要求。策略的相关指标满足系统要求。

【技术实现步骤摘要】
一种基于用户行为模型的推荐策略优化方法和系统


[0001]本专利技术涉及一种基于用户行为模型的推荐策略优化方法和系统,属于系统数据处理


技术介绍

[0002]短视频与现代人的生活联系日益紧密,一个主流的短视频推荐系统每天需要进行数百亿次决策以满足数亿级用户的个性化需求,无论是从用户规模、视频数量、还是技术深度等方面,推荐系统都面临着更巨大的挑战。现代短视频推荐系统通常通过召回、粗排、精排、重排和人工规则过滤等一系列流程从后台大量的视频池中筛选出符合用户兴趣的视频,并推荐给用户。现有的视频推荐策略主要通过深度学习模型预测用户的即时反馈指标(如观看时间、点击率等),并应用监督学习的方式优化这些即时的反馈指标。现有的视频推荐策略优化方法通常通过优化短期的反馈指标来间接地优化长期的反馈指标(如用户满意度和留存率等),但由于长期的反馈指标存在系稀疏性和延迟性,短期的反馈指标与长期的反馈指标之间的相关性往往很难得到准确的度量,因此这种间接的优化方式面临瓶颈。
[0003]相比于监督学习侧重于模型的预测能力,强化学习更关注模型的序列决策能力本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于用户行为模型的推荐策略优化方法,其特征在于,包括:1)生成离线用户

推荐系统交互数据集;从推荐系统的日志系统中检索用户在一段时间内的交互数据,对同一个用户ID 的相应交互数据根据时间戳进行排序后,得到用户与推荐系统的交互轨迹数据,交互轨迹数据构成用户

推荐系统交互数据集;2)使用生成对抗模仿学习算法训练用户行为模型;3)训练推荐策略;初始化一个推荐策略,与训练好的用户行为模型进行交互收集数据,使用强化学习算法 PPO 优化推荐策略的指标,直至收敛或达到给定训练次数,输出最优推荐策略;4)部署和评估最优推荐策略;将最优推荐策略部署到推荐系统中,利用在线数据评估推荐策略的交互指标是否符合系统的要求;5)若在线评估的结果不符合系统要求,则继续收集新的用户

推荐系统交互数据,并重复流程1)—— 4),直到推荐策略的相关指标满足系统要求。2.根据权利要求1所述的基于用户行为模型的推荐策略优化方法,其特征在于,用户行为模型的训练步骤如下:步骤1:初始化用户行为网络、推荐策略网络、判别器D;步骤2:从用户

推荐系统交互数据集中采样一批数据;每条数据为轨迹中的出发点,它包含该数据对应的时间戳信息、用户点击历史列表、用户上一时刻的点击反馈信息,对用户点击历史列表经过 Embedding Model 转换成对应的用户点击历史状态;步骤3:将时间戳信息、用户点击历史状态和用户上一时刻的点击反馈输入推荐策略网络,生成对应的候选视频信息;步骤4:将用户点击历史状态和候选视频输入到用户行为网络中,得到用户对候选视频的点击反馈信息和下一次请求的间隔时间信息;步骤 5: 将当前的时间戳叠加上对于下一次请求的间隔时间信息可以得到下一次请求的时间戳信息,并迭代步骤 3至步骤 5,生成一批用户与推荐策略网络交互的轨迹数据 D
g
;步骤6:更新判别器参数;从真实的用户与视频推荐系统的历史离线交互数据集中采样一批真实的用户与推荐系统的交互轨迹数据D
r
,并将生成的轨迹数据D
g 同时输入判别器 D,优化以下目标损失函数:其中,τ代表数据集中的轨迹,log 表示对自然底数 e 取对数,判别器D最大化在真实的用户与推荐系统的交互轨迹数据D
r
下的判别器得分,同时最小化在生成的用户与推荐策略网络交互轨迹数据D
g
下的判别器得分,区分出轨迹是来自交互轨迹数据D
r
还是来自于交互轨迹数据D
g
;步骤7:更新用户行为网络参数,迭代步骤2至步骤5,生成一批用户行为网络与推荐策略网络交互生成的轨迹数据集 {τ1,τ2,

,τ
N
},优化目标为生成交互轨迹数据上的带折扣累积奖励:
其中,为奖励的折扣系数,设置为(0,1]之间的实数,t时刻的奖励...

【专利技术属性】
技术研发人员:俞扬黄睿詹德川周志华
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1