【技术实现步骤摘要】
一种基于深度强化学习的内容推荐方法及装置
本专利技术涉及互联网
,尤其涉及一种基于深度强化学习的内容推荐方法及装置。
技术介绍
为了在海量数据中准确定位用户感兴趣的目标数据,现有技术中提供了多种内容推荐方法。比如,Facebook采用了GBDT与逻辑回归的混合排序方法,Google采用了基于深度学习的wideanddeep的机器学习排序方法,Netflix采用了基于session信息的利用RNN的机器学习排序方法。然而上述用于进行内容推荐的方法均属于逻辑回归的单条内容推荐的方法。这种单条内容推荐方法以选定的单个推荐内容的预期效果的最大化为推荐目标,并未将选定多个推荐内容时推荐内容之间的关系列入考量。在很多应用场景中,需要为用户提供多个推荐内容,即需要为用户提供推荐内容的组合,若使用现有技术中的单条内容推荐方法难以实现推荐内容组合的预期效果的最大化。
技术实现思路
为了解决上述技术问题,本专利技术提出了一种基于深度强化学习的内容推荐方法及装置。本专利技术具体是以如下技术方案实现的:第一方面,一种基于深度强化学习的内容推荐方法,包括:对深度强化函数Q进行训练得到对于 ...
【技术保护点】
1.一种基于深度强化学习的内容推荐方法,其特征在于,包括:对深度强化函数Q进行训练得到对于深度强化函数Q中参数集合θ的训练结果;获取推荐内容有序候选集A和选定推荐内容的条数N;基于参数集合θ的训练结果,使用深度强化函数Q计算候选集A中各个推荐内容的综合奖励值;每个推荐内容的综合奖励值与所述推荐内容和排序在所述推荐内容之后的其它推荐内容有关;根据计算结果选择N条推荐内容作为选定推荐内容并按序输出。
【技术特征摘要】
1.一种基于深度强化学习的内容推荐方法,其特征在于,包括:对深度强化函数Q进行训练得到对于深度强化函数Q中参数集合θ的训练结果;获取推荐内容有序候选集A和选定推荐内容的条数N;基于参数集合θ的训练结果,使用深度强化函数Q计算候选集A中各个推荐内容的综合奖励值;每个推荐内容的综合奖励值与所述推荐内容和排序在所述推荐内容之后的其它推荐内容有关;根据计算结果选择N条推荐内容作为选定推荐内容并按序输出。2.根据权利要求1所述的方法,其特征在于,所述根据计算结果选择N条推荐内容作为选定推荐内容并按序输出包括:对全部推荐内容按照综合奖励值进行排序;根据排序的结果输出选定推荐内容。3.根据权利要求1所述的方法,其特征在于,所述根据计算结果选择N条推荐内容作为选定推荐内容并按序输出包括:将综合奖励值最大的推荐内容作为选定推荐内容;输出所述选定推荐内容,并在所述候选集A中删除所述选定推荐内容;判断输出的选定推荐内容的数量是否达到预设阈值,若否,则重新计算候选集A中各个推荐内容的综合奖励值,并重复执行将综合奖励值最大的推荐内容作为选定推荐内容的步骤;若是,则流程结束。4.根据权利要求1所述的方法,其特征在于,所述对深度强化函数Q进行训练得到对于深度强化函数Q中参数集合θ的训练结果包括:获取参数集合θ的初始状态;获取推荐内容的有序训练样本S;获取初始环境s(1)和迭代次数M;以初始环境s(1)为基础,基于参数集合θ的当前状态对应的深度强化函数Q计算有序训练样本S中各个推荐内容的综合奖励值,并根据计算结果得到参数集合θ的修正状态;迭代次数自增一并判断迭代次数是否到达M;若是,则将所述参数集合θ的修正状态作为参数集合θ的训练结果;若否,则将所述参数集合θ的修正状态作为参数集合θ的当前状态,重复执行下述步骤:以初始环境s(1)为基础,基于参数集合θ的当前状态对应的深度强化函数Q计算有序训练样本S中各个推荐内容的综合奖励值,并根据计算结果得到参数集合θ的修正状态。5.根据权利要求4所述的方法,其特征在于,所述以初始环境s(1)为基础,基于参数集合θ的当前状态对应的深度强化函数Q计算有序训练样本S中各个推荐内容的综合奖励值,并根据计算结果得到参数集合θ的修正状态包括:选取当前推荐内容a(t)并获取当前环境s(t);模拟当前推荐内容a(t)被推荐的过程得到奖励值r(t)和环境s(t+1);根据参数集合θ的当前状态对应的深度强化函数Q和奖励值r(t)计算当前推荐内容对应的综合奖励值;基于预设目标函数使用梯度状态下降法得到参数集合θ的修正状态;所述目标函数与深度强化函数Q有关;判断当前推荐内容是否为有序训练样本S的最后一个,若是,则输出得到的参数集合θ的修正状态,若否,则以参数集合θ的修正状态为参数集合θ的当前状态,t自增一并重复执行下述步骤:选取当前推荐内容a(t)并获取当前环境s(t)。6.根据权利要求5所述的方法,其特征在于:深度强化函数Q被表示为其中,r(i)为推荐内容a(i)对应的直接奖励值,其基于参数集合θ的当前状态和推荐内容a(i)得到;所述目标函数为7.一种基于深度强化学习的内容推荐装置,...
【专利技术属性】
技术研发人员:王瑞,夏锋,林乐宇,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。