【技术实现步骤摘要】
异策学习方法、装置、电子设备以及介质
[0001]本公开涉及机器学习和人工智能领域,具体地,涉及异策学习方法、装置、电子设备以及介质。
技术介绍
[0002]很多实际场景中,我们只能依赖根据先前系统记录的数据进行学习。比如推荐系统中,大多时候都是依赖于先前推荐算法产生的数据学习新的算法。但是先前记录的数据通常是有偏差的。比如在推荐系统中,从先前记录的数据,我们只能得到用户在先前推荐算法推荐出的商品上的反馈,对于先前推荐算法没有推出的商品,我们无法知道用户对这些商品的反馈,其他场景类似。
[0003]异策学习(off
‑
policy learning)是一种很有效的从有偏差的先前记录的数据中学习新策略的方法。其中生成先前记录的数据的策略被称为先前策略(logging policy)。逆向倾向性得分矫正(Inverse Propensity Score reweighting)是最常用的异策学习方法之一。
技术实现思路
[0004]提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思 ...
【技术保护点】
【技术特征摘要】
1.一种异策学习方法,包括:通过使用第一策略对各条数据中收到的特征对商品的反馈进行加权平均得到第一策略的平均奖励,其中所述第一策略表示为给定特征选择商品的概率,并且所述第一策略选择的每个商品收到的正向反馈越多,则所述第一策略的平均奖励越高,表明所示第一策略越好;以及使用所述第一策略为给定特征选择商品,其中,使用第一策略对各条数据中收到的特征对商品的反馈进行加权平均,包括:使用第二策略对各条数据中收到的特征对商品的反馈与第一权重的乘积进行加权平均,其中所述第一权重为使用第一策略为给定特征选择商品的概率与使用第二策略为给定特征选择商品的概率的第一比值。2.根据权利要求1所述的异策学习方法,其中所述第一比值为使用第一策略为给定特征选择商品的概率与使用第二策略为给定特征选择商品的概率的估计值的第二比值与第二权重的乘积,其中所述第二权重为对使用第二策略为给定特征选择商品的概率的估计值的不确定性的补偿。3.根据权利要求2所述的异策学习方法,还包括:取使得第一策略的平均奖励的均方差最小时的值作为所述第二权重。4.根据权利要求2所述的异策学习方法,还包括:取使得第一策略的平均奖励的均方差的上限最小时的值作为所述第二权重。5.根据权利要求2
‑
4中任一项所述的异策学习方法,其中所述第二权重为使用第二策略为给定特征选择商品的概率的估计值与使用第二策略为给定特征选择商品的概率的第三比值。6.根据权利要求1所述的异策学习方法,还包括:以得到的所述第一策略的平均奖励作为优化目标学习更好的第一策略。7.一种异策学习装置,包括:加权平均单元,配置为通过使用第一策略对各条数据中收到的特征对商品的反馈进行加权平均得到第一策略的平均奖励,其中所述第一策略表示为给定特征选择商品的概率,并且所述第一策略选择的每个商品收到的正向反馈越多,则所述...
【专利技术属性】
技术研发人员:张晓颖,陈钧浦,李航,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。