【技术实现步骤摘要】
一种自适应的随机多臂决策问题计算方法及其装置
本专利技术涉及随机多路选择学习优化领域,特别是涉及一种自适应的随机多臂决策问题计算方法及其装置。
技术介绍
多臂决策问题是强化学习中研究探索与利用平衡的经典问题。最早应用于诊治试验,近年来,关于多臂决策的应用越来越广泛,可应用于推荐系统,众包和智能电网等领域。随机多臂决策问题是一种经典的多臂决策问题,是众多新型多臂决策问题的基础。一个随机多臂决策问题中包括K个臂,一个臂对应一个动作,每个时间步选择一个动作,每选择一个动作之后,会获得一个随机奖赏,随机多臂决策问题的目标是在最大时间步内获得的累积奖赏越高越好。各个动作的奖赏相互独立并且服从均值为μ=[μ1,...,μK]的某种分布。μi为动作i的真实值,一个动作的真实值是选择该动作后期望得到的平均奖赏。由于随机多臂决策问题中,动作的真实值是未知的,故通常将一个动作在此刻之前的全部时间步中实际获得的平均奖赏作为该动作的估计值,然后根据估计值做出动作选择。每个时间步具体选择哪个动作一般有两种方式:(1)利用,选择目前为止已知估计值最高的动作;(2)探索,尝试其它未来奖赏可能更 ...
【技术保护点】
一种自适应的随机多臂决策问题计算方法,其特征在于,包括:步骤s101:初始化每个动作的估计值和选择次数;步骤s102:依据当前各个所述动作的估计值和选择次数,确定估计值最小的动作的选择次数m,得出当前时间步的探索概率w/(w+m
【技术特征摘要】
1.一种自适应的随机多臂决策问题计算方法,其特征在于,包括:步骤s101:初始化每个动作的估计值和选择次数;步骤s102:依据当前各个所述动作的估计值和选择次数,确定估计值最小的动作的选择次数m,得出当前时间步的探索概率w/(w+m2);步骤s103:按照w/(w+m2)的概率进行探索操作,1-w/(w+m2)的概率进行利用操作;其中,w为预设算法参数,所述探索操作为从当前选择次数最少的若干个动作中随机选取一个动作作为下一时间步的动作,所述利用操作为选择当前估计值最大的动作作为下一时间步的动作;步骤s104:下一时间步的动作选择完成后,生成随机奖赏;步骤s105:依据所述随机奖赏以及所选择的动作更新各个所述动作的估计值以及选择次数,返回步骤s102,直至完成预设最大时间步的动作后,进入步骤s106;步骤s106:统计所述预设最大时间步内得到的随机奖赏之和,得到累积奖赏。2.根据权利要求1所述的方法,其特征在于,初始化后的估计值和选择次数均为0。3.根据权利要求1所述的方法,其特征在于,w∈[0.1,1]。4.一种自适应...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。