当前位置: 首页 > 专利查询>苏州大学专利>正文

一种自适应的随机多臂决策问题计算方法及其装置制造方法及图纸

技术编号:15704702 阅读:95 留言:0更新日期:2017-06-26 09:09
本发明专利技术公开了一种自适应的随机多臂决策问题计算方法及其装置,包括初始化每个动作的估计值和选择次数;依据各个动作的估计值和选择次数,确定估计值最小的动作的选择次数m;按照w/(w+m

【技术实现步骤摘要】
一种自适应的随机多臂决策问题计算方法及其装置
本专利技术涉及随机多路选择学习优化领域,特别是涉及一种自适应的随机多臂决策问题计算方法及其装置。
技术介绍
多臂决策问题是强化学习中研究探索与利用平衡的经典问题。最早应用于诊治试验,近年来,关于多臂决策的应用越来越广泛,可应用于推荐系统,众包和智能电网等领域。随机多臂决策问题是一种经典的多臂决策问题,是众多新型多臂决策问题的基础。一个随机多臂决策问题中包括K个臂,一个臂对应一个动作,每个时间步选择一个动作,每选择一个动作之后,会获得一个随机奖赏,随机多臂决策问题的目标是在最大时间步内获得的累积奖赏越高越好。各个动作的奖赏相互独立并且服从均值为μ=[μ1,...,μK]的某种分布。μi为动作i的真实值,一个动作的真实值是选择该动作后期望得到的平均奖赏。由于随机多臂决策问题中,动作的真实值是未知的,故通常将一个动作在此刻之前的全部时间步中实际获得的平均奖赏作为该动作的估计值,然后根据估计值做出动作选择。每个时间步具体选择哪个动作一般有两种方式:(1)利用,选择目前为止已知估计值最高的动作;(2)探索,尝试其它未来奖赏可能更高的动作;而每个时间步进行利用还是探索,则需要考虑两者之间的平衡问题。现有的随机多臂决策问题中,ε贪心、软最大化和置信上界动作选择是三类经典的方法。ε贪心是在所有动作中均等探索,没有利用选择动作后获得的反馈信息。软最大化仅基于当前已知动作的估计值对各动作的选择概率进行分级,若某个动作在初期随机得到一个很低的奖赏,则该动作的选择概率就会很低,这样会导致该动作在之后很可能不会被选择,但该动作可能在后期的奖赏会很高,因此导致最后得到的累积奖赏并不是最好的。可见,ε贪心和软最大化的决策效果不够理想。而置信上界动作选择方法充分利用了动作的估计值和被选择的次数,每次都根据已有信息直接计算出要选择的动作,其计算负担相对较大。但是,置信上界动作选择方法必须在实验初期轮流选择所有动作各一次,因此当实验次数小于等于动作的数量时,置信上界动作选择方法将不适用。因此,如何提供一种决策效果好且适用范围广的自适应的随机多臂决策问题计算方法及其装置是本领域技术人员目前需要解决的问题。
技术实现思路
本专利技术的目的是提供一种自适应的随机多臂决策问题计算方法及其装置,能够均衡探索和利用的选择,并保证最终的决策效果,且适用范围广泛。为解决上述技术问题,本专利技术提供了一种自适应的随机多臂决策问题计算方法,包括:步骤s101:初始化每个动作的估计值和选择次数;步骤s102:依据当前各个所述动作的估计值和选择次数,确定估计值最小的动作的选择次数m,得出当前时间步的探索概率w/(w+m2);步骤s103:按照w/(w+m2)的概率进行探索操作,1-w/(w+m2)的概率进行利用操作;其中,w为预设算法参数,所述探索操作为从当前选择次数最少的若干个动作中随机选取一个动作作为下一时间步的动作,所述利用操作为选择当前估计值最大的动作作为下一时间步的动作;步骤s104:下一时间步的动作选择完成后,生成随机奖赏;步骤s105:依据所述随机奖赏以及所选择的动作更新各个所述动作的估计值以及选择次数,返回步骤s102,直至完成预设最大时间步的动作后,进入步骤s106;步骤s106:统计所述预设最大时间步内得到的随机奖赏之和,得到累积奖赏。优选地,初始化后的估计值和选择次数均为0。优选地,w∈[0.1,1]。为解决上述技术问题,本专利技术还提供了一种自适应的随机多臂决策问题计算装置,包括:初始化模块,用于初始化每个动作的估计值和选择次数;探索概率模块,用于依据当前各个所述动作的估计值和选择次数,确定估计值最小的动作的选择次数m,得出当前时间步的探索概率w/(w+m2);触发操作选择模块;所述操作选择模块,用于按照w/(w+m2)的概率进行探索操作,1-w/(w+m2)的概率进行利用操作;其中,w为预设算法参数,所述探索操作为从当前选择次数最少的若干个动作中随机选取一个动作作为下一时间步的动作,所述利用操作为选择当前估计值最大的动作作为下一时间步的动作;下一时间步的动作选择完成后,触发奖赏生成模块;所述奖赏生成模块,用于生成随机奖赏;更新模块,用于依据所述随机奖赏以及所选择的动作更新各个所述动作的估计值以及选择次数,并触发所述次数选择模块,直至完成预设最大时间步的动作后,触发统计模块;所述统计模块,用于统计所述预设最大时间步内得到的随机奖赏之和,得到累积奖赏。优选地,所述初始化模块具体用于令每个所述动作的估计值和选择次数均为0。本专利技术提供了一种自适应的随机多臂决策问题计算方法及其装置,确定当前各个动作中估计值最小的动作的选择次数m,然后按照w/(w+m2)的概率进行探索操作,1-w/(w+m2)的概率进行利用操作,选择动作后,得到随机奖赏,并据此更新各个动作的估计值和选择次数,重复操作,直至得到最后的累积奖赏。由于在初始时,许多动作未被选择到,因此不了解这些动作对最后累积奖赏的贡献有多大,故此时应主要进行探索操作,采用探索操作的概率较高;之后随着选择的进行,大部分动作或全部动作已经被选择过了,此时各个动作的估计值也都知道了,故此时应将选择的动作收敛至估计值最大的动作上,即动作的选择操作收敛至利用操作,故进行探索操作的概率应逐渐减少。本专利技术中w/(w+m2)为当前估计值最小的动作的选择次数,由于估计值最小的动作对累积奖赏的贡献最少,故应尽量避免对其进行选择,故应该增加利用操作的概率,依据随机统计规律可知,在进行大量次数的选择后,m的数值会逐渐增大,选择概率会逐渐收敛至利用操作上,从而提高最终获得的累积奖赏,决策效果好,且本专利技术不需要在实验初期轮流选择所有动作各一次,相比现有的方式,适用范围更加广泛。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的一种自适应的随机多臂决策问题计算方法的过程的流程图;图2为本专利技术提供的一种自适应的随机多臂决策问题计算装置的结构示意图。具体实施方式本专利技术的核心是提供一种自适应的随机多臂决策问题计算方法及其装置,能够均衡探索和利用的选择,并保证最终的决策效果,且适用范围广泛。为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供了一种自适应的随机多臂决策问题计算方法,参见图1所示,图1为本专利技术提供的一种自适应的随机多臂决策问题计算方法的过程的流程图;该方法包括:步骤s101:初始化每个动作的估计值和选择次数;步骤s102:依据当前各个动作的估计值和选择次数,确定估计值最小的动作的选择次数m,得出当前时间步的探索概率w/(w+m2);步骤s103:按照w/(w+m2)的概率进行探索操作,1-w/(w+m2)的概率进本文档来自技高网
...
一种自适应的随机多臂决策问题计算方法及其装置

【技术保护点】
一种自适应的随机多臂决策问题计算方法,其特征在于,包括:步骤s101:初始化每个动作的估计值和选择次数;步骤s102:依据当前各个所述动作的估计值和选择次数,确定估计值最小的动作的选择次数m,得出当前时间步的探索概率w/(w+m

【技术特征摘要】
1.一种自适应的随机多臂决策问题计算方法,其特征在于,包括:步骤s101:初始化每个动作的估计值和选择次数;步骤s102:依据当前各个所述动作的估计值和选择次数,确定估计值最小的动作的选择次数m,得出当前时间步的探索概率w/(w+m2);步骤s103:按照w/(w+m2)的概率进行探索操作,1-w/(w+m2)的概率进行利用操作;其中,w为预设算法参数,所述探索操作为从当前选择次数最少的若干个动作中随机选取一个动作作为下一时间步的动作,所述利用操作为选择当前估计值最大的动作作为下一时间步的动作;步骤s104:下一时间步的动作选择完成后,生成随机奖赏;步骤s105:依据所述随机奖赏以及所选择的动作更新各个所述动作的估计值以及选择次数,返回步骤s102,直至完成预设最大时间步的动作后,进入步骤s106;步骤s106:统计所述预设最大时间步内得到的随机奖赏之和,得到累积奖赏。2.根据权利要求1所述的方法,其特征在于,初始化后的估计值和选择次数均为0。3.根据权利要求1所述的方法,其特征在于,w∈[0.1,1]。4.一种自适应...

【专利技术属性】
技术研发人员:周倩章晓芳章鹏
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1