基于最优资源分配算法的蒙特卡罗树搜索方法技术

技术编号:19436438 阅读:41 留言:0更新日期:2018-11-14 13:08
本发明专利技术公开了一种基于最优资源分配算法的蒙特卡罗树搜索方法,仅对蒙特卡罗树中根节点的子节点的选择策略进行了调整,即采用最优资源分配算法对各子节点所对应的蒙特卡罗子树进行仿真计算资源的分配,而各子节点所对应的蒙特卡罗树的搜索方法,比如树策略等等,均保持不变,这使得本发明专利技术的方法可以方便与蒙特卡洛树搜索方法结合,同时,还能提高蒙特卡罗树搜索在计算资源有限情况下的决策性能。本发明专利技术的方法适用于所有具体形式的蒙特卡罗树搜索方法,具有广泛的应用范围。

【技术实现步骤摘要】
基于最优资源分配算法的蒙特卡罗树搜索方法
本专利技术涉及博弈
,尤其涉及一种基于最优资源分配算法的蒙特卡罗树搜索方法。
技术介绍
马尔科夫决策过程(Markovdecisionprocess,MDP)利用{状态集,动作集,转移模型,回报函数}的四元组来对环境已知的顺序决策问题进行建模。完整的决策过程可以用{状态,动作}对的序列来描述。其中每个下一个状态s′由依赖于当前状态s和所选取的动作a的概率分布来决定。MDP中的策略指的是从状态空间到动作空间的映射关系,即在每个状态下选取特定动作的规则。MDP的目标即是找出使得期望回报最高的策略。当环境中状态数目过多或者难以知道时,策略无法被有效评估。解决这一问题的有效措施之一是采用蒙特卡罗树搜索(MCTS)估计每一对{状态,动作}的值函数以替代策略评估。蒙特卡罗树搜索是一种通过在决策空间中随机抽样并根据结果构建搜索树,从而在给定域中找到最佳决策的方法。它已经对人工智能(AI)产生了深远的影响,理论上MCTS可以应用于任何可以用{状态,动作}对描述以及用于通过仿真来预测结果的领域。由于MCTS在围棋游戏(Go)方面取得的巨大成功以及在其他许多问题上的潜在应用,研究者们对MCTS的研究兴趣急剧上升。MCTS的出现可以追溯到1928年,JohnvonNeumann提出minimax理论为对抗树搜索(AdversarialTreeSearch)方法铺平了道路。而后,蒙特卡罗(MonteCarlo)方法在20世纪40年代被正式地作为通过随机采样来处理不太适合于树搜索定义所明确的问题的方法。最终,RémiCoulomb于2006年结合了这两种方法并提出了MCTS,为Go中的移动规划提供决策。至此之后,MCTS被广泛研究且出现了很多变种形式,比如置信上限树(UCT)、单选手或多选手的MCTS、实时MCTS等等。同时,MCTS的树策略(TreePolicy)以及其他方面都得到了改进和增强。然而基于蒙特卡罗的方法有一个共同点,即需要通过大量的仿真(Simulation)实验来统计所面对的问题的性质。在计算资源较少的情况下,即使面对中等复杂度的问题,蒙特卡罗树搜索过程中部分关键的状态节点或者动作边也可能无法被访问,这也导致了MCTS在较少计算资源的情况下表现较差的困境。
技术实现思路
本专利技术的目的是提供一种基于最优资源分配算法的蒙特卡罗树搜索方法,可以在计算资源有限的情况下,使得蒙特卡罗树搜索的性能得到较大提升。本专利技术的目的是通过以下技术方案实现的:一种基于最优资源分配算法的蒙特卡罗树搜索方法,包括:以待决策问题的初始状态作为蒙特卡罗树的根节点R0,假设对应的动作空间有n个动作,则由此形成根节点R0的n个子节点,每一子节点作为一个子蒙特卡罗树的根节点,且每一子节点作为最优资源分配算法的决策方案;对各决策方案分配初始计算资源,以此对各决策方案所对应的子蒙特卡罗树进行相应计算资源量的蒙特卡罗树搜索迭代计算,并记录每次迭代的收益;判断第l轮后所有决策方案已使用的计算资源总和是否不小于最大可用计算资源T;其中,表示一个决策方案在第l轮分配计算资源后的总计算资源;若否,则增加计算资源Δ,利用最优资源分配算法依据各决策方案历史收益,来确定第l+1轮计算时各决策方案实际可用的计算资源量,并执行与之前步骤相同的迭代计算;若是,则结束蒙特卡罗树搜索过程,从而确定由平均性能表现最好的决策方案所对应的动作。由上述本专利技术提供的技术方案可以看出,仅对蒙特卡罗树中根节点的子节点的选择策略进行了调整,即采用最优资源分配算法对各子节点所对应的蒙特卡罗子树进行仿真计算资源的分配,而各子节点所对应的蒙特卡罗树的搜索方法,比如树策略等等,均保持不变,这使得本专利技术的方法可以方便与蒙特卡洛树搜索方法结合,同时,还能提高蒙特卡罗树搜索在计算资源有限情况下的决策性能。本专利技术的方法适用于所有具体形式的蒙特卡罗树搜索方法,具有广泛的应用范围。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种基于最优资源分配算法的蒙特卡罗树搜索方法的流程图;图2为本专利技术实施例提供的基于最优资源分配算法的蒙特卡罗树搜索示意图;图3为本专利技术实施例提供的对子节点进行蒙特卡罗树搜索过程示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种基于最优资源分配(OptimalComputingBudgetAllocation,OCBA)算法的蒙特卡罗树搜索方法,其针对蒙特卡罗树在计算资源有限的情况下决策性能较差的问题,该方法以蒙特卡罗树根节点下的各子节点为决策方案,依据最优资源分配算法更适当地对各决策方案分配计算资源以进行蒙特卡罗树搜索,使得在计算资源有限的情况下,蒙特卡罗树搜索的性能可以得到较大提升。本专利技术主要流程如图1所示,其主要包括如下几个部分:1、以待决策问题的初始状态作为蒙特卡罗树的根节点R0,假设对应的动作空间有n个动作,则由此形成根节点R0的n个子节点,每一子节点作为一个子蒙特卡罗树的根节点,且每一子节点作为最优资源分配算法的决策方案。本专利技术实施例中,假设对应的动作空间有n个动作,分别执行n个动作后,将转移到n个新的状态,也即形成根节点R0的n个子节点;将每一子节点作为一个子蒙特卡罗树的根节点,则共有n个相互独立的子蒙特卡罗树SMCTi,每一个子节点都作为最优资源分配算法的决策方案θi。2、对各决策方案分配初始计算资源,以此对各决策方案所对应的子蒙特卡罗树进行相应计算资源量的蒙特卡罗树搜索迭代计算,并记录每次迭代的收益。本专利技术实施例中,初始时,也即当l=0时,为各决策方案分配初始计算资源,同时对各决策方案所对应的子蒙特卡罗树进行相应计算资源量的蒙特卡罗树搜索迭代计算。为便于理解,本专利技术实施例中,计算资源可认为是蒙特卡罗树搜索的迭代次数;令l=0,对各决策方案所对应的子蒙特卡罗树SMCTi均进行N0次蒙特卡罗树搜索迭代计算,并记录每次迭代的收益。实际上在不同环境下,计算资源还可以理解为计算时间和存储空间等等。3、判断第l轮后所有决策方案已使用的计算资源总和是否不小于最大可用计算资源T。本专利技术实施例中,表示一个决策方案在第l轮分配计算资源后的总计算资源,也即该决策方案在第l轮和第l轮之前每轮使用的计算资源之和。4、增加计算资源Δ,利用最优资源分配算法依据各决策方案历史收益,来确定第l+1轮计算时各决策方案在第1到第l+1轮的总计算资源量,并确定各决策方案在第l+1轮实际可用的计算资源量,并执行与之前步骤2中相同的蒙特卡洛树搜索迭代计算。本专利技术实施例中,利用最优资源分配算法依据各决策方案历史收益的均值和方差将数量为的可用总计算资源分配给各决策方案,各决策方案在第l+1轮得到的计算资源量为和本文档来自技高网
...

【技术保护点】
1.一种基于最优资源分配算法的蒙特卡罗树搜索方法,其特征在于,包括:以待决策问题的初始状态作为蒙特卡罗树的根节点R0,假设对应的动作空间有n个动作,则由此形成根节点R0的n个子节点,每一子节点作为一个子蒙特卡罗树的根节点,且每一子节点作为最优资源分配算法的决策方案;对各决策方案分配初始计算资源,以此对各决策方案所对应的子蒙特卡罗树进行相应计算资源量的蒙特卡罗树搜索迭代计算,并记录每次迭代的收益;判断第l轮后所有决策方案已使用的计算资源总和

【技术特征摘要】
1.一种基于最优资源分配算法的蒙特卡罗树搜索方法,其特征在于,包括:以待决策问题的初始状态作为蒙特卡罗树的根节点R0,假设对应的动作空间有n个动作,则由此形成根节点R0的n个子节点,每一子节点作为一个子蒙特卡罗树的根节点,且每一子节点作为最优资源分配算法的决策方案;对各决策方案分配初始计算资源,以此对各决策方案所对应的子蒙特卡罗树进行相应计算资源量的蒙特卡罗树搜索迭代计算,并记录每次迭代的收益;判断第l轮后所有决策方案已使用的计算资源总和是否不小于最大可用计算资源T;其中,表示一个决策方案在第l轮分配计算资源后的总计算资源;若否,则增加计算资源Δ,利用最优资源分配算法依据各决策方案历史收益,来确定第l+1轮计算时各决策方案实际可用的计算资源量,并执行与之前步骤相同的迭代计算;若是,则结束蒙特卡罗树搜索过程,从而确定由平均性能表现最好的决策方案所对应的动作。2.根据权利要求1所述的一种基于最优资源分配算法的蒙特卡罗树搜索方法,其特征在于,分别执行n个动作后,将转移到n个新的状态,也即形成根节点R0的n个子节点;将每一子节点作为一个子蒙特卡罗树的根节点,则共有n个相互独立的子蒙特卡罗树SMCTi,每一个子节点都作为最优资源分配算法的决策方案θi。3.根据权利要求1所述的一种基于最优资源分配算法的蒙特卡罗树搜索方法,其特征在于,初始时,为各决策方案分配初始计算资源即,对各决策方案所对应的子蒙特卡罗树SMCT...

【专利技术属性】
技术研发人员:陈子豪李斌李厚强
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1