基于最优资源分配算法的蒙特卡罗树搜索方法技术

技术编号：19436438 阅读：41 留言：0更新日期：2018-11-14 13:08

本发明专利技术公开了一种基于最优资源分配算法的蒙特卡罗树搜索方法，仅对蒙特卡罗树中根节点的子节点的选择策略进行了调整，即采用最优资源分配算法对各子节点所对应的蒙特卡罗子树进行仿真计算资源的分配，而各子节点所对应的蒙特卡罗树的搜索方法，比如树策略等等，均保持不变，这使得本发明专利技术的方法可以方便与蒙特卡洛树搜索方法结合，同时，还能提高蒙特卡罗树搜索在计算资源有限情况下的决策性能。本发明专利技术的方法适用于所有具体形式的蒙特卡罗树搜索方法，具有广泛的应用范围。

全部详细技术资料下载

【技术实现步骤摘要】
基于最优资源分配算法的蒙特卡罗树搜索方法
本专利技术涉及博弈
，尤其涉及一种基于最优资源分配算法的蒙特卡罗树搜索方法。
技术介绍
马尔科夫决策过程(Markovdecisionprocess，MDP)利用{状态集，动作集，转移模型，回报函数}的四元组来对环境已知的顺序决策问题进行建模。完整的决策过程可以用{状态，动作}对的序列来描述。其中每个下一个状态s′由依赖于当前状态s和所选取的动作a的概率分布来决定。MDP中的策略指的是从状态空间到动作空间的映射关系，即在每个状态下选取特定动作的规则。MDP的目标即是找出使得期望回报最高的策略。当环境中状态数目过多或者难以知道时，策略无法被有效评估。解决这一问题的有效措施之一是采用蒙特卡罗树搜索(MCTS)估计每一对{状态，动作}的值函数以替代策略评估。蒙特卡罗树搜索是一种通过在决策空间中随机抽样并根据结果构建搜索树，从而在给定域中找到最佳决策的方法。它已经对人工智能(AI)产生了深远的影响，理论上MCTS可以应用于任何可以用{状态，动作}对描述以及用于通过仿真来预测结果的领域。由于MCTS在围棋游戏(Go)方面取得的巨大成功以及在其他许多问题上的潜在应用，研究者们对MCTS的研究兴趣急剧上升。MCTS的出现可以追溯到1928年，JohnvonNeumann提出minimax理论为对抗树搜索(AdversarialTreeSearch)方法铺平了道路。而后，蒙特卡罗(MonteCarlo)方法在20世纪40年代被正式地作为通过随机采样来处理不太适合于树搜索定义所明确的问题的方法。最终，RémiCoulomb于2...

【技术保护点】
1.一种基于最优资源分配算法的蒙特卡罗树搜索方法，其特征在于，包括：以待决策问题的初始状态作为蒙特卡罗树的根节点R0，假设对应的动作空间有n个动作，则由此形成根节点R0的n个子节点，每一子节点作为一个子蒙特卡罗树的根节点，且每一子节点作为最优资源分配算法的决策方案；对各决策方案分配初始计算资源，以此对各决策方案所对应的子蒙特卡罗树进行相应计算资源量的蒙特卡罗树搜索迭代计算，并记录每次迭代的收益；判断第l轮后所有决策方案已使用的计算资源总和

【技术特征摘要】
1.一种基于最优资源分配算法的蒙特卡罗树搜索方法，其特征在于，包括：以待决策问题的初始状态作为蒙特卡罗树的根节点R0，假设对应的动作空间有n个动作，则由此形成根节点R0的n个子节点，每一子节点作为一个子蒙特卡罗树的根节点，且每一子节点作为最优资源分配算法的决策方案；对各决策方案分配初始计算资源，以此对各决策方案所对应的子蒙特卡罗树进行相应计算资源量的蒙特卡罗树搜索迭代计算，并记录每次迭代的收益；判断第l轮后所有决策方案已使用的计算资源总和是否不小于最大可用计算资源T；其中，表示一个决策方案在第l轮分配计算资源后的总计算资源；若否，则增加计算资源Δ，利用最优资源分配算法依据各决策方案历史收益，来确定第l+1轮计算时各决策方案实际可用的计算资源量，并执行与之前步骤相同的迭代计算；若是，则结束蒙特卡罗树搜索过程，从而确定由平均性能表现最好的决策方案所对应的动作。2.根据权利要求1所述的一种基于最优资源分配算法的蒙特卡罗树搜索方法，其特征在于，分别执行n个动作后，将转移到n个新的状态，也即形成根节点R0的n个子节点；将每一子节点作为一个子蒙特卡罗树的根节点，则共有n个相互独立的子蒙特卡罗树SMCTi，每一个子节点都作为最优资源分配算法的决策方案θi。3.根据权利要求1所述的一种基于最优资源分配算法的蒙特卡罗树搜索方法，其特征在于，初始时，为各决策方案分配初始计算资源即，对各决策方案所对应的子蒙特卡罗树SMCT...

【专利技术属性】
技术研发人员：陈子豪，李斌，李厚强，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人