【技术实现步骤摘要】
一种序贯同步时序蒙特卡洛搜索算法
本专利技术涉及机器博弈搜索领域,尤其涉及一种蒙特卡洛树搜索的算法。
技术介绍
蒙特卡洛方法,也称统计模拟方法、随机抽样技术,是基于“随机数”、以概率统计理论为基础的一种非常重要已经被广泛应用的数值计算方法。二十世纪七十年代,蒙特卡洛方法的理论研究达到顶峰,从最开始的核研究到目前,美国的理论和实践发展均领先于其他国家,处于世界较高水平,伴随着信息技术的发展,其他国家也先后开始了蒙特卡洛的研究程序。近些年,国内外众多单位和高校大量使用蒙特卡洛程序,开启蒙特卡洛方法研究,大力推动了国内蒙特卡洛方法和软件的发展,在处理各大学科的实际问题研究中,获得了巨大的成效和理论知识。蒙特卡洛树搜索的算法框架可以在没有任何关于博弈游戏除基本规则外的知识的情况下进行有效工作,意味着一个简单的蒙特卡洛树搜索实现可以重用在很多的博弈游戏中,只需要进行微小的调整。另外,蒙特卡洛树搜索执行一种非对称的树的适应搜索空间拓扑结构的增长,这个算法会更频繁地访问更加有趣的节点,并聚焦其搜索时间在更加相关的树的部分,这使得蒙特卡洛树搜索更加适合那些有着更大的分支因子的博弈 ...
【技术保护点】
1.一种序贯同步时序蒙特卡洛搜索算法,所述搜索算法适用于一种搜索系统,该搜索系统包括搜索服务器、搜索入口及搜索装置,其特征在于,所述搜索算法包括以下步骤:步骤1‑1:设计一种博弈树结构,更改标准蒙特卡洛博弈树节点存储信息和连接边的意义,将标准蒙特卡洛博弈树上含有博弈各方信息的多层节点压缩到同一层,令{S1,S2,S3,S4,...}表示每次树搜索后的节点,{a1,a2,b1,b2}表示双方动作组合,使新的博弈树在每一次树搜索时都会得到每个动作执行后的转移节点,节点信息由原来存储的单方信息变为各方信息,节点间的每条连接边表示博弈各方合法动作组合,形式如:S1→S2∈{Sa1, ...
【技术特征摘要】
1.一种序贯同步时序蒙特卡洛搜索算法,所述搜索算法适用于一种搜索系统,该搜索系统包括搜索服务器、搜索入口及搜索装置,其特征在于,所述搜索算法包括以下步骤:步骤1-1:设计一种博弈树结构,更改标准蒙特卡洛博弈树节点存储信息和连接边的意义,将标准蒙特卡洛博弈树上含有博弈各方信息的多层节点压缩到同一层,令{S1,S2,S3,S4,...}表示每次树搜索后的节点,{a1,a2,b1,b2}表示双方动作组合,使新的博弈树在每一次树搜索时都会得到每个动作执行后的转移节点,节点信息由原来存储的单方信息变为各方信息,节点间的每条连接边表示博弈各方合法动作组合,形式如:S1→S2∈{Sa1,Sa2,Sb1,Sb2};步骤1-2:在新的博弈树中每一层的节点按固定的时间周期进行划分,对于执行时间不同的动作,会出现跨时间周期进行树搜索的情况,其执行完的状态和其他动作执行完的状态处于不同时间周期内,即在不同层内,形式如:其中动作b2执行后的状态Sb2在其出现的周期内进行收益的计算。2.根据权利要求1所述的搜索算法,其特征在于:步骤1-2中所述树搜索加入有时序控制部分,该部分包括以下步骤:步骤2-1:在博弈树中加入时间轴,将时间轴按固定的时间周期T进行划分,保证博弈各方的状态都严格落在相应的固定时间周期节点上,博弈各方严格按照固定的时间节点做出决策;步骤2-2:当某一动作需要执行多个时间周期,在其执行过程中的每个时间节点上设置虚拟节点,形成完整的序贯同步时序蒙特卡洛博弈树。3.根据权利要求1或2所述的搜索算法,其特征在于:所述搜索算法的搜索过程至少包括选择、扩展、模拟、更新四个阶段。4.根据权利要求3所述的搜索算法,其特征在于:选择阶段序贯同步博弈问题在每个时间点上具有同步特性,博弈树中根据各方所选动作的组合来选择子节点,有以下三种选择方法:A引入策略网络PolicyNet,利用网络的学习能力在线学习决策动作分布,计算节点下子节点的状态的悔恨值regret,通过判断regret的大小对博弈方的选择进行指导;B针对中小规模(动作集合大小<=4)的问题,在线或离线计算不同状态的均衡解,将得到的均衡解存入表中,在选择时供博弈树查询,选择出最有利的子节点;C将A、B两种方法结合在一起,在搜索的开始时利用策略网络指导动作的选择,在博弈树...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。