当前位置: 首页 > 专利查询>东北大学专利>正文

一种序贯同步时序蒙特卡洛搜索算法制造技术

技术编号:19779233 阅读:42 留言:0更新日期:2018-12-15 11:38
本发明专利技术公开了一种序贯同步时序蒙特卡洛搜索算法,所述搜索算法适用于一种搜索系统,所述搜索系统包括搜索服务器、搜索入口及搜索装置所述搜索算法包括以下步骤:设计一种博弈树结构,更改标准蒙特卡洛博弈树节点存储信息和连接边的意义,将标准蒙特卡洛博弈树上含有博弈各方信息的多层节点压缩到同一层;以及在新的博弈树中每一层的节点按固定的时间周期进行划分。通过本搜索算法在问题模型方面,实现了对序贯同步决策问题的良好建模;在搜索过程方面,使搜索更加贴近序贯同步决策博弈问题的同步特点。

【技术实现步骤摘要】
一种序贯同步时序蒙特卡洛搜索算法
本专利技术涉及机器博弈搜索领域,尤其涉及一种蒙特卡洛树搜索的算法。
技术介绍
蒙特卡洛方法,也称统计模拟方法、随机抽样技术,是基于“随机数”、以概率统计理论为基础的一种非常重要已经被广泛应用的数值计算方法。二十世纪七十年代,蒙特卡洛方法的理论研究达到顶峰,从最开始的核研究到目前,美国的理论和实践发展均领先于其他国家,处于世界较高水平,伴随着信息技术的发展,其他国家也先后开始了蒙特卡洛的研究程序。近些年,国内外众多单位和高校大量使用蒙特卡洛程序,开启蒙特卡洛方法研究,大力推动了国内蒙特卡洛方法和软件的发展,在处理各大学科的实际问题研究中,获得了巨大的成效和理论知识。蒙特卡洛树搜索的算法框架可以在没有任何关于博弈游戏除基本规则外的知识的情况下进行有效工作,意味着一个简单的蒙特卡洛树搜索实现可以重用在很多的博弈游戏中,只需要进行微小的调整。另外,蒙特卡洛树搜索执行一种非对称的树的适应搜索空间拓扑结构的增长,这个算法会更频繁地访问更加有趣的节点,并聚焦其搜索时间在更加相关的树的部分,这使得蒙特卡洛树搜索更加适合那些有着更大的分支因子的博弈。但很多模拟问题属于静态博弈问题,即博弈双方同时决策,而一般的蒙特卡洛方法是基于博弈双方交替决策来进行搜索的,所以需要在标准蒙特卡洛树搜索的基础上做一些必要的改进,来适应双方同时决策的模拟问题。
技术实现思路
针对现有技术存在的不足,本专利技术要解决的技术问题是提供一种序贯同步时序蒙特卡洛搜索算法,通过更改标准蒙特卡洛博弈树的结构,加入时间轴进行时序控制,解决时间驱动和序贯同步两个难题,实现了对序贯同步决策问题的良好建模;并且在搜索过程方面,通过多种计算纳什均衡的方法,通过主要改进蒙特卡洛树搜索算法流程中选择步骤,使搜索更加贴近序贯同步决策博弈问题的同步特点。本专利技术的技术方案是这样实现的:一种序贯同步时序蒙特卡洛搜索算法,所述搜索算法适用于一种搜索系统,该搜索系统包括搜索服务器、搜索入口及搜索装置,所述搜索算法包括以下步骤:步骤1-1:设计一种博弈树结构,更改标准蒙特卡洛博弈树节点存储信息和连接边的意义,将标准蒙特卡洛博弈树上含有博弈各方信息的多层节点压缩到同一层,令{S1,S2,S3,S4,...}表示每次树搜索后的节点,{a1,a2,b1,b2}表示双方动作组合,使新的博弈树在每一次树搜索时都会得到每个动作执行后的转移节点,节点信息由原来存储的单方信息变为各方信息,节点间的每条连接边表示博弈各方合法动作组合,形式如:步骤1-2:在新的博弈树中每一层的节点按固定的时间周期进行划分,对于执行时间不同的动作,会出现跨时间周期进行树搜索的情况,其执行完的状态和其他动作执行完的状态处于不同时间周期内,即在不同层内,形式如:其中动作b2执行后的状态Sb2在其出现的周期内进行收益的计算。进一步的,上述步骤1-2中所述树搜索加入有时序控制部分,该部分包括以下步骤:步骤2-1:在博弈树中加入时间轴,将时间轴按固定的时间周期T进行划分,保证博弈各方的状态都严格落在相应的固定时间周期节点上,博弈各方严格按照固定的时间节点做出决策;步骤2-2:当某一动作需要执行多个时间周期,在其执行过程中的每个时间节点上设置虚拟节点,形成完整的序贯同步时序蒙特卡洛博弈树。进一步的,所述搜索算法的搜索过程至少包括选择、扩展、模拟、更新四个阶段。更进一步的,选择阶段序贯同步博弈问题在每个时间点上具有同步特性,博弈树中根据各方所选动作的组合来选择子节点,有以下三种选择方法:A引入策略网络PolicyNet,利用网络的学习能力在线学习决策动作分布,计算节点下子节点的状态的悔恨值regret,通过判断regret的大小对博弈方的选择进行指导;B针对中小规模(动作集合大小<=4)的问题,在线或离线计算不同状态的均衡解,将得到的均衡解存入表中,在选择时供博弈树查询,选择出最有利的子节点;C将A、B两种方法结合在一起,在搜索的开始时利用策略网络指导动作的选择,在博弈树已经被搜索超过一半时,再通过在线方式计算接下来状态的均衡解,利用均衡解的值对子节点的选择进行指导。更进一步的,所述选择阶段节点中的信息包括己方平均悔恨值,己方动作组合,对方平均悔恨值,对方动作组合以及该节点的访问次数,还包括己方收益表和对方收益表,在收益表中,每一个元素对应博弈某一方的一个动作组合,令S∈{1,2,3,...}表示每次迭代,h表示每次迭代中的某一个节点状态,T为时间周期,令(a,b)为其动作组合,PS(h,T)表示博弈各方当前时间周期所用的混合策略,此混合策略由进行初始化,博弈各方都为混合策略PS(h,T)维持一个累计的悔恨值rh[(a,b)],其初始化为0,在每次迭代中,需要根据当前累计的收益来生成新的混合策略,定义累计收益为x+=max(x,0),公式如下:更进一步的,扩展阶段根据博弈各方不同的动作组合进行展开,其中,每条边代表的是博弈各方的动作组合,在扩展的同时不断选择更加适合的动作组合,舍弃无用的动作组合,即在扩展的过程中同时对博弈树进行剪枝处理。更进一步的,对于不同的动作组合可以设定动作组合的选择规则,利用选择算法计算出对博弈各方最有利的动作组合进行扩展,在扩展过程中要考虑到时序问题,针对执行时间不同的动作要按照其执行周期进行跨周期扩展。更进一步的,模拟阶段将模拟过程设置在一定的扩展范围内,根据不同情况下动作组合的大小,设lmin为模拟过程中需要执行的最少层数,lmax为模拟过程中需要执行的最大层数,在模拟过程中得到收益所需要计算的步骤不小于lmin次,若当模拟到第lmax次时还没有结束过程也没有得到收益,即强制停止模拟过程并舍弃此动作组合得到的节点。更进一步的,对于需要执行多个时间周期的动作,在每次模拟时都要计算博弈各方自身的regret,再利用计算得到博弈各方的自身regret来进行反向更新。更进一步的,更新阶段需要所述博弈各方自身的regret来更新收益表,以己方收益更新为例,假设动作组合(a1,b1)为选择策略时所选动作组合,收益r1为模拟结束后的己方收益,定义更新公式如下:本专利技术的有益效果:1、在问题模型方面,通过更改标准蒙特卡洛博弈树的结构,加入时间轴进行时序控制,实现了对序贯同步决策问题的良好建模;2、在搜索过程方面,通过多种计算纳什均衡的方法,主要改进蒙特卡洛树搜索算法流程中选择步骤,使搜索更加贴近序贯同步决策博弈问题的同步特点。附图说明图1为序贯同步时序蒙特卡洛搜索模型技术路线图;图2为博弈树变化示意图;图3为序贯同步时序蒙特卡洛博弈树;图4为序贯同步时序蒙特卡洛算法示意图;图5为选择过程示意图;图6为扩展过程示意图;图7为模拟过程示意图;图8为更新过程示意图;图9为序贯同步时序蒙特卡洛搜索模型与NOKDPS1vs1示意图;图10为序贯同步时序蒙特卡洛搜索模型与NOKDPS2vs2示意图;图11为序贯同步时序蒙特卡洛搜索模型与UCT1vs1示意图;图12为序贯同步时序蒙特卡洛搜索模型与UCT2vs2示意图。具体实施方式下面结合附图和具体实施例对本专利技术技术方案做进一步详述:如图1、2、3、4所示,一种序贯同步时序蒙特卡洛搜索算法,所述搜索算法适用于一种搜索系统,该搜索系统包本文档来自技高网...

【技术保护点】
1.一种序贯同步时序蒙特卡洛搜索算法,所述搜索算法适用于一种搜索系统,该搜索系统包括搜索服务器、搜索入口及搜索装置,其特征在于,所述搜索算法包括以下步骤:步骤1‑1:设计一种博弈树结构,更改标准蒙特卡洛博弈树节点存储信息和连接边的意义,将标准蒙特卡洛博弈树上含有博弈各方信息的多层节点压缩到同一层,令{S1,S2,S3,S4,...}表示每次树搜索后的节点,{a1,a2,b1,b2}表示双方动作组合,使新的博弈树在每一次树搜索时都会得到每个动作执行后的转移节点,节点信息由原来存储的单方信息变为各方信息,节点间的每条连接边表示博弈各方合法动作组合,形式如:S1→S2∈{Sa1,Sa2,Sb1,Sb2};步骤1‑2:在新的博弈树中每一层的节点按固定的时间周期进行划分,对于执行时间不同的动作,会出现跨时间周期进行树搜索的情况,其执行完的状态和其他动作执行完的状态处于不同时间周期内,即在不同层内,形式如:

【技术特征摘要】
1.一种序贯同步时序蒙特卡洛搜索算法,所述搜索算法适用于一种搜索系统,该搜索系统包括搜索服务器、搜索入口及搜索装置,其特征在于,所述搜索算法包括以下步骤:步骤1-1:设计一种博弈树结构,更改标准蒙特卡洛博弈树节点存储信息和连接边的意义,将标准蒙特卡洛博弈树上含有博弈各方信息的多层节点压缩到同一层,令{S1,S2,S3,S4,...}表示每次树搜索后的节点,{a1,a2,b1,b2}表示双方动作组合,使新的博弈树在每一次树搜索时都会得到每个动作执行后的转移节点,节点信息由原来存储的单方信息变为各方信息,节点间的每条连接边表示博弈各方合法动作组合,形式如:S1→S2∈{Sa1,Sa2,Sb1,Sb2};步骤1-2:在新的博弈树中每一层的节点按固定的时间周期进行划分,对于执行时间不同的动作,会出现跨时间周期进行树搜索的情况,其执行完的状态和其他动作执行完的状态处于不同时间周期内,即在不同层内,形式如:其中动作b2执行后的状态Sb2在其出现的周期内进行收益的计算。2.根据权利要求1所述的搜索算法,其特征在于:步骤1-2中所述树搜索加入有时序控制部分,该部分包括以下步骤:步骤2-1:在博弈树中加入时间轴,将时间轴按固定的时间周期T进行划分,保证博弈各方的状态都严格落在相应的固定时间周期节点上,博弈各方严格按照固定的时间节点做出决策;步骤2-2:当某一动作需要执行多个时间周期,在其执行过程中的每个时间节点上设置虚拟节点,形成完整的序贯同步时序蒙特卡洛博弈树。3.根据权利要求1或2所述的搜索算法,其特征在于:所述搜索算法的搜索过程至少包括选择、扩展、模拟、更新四个阶段。4.根据权利要求3所述的搜索算法,其特征在于:选择阶段序贯同步博弈问题在每个时间点上具有同步特性,博弈树中根据各方所选动作的组合来选择子节点,有以下三种选择方法:A引入策略网络PolicyNet,利用网络的学习能力在线学习决策动作分布,计算节点下子节点的状态的悔恨值regret,通过判断regret的大小对博弈方的选择进行指导;B针对中小规模(动作集合大小<=4)的问题,在线或离线计算不同状态的均衡解,将得到的均衡解存入表中,在选择时供博弈树查询,选择出最有利的子节点;C将A、B两种方法结合在一起,在搜索的开始时利用策略网络指导动作的选择,在博弈树...

【专利技术属性】
技术研发人员:王骄代欣颖
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1