一种基于备份策略的对抗式搜索方法技术

技术编号：24205659 阅读：23 留言：0更新日期：2020-05-20 14:33

本发明专利技术公开一种基于备份策略的对抗式搜索方法，属于零和博弈策略搜索领域。本发明专利技术通过优化经典极大极小算法的备份规则，提出了一种迭代最优极大极小(IOM)算法。该方法包括如下步骤：首先，利用静态评估函数计算任一给定节点的评估值。然后，根据备份规则以反向传播的方式更新每个节点的最终值，即，每个节点的最终备份值等于其评估值减去其子节点中的最大备份值的两倍。本发明专利技术在计算中间节点最终状态值时所使用的备份规则，为减小博弈树中病态节点对决策质量的影响提供了一种解决方法。与误差最小化极大极小算法以及经典的极大极小算法相比，本发明专利技术所述的迭代最优极大极小算法在搜索深度有限的条件下提高了决策质量。

An adversarial search method based on backup strategy

全部详细技术资料下载

【技术实现步骤摘要】
一种基于备份策略的对抗式搜索方法
本专利技术属于机器博弈策略搜索领域，更具体地，涉及一种对极大极小算法备份方法进行改进的对抗式搜索方法。
技术介绍
搜索算法是机器博弈研究的一个重要领域。在双人零和博弈问题中，基于极大极小定理的算法是最先进对抗式搜索算法之一，当能够搜索整个博弈树时，可以得到完全信息双人零和博弈问题的最优解。但是，由于许多博弈问题中状态空间非常大，无法对博弈树进行完全搜索，所以由香农提出的极大极小算法在实现的过程中会选择将博弈树进行有限深度的扩展，并利用启发式函数作为静态评估函数对叶节点状态价值进行评估，将评估函数计算出的值当作真实的状态价值进行搜索计算，最终得到计算出的最优解。最初，对于极大极小算法的改进方向主要是研究和开发各种博弈树剪枝方法，通过更深层的搜索来提高决策的质量。在实践中，许多博弈程序都通过更深层的搜索获得了更高的决策质量。其中，最著名的是国际象棋程序“深蓝”在1997年战胜了世界冠军卡斯帕罗夫。然而，有学者对更深的搜索可以获得更高的决策质量这一现象提出了质疑。Nau和Beal分别发现，...

【技术保护点】
1.一种基于备份策略的对抗式搜索方法，其特征在于，所述的对抗式搜索方法通过回溯的搜索方法对博弈树进行搜索，该方法在执行的过程中设博弈双方均采用相同静态评估函数，且博弈双方均采用使己方利益最大化、对方利益最小化的行动策略；调用该方法时输入的参数包括局面状态s、当前局面状态下将要行动的行动方player和最大搜索深度d；设置博弈树的最大搜索深度DEPTH的值同输入的最大搜索深度d相同，用于判断搜索节点是否为根节点；该方法具体包括以下步骤：/n步骤S1：将当前局面状态s的备份值b_val初始化为+∞；利用静态评估函数计算出当前局面状态s的评估值e_val并记录；判断当前搜索节点是否为博弈树叶节点；若...

【技术特征摘要】
1.一种基于备份策略的对抗式搜索方法，其特征在于，所述的对抗式搜索方法通过回溯的搜索方法对博弈树进行搜索，该方法在执行的过程中设博弈双方均采用相同静态评估函数，且博弈双方均采用使己方利益最大化、对方利益最小化的行动策略；调用该方法时输入的参数包括局面状态s、当前局面状态下将要行动的行动方player和最大搜索深度d；设置博弈树的最大搜索深度DEPTH的值同输入的最大搜索深度d相同，用于判断搜索节点是否为根节点；该方法具体包括以下步骤：
步骤S1：将当前局面状态s的备份值b_val初始化为+∞；利用静态评估函数计算出当前局面状态s的评估值e_val并记录；判断当前搜索节点是否为博弈树叶节点；若是，将该节点的评估值e_val作为其最终备份值b_val返回；否则，进入步骤S2；
步骤S2：对于不同的博弈问题，根据相应的博弈规则，求得当前局面状态s下所有符合博弈规则的行动，进入步骤S3；
步骤S3：判断是否有未被访问的行动，若没有则进入步骤S7；否则进入步骤S4；
步骤S4：从未被访问的行动中选择一行动mv，模拟完成该行动mv，使局面状态变为局面状态s的子状态s’；对子状态s’递归调用所述对抗式搜索方法的步骤S1至步骤S7，得到局面状态s’的最终备份值b_vals’后，进入步骤S5；
步骤S5：取消步骤S4中的模拟行动，将局面状态恢复为局面状态s；利用局面状态s的评估值e_val和其子状态...

【专利技术属性】
技术研发人员：刘婵娟，闫俊名，张强，魏小鹏，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人