【技术实现步骤摘要】
基于强化学习的非完备信息博弈的模型决策方法及系统
[0001]本专利技术涉及计算机
,特别涉及一种基于强化学习的非完备信息博弈的模型决策方法及系统。
技术介绍
[0002]对决策模型中涉及的数据进行数据处理是构建决策模型的前提,以麻将为例,麻将决策模型是先在当前麻将游戏中获取一些数据信息(包括手牌、副露、对手的副露、弃牌、庄家位置等),通过对这些数据信息进行一定的处理,进行合理的决策动作,从而追求在麻将游戏中赢取更多的分数。在麻将游戏中,决策主要包括出牌决策、吃碰杠决策以及胡牌决策。
[0003]不完备信息博弈是指任意一个参与方在做决策时不知道其他参与方的信息,即在不完备信息博弈过程中,任意一个参与方在做决策时均无法获取其他参与方的信息。PPO算法是一种基于策略的强化学习算法,在强化学习中有两个主要的组成部分,智能体和环境,智能体是指采用强化学习进行学习的事物本身,可以通过学习而自动获得有价值信息的模型,环境是指智能体所依赖并活动、交互的世界。在每一次智能体与环境交互的过程中,智能体会观察当前时刻自身在环境中所 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的非完备信息博弈的模型决策方法,其特征在于,所述方法包括:获取博弈模型的场面信息,所述场面信息包括当前参与者当前剩余棋牌的牌面、以及竞争对手当前的剩余棋牌的牌面;根据所述场面信息分别获得所述模型中目标函数的当前更新对局轨迹的策略熵、以及当前更新对局轨迹的散度项,所述当前更新对局轨迹的策略熵包括当前策略熵值,所述当前更新对局轨迹的散度项包括当前散度值,分别调节所述当前策略熵值以及所述当前散度值,使得所述当前策略熵值收敛于目标策略熵值、所述当前散度值收敛于目标散度值;根据所述当前更新对局轨迹的策略熵、及所述当前更新对局轨迹的散度项获得所述目标函数的收敛值,使得所述收敛值接近预设阈值;依据所述竞争对手当前的剩余棋牌的牌面与所述当前参与者当前剩余棋牌的牌面,决策出牌。2.根据权利要求1所述的基于强化学习的非完备信息博弈的模型决策方法,其特征在于,所述根据所述当前更新对局轨迹的策略熵、及所述当前更新对局轨迹的散度项获得所述目标函数的收敛值,使得所述收敛值接近预设阈值的步骤之前还包括:获取actor网络的损失函数以及critic网络的损失函数。3.根据权利要求2所述的基于强化学习的非完备信息博弈的模型决策方法,其特征在于,所述根据所述当前更新对局轨迹的策略熵、及所述当前更新对局轨迹的散度项获得所述目标函数的收敛值的步骤包括:结合所述actor网络的损失函数、所述critic网络的损失函数、所述当前更新对局轨迹的策略熵、以及所述当前更新对局轨迹的散度项,获得所述目标函数的收敛值。4.根据权利要求1所述的基于强化学习的非完备信息博弈的模型决策方法,其特征在于,所述当前更新对局轨迹的策略熵还包括策略熵在目标函数中的权重系数,所述当前策略熵值收敛于目标策略熵值的步骤包括:调节所述当前策略熵值与所述策略熵在目标函数中的权重系数,使得所述当前策略熵值收敛于所述目标策略熵值。5.根据权利要求4所述的基于强...
【专利技术属性】
技术研发人员:王嘉旸,曾旺,李一华,修文超,黄伟,熊唤亮,王命延,
申请(专利权)人:中至江西智能技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。