确定执行设备的动作选择方针制造技术

技术编号:28950252 阅读:11 留言:0更新日期:2021-06-18 22:12
本文公开了用于生成动作选择方针以在环境中完成任务的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法包括:基于采样方针和探索方针计算执行设备在一个状态下的混合采样方针,其中,所述探索方针指定与所述状态下的多个可能动作中的每个动作相对应的相应的探索概率,探索概率与所述状态下的多个可能动作中的每个动作已被采样的次数负相关;根据混合采样方针中指定的动作的采样概率,对所述状态下的多个可能动作中的一个动作进行采样;以及通过基于所述动作执行蒙特卡罗反事实遗憾最小化来更新在所述状态下的动作选择方针。

【技术实现步骤摘要】
【国外来华专利技术】确定执行设备的动作选择方针
本文涉及确定用于执行设备的动作选择方针,以在包括执行设备以及一个或多个其他设备的环境中完成任务。
技术介绍
两个或更多个参与方之间的策略互动可以通过涉及两个或更多个参与方(也称为玩家)的博弈来建模和模拟。在涉及两个或更多个玩家的不完美信息博弈(IIG)中,玩家在做出决策之前只能部分获得对手的知识。这类似于现实场景,例如贸易、交通路线规划和公开拍卖。许多现实生活场景可以表示为IIG,例如不同公司之间的商业竞争、拍卖场景中的竞标关系以及欺诈方与反欺诈方之间的博弈关系。由于信息隐藏,玩家必须在对对手的信息不确定的情况下做出决策,并且其还需要采取行动以利用对手对自己的信息不确定的优势。求解IIG可能在计算上是昂贵且耗时的,特别是对于具有大量可能状态和供选择的可能动作的大型博弈。期望以有效方式求解IIG的技术。
技术实现思路
本主题的描述的实施例可以单独地或组合地包括一个或多个特征。例如,在一个实施例中,一种执行设备的计算机实现的方法,用于生成动作选择方针,以在包括所述执行设备以及一个或多个其他设备的环境中完成任务,所述方法包括:基于采样方针和探索方针计算执行设备在一个状态下的混合采样方针,其中,所述状态对应于多个可能动作,当执行设备在所述状态下时,所述多个可能动作如果被执行设备执行,将导致相应的下一状态,其中,采样方针指定对所述状态下的多个可能动作中的每个动作进行采样的相应采样概率,其中,所述探索方针指定与所述状态下的多个可能动作中的每个动作相对应的相应的探索概率,其中,探索概率与所述状态下的多个可能动作中的每个动作已被采样的次数负相关;根据混合采样方针中指定的动作的采样概率,对所述状态下的多个可能动作中的一个动作进行采样;以及通过基于所述动作执行蒙特卡罗反事实遗憾最小化(MCCFR)来更新执行设备在所述状态下的动作选择方针,其中,所述动作选择方针指定从所述状态下的多个可能动作中选择一个动作的相应概率,用于在环境中完成任务。在一些实施例中,可以使用系统、方法或计算机程序,或者系统、方法和计算机程序的任何组合来实现这些一般和特定方面。前述和其他描述的实施例可以各自包括以下一个或多个方面:在一些实施例中,所述方法还包括:响应于确定满足收敛条件而基于动作选择方针来控制执行设备的操作。在一些实施例中,所述方法还包括:响应于根据混合采样方针从所述状态下的多个可能动作中对所述动作进行采样,增加在所述状态下对所述动作进行采样的次数;以及降低与所述状态下的多个可能动作中的所述动作相对应的探索概率,用于计算下一次迭代中的混合采样方针。在一些实施例中,基于所述动作执行蒙特卡洛反事实后悔最小化(MCCFR)包括:基于动作的混合采样概率,计算采样的终点动作序列的概率,采样的终点动作序列包括动作和完成任务的终点状态;基于采样的终点动作序列的概率,计算动作的采样反事实值;基于动作的采样反事实值,计算动作的遗憾值;以及基于动作的遗憾值,更新执行设备在所述状态下的动作选择方针。在一些实施例中,所述方法还包括:采样方针包括所述状态下的多个可能动作上的第一概率分布,以及探索方针包括所述状态下的多个可能动作上的第二概率分布。在一些实施例中,所述方法还包括:基于采样方针和探索方针计算混合采样方针包括:基于所述状态下的多个可能动作中的每个动作的采样概率和所述状态下的多个可能动作中的每个动作的探索概率的加权和来计算所述状态下的多个可能动作中的每个动作的概率。在一些实施例中,所述方法还包括:基于采样方针和探索方针计算混合采样方针包括:根据下式计算所述状态下的多个可能动作中的每个动作的概率:其中:Ii表示状态的信息集;a表示多个可能动作之一;σise(a|Ii)表示在所述状态下对动作a进行采样的混合采样方针;σis(a|Ii)表示在所述状态下对动作a进行采样的采样方针;σie(a|Ii)表示在所述状态下探索动作a的探索方针;以及α∈[0,1]表示控制探索权重的因子。在一些实施例中,所述方法还包括:根据下式计算所述状态下的多个可能动作中的每个动作的探索概率:其中:i表示执行设备的标识;Ii表示状态的信息集;A(Ii)表示所述状态下的多个可能动作;a表示所述状态下的多个可能动作之一;t表示当前迭代;ΔCt(a|Ii)表示直到当前迭代t在所述状态下对动作a进行采样的次数;σie,t(a|Ii)表示在当前迭代t中在所述状态下探索动作a的探索方针;以及β是非负实数。应当理解,根据本文的方法可以包括本文描述的方面和特征的任何组合。即,根据本文的方法不限于本文具体描述的方面和特征的组合,而是还包括所提供的方面和特征的任何组合。本文的一个或多个实施例的细节在附图和以下描述中阐述。通过说明书和附图以及权利要求书,本文的其他特征和优点将变得清楚。附图说明图1A和1B是示出根据本文的实施例的库恩扑克(KuhnPoker)的博弈树和公开树的示例的图。图2是示出根据本文的实施例的以不同的采样方针应用于NLPH的几种MCCFR变体的收敛性能的双对数坐标曲线图。图3是示出根据本文的实施例的在利用和不利用探索技术的情况下应用于NLPH的几种MCCFR变体的收敛性能的双对数坐标曲线图。图4A是示出根据本文的实施例的在利用和不利用不同方差减小技术的情况下应用于NLPH的几种MCCFR变体的收敛性能的双对数坐标曲线图。图4B是示出根据本文的实施例的在利用和不利用不同方差减小技术的情况下应用于NLPH的几种MCCFR变体的示例性计算效率的双对数坐标曲线图。图5A至图5C是示出根据本文的实施例的通过对三种不同的扑克博弈NLPH、HUNL-R和NLFH进行外部采样的几种MCCFR变体的收敛性能的双对数坐标曲线图。图6A是示出根据本文的实施例的在NLPH上利用和不利用跳过的几种MCCFR变体的收敛性能的双对数坐标曲线图。图6B是示出根据本文的实施例的在NLPH上利用和不利用跳过的MCCFR变体的收敛性能的双对数坐标曲线图。图7是根据本文的实施例的用于执行蒙特卡洛反事实遗憾最小化(MCCFR)以确定用于软件应用的动作选择方针的处理的示例的流程图。图8是根据本文的实施例的用于执行蒙特卡洛反事实遗憾最小化(MCCFR)以确定用于软件应用的动作选择方针的另一处理的示例的流程图。图9是根据本文的实施例的用于执行蒙特卡洛反事实遗憾最小化(MCCFR)以确定用于软件应用的动作选择方针的另一处理的示例的流程图。图10描绘了示出根据本文的实施例的用于提供与所描述的算法、方法、功能、处理、流程和过程相关联的计算功能的计算机实现的系统的示例的框图。图11描绘了根据本文的实施例的装置的模块的示例。图12描绘了根据本文的实施例的另一装置的模块的示例。图13描绘了根据本文的实施例的另一装置的模块的示例。在各个附图中,相同的附图标记和名称指示相同的元件。<本文档来自技高网...

【技术保护点】
1.一种执行设备的计算机实现的方法,用于生成动作选择方针,以在包括所述执行设备以及一个或多个其他设备的环境中完成任务,所述方法包括:/n基于采样方针和探索方针计算所述执行设备在一个状态下的混合采样方针,其中,所述状态对应于多个可能动作,当所述执行设备在所述状态下时,所述多个可能动作如果被所述执行设备执行,将导致相应的下一状态,其中,所述采样方针指定对所述状态下的所述多个可能动作中的每个动作进行采样的相应采样概率,其中,所述探索方针指定与所述状态下的所述多个可能动作中的每个动作相对应的相应的探索概率,其中,所述探索概率与所述状态下的所述多个可能动作中的每个动作已被采样的次数负相关;/n根据所述混合采样方针中指定的所述状态下的所述多个可能动作中的一个动作的采样概率,对所述动作进行采样;以及/n通过基于所述动作执行蒙特卡罗反事实遗憾最小化MCCFR来更新所述执行设备在所述状态下的动作选择方针,其中,所述动作选择方针指定从所述状态下的所述多个可能动作中选择一个动作的相应概率,用于在所述环境中完成所述任务。/n

【技术特征摘要】
【国外来华专利技术】1.一种执行设备的计算机实现的方法,用于生成动作选择方针,以在包括所述执行设备以及一个或多个其他设备的环境中完成任务,所述方法包括:
基于采样方针和探索方针计算所述执行设备在一个状态下的混合采样方针,其中,所述状态对应于多个可能动作,当所述执行设备在所述状态下时,所述多个可能动作如果被所述执行设备执行,将导致相应的下一状态,其中,所述采样方针指定对所述状态下的所述多个可能动作中的每个动作进行采样的相应采样概率,其中,所述探索方针指定与所述状态下的所述多个可能动作中的每个动作相对应的相应的探索概率,其中,所述探索概率与所述状态下的所述多个可能动作中的每个动作已被采样的次数负相关;
根据所述混合采样方针中指定的所述状态下的所述多个可能动作中的一个动作的采样概率,对所述动作进行采样;以及
通过基于所述动作执行蒙特卡罗反事实遗憾最小化MCCFR来更新所述执行设备在所述状态下的动作选择方针,其中,所述动作选择方针指定从所述状态下的所述多个可能动作中选择一个动作的相应概率,用于在所述环境中完成所述任务。


2.根据权利要求1所述的方法,还包括:响应于确定满足收敛条件而基于所述动作选择方针来控制所述执行设备的操作。


3.根据权利要求1或2所述的方法,还包括:
响应于根据所述混合采样方针从所述状态下的所述多个可能动作中对所述动作进行采样,
增加在所述状态下对所述动作进行采样的次数;以及
降低与所述状态下的所述多个可能动作中的所述动作相对应的探索概率,用于计算下一次迭代中的混合采样方针。


4.根据前述任一权利要求所述的方法,其中,基于所述动作执行蒙特卡洛反事实后悔最小化MCCFR包括:
基于所述动作的混合采样概率,计算采样的终点动作序列的概率,所述采样的终点动作序列包括所述动作和完成任务的终点状态;
基于所述采样的终点动作序列的概率,计算所述动作的采样反事实值;
基于所述动作的所述采样反事实值,计算所述动作的遗憾值;以及
基于所述动作的所述遗憾值,更新所述执行设备在所述状态下的动作选择方针。


5.根据前述任一权利要求所述的方法,其中:
所述采样方针包括所述状态下的所述多个可能动作上的第一概率分布,以及
所述探索方针...

【专利技术属性】
技术研发人员:李辉宋乐
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1