确定执行设备的动作选择方针制造技术

技术编号：28950252 阅读：11 留言：0更新日期：2021-06-18 22:12

本文公开了用于生成动作选择方针以在环境中完成任务的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。所述方法包括：基于采样方针和探索方针计算执行设备在一个状态下的混合采样方针，其中，所述探索方针指定与所述状态下的多个可能动作中的每个动作相对应的相应的探索概率，探索概率与所述状态下的多个可能动作中的每个动作已被采样的次数负相关；根据混合采样方针中指定的动作的采样概率，对所述状态下的多个可能动作中的一个动作进行采样；以及通过基于所述动作执行蒙特卡罗反事实遗憾最小化来更新在所述状态下的动作选择方针。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】确定执行设备的动作选择方针
本文涉及确定用于执行设备的动作选择方针，以在包括执行设备以及一个或多个其他设备的环境中完成任务。
技术介绍
两个或更多个参与方之间的策略互动可以通过涉及两个或更多个参与方(也称为玩家)的博弈来建模和模拟。在涉及两个或更多个玩家的不完美信息博弈(IIG)中，玩家在做出决策之前只能部分获得对手的知识。这类似于现实场景，例如贸易、交通路线规划和公开拍卖。许多现实生活场景可以表示为IIG，例如不同公司之间的商业竞争、拍卖场景中的竞标关系以及欺诈方与反欺诈方之间的博弈关系。由于信息隐藏，玩家必须在对对手的信息不确定的情况下做出决策，并且其还需要采取行动以利用对手对自己的信息不确定的优势。求解IIG可能在计算上是昂贵且耗时的，特别是对于具有大量可能状态和供选择的可能动作的大型博弈。期望以有效方式求解IIG的技术。
技术实现思路
本主题的描述的实施例可以单独地或组合地包括一个或多个特征。例如，在一个实施例中，一种执行设备的计算机实现的方法，用于生成动作选择方针，以在包括所述执行设备以及一个或多个其他设备的环境中完成任务，所述方法包括：基于采样方针和探索方针计算执行设备在一个状态下的混合采样方针，其中，所述状态对应于多个可能动作，当执行设备在所述状态下时，所述多个可能动作如果被执行设备执行，将导致相应的下一状态，其中，采样方针指定对所述状态下的多个可能动作中的每个动作进行采样的相应采样概率，其中，所述探索方针指定与所述状态下的多个可能动作中的每个动作相对应的相应的探索概...

【技术保护点】
1.一种执行设备的计算机实现的方法，用于生成动作选择方针，以在包括所述执行设备以及一个或多个其他设备的环境中完成任务，所述方法包括：/n基于采样方针和探索方针计算所述执行设备在一个状态下的混合采样方针，其中，所述状态对应于多个可能动作，当所述执行设备在所述状态下时，所述多个可能动作如果被所述执行设备执行，将导致相应的下一状态，其中，所述采样方针指定对所述状态下的所述多个可能动作中的每个动作进行采样的相应采样概率，其中，所述探索方针指定与所述状态下的所述多个可能动作中的每个动作相对应的相应的探索概率，其中，所述探索概率与所述状态下的所述多个可能动作中的每个动作已被采样的次数负相关；/n根据所述混合采样方针中指定的所述状态下的所述多个可能动作中的一个动作的采样概率，对所述动作进行采样；以及/n通过基于所述动作执行蒙特卡罗反事实遗憾最小化MCCFR来更新所述执行设备在所述状态下的动作选择方针，其中，所述动作选择方针指定从所述状态下的所述多个可能动作中选择一个动作的相应概率，用于在所述环境中完成所述任务。/n

【技术特征摘要】
【国外来华专利技术】1.一种执行设备的计算机实现的方法，用于生成动作选择方针，以在包括所述执行设备以及一个或多个其他设备的环境中完成任务，所述方法包括：
基于采样方针和探索方针计算所述执行设备在一个状态下的混合采样方针，其中，所述状态对应于多个可能动作，当所述执行设备在所述状态下时，所述多个可能动作如果被所述执行设备执行，将导致相应的下一状态，其中，所述采样方针指定对所述状态下的所述多个可能动作中的每个动作进行采样的相应采样概率，其中，所述探索方针指定与所述状态下的所述多个可能动作中的每个动作相对应的相应的探索概率，其中，所述探索概率与所述状态下的所述多个可能动作中的每个动作已被采样的次数负相关；
根据所述混合采样方针中指定的所述状态下的所述多个可能动作中的一个动作的采样概率，对所述动作进行采样；以及
通过基于所述动作执行蒙特卡罗反事实遗憾最小化MCCFR来更新所述执行设备在所述状态下的动作选择方针，其中，所述动作选择方针指定从所述状态下的所述多个可能动作中选择一个动作的相应概率，用于在所述环境中完成所述任务。

2.根据权利要求1所述的方法，还包括：响应于确定满足收敛条件而基于所述动作选择方针来控制所述执行设备的操作。

3.根据权利要求1或2所述的方法，还包括：
响应于根据所述混合采样方针从所述状态下的所述多个可能动作中对所述动作进行采样，
增加在所述状态下对所述动作进行采样的次数；以及
降低与所述状态下的所述多个可能动作中的所述动作相对应的探索概率，用于计算下一次迭代中的混合采样方针。

4.根据前述任一权利要求所述的方法，其中，基于所述动作执行蒙特卡洛反事实后悔最小化MCCFR包括：
基于所述动作的混合采样概率，计算采样的终点动作序列的概率，所述采样的终点动作序列包括所述动作和完成任务的终点状态；
基于所述采样的终点动作序列的概率，计算所述动作的采样反事实值；
基于所述动作的所述采样反事实值，计算所述动作的遗憾值；以及
基于所述动作的所述遗憾值，更新所述执行设备在所述状态下的动作选择方针。

5.根据前述任一权利要求所述的方法，其中：
所述采样方针包括所述状态下的所述多个可能动作上的第一概率分布，以及
所述探索方针...

【专利技术属性】
技术研发人员：李辉，宋乐，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人