确定执行设备的动作选择方针制造技术

技术编号：27540150 阅读：32 留言：0更新日期：2021-03-03 11:34

描述了计算机实现的用于生成促使执行设备完成任务的动作选择方针的方法、系统和装置，包括计算机可读介质。获得表示被划分为子任务序列的任务的数据。对于子任务序列中除第一个子任务之外的指定子任务，训练值神经网络(VNN)。该VNN接收包括达到指定子任务的子任务初始状态的达到概率的输入，并预测执行设备在指定子任务的子任务初始状态下的奖励。基于VNN训练针对指定子任务之前的先前子任务的策略神经网络(SNN)。该SNN接收包括达到先前子任务的子任务状态的动作序列，并预测执行设备在先前子任务的子任务状态下的动作选择方针。先前子任务的子任务状态下的动作选择方针。先前子任务的子任务状态下的动作选择方针。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】确定执行设备的动作选择方针

[0001]本文涉及确定用于执行设备的动作选择方针，以在包括执行设备以及一个或多个其他设备的环境中完成任务。

技术介绍

[0002]诸如自动驾驶车辆(AV)控制、资源分配、交通路线规划和控制、产品/服务推荐、网络攻击预测和/或预防、欺诈管理、贸易、投标以及公开拍卖之类的现实世界场景可以通过博弈中两个或更多个参与方(也称为玩家)之间的策略交互来建模、表示和模拟。例如，这些现实生活场景可以表示为涉及两个或更多个玩家的不完美信息博弈(Imperfect Information Game，IIG)，其中玩家在做出决策之前只能部分获得其对手的知识。由于信息隐藏，玩家必须在对对手的信息不确定的情况下做出决策，并且其还需要采取行动以利用对手对自己的信息不确定的优势。
[0003]在某些情况下，用于求解现实生活场景中存在的IIG问题的计算机模拟可以帮助找到针对现实生活场景的有用解决方案。特别是对于具有表示了涉及不同环境条件和决策的复杂现实生活场景的大量待选择的可能状态和可能行动的大型博弈而言，求解IIG可能会耗费大量计算资源和时间。例如，大型或超大型(very-large-scale，VLS)IIG可以表示涉及复杂地理区域中的大量车辆以及例如车辆方向和速度的各种控制动作的复杂自动驾驶车辆场景，该复杂地理区域具有不同的道路、天气和交通状况。对于大型IIG而言，找到最优解可能需要大量的计算资源，包括计算时间、处理能力和存储空间。期望以有效的方式求解大型或超大型IIG的技术，尤其是对于实时应用。
>
技术实现思路

[0004]主题的所述实施例可以单独地或以组合的形式包括一个或多个特征。
[0005]例如，在一个实施例中，一种计算机实现的用于生成促使执行设备在包括执行设备以及一个或多个其他设备的环境中完成任务的动作选择方针的方法，所述方法包括：获得表示被划分为子任务序列的任务的数据，其中，任务包括任务初始状态、多个非任务终点状态和多个任务终点状态，其中，每个任务终点状态是由执行设备以及一个或多个其他设备在多个非任务终点状态的子集下采取的动作序列导致的，并且多个任务终点状态具有任务终点状态下的对应奖励，子任务序列中的每个子任务包括该子任务的一个或多个子任务初始状态及多个子任务终点状态，除了子任务序列中的最后一个子任务外，子任务的多个子任务终点状态是子任务序列中该子任务之后的下一个子任务的多个子任务初始状态；对于子任务序列中除了第一子任务之外的指定子任务，训练针对该指定子任务的值神经网络(VNN)，其中，针对该指定子任务的VNN接收包括执行设备以及一个或多个其他设备达到指定子任务的子任务初始状态的达到概率的输入，并预测执行设备在指定子任务的子任务初始状态下的奖励；以及基于针对该指定子任务的VNN，训练针对子任务序列中指定子任务之前的先前子任务的策略神经网络(SNN)，其中，针对先前子任务的SNN接收包括由达到先前
子任务的子任务状态的执行设备以及一个或多个其他设备采取的动作序列的输入，并预测执行设备在先前子任务的子任务状态下的动作选择方针。
[0006]在一些实施例中，可以使用系统、方法或计算机程序或者系统、方法和计算机程序的任何组合来实现这些一般和特定方面。以上和其他所述实施例可各自可选地包括一个或多个以下方面：
[0007]在一些实施例中，所述方法还包括基于由针对先前子任务的SNN生成的输出，确定用于完成先前子任务的动作选择方针；以及根据用于完成先前子任务的动作选择方针，控制执行设备在先前子任务中的操作。
[0008]在一些实施例中，训练针对指定子任务的VNN包括使用来自针对子任务序列中指定子任务之后的下一个子任务的VNN的输出来训练针对指定子任务的VNN，针对下一个子任务的VNN接收包括执行设备以及一个或多个其他设备达到下一个子任务的子任务初始状态的达到概率的输入，并且来自针对下一个子任务的VNN的输出包括执行设备在下一个子任务的子任务初始状态下的奖励。
[0009]在一些实施例中，训练针对指定子任务的值神经网络(VNN)包括：获得向针对指定子任务的VNN的多个样本输入，其中，多个样本输入中的每一个包括：达到指定子任务的子任务初始状态的执行设备以及一个或多个其他设备的公开信息、执行设备以及一个或多个其他设备达到指定子任务的子任务初始状态的达到概率；对于多个样本输入中的每一个，通过执行CFR算法，计算执行设备在指定子任务的子任务初始状下的样本奖励；以及基于多个样本输入中的每一个和执行设备在指定子任务的子任务初始状态下的样本奖励，训练针对指定子任务的VNN。
[0010]在一些实施例中，基于针对指定子任务的VNN训练针对先前子任务的SNN包括：基于针对指定子任务的VNN的输出，预测在先前子任务的多个子任务终点状态下的多个奖励；以及根据基于神经网络的CFR算法，基于在先前子任务的多个子任务终点状态下的多个奖励，训练针对先前子任务的SNN。
[0011]在一些实施例中，所述方法还包括：基于针对子任务序列中另一子任务之后的子任务的VNN来训练针对子任务序列中的另一子任务的另一策略神经网络(SNN)，其中，训练针对另一子任务的SNN是独立于训练针对先前子任务的SNN执行的。
[0012]在一些实施例中，基于针对指定子任务的VNN来训练针对先前子任务的SNN是响应于确定先前子任务的复杂度超过阈值而执行的。
[0013]可理解的是，根据本文的方法可以包括本文描述的方面和特征的任意结合。也就是，根据本文的方法不限于本文具体描述的方面和特征的结合，而是包括所提供的方面和特征的任意结合。
[0014]在以下附图和描述中阐述了本文的一个或多个实施例的细节。本文的其他特征和优点将从描述和附图以及权利要求而显现。
附图说明
[0015]图1A和图1B是示出根据本文实施例的库恩扑克(Kuhn Poker)的博弈树和公开树的示例的图。
[0016]图2是示出根据本文实施例的计算机实现的被配置为求解超大型(VLS)不完美信
息博弈(IIG)的系统的示例的图。
[0017]图3是根据本文实施例的用于求解大型或超大型(VLS)不完美信息博弈(IIG)的处理的示例的流程图。
[0018]图4是根据本文实施例的用于生成动作选择方针以促使执行设备在包括执行设备以及一个或多个其他设备的环境中完成任务的处理的示例的流程图。
[0019]图5是根据本文实施例的用于生成动作选择方针以促使执行设备在包括执行设备以及一个或多个其他设备的环境中完成任务的处理的另一示例的流程图。
[0020]图6描绘了示出根据本文实施例的计算机实现的系统的示例的框图，该计算机实现的系统被用于提供与所描述的算法、方法、功能、处理、流程和进程相关联的计算功能。
[0021]图7描绘了根据本文的实施例的装置的模块的示例。
[0022]图8示出了根据本文的实施例的另一装置的模块的示例。
[0023]各个附图中相同的附图标记和名称表示本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法，用于生成动作选择方针，以促使执行设备在包括所述执行设备以及一个或多个其他设备的环境中完成任务，所述方法包括：获得表示被划分为子任务序列的任务的数据，其中：所述任务包括任务初始状态、多个非任务终点状态和多个任务终点状态，其中，每个任务终点状态是由所述执行设备以及所述一个或多个其他设备在所述多个非任务终点状态的子集下采取的动作序列导致的，并且所述多个任务终点状态具有所述任务终点状态下的对应奖励，所述子任务序列中的每个子任务包括所述子任务的一个或多个子任务初始状态及多个子任务终点状态，并且除了所述子任务序列中的最后一个子任务外，所述子任务的所述多个子任务终点状态是所述子任务序列中所述子任务之后的下一个子任务的多个子任务初始状态，对于所述子任务序列中除第一子任务之外的指定子任务，训练针对所述指定子任务的值神经网络VNN，其中，针对所述指定子任务的VNN接收包括所述执行设备以及所述一个或多个其他设备达到所述指定子任务的子任务初始状态的达到概率的输入，并预测所述执行设备在所述指定子任务的所述子任务初始状态下的奖励；以及基于针对所述指定子任务的VNN，训练针对所述子任务序列中所述指定子任务之前的先前子任务的策略神经网络SNN，其中，针对所述先前子任务的SNN接收包括由达到所述先前子任务的子任务状态的所述执行设备以及所述一个或多个其他设备采取的动作序列的输入，并预测所述执行设备在所述先前子任务的所述子任务状态下的动作选择方针。2.如权利要求1所述的方法，还包括：基于由针对所述先前子任务的SNN生成的输出，确定用于完成所述先前子任务的动作选择方针；以及根据用于完成所述先前子任务的所述动作选择方针，控制所述执行设备在所述先前子任务中的操作。3.如前述任一项权利要求所述的方法，其中，训练针对所述指定子任务的VNN包括使用来自针对所述子任务序列中所述指定子任务之后的下一个子任务的VNN的输出来训练针对所述指定子任务的VNN，针对所述下一个子任务的VNN接收包括所述执行设备以及所述一个或多个其他设备达到所述下一个子任务的子任务初始状态的达到概率的输入，并且来自针对所述下一个子任务的VNN的输出包括所述执行设备在所述下一个子任务的子任务初始状态下的奖励。4.如...

【专利技术属性】
技术研发人员：李辉，宋乐，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人