一种智能体决策信息展示方法、装置、电子设备及存储介质制造方法及图纸

技术编号:28212712 阅读:38 留言:0更新日期:2021-04-24 14:51
本申请实施例公开一种智能体决策信息展示方法、装置、电子设备及存储介质,涉及机器学习技术领域,为更加直观地展示智能体决策信息而发明专利技术。智能体决策信息展示方法,包括:在展示的智能体决策信息显示界面中选择一智能体活动周期,并基于选中的智能体活动周期选择一智能体;在所述显示界面中提供所述选择的智能体在所述选中的智能体活动周期中的动作步骤选择控件;基于在所述动作步骤选择控件,在所述智能体的动作步骤集合中,选择一动作步骤;基于选择的所述动作步骤,展示所述智能体在所述动作步骤执行具体动作所进行决策的决策信息。本申请实施例适用于机器学习中智能体决策信息的展示。息的展示。息的展示。

【技术实现步骤摘要】
一种智能体决策信息展示方法、装置、电子设备及存储介质


[0001]本申请涉及机器学习
,尤其涉及一种智能体决策信息展示方法、装置、电子设备及存储介质。

技术介绍

[0002]强化学习是机器学习的方法论之一,一个典型的强化学习(RL)问题可以概括为:学习一个可以让智能体(Agent)在特定环境(Environment)中,根据当前的状态(State),做出行动(Action),从而获得最大回报(Reward)的一个最优策略(Policy)。
[0003]智能体学习完成后,为了对用户决策提供辅助,往往需要提供学习过程的一些信息,比如智能体在学习过程中的一些决策信息。目前主流的强化学习产品主要面向有一定基础的技术人员,在结果展示方面通常通过代码形式完成,不够直观。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种智能体决策信息展示方法、装置、电子设备及存储介质,能够更加直观地展示智能体决策信息。
[0005]第一方面,本申请实施例提供一种智能体决策信息展示方法,包括:
[0006]展示智能体决策信本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种智能体决策信息展示方法,其特征在于,包括:展示智能体决策信息显示界面;在所述显示界面中选择一智能体活动周期,并基于选中的智能体活动周期选择一智能体;其中,所述智能体为在所述智能体活动周期中执行具体动作的智能体;在所述显示界面中提供所述选择的智能体在所述选中的智能体活动周期中的动作步骤选择控件;基于所述动作步骤选择控件,在所述智能体的动作步骤集合中,选择一动作步骤;基于选择的所述动作步骤,展示所述智能体在所述动作步骤执行具体动作所进行决策的决策信息。2.根据权利要求1所述的智能体决策信息展示方法,其特征在于,所述动作步骤选择控件包括坐标轴控件和/或选择框控件;所述基于所述动作步骤选择控件,在所述智能体的动作步骤集合中,选择一动作步骤,包括:基于所述坐标轴控件和/或选择框控件,在所述智能体的动作步骤集合中,选择一动作步骤。3.根据权利要求4所述的智能体决策信息展示方法,其特征在于,在基于所述坐标轴控件和/或选择框控件,在所述智能体的动作步骤集合中,选择一动作步骤之后,所述方法还包括:在所述显示界面中,显示当前选择的动作步骤的奖励值和累计奖励值。4.根据权利要求2所述的智能体决策信息展示方法,其特征在于,所述坐标轴控件包括坐标轴和设在所述坐标轴上的滑块;所述基于所述坐标轴控件,在所述智能体的动作步骤集合中,选择一动作步骤,包括:基于对坐标轴上的滑块的拖动操作,选中所述滑块拖动到目标位置时所对应的动作步骤。5.根据权利要求4所述的智能体决策信息展示方法,其特征在于,所述动作步骤选择控件包括坐标轴控件和选择框控件;在基于对坐标轴上的滑块的拖动操作,选中所述滑块拖动到目标位置时所对应的动作步骤的过程中,所述方法还包括:在所述选择框控件的显示窗口中,同步显示所述滑块在所述坐标轴上的位置所对应的动作步骤。6.根据权利要求4所述的智能体决策信息展示方法,其特征在于,所述坐标轴包括横坐标轴和纵坐标轴,所述横坐标轴代表选中的一智能体的动作步骤,所述纵坐标轴代表对选中的智...

【专利技术属性】
技术研发人员:王雨萱徐昀高浩
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1