BDI计划执行中的偏序关系的学习方法、介质和设备技术

技术编号:38679502 阅读:17 留言:0更新日期:2023-09-02 22:53
本发明专利技术涉及BDI计划执行中的偏序关系的学习方法、介质和设备,方法将传统智能体与学习结合,将计划中的步骤及偏序关系转化为决策树,用树形结构表示出计划步骤执行顺序的所有可能,通过学习得到计划中步骤执行的最优顺序,将计划对应决策树剪枝,得到最优的目标计划树;方法以计算机可读存储介质和计算机设备执行及应用。本发明专利技术根据计划步骤之间的偏序关系对其进行树结构化表示,将计划中步骤执行的所有可能顺序表示成树结构,能更清晰的得知计划步骤执行的最优顺序;由于学习可获得最优执行顺序,因此在基本不影响智能体目标实现效率的前提下,极大的缩短了花费时间,降低计算开销。销。销。

【技术实现步骤摘要】
BDI计划执行中的偏序关系的学习方法、介质和设备


[0001]本专利技术涉及基于特定计算模型的计算机系统的
,特别涉及一种BDI智能体计划执行中的偏序关系的学习方法、介质和设备。

技术介绍

[0002]智能体(Agent)是位于某环境中,通过感知信息并在该环境中自主行动来实现其设计目标的个体,智能体所在的环境可以是真实世界,也可以是计算机系统中的纯计算环境。智能体已被用于开发各种领域的应用,包括航天器、工业制造等。
[0003]作为最常用的智能体设计体系结构之一,基于实践推理(practical reasoning)的Belief

Desire

Intention(BDI)体系结构使用信念(belief)、愿望(desire)以及意图(intention)等概念来表示智能体的心智状态,并通过实践推理来决定下一步应该采取的行动。
[0004]BDI智能体拥有着用来实现给定设计目标的计划库,智能体则需从计划库中选择不同的计划(Plan)来实现目标(计划选择问题),不同的计划有着其执行前必须满足的前置条件(Precondition)以及完成该计划所需要实现的步骤,计划中的步骤可以是智能体能够直接执行的基本动作(action)或者是需要由其他计划实现的子目标(subGoal);在目标实现过程中,智能体承诺还需执行的步骤被称为智能体实现该目标的意图(intention),即实现该目标还需要做什么。在许多实际问题中,BDI智能体会被同时赋予多个目标。此时,BDI智能体需要决定下一步应该执行哪一个意图(意图选择问题)。计划选择和意图选择共同构成了意图进展问题。
[0005]针对意图进展问题,Yao等人提出了基于蒙特卡洛(MCTS)的方法。使用MCTS调度智能体意图进展,目前最常用的表示智能体意图的方式是Thangarajah等人提出的目标计划树(goal

plan tree)结构,Michael Dann,Yuan Yao等人提出的偏序目标计划树(partially

ordered goal

plan tree)在此基础上进行扩展,使得表示智能体意图的表示变得更加灵活。目标计划树和偏序目标计划树都采用“与或树”来表示智能体目标和计划之间的关系,从将实现目标的过程转化为树的搜索与遍历,而两者不同的是,偏序目标计划树中计划所包含的步骤的执行顺序并不固定,只需满足一些偏序关系即可,即计划中的每一个步骤有其对应的前提步骤(prerequisite),当它的prerequisite全部执行完后,该步骤才允许被执行。
[0006]然而,当前定义的偏序目标计划树受限于其自身结构特点,对树中所有可能进行探索所花费的计算开销过大,时间效率较低。现实环境中,偏序目标计划树中的某些可能智能体是不会探索的,这些可能的删减并不会影响到最终的目标实现,而偏序目标计划树无法用于上述表述,最终限制了其在真实场景的应用。

技术实现思路

[0007]本专利技术所采用的技术方案是,一种BDI智能体计划执行中的偏序关系的学习方法,
所述方法包括以下步骤:
[0008]步骤1:获取偏序目标计划树中所有的计划,构成计划集PS;
[0009]步骤2:遍历计划集PS中的计划P
i
,并根据计划P
i
中所包含的步骤集合V及偏序关系生成其对应的决策树,i为计划集中计划的序号,i≥0;
[0010]本专利技术中,决策树的高度为计划中包含步骤数加1,决策树中根节点表示该决策树为哪个计划的决策树,且决策树中从根节点到叶子节点所组成的路径表示符合该计划中偏序关系的步骤执行顺序之一,决策树中从根节点到叶子节点的路径数之和表示该计划执行步骤顺序的所有可能数。
[0011]步骤3:计划集PS中所有计划的决策树创建成功后,给定m次机会让智能体使用MCTS算法调度智能体意图,更新决策树;此处是指根据智能体以往调度意图(此时智能体意图用偏序计划树表示)的经验更新决策树,学习表现表现较优的意图进展,即目标能全部实现的意图进展,获取该意图进展所经历的计划选择和意图选择组成的路径Path(路径中不包含目标),根据Path中选择的计划更新其对应的决策树。
[0012]步骤4:经过m次学习后,根据学习到的决策树的结果,将计划的步骤执行顺序固定为最优的执行顺序,即将偏序目标计划树转化为目标计划树。
[0013]优选地,所述步骤2中,对任一计划生成决策树包括以下步骤:
[0014]步骤2.1:构建表示决策树的多元组DT
i
=(P,R,curNode),其中P表示该决策树归属于计划集PS中的计划P
i
,R表示该决策树的根节点,curNode表示该决策树当前指向的节点;
[0015]步骤2.2:构建表示决策树中的节点的多元组DTN=(V
N
,E
c
,E
f
,E
p
,E
e
,visit),其中V
N
表示该节点对应的步骤集合V中的步骤(根节点的V
N
为计划P
i
),E
c
表示该节点的孩子节点所构成的集合(零个或多个),E
f
表示该节点的父节点(只有一个,根节点的父节点为空),E
p
表示从根节点到该节点所经历的所有节点中V
N
组成的集合(不包括根节点),E
e
表示该节点下可扩展的节点的V
N
组成的集合,visit表示该节点的访问次数;
[0016]步骤2.3:构建决策树的根节点DTN
R
,DTN
R
的V
N
为P
i
,E
f
、E
p
为空,visit=0,遍历步骤集合V并结合偏序关系,找到其对应的E
e
,即,对E
e
中任意一个步骤E
ei
,且E
ei
的任一prerequisite∈E
p
,设置决策树DT
i
的根节点R和curNode为DTN
R

[0017]步骤2.4:判断决策树是否满足要求,若是,则进行步骤3,否则进行下一步。
[0018]步骤2.5:顺序获取决策树DT
i
中curNode的E
e
中的一个元素且该元素不属于curNode的孩子节点V
N
所构成的集合,记为E
ei
,并以此创建新的决策树节点DTN
i
,DTN
i
的V
N
为E
ei
,将DTN
i
加入curNode的E
c
,设置DTN
...

【技术保护点】

【技术特征摘要】
1.一种BDI计划执行中偏序关系的学习方法,其特征在于:所述方法包括以下步骤:步骤1:获取偏序目标计划树中所有的计划,构成计划集PS;步骤2:遍历计划集PS中的计划P
i
,根据计划P
i
中所包含的步骤集合V及偏序关系生成其对应的决策树,i为计划集中计划的序号;步骤3:计划集PS中所有计划的决策树创建成功后,给定m次机会让智能体使用MCTS算法调度智能体意图,更新决策树;步骤4:经过m次学习后,根据学习到的决策树的结果,将偏序目标计划树转化为目标计划树。2.根据权利要求1所述的一种BDI计划执行中偏序关系的学习方法,其特征在于:步骤2中,生成所述决策树包括以下步骤:步骤2.1:构建表示决策树的多元组DT
i
=(P,R,curNode),其中,P表示该决策树归属于计划集PS中的计划P
i
,R表示该决策树的根节点,curNode表示该决策树当前指向的节点;步骤2.2:构建表示决策树中的节点的多元组DTN=(V
N
,E
c
,E
f
,E
p
,E
e
,visit),其中,V
N
为该节点对应的步骤集合V中的步骤,E
c
表示该节点的孩子节点所构成的集合,E
f
表示该节点的父节点,E
p
表示从根节点到该节点所经历的所有节点中V
N
组成的集合,E
e
表示该节点下可扩展的节点的V
N
组成的集合,visit表示该节点的访问次数;步骤2.3:构建决策树的根节点DTN
R
,DTN
R
的V
N
为P
i
,E
f
、E
p
为空,visit=0,遍历步骤集合V并结合偏序关系,找到其对应的E
e
,设置决策树DT
i
的根节点R和curNode为DTN
R
;步骤2.4:判断决策树是否满足要求,若是,则进行步骤3,否则进行下一步;步骤2.5:顺序获取决策树DT
i
中curNode的E
e
中的一个元素且该元素不属于curNode的孩子节点V
N
所构成的集合,记为E
ei
,以此创建新的决策树节点DTN
i
,DTN
i
的V
N
为E
ei
,将DTN
i
加入curNode的E
c
,设置DTN
i
的E
f
为curNode,DTN
i
的E
p
为curNode的E
p
∪V
N
,遍历步骤集合V,并结合偏序关系,找到其对应的E
e
,设置visit为0,更新DT
i
的curNode为新创建节...

【专利技术属性】
技术研发人员:宋程程姚远产思贤刘晓莹郑可琛刘一帆
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1