一种不同环境下BDI意图进展的学习方法、介质和设备技术

技术编号:38557845 阅读:5 留言:0更新日期:2023-08-22 21:00
本发明专利技术涉及一种不同环境下BDI意图进展的学习方法、介质和设备,方法获取目标计划树中的执行特征,通过修改生成目标计划树时的初始环境中的部分变量值,生成让智能体进行学习的环境集合,对环境集合的元素分类,构建有向无环图DAG,保存智能体学习不同环境下的意图进展;介质存储不同环境下BDI意图进展的学习程序,执行所述方法,计算机设备的处理器执行程序实现所述方法。本发明专利技术提出执行特征的概念,以此来生成大量的环境让智能体进行学习,提出有效环境的概念,提高智能体学习环境的效率;提出让智能体学习以往环境的经验并保存为有向无环图,加快智能体的执行速度。加快智能体的执行速度。加快智能体的执行速度。

【技术实现步骤摘要】
一种不同环境下BDI意图进展的学习方法、介质和设备


[0001]本专利技术涉及基于特定计算模型的计算机系统的
,特别涉及一种不同环境下BDI意图进展的学习方法、介质和设备。

技术介绍

[0002]智能体(Agent)是位于某环境中,通过感知信息并在该环境中自主行动来实现其设计目标的个体,智能体所在的环境可以是真实世界,也可以是计算机系统中的纯计算环境。智能体已被用于开发各种领域的应用,包括航天器、工业制造等。
[0003]在基于信念

愿望

意图(belief

desire

intention)的智能体体系结构中,BDI智能体的行为是根据信念、目标和计划来指定的。信念表示智能体关于环境(和自身)的信息。目标表示智能体试图实现的环境的期望状态。计划是智能体修改环境以实现其目标的手段。计划由步骤组成,这些步骤要么是直接改变智能体环境的基本动作,要么是由其他计划实现的子目标。对于每个顶级目标,智能体选择一个构成意图根源的计划,并开始执行计划中的步骤。如果意图的下一步是子目标,则选择(子)计划来实现子目标并将其添加到意图中,然后执行(子)计划中的步骤,以此类推。
[0004]针对意图进展问题,Yao等人提出了SA,一种基于蒙特卡洛(MCTS)搜索的方法,SA能够选择计划来实现智能体的目标,并在这些计划中交叉执行步骤。Thangarajah等人提出了目标

计划树(GPT)的概念,以表示BDI智能体的目标和计划之间的关系。目标计划树的根是顶层的目标(目标节点),它的子节点是可以用来实现目标的计划(计划节点)。计划可能反过来包含子目标(目标节点)从而产生一个树结构,表示一个智能体可以实现顶层目标的所有可能方式。除了定义目标和计划之间的关系之外,目标计划树还用来记录关于实现(子)目标或成功执行计划所需条件的信息,前置条件是计划开始执行时必须为真的条件。后置条件是指通过执行计划或实现目标而实现的条件。
[0005]然而,当前智能体并没有学习不同环境的能力,即不能从以往的意图进展中获取经验。智能体遇到之前所经历过的环境依然会使用MCTS调度智能体意图,因此,我们希望智能体能够学习不同环境下的意图进展,遇到重复环境时,能够根据以往经验进行意图进展。

技术实现思路

[0006]本专利技术所采用的技术方案是,一种不同环境下BDI意图进展的学习方法,所述方法包括以下步骤:
[0007]步骤1:获取目标计划树GPTs={t1,t2,t3.....t
n
}中的执行特征E
c

[0008]步骤2:根据E
c
,通过修改生成GPTs时的初始环境s0中的部分变量值,生成让智能体进行学习的环境集合S;
[0009]步骤3:对环境集合S的元素进行分类,分为有效环境和无效环境,只保留有效环境Env
e
让智能体学习,获取变量集合R
g
,即在不考虑目标交互的情况下获取保证目标有机会能够全部实现的所有可能R
g
,R
g
是一个集合,集合里的每一个元素是目标能够实现的一种可
能;
[0010]步骤4:构建有向无环图DAG,保存智能体学习不同环境下的意图进展。
[0011]优选地,所述步骤1中,获取GPT
i
(1≤i≤n)的执行特征包括以下步骤:
[0012]步骤1.1:对于GPTs中的任一目标计划树GPT
i
,将GPT
i
中所有计划构成计划集PS,获取计划集PS中所有计划的前置条件组成的集合PS
pre
;i为1至n的任一整数;
[0013]步骤1.2:GPT
i
中所有动作构成动作集AS,获取动作集AS中所有动作的后置条件组成的集合AS
post

[0014]步骤1.3:该GPT
i
的执行特征E
ci
为{PS
pre

AS
post
},获得属于集合PS
pre
但不属于集合AS
post
的变量;
[0015]步骤1.4:依次获取每个GPT的执行特征E
ci
,GPTs的执行特征E
c
=E
c1
∪E
c2
∪E
c3
∪...∪E
cn

[0016]本专利技术中,GPT的执行特征为完全来自于环境中的变量,即对智能体实现目标数量影响较大的变量。智能体想要实现一个目标,至少需要有一个计划的前置条件是满足的,而计划的前置条件可能是前一步或前几步的动作的后置条件,而这部分条件,不管外在环境如何变化,只要相应的动作能够执行,总能满足该计划的前置条件,而计划的前置条件,要么完全来自于环境,要么是由动作的后置条件导致的。因此,GPT中所有计划的前置条件集合与所有动作的后置条件集合的差集即为完全来自于环境中的变量,因此,只需获得对智能体执行结果影响最大的环境变量,即完全来自于环境中的变量,称之为GPT的执行特征。
[0017]优选地,所述步骤2包括以下步骤:
[0018]步骤2.1:随机生成一个整数num,num为1至E
c
中变量个数间的任一整数,在初始环境s0中选择num个变量进行修改,变量属于E
c
且未被修改过;
[0019]步骤2.2:修改选择的num个变量,即在初始环境s0中变量值为真则修改为假,变量值为假则修改为真,其余变量的值保持不变;
[0020]步骤2.3:得到新环境s1,重复步骤2.1直至获得包括预期元素数量的环境集合S。
[0021]优选地,所述步骤3中,具体步骤如下:
[0022]步骤3.1:获取实现顶层目标TLG
i
的所有可能R
i
(R
i
中任意一种可能中的任一元素是属于执行特征E
c
),首先TLG
i
所对应的GPT
i
中每个计划节点和目标节点增加一个集合Set(treeNode)(集合初始为空),该集合存储保证treeNode能够实现的环境变量值的所有可能组合;
[0023]步骤3.2:从最底层的计划开始,检查实现该计划所必须满足的条件,并将结果依次往上层目标节点进行递归处理,以此类推,直到处理到顶层目标,最终R
i
=Set(TLG
i
);
[0024]递归处理时对目标和计划的处理方式不同:
[0025]如果处理的节点是计划Plan,则该计划对应的Set(Plan)中每个元素都添加该计划的前置条件中属于E
c
的变量(最底层计划的Set只保存了它本身的前置条件);如果是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不同环境下BDI意图进展的学习方法,其特征在于:所述方法包括以下步骤:步骤1:获取目标计划树GPTs={t1,t2,t3.....t
n
}中的执行特征E
c
;步骤2:根据E
c
,通过修改生成GPTs时的初始环境s0中的部分变量值,生成让智能体进行学习的环境集合S;步骤3:对环境集合S的元素进行分类,分为有效环境和无效环境,只保留有效环境Env
e
让智能体学习,获取变量集合R
g
;步骤4:构建有向无环图DAG,保存智能体学习不同环境下的意图进展。2.根据权利要求1所述的一种不同环境下BDI意图进展的学习方法,其特征在于:所述步骤1包括以下步骤:步骤1.1:对于GPTs中的任一目标计划树GPT
i
,将其中所有计划构成计划集PS,获取计划集PS中所有计划的前置条件组成的集合PS
pre
;i为1至n的任一整数;步骤1.2:以GPT
i
中所有动作构成动作集AS,获取动作集AS中所有动作的后置条件组成的集合AS
post
;步骤1.3:该GPT
i
的执行特征E
ci
为{PS
pre

AS
post
},获得属于集合PS
pre
但不属于集合AS
post
的变量;步骤1.4:依次获取GPTs中每个目标计划树的执行特征,得到GPTs的执行特征E
c
=E
c1
∪E
c2
∪E
c3
∪...∪E
cn
。3.根据权利要求1所述的一种不同环境下BDI意图进展的学习方法,其特征在于:所述步骤2包括以下步骤:步骤2.1:随机生成一个整数num,num为1至E
c
中变量个数间的任一整数,在初始环境s0中选择num个变量进行修改,变量属于E
c
且未被修改过;步骤2.2:修改选择的num个变量,即在初始环境s0中变量值为真则修改为假,变量值为假则修改为真,其余变量的值保持不变;步骤2.3:得到新环境s1,重复步骤2.1直至获得包括预期元素数量的环境集合S。4.根据权利要求1所述的一种不同环境下BDI意图进展的学习方法,其特征在于:所述步骤3包括以下步骤:步骤3.1:获取实现顶层目标TLG
i
的所有可能变量R
i
,TLG
i<...

【专利技术属性】
技术研发人员:宋程程姚远产思贤刘晓莹郑可琛刘一帆
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1