基于ART网络的决策行为建模方法、装置和计算机设备制造方法及图纸

技术编号:34108560 阅读:52 留言:0更新日期:2022-07-12 00:55
本申请涉及一种基于ART网络的决策行为建模方法、装置和计算机设备。所述方法利用ART模型对采集的示例轨迹数据实施转换,进行显示的决策行为建模,通过数据驱动的方式使模型自动学习决策行为规则,最终形成行为树形式的决策行为模型。本方法能够模拟人脑的学习和认知功能,在示例轨迹数据的基础上学习生成可解释的决策行为模型。决策行为模型。决策行为模型。

【技术实现步骤摘要】
基于ART网络的决策行为建模方法、装置和计算机设备


[0001]本申请涉及决策行为建模
,特别是涉及一种基于ART网络的决策行为建模方法、装置和计算机设备。

技术介绍

[0002]随着信息化程度不断提高,获取行为轨迹数据不再困难,利用示例学习生成决策行为模型将会成为重要研究方向。然而,由于当前常用的示例学习方法需要在模型的准确性和实时性之间进行取舍,因此生成的行为模型在性能表现上有所欠缺。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种基于ART网络的决策行为建模方法、装置和计算机设备。
[0004]一种基于ART网络的决策行为建模方法,所述方法包括:
[0005]获取待建模对象的示例轨迹数据;所述实例轨迹数据由从初始时刻到对抗结束时间之间每个时刻待建模对象的状态信息和动作信息对组成。
[0006]构建基于ART网络的决策行为建模模型,所述决策行为建模模型包括:状态网络、动作网络以及规则网络;所述状态网络、所述动作网络以及所述规则网络均为Fusion ART网络;Fusion ART网络包括多个输入域和1个类别域。
[0007]将状态信息进行预处理后输入到所述状态网络中,得到若干个状态节点。
[0008]将动作信息进行预处理后输入到所述动作网络中,得到若干个动作节点。
[0009]将所述动作节点和所述状态节点输入到所述规则网络中,得到若干个决策行为规则;
[0010]根据若干个所述决策行为规则,得到决策行为树结构。/>[0011]一种基于ART网络的决策行为建模装置,所述装置包括:
[0012]示例轨迹数据获取模块,用于获取待建模对象的示例轨迹数据;所述实例轨迹数据由从初始时刻到对抗结束时间之间每个时刻待建模对象的状态信息和动作信息对组成。
[0013]决策行为建模模型构建模块,用于构建基于ART网络的决策行为建模模型,所述决策行为建模模型包括:状态网络、动作网络以及规则网络;所述状态网络、所述动作网络以及所述规则网络均为Fusion ART网络;Fusion ART网络包括多个输入域和1个类别域。
[0014]决策行为树结构确定模块,用于将状态信息进行预处理后输入到所述状态网络中,得到若干个状态节点;将动作信息进行预处理后输入到所述动作网络中,得到若干个动作节点;将所述动作节点和所述状态节点输入到所述规则网络中,得到若干个决策行为规则;根据若干个所述决策行为规则,得到决策行为树结构。
[0015]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。
[0016]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执
行时实现上述任一所述方法的步骤。
[0017]上述基于ART网络的决策行为建模方法、装置和计算机设备,所述方法利用ART模型对采集的示例轨迹数据实施转换,进行显示的决策行为建模,通过数据驱动的方式使模型自动学习决策行为规则,最终形成行为树形式的决策行为模型。本方法能够模拟人脑的学习和认知功能,在示例轨迹数据的基础上学习生成可解释的决策行为模型。
附图说明
[0018]图1为一个实施例中基于ART网络的决策行为建模方法的流程示意图;
[0019]图2为另一个实施例中Fusion ART架构;
[0020]图3为另一个实施例中基于ART网络的决策行为建模模型结构图;
[0021]图4为另一个实施例中ART对应的行为树结构;
[0022]图5为另一个实施例中ART

Bev模型用于示例学习流程图
[0023]图6为一个实施例中单个规则子树示意图
[0024]图7为另一个实施例中规则库中四条规则转换形成的规则子树,其中,(a)(、b)(c)、(d)分别为第8条、第9条、第10条、第13条规则转换形成的规则子树;
[0025]图8为另一个实施例中基于单个回合轨迹数据学习生成的行为树模型;
[0026]图9为另一个实施例中生成示例轨迹的行为模型;
[0027]图10为一个实施例中基于ART网络的决策行为建模装置的结构框图;
[0028]图11为一个实施例中计算机设备的内部结构图。
具体实施方式
[0029]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0030]基于ART网络的决策行为建模网络,简称:ART

Bev模型。
[0031]ART网络的学习流程一般包括搜索、识别、比较、学习四个阶段。该模型一般通过无监督学习进行网络的初始化,之后在ART网络使用有监督学习进行学习。ART网络一般由两层网络组成,分别是接收输入信息的F1层和存储记忆节点的F2层,F1层接收外界输入信息,在网络中自下而上进行信息输入,类似于人脑通过感知类的细胞接收外部信息。F2层基于网络中已有的记忆节点自上而下产生期望,通过搜索、识别、比较,将输入信息与某个记忆节点进行匹配,一旦匹配成功就会诱发共振,这种共振会同步、放大、延长输入信息内部关键特征模式的活动,并支持对所选记忆节点的有意识识别,并且触发自上而下的主动路径中的适应权重的学习;若匹配失败,则会诱发重置循环搜索和学习新的识别类别,既可以通过反复搜索、识别、比较,找到近似匹配的记忆节点,对其进行补充和修改,也可以基于输入信息在F2层中学习生成新的记忆节点,类似于人脑对外部信息的处理过程。
[0032]基于ART网络的决策行为建模方法用于对游戏或者多机器人系统中的游戏人物或机器人的决策行为进行建模。
[0033]在一个实施例中,如图1所示,提供了一种基于ART网络的决策行为建模方法,该方法包括以下步骤:
[0034]步骤100:获取待建模对象的示例轨迹数据;实例轨迹数据由从初始时刻到对抗结束时间之间每个时刻待建模对象的状态信息和动作信息对组成。
[0035]具体的,待建模对象可以为游戏中的游戏人物、可以运动的设备等,或者多机器人系统中的机器人等。
[0036]示例轨迹数据可以是第一人称射击游戏中游戏人物的示例轨迹数据,也可以是多机器人系统中机器人的示例轨迹数据。示例轨迹数据可以通过仿真模拟的方式获得。
[0037]步骤102:构建基于ART网络的决策行为建模模型,决策行为建模模型包括:状态网络、动作网络以及规则网络;状态网络、动作网络以及规则网络均为Fusion ART网络;Fusion ART网络包括多个输入域和1个类别域。
[0038]具体的,构建基于ART网络的决策行为建模模型的结构如图2所示。基于ART网络的决策行为建模模型包括两层,模型底层包括状态网络和动作网络,模型上层包括规则网络。状态网络和动作网络分别用于对待建模对象的条件状本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于ART网络的决策行为建模方法,其特征在于,所述方法包括:获取待建模对象的示例轨迹数据;所述实例轨迹数据由从初始时刻到对抗结束时间之间每个时刻待建模对象的状态信息和动作信息对组成;构建基于ART网络的决策行为建模模型,所述决策行为建模模型包括:状态网络、动作网络以及规则网络;所述状态网络、所述动作网络以及所述规则网络均为Fusion ART网络;Fusion ART网络包括多个输入域和1个类别域;将状态信息进行预处理后输入到所述状态网络中,得到若干个状态节点;将动作信息进行预处理后输入到所述动作网络中,得到若干个动作节点;将所述动作节点和所述状态节点输入到所述规则网络中,得到若干个决策行为规则;根据若干个所述决策行为规则,得到决策行为树结构。2.根据权利要求1所述的方法,其特征在于,将状态信息进行预处理后输入到所述状态网络中,得到若干个状态节点,步骤前还包括:根据所述待建模对象的自身属性数据、所述声音传感器数据、所述雷达左前侧信息、所述雷达正前侧信息以及所述雷达右前侧信息的取值,对其对应的输入域进行重新划分。3.根据权利要求2所述的方法,其特征在于,所述状态信息包括待建模对象的自身属性数据、障碍器数据、炮弹器数据、雷达波传感器数据、气味传感器数据、声音传感器数据、雷达左前侧信息、雷达正前方信息、雷达右前侧探测信息;所述待建模对象的自身属性数据包括待建模对象的能量值、生命值、炮弹数量、雷达开启状态和护盾开启状态;将状态信息进行预处理后输入到所述状态网络中,得到若干个状态节点,包括:根据预设状态预处理规则将待建模对象的自身属性数据、障碍器数据、炮弹器数据、雷达波传感器数据、气味传感器数据、声音传感器数据、雷达左前侧信息、雷达正前方信息以及雷达右前侧探测信息,采用one

hot编码形式进行编码,得到对应的9个状态输入向量;对9个状态输入向量输入到对应的所述状态网络的输入域中,在每个输入域中对状态向量添加补码,得到激活向量;将所有激活向量输入到所述状态网络的类别域中,根据激活向量计算类别域中每个记忆节点的激活值;寻找具有最高激活值的记忆节点T
J
;若记忆节点J同时满足激活值最高和权重向量与输入向量之间的相似度大于警惕参数,则代表当前输入信息与记忆节点J匹配成功,即发生了共振;参考输入信息对激活节点J的权重向量进行自适应调节,增强其泛化能力;若在状态网络的类别域中没有节点与当前输入信息匹配,则在状态网络的类别域中创建一个新的记忆节点,并且令其权重向量为激活向量x
k
。4.根据权利要求3所述的方法,其特征在于,将所有激活向量输入到所述状态网络的类别域中,根据激活向量计算类别域中每个记忆节点的激活值,步骤中所述激活值的计算表达式为:
其中,T
j
为每个记忆节点j的激活值,x
k
为第k个激活向量,α
k
为选择参数,γ
k
为贡...

【专利技术属性】
技术研发人员:张琪曾俊杰胡越徐浩添杨杰焦鹏毕兴尹全军许凯
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1