一种基于因果关系推断的智能体行为模型构建方法技术

技术编号:32569526 阅读:87 留言:0更新日期:2022-03-09 16:56
本申请属于人工智能技术领域,具体涉及一种基于因果关系推断的智能体行为模型构建方法。该方法包括步骤S1、通过对采用强化学习进行训练的智能体进行训练数据采集;步骤S2、选取一定比例的飞机智能体训练数据作为数据集;步骤S3、依据数据集中各数据间的联系,结合先验知识进行数据间的因果关系发现;步骤S4、对训练数据进行回归拟合生成合理的行为因果结构模型。本申请利用行为因果关系模型对智能体行为进行在线解释,可以达到很好的行为解释效果。果。果。

【技术实现步骤摘要】
一种基于因果关系推断的智能体行为模型构建方法


[0001]本申请属于人工智能
,具体涉及一种基于因果关系推断的智能体行为模型构建方法。

技术介绍

[0002]在机器学习自主决策的领域,通过强化学习得到的智能体的行为是一个黑盒模型,缺乏可解释性。这对人类信任智能体的行为产生一定的阻碍,利用智能体训练数据分析智能体的行为模型是解释智能体的一种重要手段。人类可以通过对智能体的行为建模,预测智能体的行为,解释智能体为什么做某一个行为的原因,当前环境状态下智能体可以做出的最优解。因此,解释智能体的行为对人类信任智能体,优化智能体的训练方式又重要的指导意义。
[0003]目前智能体的行为解释中,人们对于智能体的行为解释基本依靠模型自身的可解释性与训练数据间的相关性。例如,基于规则产生的智能体本身的行为逻辑完全由人类编写,再某一种特定的情况下,可以很清晰的知道智能体下一步会采取什么决策,做出什么样的行为,不会有模棱两可的选择纯在。这种方式得到的智能体模型可解释性强,但过于依靠人类编写的智能体行为逻辑,很难体现机器的智能,处理复杂的任务时,力有不济。另一种产生智能体的方式是通过大量的数据和神经网络训练的方式,这种方式下,可以通过发现训练智能体的数据间的相关性来发现智能体的某一中行为与某些量之间的关系来解释智能体行为产生的依据。这种方式虽然利用了机器在处理大量数据时的优越性以及生成模型具有泛化能力的特点,但是它的解释智能体有一个很重大的缺陷,由数据间的相关性得到的解释无法符合人类的逻辑。

技术实现思路

[0004]为了解决上述问题,本申请提供了一种基于因果关系推断的智能体行为模型构建方法,此方法得出的因果行为结构图可以预测智能体的下一步动作,解释智能体做出某种行为的依据,在提升智能体行为的可解释性以及后续优化智能体的训练方式上都有重大意义。
[0005]本申请提供的基于因果关系推断的智能体行为模型构建方法,主要包括:
[0006]步骤S1、通过对采用强化学习进行训练的智能体进行训练数据采集;
[0007]步骤S2、选取一定比例的飞机智能体训练数据作为数据集;
[0008]步骤S3、依据数据集中各数据间的联系,结合先验知识进行数据间的因果关系发现;
[0009]步骤S4、对训练数据进行回归拟合生成合理的行为因果结构模型。
[0010]优选的是,步骤S1中,所述训练数据采集包括智能体训练过程中的环境状态、采取的动作和奖励信息。
[0011]优选的是,步骤S2中,选取70%的飞机智能体训练数据作为数据集,剩余30%的飞
机智能体训练数据作为测试集。
[0012]优选的是,步骤S3中,进行数据间的因果关系发现包括:
[0013]基于独立性测试的方法,通过两个变量的相关系数确定独立性;
[0014]基于马尔可夫假设验证数据间的因果性。
[0015]优选的是,步骤S3中,进行数据间的因果关系发现包括:
[0016]在模型上增加噪声,对在线性模型与非线性模型分别作出验证。
[0017]优选的是,步骤S4中,所述行为因果结构模型包括输入层、隐藏层及输出层,所述隐藏层和输出层为全连接层,利用ReLU函数作为激活函数。
[0018]优选的是,步骤S4中,模型训练采用minibatch法,batch尺寸选为64。
[0019]优选的是,步骤S4之后,进一步包括将实时的观测数据输入行为因果结构模型预测智能体可能采取的动作,解释智能体的行为。
[0020]本申请利用基于因果关系推断的智能体行为解释方法预测出动作与智能体的行为基本一致,表明飞智能体的行为可以利用行为因果结构模型来解释;其次,通过这种行为解释的方式可以发现智能体一些不智能的特征,反过来能够调整智能体的训练方式。本申请利用行为因果关系模型对智能体行为进行在线解释,可以达到很好的行为解释效果。
附图说明
[0021]图1为本申请基于因果关系推断的智能体行为模型构建方法的一优选实施例的流程图。
[0022]图2为模型训练示意图。
具体实施方式
[0023]为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。下面结合附图对本申请的实施方式进行详细说明。
[0024]本申请提供了一种基于因果关系推断的智能体行为模型构建方法,如图1所示,主要包括:
[0025]步骤S1、通过对采用强化学习进行训练的智能体进行训练数据采集;
[0026]步骤S2、选取一定比例的飞机智能体训练数据作为数据集;
[0027]步骤S3、依据数据集中各数据间的联系,结合先验知识进行数据间的因果关系发现;
[0028]步骤S4、对训练数据进行回归拟合生成合理的行为因果结构模型。
[0029]为实现本专利技术的目的,采取的技术解决方案是一种基于因果关系推断的智能体行为解释方法。此方法通过智能体训练过程中产生的数据结合行为因果关系图的构建,生成可以预测智能体下一步动作的智能体行为解释模型。该方法的流程包括:
[0030]a)对强化学习训练智能体过程中样本数据进行离线采集;
[0031]b)结合数据间的因果性与人类经验得到行为因果结构图;
[0032]c)将数据输入行为结构因果模型进行离线训练,输出预测智能体下一步动作的行为解释模型;
[0033]d)将智能体进行任务时环境状态输入入行为解释模型对智能体的行为作出合理解释。
[0034]上述流程中a)、b)和c)为离线过程,目的是获得训练好的预测模型,d)为模型的在线应用,目的是得到智能体行为的合理解释。具体的实施例步骤如下:
[0035]1)强化学习训练智能体样本数据采集。
[0036]样本数据可以通过强化学习训练智能体过程中智能体与环境的交互过程中获取。样本数据主要包括三部分,即环境的状态、智能体的动作与智能体获得的奖励。一次智能体任务探索中的整个时间序列作为一组样本数据。环境的状态、智能体的动作与智能体获得的奖励和强化学习训练过程密切相关,采集的数据如表1所示。
[0037]表1智能体训练数据样本
[0038]时间T环境S
i
动作A
i
奖励r
i
[0039]本申请通过构建行为因果结构图的方式对强化学习训练的智能体进行行为解释建模。对训练智能体过程中产生的数据进行因果性分析,结合人类的经验知识,可以构建出合理的行为因果结构图,这是行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于因果关系推断的智能体行为模型构建方法,其特征在于,包括:步骤S1、通过对采用强化学习进行训练的智能体进行训练数据采集;步骤S2、选取一定比例的飞机智能体训练数据作为数据集;步骤S3、依据数据集中各数据间的联系,结合先验知识进行数据间的因果关系发现;步骤S4、对训练数据进行回归拟合生成合理的行为因果结构模型。2.如权利要求1所述的基于因果关系推断的智能体行为模型构建方法,其特征在于,步骤S1中,所述训练数据采集包括智能体训练过程中的环境状态、采取的动作和奖励信息。3.如权利要求1所述的基于因果关系推断的智能体行为模型构建方法,其特征在于,步骤S2中,选取70%的飞机智能体训练数据作为数据集,剩余30%的飞机智能体训练数据作为测试集。4.如权利要求1所述的基于因果关系推断的智能体行为模型构建方法,其特征在于,步骤S3中,进行数据间的因果关系发现包括:基于独立性测试的...

【专利技术属性】
技术研发人员:王汉朴海音陈永红陶晓洋于津郝一行彭宣淇韩玥杨晟琦叶超樊松源孙阳
申请(专利权)人:中国航空工业集团公司沈阳飞机设计研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1