【技术实现步骤摘要】
一种基于示教数据的多步规则提取方法、设备及存储介质
本专利技术涉及人工智能领域,关于强化学习与信息抽取的技术,具体涉及一种基于示教数据的多步规则提取方法、设备及存储介质。
技术介绍
目前,利用专家示教数据的训练算法大多数为模仿学习方法。模仿学习方法主要分为行为克隆方法与逆强化学习方法。行为克隆方法采用端到端的方式学习示教数据中状态与决策之间的映射关系。逆强化学习方法则从专家示教数据中学习积分函数,并将学到的积分函数用于强化学习算法的训练。模仿学习技术旨在模仿给定任务中的人类行为。智能体从专家示教数据中学习状态和动作之间的映射关系,以模仿专家水平执行任务。模仿学习过程的形式化表示采用马尔科夫决策过程描述。马尔科夫决策过程是序贯决策的数学模型,其形式化描述了决策智能体与环境的交互过程,用于模拟在具有马尔可夫性质的环境中智能体可实现的随机性策略与回报。模仿学习利用低层次的连续专家数据τ=(s0,a0,s1,a1…)进行策略的学习。模仿学习方法主要分为两大类:行为克隆方法及逆强化学习方法。其中利用的专家数据由连续的状态-动作对组成, ...
【技术保护点】
1.一种基于示教数据的多步规则提取方法,其特征在于,包括规则生成模块与规则结合强化学习训练模块,所述方法包括以下步骤:/n首先,规则生成模块在强化学习环境中顺序执行示教数据中的动作序列;从示教数据对应的动作序列中取出连续动作序列;随机初始化智能体和神经网络;提取出规则;/n其次,合强化学习训练模块将提取出的规则融入至强化学习智能体训练过程,规则结合强化学习训练模块的流程为:设置智能体动作空间中规则数量,通过扩展动作空间维度为原始动作空间维度,引入规则的ID作为智能体的可选动作,智能体决策为规则ID时,将会执行对应规则的动作序列,决策为原始动作时会直接执行,每隔一定时间步,根 ...
【技术特征摘要】
1.一种基于示教数据的多步规则提取方法,其特征在于,包括规则生成模块与规则结合强化学习训练模块,所述方法包括以下步骤:
首先,规则生成模块在强化学习环境中顺序执行示教数据中的动作序列;从示教数据对应的动作序列中取出连续动作序列;随机初始化智能体和神经网络;提取出规则;
其次,合强化学习训练模块将提取出的规则融入至强化学习智能体训练过程,规则结合强化学习训练模块的流程为:设置智能体动作空间中规则数量,通过扩展动作空间维度为原始动作空间维度,引入规则的ID作为智能体的可选动作,智能体决策为规则ID时,将会执行对应规则的动作序列,决策为原始动作时会直接执行,每隔一定时间步,根据规则的分数更新其动作空间中的规则。
2.根据权利要求1所述的基于示教数据的多步规则提取方法,其特征在于,规则生成模块首先对专家数据进行处理,将数据在强化学习仿真环境中模拟执行,分割成等距的数据片段,记录每个数据片段的累积环境奖励,设置规则分数计算机制,用以计算每个数据片段的分数作为规则的打分。
3.根据权利要求1或2所述的基于示教数据的多步规则提取方法,其特征在于,规则分数计算主要由探索价值和利用价值两个部分计算组成:探索价值与多步规则初始末尾状态距离成正比,与末尾状态的访问次数成反比。
4.根据权利要求3所述的神经网络自适应输出层的设计方法,其特征在于,示教数据包含L+1对状态动作对,要提取的多步规则长度为K,其中K<L。规则生成模块首先利用专家数据在环境中进行仿真:按照专家示教数据τ=(s0,a0,s1,a1,…,sL,aL)中的动作序列(a0,a1,…,aL)在强化学习的仿真环境中执行,收获环境的奖励,得到连续的交互数据随后,规则生成模块从交互数据中取出L-K段连续的长度为K的连续动作序列:Φ={{a0,a1,…,aK-1},{a1,a2,…,aK},…,{aL-K+1,aT-L+2,…,aL}}作为备选多步规则对应的动作序列,同时保存这L-K段动作序列的初始状态集合Ψ={{s0},{s1},…,{sL-K+1}}作为规则对应的触发条件集,
为了实现规则的有效利用,本发明评估备选规则对于强化学习智能体的价值,定义了如下的分数计算机制:
公式(1)中,对于第j条规则,定义U为规则的分数,衡量了规则价值的大小。
...
【专利技术属性】
技术研发人员:寇广,易晓东,王之元,韩晓旭,
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。