当前位置: 首页 > 专利查询>南京大学专利>正文

基于内部逻辑归纳的机器人决策策略训练方法及系统技术方案

技术编号:39493253 阅读:6 留言:0更新日期:2023-11-24 11:19
本发明专利技术公开一种基于内部逻辑归纳的机器人决策策略训练方法及系统,在像素

【技术实现步骤摘要】
基于内部逻辑归纳的机器人决策策略训练方法及系统


[0001]本专利技术涉及一种基于内部逻辑归纳的机器人决策策略训练方法及系统,属于机器人智能学习



技术介绍

[0002]深度强化学习技术正得到迅速发展,在诸如雅达利游戏

围棋

机器臂决策等领域取得显著成功

该技术表现出极大的潜力,被认为是解决实际序列决策问题的有前景的方案

但是,强化学习算法样本利用效率低的特点,阻碍了它进一步用于环境采样成本昂贵的真实环境下的机器人决策场景

[0003]当前强化学习算法主要集中在处理单一类型的输入,如图像形式的像素输入或向量形式的符号输入

然而在很多现实场景中,算法可以同时获得上述两种形式的输入,如在自动驾驶场景中,车载视觉雷达捕获的是像素输入,车载激光雷达

城市道路信息和车辆指标信息
(
如速度

功率

坐标等
)
则是符号输入

有效利用两种不同形式的输入,能够进一步提高基于强化学习的机器人决策策略训练方法的样本利用效率

[0004]在像素

符号混合形式输入的机器人决策场景中,像素输入通常提供更全面的信息,但由于像素输入和神经网络的复杂性,训练机器人决策策略需要大量的样本

相反,符号状态的维度要小得多,并且每个状态维度都具有固定且具体的含义,在符号状态上的训练会更快地收敛,但它通常会缺乏一些信息,导致无法获得最优的决策策略

[0005]现有可用于机器人决策场景的强化学习算法主要关注单一形式的输入,只有少数工作围绕多种形式的输入进行,主要的研究方向是:多视图强化学习和符号深度强化学习

多视图强化学习关注来自多个视图的数据,每个视图共享公共的动力学模型,但遵循不同的观察模型

多视图强化学习研究如何从多个不同的观测模型中通过表征学习技术整合信息,而在本专利技术关心的设定中,像素输入已经包含了整合后的信息

符号深度强化学习则在分层强化学习框架下处理高维像素输入和任务级别的符号输入,它们关注如何利用任务级别的符号输入进行上层策略规划,而在本专利技术关心的设定中,符号输入可以直接用于决策辅助,两者关于符号输入的粒度和使用方法有很大的不同

[0006]当遇到像素

符号混合形式输入的机器人决策场景时,常见的做法是将像素输入经过卷积神经网络处理得到低维表征,然后将低维表征与原始符号输入拼接,将拼接后的结果作为深度强化学习网络的输入

这种方法并没有很好地利用符号输入的特性,因为神经网络仍然需要大量样本来学习符号输入的语义,而且像素输入的高维度表示可能会干扰符号输入的识别

此外,现有的单纯处理像素输入的强化学习算法,在视觉感知变化的新任务上,难以复用旧任务上学习的知识


技术实现思路

[0007]专利技术目的:针对现有技术存在的问题与不足,基于像素

符号混合形式输入的机器人决策环境的特点,本专利技术提供了一种基于内部逻辑归纳的机器人决策策略训练方法及系
统,利用深度强化学习算法和规则学习算法,分别处理像素输入和符号输入,并且提出了一种新颖的自适应奖励工程机制将两者有效地结合在一起,以解决现有技术在像素

符号混合形式输入的机器人决策环境下样本利用效率低,并在视觉感知变化的场景下难以知识迁移的问题,帮助机器人决策系统进行高效训练和快速迁移部署

[0008]技术方案:一种基于内部逻辑归纳的机器人决策策略训练方法,在像素

符号混合形式输入的机器人决策环境下,进行强化学习训练,该方法将深度强化学习算法和规则学习算法整合到一个系统中

本方法使用深度强化学习算法处理像素输入,同时使用规则学习算法处理符号输入,旨在从少量高质量样本中归纳出有价值的命题逻辑知识,然后使用归纳的命题逻辑知识帮助机器人学习,提高样本数据利用效率

由于机器人内部逻辑归纳模块的训练集是在机器人决策策略训练过程中自动提取的,所以内部逻辑归纳模块的训练是一种自监督过程,不需要人工参与训练集的构建

此外,内部逻辑归纳模块带来一个额外优势是训练过程中导出的命题逻辑知识库具有良好的知识迁移性

[0009]本专利技术基于真实系统构建了仿真机器人决策环境
E
,该环境能提供与真实机器人决策场景下一致的状态与操作信息,基本模拟真实场景中对应的马尔科夫决策过程
<S,A,P,R>

S
表示状态空间,
A
表示动作空间,
P
表示状态转移函数,
R
表示奖励函数

与常见单一形式输入的机器人决策场景不同,像素

符号混合形式输入场景下的状态空间
S
由像素状态和符号状态组成,
C,H,W,M
分别表示像素图像的通道数



宽和符号向量的维度,表示实数

机器人在每个决策步骤接收状态信息
s∈S
,由像素状态信息
s
p
∈S
p
和符号状态信息
s
s
∈S
s
组成,并从动作空间
A
中选取可执行的动作
a
进行决策

[0010]本专利技术方法涉及三个步骤,命题逻辑知识库的构建,命题逻辑知识库的检索,以及内部逻辑归纳模块设计

分别用于解决如何在机器人决策策略训练过程中构建有效的命题逻辑知识库,如何使用给定的命题逻辑知识库帮助深度强化学习算法的训练,以及如何将前两个步骤整合到一个框架中自适应的决定何时使用实时构建的命题逻辑知识库帮助深度强化学习算法的训练,实现机器人决策策略训练

[0011]在命题逻辑知识库的构建步骤中,需要为规则学习算法准备一个训练数据集

在机器人决策策略训练的采样过程中会包含很多探索数据,但这类数据并不全都是规则学习算法所需要的,因为规则学习算法只需要高质量的样本,所以提出了一种两阶段样本过滤机制

假定环境采样过程中已获得机器人
N
条轨迹集合
{Traj
i
|i∈{1,2,

,N}}
,其中第
i
条轨迹记为并且其对应的回报为本方法第一阶段样本过滤机制为:去除轨迹集合中执行探索动作的符号状态和动作对,得到过滤后的轨迹集合
{Traj
...

【技术保护点】

【技术特征摘要】
1.
一种基于内部逻辑归纳的机器人决策策略训练方法,其特征在于,在像素

符号混合形式输入的机器人决策环境下,使用深度强化学习算法处理像素输入,同时使用规则学习算法处理符号输入,旨在从样本数据中归纳出命题逻辑知识,然后使用归纳的命题逻辑知识帮助机器人学习;机器人决策策略训练方法包括:命题逻辑知识库的构建,命题逻辑知识库的检索,以及内部逻辑归纳模块设计三个步骤;三个步骤分别用于解决如何在机器人决策策略训练过程中构建有效的命题逻辑知识库,如何使用给定的命题逻辑知识库帮助深度强化学习算法的训练,以及如何将前两个步骤整合到一个框架中自适应的决定何时使用实时构建的命题逻辑知识库帮助深度强化学习算法的训练,实现机器人决策策略训练
。2.
根据权利要求1所述的基于内部逻辑归纳的机器人决策策略训练方法,其特征在于,构建仿真机器人决策环境
E
,该环境能提供与真实机器人决策场景下一致的状态与操作信息,模拟真实场景中对应的马尔科夫决策过程
<S,A,P,R>

S
表示状态空间,
A
表示动作空间,
P
表示状态转移函数,
R
表示奖励函数;像素

符号混合形式输入场景下的状态空间
S
由像素状态和符号状态组成,
C,H,W,M
分别表示像素图像的通道数



宽和符号向量的维度,表示实数;机器人在每个决策步骤接收状态信息
s∈S
,由像素状态信息
s
p
∈S
p
和符号状态信息
s
s
∈S
s
组成,并从动作空间
A
中选取可执行的动作
a
进行决策
。3.
根据权利要求1所述的基于内部逻辑归纳的机器人决策策略训练方法,其特征在于,在命题逻辑知识库的构建步骤中,需要为规则学习算法准备一个训练数据集,所以提出了一种两阶段样本过滤机制;设环境采样过程中已获得机器人
N
条轨迹集合
{Traj
i
|i∈{1,2,

,N}}
,其中第
i
条轨迹记为并且其对应的回报为第一阶段样本过滤机制为:去除轨迹集合中执行探索动作的符号状态和动作对,得到过滤后的轨迹集合
{Traj

i
|i∈{1,2,

,N}}
;第二阶段样本过滤机制为:将
N
条轨迹按照回报大小降序排序,排序后的轨迹集合为并将轨迹展开为符号状态和动作对表示,得到最后取前
K
个符号状态和动作对作为规则学习算法的训练集基于训练集规则学习算法从训练集中归纳出命题逻辑知识库
KB
,知识库的示例如下:,知识库的示例如下:

其中
s
i
代表符号输入中的一个符号特征,
x
j
代表一个阈值,而
a
对应的是命题逻辑知识库建议的动作,
a

c
v
表示执行代号为
c
v
的动作
。4.
根据权利要求1所述的基于内部逻辑归纳的机器人决策策略训练方法,其特征在于,在命题逻辑知识库的检索步骤中,给定一个将所有命题规则按顺序存储的知识库
KB
后,将仿真机器人决策环境给出的符号状态送到知识库
KB
中检索,一旦找到一个满足的匹配就完成检索的过程;在命题逻辑知识库的检索步骤的实现过程为:在机器人决策的每一个时间步,环境返回的符号状态被发送到知识库
KB
中,如果符号状态和知识库中某一条规则的规则体匹配,那么知识库将给出对应的规则头,即知识库建议的动作
a
adv
;如果在知识库中没
有找到匹配的规则体,那么对于这个符号状态知识库
KB
就不会给出建议;获得建议的动作后,使用知识库
KB
建议的动作构造内在奖励来促进强化学习策略的训练,如果机器人执行的动作
a
act
与知识库建议的动作
a
adv
一致,则给与大小为
+x
的内在奖励
...

【专利技术属性】
技术研发人员:章宗长俞扬周志华徐嘉诚陈超张福翔袁雷
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1