基于内部逻辑归纳的机器人决策策略训练方法及系统技术方案

技术编号：39493253 阅读：6 留言：0更新日期：2023-11-24 11:19

本发明专利技术公开一种基于内部逻辑归纳的机器人决策策略训练方法及系统，在像素

全部详细技术资料下载

【技术实现步骤摘要】
基于内部逻辑归纳的机器人决策策略训练方法及系统

[0001]本专利技术涉及一种基于内部逻辑归纳的机器人决策策略训练方法及系统，属于机器人智能学习

。

技术介绍

[0002]深度强化学习技术正得到迅速发展，在诸如雅达利游戏
、
围棋
、
机器臂决策等领域取得显著成功
。
该技术表现出极大的潜力，被认为是解决实际序列决策问题的有前景的方案
。
但是，强化学习算法样本利用效率低的特点，阻碍了它进一步用于环境采样成本昂贵的真实环境下的机器人决策场景
。
[0003]当前强化学习算法主要集中在处理单一类型的输入，如图像形式的像素输入或向量形式的符号输入
。
然而在很多现实场景中，算法可以同时获得上述两种形式的输入，如在自动驾驶场景中，车载视觉雷达捕获的是像素输入，车载激光雷达
、
城市道路信息和车辆指标信息
(
如速度
、
功率
、
坐标等
)
则是符号输入
。
有效利用两种不同形式的输入，能够进一步提高基于强化学习的机器人决策策略训练方法的样本利用效率
。
[0004]在像素
‑
符号混合形式输入的机器人决策场景中，像素输入通常提供更全面的信息，但由于像素输入和神经网络的复杂性，训练机器人决策策略需要大量的样本
。
相反，符号状态的维度要小得多，并且每个状态维度都具有固定且

【技术保护点】

【技术特征摘要】
1.
一种基于内部逻辑归纳的机器人决策策略训练方法，其特征在于，在像素
‑
符号混合形式输入的机器人决策环境下，使用深度强化学习算法处理像素输入，同时使用规则学习算法处理符号输入，旨在从样本数据中归纳出命题逻辑知识，然后使用归纳的命题逻辑知识帮助机器人学习；机器人决策策略训练方法包括：命题逻辑知识库的构建，命题逻辑知识库的检索，以及内部逻辑归纳模块设计三个步骤；三个步骤分别用于解决如何在机器人决策策略训练过程中构建有效的命题逻辑知识库，如何使用给定的命题逻辑知识库帮助深度强化学习算法的训练，以及如何将前两个步骤整合到一个框架中自适应的决定何时使用实时构建的命题逻辑知识库帮助深度强化学习算法的训练，实现机器人决策策略训练
。2.
根据权利要求1所述的基于内部逻辑归纳的机器人决策策略训练方法，其特征在于，构建仿真机器人决策环境
E
，该环境能提供与真实机器人决策场景下一致的状态与操作信息，模拟真实场景中对应的马尔科夫决策过程
<S,A,P,R>
，
S
表示状态空间，
A
表示动作空间，
P
表示状态转移函数，
R
表示奖励函数；像素
‑
符号混合形式输入场景下的状态空间
S
由像素状态和符号状态组成，
C,H,W,M
分别表示像素图像的通道数
、
高
、
宽和符号向量的维度，表示实数；机器人在每个决策步骤接收状态信息
s∈S
，由像素状态信息
s
p
∈S
p
和符号状态信息
s
s
∈S
s
组成，并从动作空间
A
中选取可执行的动作
a
进行决策
。3.
根据权利要求1所述的基于内部逻辑归纳的机器人决策策略训练方法，其特征在于，在命题逻辑知识库的构建步骤中，需要为规则学习算法准备一个训练数据集，所以提出了一种两阶段样本过滤机制；设环境采样过程中已获得机器人
N
条轨迹集合
{Traj
i
|i∈{1,2,
…
,N}}
，其中第
i
条轨迹记为并且其对应的回报为第一阶段样本过滤机制为：去除轨迹集合中执行探索动作的符号状态和动作对，得到过滤后的轨迹集合
{Traj
′
i
|i∈{1,2,
…
,N}}
；第二阶段样本过滤机制为：将
N
条轨迹按照回报大小降序排序，排序后的轨迹集合为并将轨迹展开为符号状态和动作对表示，得到最后取前
K
个符号状态和动作对作为规则学习算法的训练集基于训练集规则学习算法从训练集中归纳出命题逻辑知识库
KB
，知识库的示例如下：，知识库的示例如下：
…
其中
s
i
代表符号输入中的一个符号特征，
x
j
代表一个阈值，而
a
对应的是命题逻辑知识库建议的动作，
a
＝
c
v
表示执行代号为
c
v
的动作
。4.
根据权利要求1所述的基于内部逻辑归纳的机器人决策策略训练方法，其特征在于，在命题逻辑知识库的检索步骤中，给定一个将所有命题规则按顺序存储的知识库
KB
后，将仿真机器人决策环境给出的符号状态送到知识库
KB
中检索，一旦找到一个满足的匹配就完成检索的过程；在命题逻辑知识库的检索步骤的实现过程为：在机器人决策的每一个时间步，环境返回的符号状态被发送到知识库
KB
中，如果符号状态和知识库中某一条规则的规则体匹配，那么知识库将给出对应的规则头，即知识库建议的动作
a
adv
；如果在知识库中没
有找到匹配的规则体，那么对于这个符号状态知识库
KB
就不会给出建议；获得建议的动作后，使用知识库
KB
建议的动作构造内在奖励来促进强化学习策略的训练，如果机器人执行的动作
a
act
与知识库建议的动作
a
adv
一致，则给与大小为
+x
的内在奖励
...

【专利技术属性】
技术研发人员：章宗长，俞扬，周志华，徐嘉诚，陈超，张福翔，袁雷，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人