基于忆阻交叉阵列与Q学习的机器人路径规划系统技术方案

技术编号：16063759 阅读：62 留言：0更新日期：2017-08-22 16:28

本发明专利技术公开了一种基于忆阻交叉阵列与Q学习的机器人路径规划系统，一方面将Q学习中距离目标点的回报由离散点的形式改为用函数表达，另一方面，当机器人距障碍物一定范围时让其以直线趋近目标点，并且本发明专利技术提出了具有连续输入输出、动态可变电阻、纳米尺寸的忆阻交叉阵列模型，详细推导了改变忆阻值所需要的电压以及所需的施加时间。最后经实验分析，证明了方案的有效性。本发明专利技术提出了利用忆阻交叉阵列来实现机器人路径规划系统的新方案，将为忆阻器以及机器人路径规划更为广阔的应用提供新的思路。

Robot path planning system based on memory barrier cross array and Q learning

The invention discloses a memristor cross array and Q learning robot path planning system based on a Q learning in the distance from the target point of return by the form of discrete points to function expression, on the other hand, when the robot obstacle distance range when it approaches the target point in a straight line, and the invention proposes a memristive crossbar array model output, dynamic variable resistor, nano size serial input, is derived to change the voltage needed to have resistance and the required application time. Finally, the effectiveness of the proposed scheme is proved by experimental analysis. The invention provides a new scheme for robot path planning system using a memory crossed array, which provides a new idea for a memristor and a wider application of robot path planning.

全部详细技术资料下载

【技术实现步骤摘要】
基于忆阻交叉阵列与Q学习的机器人路径规划系统
本专利技术涉及忆阻交叉阵列与强化学习技术，具体涉及到一种基于忆阻交叉阵列与Q学习的机器人路径规划系统。
技术介绍
强化学习是一种著名的无监督的机器智能学习算法，且被广泛应用于人工智能等领域。著名的强化学习算法包括：Sutton在1988年提出的TD算法；Schwartz提出的R-Learning算法；Watkins在1989年提出的Q-Learning算法以及PengandWilliams在1996年提出的Q(λ)算法等。其中相对重要的Q-Learning算法被广泛用于机器人路径规划。但传统的Q-Learning利用lookup表格法来存储产生的Q值，所以当状态空间逐渐增大时，可能会出现由于Q-Learning算法所需存储空间巨大而导致状态爆炸使得机器人不能有效工作，所以不得不让机器人携带更多的存储设备来满足需要，使得机器人工作效率大大降低。鉴于忆阻器的良好特性，本申请人于2012年提出了专利申请201210188573.2，并公开了一种基于忆阻交叉阵列的Q学习系统，该系统将新的电路元件——忆阻器成功应用到了强化学习中，解决了强化学习需要大量的存储空间问题，为以后强化学习的研究提供了一种新的思路。但是，现有经过继续研究发现，现有的基于忆阻交叉阵列的Q学习系统存在的缺陷是：收敛速度太慢，机器学习时间较长。
技术实现思路
为了解决上述问题，本专利技术提供一种基于忆阻交叉阵列与Q学习的机器人路径规划系统，该系统通过构建一种新的硬件架构，在实现机器人路径规划时，加快了收敛速度，缩短了机器学习时间。为实现上述目的，本专利技术...

【技术保护点】
一种基于忆阻交叉阵列与Q学习的机器人路径规划系统，包括忆阻交叉阵列，其特征在于，还包括读写控制开关、状态检测与选择模块、列选择开关、控制器、随机选择模块、第一比较器、第二比较器、延迟单元以及运算模块，其中：读写控制开关：用于控制忆阻交叉阵列的读写操作，设置有读电压Vr输入端和写电压Vw输入端；状态检测与选择模块：当需要根据状态执行相应动作时，用于检测当前环境状态st，执行动作at并得到环境回报rt；当需要对Q值进行更新时，用于输出前一个时刻的环境状态，并选择相应的行线，使其加载写电压Vw，并持续时间Tw，更新忆阻阵列的输出值；列选择开关：用于选择对应的列线；控制器：用于控制当前时刻是随机选择模块工作还是第一比较器工作；随机选择模块：通过生成一随机数作为列线选择的判断标准；第一比较器：用于比较所有列线的电压值，并将电压值最大的一列选择送入延迟单元中；第二比较器：用于比较所有列线的电压值，并将电压值最大的一列选择送入运算模块中；延迟单元：将输出电压延迟一个时间步长；运算模块：用于根据环境回报rt、延迟单元的输出电压以及第二比较器的输出电压计算得到写电压Vw以及施加时间Tw。

【技术特征摘要】
1.一种基于忆阻交叉阵列与Q学习的机器人路径规划系统，包括忆阻交叉阵列，其特征在于，还包括读写控制开关、状态检测与选择模块、列选择开关、控制器、随机选择模块、第一比较器、第二比较器、延迟单元以及运算模块，其中：读写控制开关：用于控制忆阻交叉阵列的读写操作，设置有读电压Vr输入端和写电压Vw输入端；状态检测与选择模块：当需要根据状态执行相应动作时，用于检测当前环境状态st，执行动作at并得到环境回报rt；当需要对Q值进行更新时，用于输出前一个时刻的环境状态，并选择相应的行线，使其加载写电压Vw，并持续时间Tw，更新忆阻阵列的输出值；列选择开关：用于选择对应的列线；控制器：用于控制当前时刻是随机选择模块工作还是第一比较器工作；随机选择模块：通过生成一随机数作为列线选择的判断标准；第一比较器：用于比较所有列线的电压值，并将电压值最大的一列选择送入延迟单元中；第二比较器：用于比较所有列线的电压值，并将电压值最大的一列选择送入运算模块中；延迟单元：将输出电压延迟一个时间步长；运算模块：用于根据环境回报rt、延迟单元的输出电压以及第二比较器的输出电压计算得到写电压Vw以及施加时间Tw。2.根据权利要求1所述的基于忆阻交叉阵列与Q学习的机器人路径规划系统，其特征在于，所述运算模块按照计算更新当前状态忆阻值所需要的写电压Vw，其中α为学习率，γ为折扣率，rt为机器人在状态st下执行动作at后环境给的回报状态，V(st,at)为延迟单元输出的电压值，为第二比较器输出的电压值。3.根据权利要求1所述的基于忆阻交叉阵列与Q学习的机器人路径规划系统，其特征在于，所述环境回报rt按照计算，其中系数c控制着收敛速度，dt是机器人与目标点之间的距离。4.根据权利要求2所述的基于忆阻交叉阵列与Q学习的机器人路径规划系统，其特征在于，利用(x,y,ω)表示机器人当前坐标位置和旋转角，θ表示机器人与目标点的相对位置，当dt≤l1，l1为预设阈值，调整ω让机器人朝向目标点，然后让机器人以直线的方式趋近于目标点；如果在机器人趋近目标点的过程中没有遇到障碍物，则执行动作按以下两种情况设置：1)在每一个离散的时间步t内，当机器人与目标点在同一水平或垂直线上...

【专利技术属性】
技术研发人员：胡小方，马异峰，段书凯，贾鹏飞，彭小燕，
申请(专利权)人：西南大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人