当前位置: 首页 > 专利查询>西南大学专利>正文

基于忆阻交叉阵列与Q学习的机器人路径规划系统技术方案

技术编号:16063759 阅读:62 留言:0更新日期:2017-08-22 16:28
本发明专利技术公开了一种基于忆阻交叉阵列与Q学习的机器人路径规划系统,一方面将Q学习中距离目标点的回报由离散点的形式改为用函数表达,另一方面,当机器人距障碍物一定范围时让其以直线趋近目标点,并且本发明专利技术提出了具有连续输入输出、动态可变电阻、纳米尺寸的忆阻交叉阵列模型,详细推导了改变忆阻值所需要的电压以及所需的施加时间。最后经实验分析,证明了方案的有效性。本发明专利技术提出了利用忆阻交叉阵列来实现机器人路径规划系统的新方案,将为忆阻器以及机器人路径规划更为广阔的应用提供新的思路。

Robot path planning system based on memory barrier cross array and Q learning

The invention discloses a memristor cross array and Q learning robot path planning system based on a Q learning in the distance from the target point of return by the form of discrete points to function expression, on the other hand, when the robot obstacle distance range when it approaches the target point in a straight line, and the invention proposes a memristive crossbar array model output, dynamic variable resistor, nano size serial input, is derived to change the voltage needed to have resistance and the required application time. Finally, the effectiveness of the proposed scheme is proved by experimental analysis. The invention provides a new scheme for robot path planning system using a memory crossed array, which provides a new idea for a memristor and a wider application of robot path planning.

【技术实现步骤摘要】
基于忆阻交叉阵列与Q学习的机器人路径规划系统
本专利技术涉及忆阻交叉阵列与强化学习技术,具体涉及到一种基于忆阻交叉阵列与Q学习的机器人路径规划系统。
技术介绍
强化学习是一种著名的无监督的机器智能学习算法,且被广泛应用于人工智能等领域。著名的强化学习算法包括:Sutton在1988年提出的TD算法;Schwartz提出的R-Learning算法;Watkins在1989年提出的Q-Learning算法以及PengandWilliams在1996年提出的Q(λ)算法等。其中相对重要的Q-Learning算法被广泛用于机器人路径规划。但传统的Q-Learning利用lookup表格法来存储产生的Q值,所以当状态空间逐渐增大时,可能会出现由于Q-Learning算法所需存储空间巨大而导致状态爆炸使得机器人不能有效工作,所以不得不让机器人携带更多的存储设备来满足需要,使得机器人工作效率大大降低。鉴于忆阻器的良好特性,本申请人于2012年提出了专利申请201210188573.2,并公开了一种基于忆阻交叉阵列的Q学习系统,该系统将新的电路元件——忆阻器成功应用到了强化学习中,解决了强化学习需要大量的存储空间问题,为以后强化学习的研究提供了一种新的思路。但是,现有经过继续研究发现,现有的基于忆阻交叉阵列的Q学习系统存在的缺陷是:收敛速度太慢,机器学习时间较长。
技术实现思路
为了解决上述问题,本专利技术提供一种基于忆阻交叉阵列与Q学习的机器人路径规划系统,该系统通过构建一种新的硬件架构,在实现机器人路径规划时,加快了收敛速度,缩短了机器学习时间。为实现上述目的,本专利技术所采用的具体技术方案如下:一种基于忆阻交叉阵列与Q学习的机器人路径规划系统,包括忆阻交叉阵列,其关键在于,还包括读写控制开关、状态检测与选择模块、列选择开关、控制器、随机选择模块、第一比较器、第二比较器、延迟单元以及运算模块,其中:读写控制开关:用于控制忆阻交叉阵列的读写操作,设置有读电压Vr输入端和写电压Vw输入端;状态检测与选择模块:当需要根据状态执行相应动作时,用于检测当前环境状态st,执行动作at并得到环境回报rt;当需要对Q值进行更新时,用于输出前一个时刻的环境状态,并选择相应的行线,使其加载写电压Vw,并持续时间Tw,更新忆阻阵列的输出值;列选择开关:用于选择对应的列线;控制器:用于控制当前时刻是随机选择模块工作还是第一比较器工作;随机选择模块:通过生成一随机数作为列线选择的判断标准;第一比较器:用于比较所有列线的电压值,并将电压值最大的一列选择送入延迟单元中;第二比较器:用于比较所有列线的电压值,并将电压值最大的一列选择送入运算模块中;延迟单元:将输出电压延迟一个时间步长;运算模块:用于根据环境回报rt、延迟单元的输出电压以及第二比较器的输出电压计算得到写电压Vw以及施加时间Tw。进一步,所述运算模块按照计算更新当前状态忆阻值所需要的写电压Vw,其中α为学习率,γ为折扣率,rt为机器人在状态st下执行动作at后环境给的回报状态,V(st,at)为延迟单元输出的电压值,为第二比较器输出的电压值。进一步,所述环境回报rt按照计算,其中系数c控制着收敛速度,dt是机器人与目标点之间的距离。进一步地,系统利用(x,y,ω)表示机器人当前坐标位置和旋转角,θ表示机器人与目标点的相对位置,当dt≤l1,l1为预设阈值,调整ω让机器人朝向目标点,然后让机器人以直线的方式趋近于目标点;如果在机器人趋近目标点的过程中没有遇到障碍物,则执行动作按以下两种情况设置:1)在每一个离散的时间步t内,当机器人与目标点在同一水平或垂直线上,机器人的位置调整为(x,y±d0,θy)或(x±d0,y,θx),直到它到达目标点,d0是预设的步进,且d0大于或等于0,其中:θy=arcsin(|ytarget-y|/dt),θy∈[0,90°];θx=arcsin(|xtarget-x|/dt),θx∈[0,90°];(xtarget,ytarget)表示目标点的坐标位置;2)在每一个离散的时间步t内,当机器人与目标点不在同一水平或垂直线上,有下列四种情况:Ⅰ:当机器人的坐标满足:x<xtarget|and|y<ytarge,计算出θ后将机器人的位置调整为(x+x′,y+y′,θ)直到它到达终点,x′和y′都是预设的步进;Ⅱ:当机器人的坐标满足:x>xtarget|and|y<ytarget,计算出θ后将机器人的位置调整为(x-x′,y+y′,180°-θ)直到它到达终点,x′和y′都是预设的步进;;Ⅲ:当机器人的坐标满足:x<xtarget|and|y>ytarget.计算出θ后将机器人的位置调整为(x+x′,y-y′,360°-θ)直到它到达终点,x′和y′都是预设的步进;;Ⅳ:当机器人的坐标满足:x>xtarget|and|y>ytarget.计算出θ后将机器人的位置调整为(x-x′,y-y′,180°+θ)直到它到达终点,x′和y′都是预设的步进。进一步地,系统电路和控制程序设置在机器人控制芯片中。进一步地,所述忆阻交叉阵列中的忆阻器由两层TiO2薄膜夹在两个铂片电极板构成,其中一层为掺杂层,相应的氧空位使得这个区域具有较强的导电性,另一层为非掺杂层,具有较高的阻抗。进一步地,系统设置有用于限定Q学习次数的最小阈值和最大阈值,在机器人的一次学习过程中,最多只走t=limit个时间步,即最大阈值;另一个是为了避免偶然情况,机器人至少要成功到达目标点count次,即最少有count次的学习过程才有资格判断是否找到了最优路径,即最小阈值。进一步地,所述环境回报rt根据每个传感器离障碍物的距离以及机器人到目标点的距离来确定。采用上述的技术方案,具有以下优点:本专利技术提出的一种基于忆阻阵列与Q学习的机器人路径规划系统,通过对硬件架构和处理方式的改进,加快Q学习的收敛速度,同时大大减少机器人的学习时间;系统利用忆阻器的存储特性解决了Q学习所需存储空间大的问题,有效避免了Q学习可能出现的状态爆炸问题,此外,忆阻器纳米级的尺寸使得机器人路径规划系统可以被嵌入到机器人的“大脑”中,当机器人救援时不用占用其额外的空间携带存储设备,大大提高了机器人的灵活性,方便了机器人的工作。附图说明图1为机器人与目标点的相对位置关系坐标分析图;图2为忆阻器读写电路;图3为本专利技术的系统原理框图;图4为现有Q学习算法的路径规划效果图;图5为本专利技术实施例中的路径规划的第一实验效果图;图6为本专利技术实施例中的路径规划的第二实验效果图。具体实施方式为了使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述,这里的描述不意味着对应于实施例中陈述的具体实例的所有主题都在权利要求中引用了。本专利技术公开的技术方案相对于在先专利申请201210188573.2而言,主要提出两方面改进;(1)基于改进Q-learning(Q学习)的基础上,引入并结合忆阻交叉阵列来存储Q值;(2)基于改进的Q-learning与忆阻交叉阵列,实现了机器人路径规划。具体的,机器人通过环境感知当前状态st∈S(S表示所有状态组成的集合),并执行相应动作at∈A(A表示本文档来自技高网...
基于忆阻交叉阵列与Q学习的机器人路径规划系统

【技术保护点】
一种基于忆阻交叉阵列与Q学习的机器人路径规划系统,包括忆阻交叉阵列,其特征在于,还包括读写控制开关、状态检测与选择模块、列选择开关、控制器、随机选择模块、第一比较器、第二比较器、延迟单元以及运算模块,其中:读写控制开关:用于控制忆阻交叉阵列的读写操作,设置有读电压Vr输入端和写电压Vw输入端;状态检测与选择模块:当需要根据状态执行相应动作时,用于检测当前环境状态st,执行动作at并得到环境回报rt;当需要对Q值进行更新时,用于输出前一个时刻的环境状态,并选择相应的行线,使其加载写电压Vw,并持续时间Tw,更新忆阻阵列的输出值;列选择开关:用于选择对应的列线;控制器:用于控制当前时刻是随机选择模块工作还是第一比较器工作;随机选择模块:通过生成一随机数作为列线选择的判断标准;第一比较器:用于比较所有列线的电压值,并将电压值最大的一列选择送入延迟单元中;第二比较器:用于比较所有列线的电压值,并将电压值最大的一列选择送入运算模块中;延迟单元:将输出电压延迟一个时间步长;运算模块:用于根据环境回报rt、延迟单元的输出电压以及第二比较器的输出电压计算得到写电压Vw以及施加时间Tw。

【技术特征摘要】
1.一种基于忆阻交叉阵列与Q学习的机器人路径规划系统,包括忆阻交叉阵列,其特征在于,还包括读写控制开关、状态检测与选择模块、列选择开关、控制器、随机选择模块、第一比较器、第二比较器、延迟单元以及运算模块,其中:读写控制开关:用于控制忆阻交叉阵列的读写操作,设置有读电压Vr输入端和写电压Vw输入端;状态检测与选择模块:当需要根据状态执行相应动作时,用于检测当前环境状态st,执行动作at并得到环境回报rt;当需要对Q值进行更新时,用于输出前一个时刻的环境状态,并选择相应的行线,使其加载写电压Vw,并持续时间Tw,更新忆阻阵列的输出值;列选择开关:用于选择对应的列线;控制器:用于控制当前时刻是随机选择模块工作还是第一比较器工作;随机选择模块:通过生成一随机数作为列线选择的判断标准;第一比较器:用于比较所有列线的电压值,并将电压值最大的一列选择送入延迟单元中;第二比较器:用于比较所有列线的电压值,并将电压值最大的一列选择送入运算模块中;延迟单元:将输出电压延迟一个时间步长;运算模块:用于根据环境回报rt、延迟单元的输出电压以及第二比较器的输出电压计算得到写电压Vw以及施加时间Tw。2.根据权利要求1所述的基于忆阻交叉阵列与Q学习的机器人路径规划系统,其特征在于,所述运算模块按照计算更新当前状态忆阻值所需要的写电压Vw,其中α为学习率,γ为折扣率,rt为机器人在状态st下执行动作at后环境给的回报状态,V(st,at)为延迟单元输出的电压值,为第二比较器输出的电压值。3.根据权利要求1所述的基于忆阻交叉阵列与Q学习的机器人路径规划系统,其特征在于,所述环境回报rt按照计算,其中系数c控制着收敛速度,dt是机器人与目标点之间的距离。4.根据权利要求2所述的基于忆阻交叉阵列与Q学习的机器人路径规划系统,其特征在于,利用(x,y,ω)表示机器人当前坐标位置和旋转角,θ表示机器人与目标点的相对位置,当dt≤l1,l1为预设阈值,调整ω让机器人朝向目标点,然后让机器人以直线的方式趋近于目标点;如果在机器人趋近目标点的过程中没有遇到障碍物,则执行动作按以下两种情况设置:1)在每一个离散的时间步t内,当机器人与目标点在同一水平或垂直线上...

【专利技术属性】
技术研发人员:胡小方马异峰段书凯贾鹏飞彭小燕
申请(专利权)人:西南大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1