一种基于忆阻交叉阵列的Q学习系统技术方案

技术编号：7838392 阅读：222 留言：0更新日期：2012-10-12 04:00

本发明专利技术公开了一种基于忆阻交叉阵列的Q学习系统，包括忆阻交叉阵列，其特征在于：所述系统还包括读写选择开关：控制忆阻交叉阵列的读写操作，状态选择开关：状态检测模块检测当前环境状态st，通过状态选择开关，选择相应的行线；列选择开关：当需要对Q值，也即对忆阻交叉阵列的某一个忆阻值进行更新时，列选择开关选择动作at所对应的列线。延迟单元：将选择的列线的电压延迟一个时间步长；状态检测模块：检测当前的环境状态，保存上一个环境状态，。本发明专利技术将新的电路元件—忆阻器成功应用到了强化学习中，解决了强化学习需要大量的存储空间问题，为以后强化学习的研究提供了一种新的思路。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种存储矩阵和智能学习算法。
技术介绍
强化学习是一种高级的智能学习算法，近年来被广泛的应用于智能机器人领域，成为研究的热点。1954年,Minsky提出了 SNARCs的强化学习计算模型。接着,Sutton在其博士论文中提出了 AHC算法和TD学习算法。后来，Watkins等人在TD学习算法的基础上，提出了目前强化学习算法中的经典算法-Q学习算法，Q学习算法是强化学习发展过程中的一个重要里程碑。Q学习算法提出后，很多研究者将Q学习算法应用于移动机器人的导航，机器人足球系统和智能I/O的调度。但是强化学习也有其自身的局限性，当问题较为复杂时，它需要大量的状态-动作存储空间。1971年，Chua根据电路的完备性理论，提出了第四种电路兀件-忆阻器(L. 0. Chua. Memristor-the missing circuit element. IEEE Trans.Circuit Theory. 1971,18(5) :507-519.)。2008年，HP实验室成功制造了第一个物理实现的忆阻器，此后忆阻器引起了广泛的关注。忆阻器具有纳米尺寸、非线性特性，其阻值随着输入激励的变化而变化，并且这种变化是非易失性的，因此忆阻器非常适合用来设计大规模存储器。忆阻器交叉阵列是忆阻器存储器中的一种，它的结构简单，设计方便。胡小方等人利用忆阻器交叉阵列实现了图像的存储(胡小方，段书凯，王丽丹，等.忆阻器交叉阵列及在图像处理中的应用.中国科学F辑信息科学.2011,41 (4) :500-512.)。由于忆阻器具有纳米尺寸，因此忆阻器交叉阵列能够做成大规...

【技术保护点】

【技术特征摘要】
1. 一种基于忆阻交叉阵列的Q学习系统，包括忆阻交叉阵列，其特征在于所述系统还包括读写选择开关控制忆阻交叉阵列的读写操作；状态选择开关状态检测模块检测当前环境状态&，通过状态选择开关，选择相应的行线. 列选择开关当需要对Q值，也即对忆阻交叉阵列的某一个忆阻值进行更新时，列选择开关选择动作at所对应的列线；延迟单元将选择的列线的电压延迟一个时间步长；...

【专利技术属性】
技术研发人员：王丽丹，何朋飞，段书凯，钟宇平，
申请(专利权)人：西南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人