当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于忆阻器的强化学习硬件加速方法技术

技术编号:35903201 阅读:30 留言:0更新日期:2022-12-10 10:40
本发明专利技术公开了一种基于忆阻器的强化学习硬件加速方法,涉及忆阻器技术领域,首先按批次,即每个batch生成32条回合路径,推理映射到TiO2忆阻器阵列形成策略图谱,将策略图谱信息按列导入32

【技术实现步骤摘要】
一种基于忆阻器的强化学习硬件加速方法


[0001]本专利技术属于忆阻器
,具体涉及一种基于忆阻器的强化学习硬件加速方法。

技术介绍

[0002]随着现在科技的不断发展,基于忆阻器的内存计算是一种更高效且低功耗的架构,能够利用“物理计算”的方式实现矩阵向量乘法(MVM),在机器学习中实现加速作用降低训练功耗,近年来,基于忆阻器的强化学习已经得到广泛的研究,但报道的工作大多只是利用忆阻器完成MVM工作,主要计算迭代过程仍然在CPU中进行,在强化学习试错探索的过程中,价值迭代的计算资源占比最大,如何利用忆阻器阵列的矩阵乘积运算来硬件加速强化学习算法的收敛,是硬件实现强化学习系统必须要解决的问题。

技术实现思路

[0003]针对现有技术的不足,本专利技术的目的在于提供一种基于忆阻器的强化学习硬件加速方法,解决了现有技术利用忆阻器阵列的矩阵乘积运算来硬件加速强化学习算法的收敛效果不好的技术问题。
[0004]本专利技术的目的可以通过以下技术方案实现:一种基于忆阻器的强化学习硬件加速方法,方法包括以下步骤:
[0005本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于忆阻器的强化学习硬件加速方法,其特征在于,方法包括以下步骤:获取32条回合路径,并输出带有动作信息的回合路径,推理映射到忆阻器阵列形成策略图谱,按列输入32
×
32大小的忆阻器硬件阵列;将生成的策略图谱中的每个动作对应的奖励值作为读电压输入忆阻器硬件阵列,按阵列得到对应的回合价值,将每一列回合价值经过WTA赢者通吃电路进行比较,输出32个回合中最大的回合价值;将比较得到的最大的回合价值与之前得到的最大的回合价值进行比较,保留更大的回合价值,反复迭代直到收敛,利用并行计算来减少迭代次数。2.根据权利要求1所述的一种基于忆阻器的强化学习硬件加速方法,其特征在于,所述忆阻器形成的策略图谱是利用忆阻器的物理衰减函数来自然的代替算法Sarsa(λ)中的需要进行大量指数衰减运算的衰减因子λ。3.根据权利要求1所述的一种基于忆阻器的强化学习硬件加速方法,其特征在于,所述回合路径包含状态动作对的信息。4.根据权利要求1所述的一种基于忆阻器的强化学习硬件加速方法,其特征在于,所述忆阻器阵列利用不同的电导值来代表不同的状态动作。5.根据权利要求1所述的一种基于忆阻器的强化学习硬件加速方法,其特征在于,所述忆阻器硬件阵列的读电压用来代表每个状态动作对的奖励信息,按照算法价值更新公式,按列输出的电流值即为回合价值。6.根据权利要求5所述的一种基于忆阻器的强化学习硬件加速方法,其特征在于,利用忆阻器阵列并行计算的功能,同时进行32列运算,输出32个价值,然后使用WTA...

【专利技术属性】
技术研发人员:茅笑骋胡世杰段靖怡郭文斌王旭吴祖恒
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1