当前位置: 首页 > 专利查询>江南大学专利>正文

基于RISC-V和存内计算的AI推理方法及系统技术方案

技术编号:38084119 阅读:7 留言:0更新日期:2023-07-06 08:50
本发明专利技术公开了基于RISC

【技术实现步骤摘要】
基于RISC

V和存内计算的AI推理方法及系统


[0001]本专利技术涉及基于RISC

V和存内计算的AI推理方法及系统,属于人工智能


技术介绍

[0002]当前,人工智能(AI)技术已经广泛应用于图像识别、语音识别、医疗卫生、自动驾驶、海量数据分析、智慧医疗和智慧城市等领域。深度学习是实现AI的主流方法,通常我们将深度学习模型分解为训练与推理两个部分。训练过程中,需要利用样本数据和其对应的标签训练神经网络的权重、偏差参数;推理过程中,将代入训练完成的神经网络的权重、偏差参数,对实际问题进行求解。
[0003]然而,随着AI技术的发展,传统的冯
·
诺依曼式计算体系结构“功耗墙”和“存储墙”的问题日益突出,限制了AI技术的应用。尤其不适用于可穿戴式生命体征监护设备、AR/VR元宇宙设备、无人机等对算力与功耗同时提出较高要求的领域。
[0004]存算一体结构是一种新的计算体系结构,如图1所示,其基本思想是通过将权重映射存储到存算阵列内,从而把一些简单但数据量巨大的逻辑计算功能放在存储器中完成,以减少存储器与处理器之间的数据传输量以及传输距离。可以有效缓解冯
·
诺伊曼式计算体系结构的“功耗墙”与“存储墙”问题。存算一体结构将存储单元与运算单元融合,利用模拟电路对矩阵运算执行加速,可以大幅提高算力的同时大幅降低功耗。
[0005]存内计算是存算一体结构的一种,在存算介质中预先存储权重,并利用物理定律表征深度学习算法中频繁、复杂的乘累加过程,实现基于模拟域的深度学习推理,提升算力的同时极大地降低系统功耗。然而,基于模拟域的存内计算技术,仅能对乘累加(MAC)计算过程实现高性能的处理,灵活性和可扩展性差,无法供用户对实际应用进行二次开发。

技术实现思路

[0006]为了解决目前存内计算技术存在的灵活性和可扩展性差,无法供用户对实际应用进行二次开发的问题,本专利技术提供了基于RISC

V和存内计算的AI推理方法及系统,将存算阵列作为协处理器用于针对性处理深度学习算法,利用RISC

V指令集架构的CPU在数字域完成对全局的控制,通过扩展RISC

V指令实现存算协处理器的调用与控制,数模混合设计方案实现了高性能的AI推理方法及系统,所述技术方案如下:
[0007]本专利技术的第一个目的在于提供一种协处理器,包括:高压驱动单元与依次连接的量化单元、DAC单元、存算阵列、读出单元、ADC单元和反量化单元;
[0008]所述量化单元用于对输入数据的定点数量化;所述DAC单元用于将量化后的数字信号转换为模拟信号;所述高压驱动单元用于控制所述存算阵列的工作模式;
[0009]所述存算阵列基于NOR FLASH存算器件,预先将量化后权重数据写入NOR FLASH中;在运算执行的工作模式下,所述权重数据与输入数据进行乘法操作;在数据读出的工作模式下,所述NOR FLASH存算器件中存储的运算结果被所述读出单元读出,在电流域中根据
基尔霍夫电流定律,运算结果作为支路电流相加,得到矩阵运算的结果;
[0010]所述读出单元用于将所述NOR FLASH存算器件中存储的结果数据读出;所述ADC单元用于将模拟信号转化成数字信号;所述反量化单元用于将量化后的定点数据反量化回对应的浮点数。
[0011]可选的,所述存算阵列的工作过程包括:
[0012]权重信息通过两个FLASH的跨导差值进行存储,存储同一个权重的两个FLASH栅极相连组成字线WL,高压驱动单元通过所述字线WL控制NOR FLASH存算阵列的工作模式,所有FLASH器件的源极相连组成源线SL,同一行FLASH器件的漏极相连组成位线BL,且被钳位在固定电压V
DS
上;
[0013]数据经过DAC转换为模拟信号后从SL输入,当WL上信号是高电平时,BL端每个FLASH器件输出电流为:
[0014][0015]其中,μ代表载流子的迁移率,C
ox
代表栅氧电容,W代表FLASH器件的沟道宽度,L则代表沟道长度;
[0016]当WL上信号是低电平时,不会产生单位电流。通过基尔霍夫电流定律,BL上输出累加电流为:
[0017][0018]其中N代表权重数量;
[0019]所述累加电流随后经过SUB单元,SUB单元将相邻BL的累加电流相减得到减法电流:
[0020][0021]权重值通过两个FLASH的跨导差值存储,对应上述公式中的ΔV
THi
;输入信号从SL输入,对应上述公式中的V
DS

[0022]取M行NOR FLASH基本单元完成矩阵运算,结果被所述读出单元读出。
[0023]可选的,所述读出单元包括:SUB单元和I

V单元;
[0024]所述SUB单元实现减法电路;所述I

V单元将输出电流转换为电压。
[0025]可选的,所述存算阵列的工作模式包括:权重写入、权重擦除、运算执行和数据读出。
[0026]本专利技术的第二个目的在于提供一种AI推理系统,包括:ADC模块、滤波器模块、DMA模块、CPU模块、SRAM存储器、存算一体结构式协处理器和AXI总线;
[0027]所述ADC模块用于将外部输入的模拟信号转换为数字信号;所述滤波器模块将所述ADC模块输出的数据进行滤波;所述DMA模块将滤波后的数据传输到所述SRAM存储器中;所述CPU模块基于RISC

V指令集架构对全局进行控制,调用所述存算一体结构式协处理器;所述存算一体结构式协处理器采用上述的协处理器;所述AXI总线用于实现系统内各模块间的通信。
[0028]可选的,所述CPU利用RISC

V指令集中的R类型指令进行扩展,实现CPU对所述协处
理器的控制,扩展后的指令集包括:
[0029]指令一:擦除所述存算阵列中已存的数据;
[0030]指令二:将权重数据写入所述存算阵列中;
[0031]指令三:调用量化单元,将所述SRAM缓存中存储的输入数据进行量化;
[0032]指令四:读取所述SRAM缓存中的数据,送到所述存算阵列中与权重数据进行计算;
[0033]指令五:依次读出所述存算阵列计算后的结果数据,将其存入所述SRAM缓存。
[0034]本专利技术的第三个目的在于提供一种AI推理方法,基于上述的AI推理系统实现,数据流过程包括:
[0035]S1:初始数据经过ADC模块,从模拟信号被转换为数字信号;
[0036]S2:转换后的数字信号经过滤波器模块,实现信号的滤波去噪,完成数据预处理;
[0037]S3:预处理后的数据被DMA模块,高速传输到SRAM存储器中;
[0038]S4:所述SRAM存储器中的数据通过AXI总线本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种协处理器,其特征在于,所述协处理器包括:高压驱动单元与依次连接的量化单元、DAC单元、存算阵列、读出单元、ADC单元和反量化单元;所述量化单元用于对输入数据的定点数量化;所述DAC单元用于将量化后的数字信号转换为模拟信号;所述高压驱动单元用于控制所述存算阵列的工作模式;所述存算阵列基于NOR FLASH存算器件,预先将量化后权重数据写入NOR FLASH中;在运算执行的工作模式下,所述权重数据与输入数据进行乘法操作;在数据读出的工作模式下,所述NOR FLASH存算器件中存储的运算结果被所述读出单元读出,在电流域中根据基尔霍夫电流定律,运算结果作为支路电流相加,得到矩阵运算的结果;所述读出单元用于将所述NOR FLASH存算器件中存储的结果数据读出;所述ADC单元用于将模拟信号转化成数字信号;所述反量化单元用于将量化后的定点数据反量化回对应的浮点数。2.根据权利要求1所述的协处理器,其特征在于,所述存算阵列的工作过程包括:权重信息通过两个FLASH的跨导差值进行存储,存储同一个权重的两个FLASH栅极相连组成字线WL,高压驱动单元通过所述字线WL控制NOR FLASH存算阵列的工作模式,所有FLASH器件的源极相连组成源线SL,同一行FLASH器件的漏极相连组成位线BL,且被钳位在固定电压V
DS
上;数据经过DAC转换为模拟信号后从SL输入,当WL上信号是高电平时,BL端每个FLASH器件输出电流为:其中,μ代表载流子的迁移率,C
ox
代表栅氧电容,W代表FLASH器件的沟道宽度,L则代表沟道长度;当WL上信号是低电平时,不会产生单位电流。通过基尔霍夫电流定律,BL上输出累加电流为:其中N代表权重数量;所述累加电流随后经过SUB单元,SUB单元将相邻BL的累加电流相减得到减法电流:权重值通过两个FLASH的跨导差值存储,对应上述公式中的ΔV
THi
;输入信号从SL输入,对应上述公式中的V
DS
;取M行NOR FLASH基本单元完成矩阵运算,结果被所述读出单元读出。3.根据权利要求1所述的协处理器,其特征在于,所述读出单元包括:SUB单元和I

V单元;所述SUB单元实现减法电路;所述I

V单元将输出电流转换为电压。4.根据权利要求1所述的协处理器,其特征在于,所述存算阵列的工作模式包括:权重写入、权重擦除、运算执行和数据读出。
5.一种AI推理系统,其特征在于,所述AI推理系统包括:ADC模块、滤波器模块、DMA模块、CPU模块、SRAM存储器、存算一...

【专利技术属性】
技术研发人员:佴宇飞何丁赋蒋新科张赵炜周小蓉段文哲虞致国顾晓峰
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1