【技术实现步骤摘要】
存算一体低功耗一体化图像识别系统及方法
[0001]本专利技术涉及图像识别领域,更具体地,涉及一种存算一体低功耗一体化图 像识别系统及方法。
技术介绍
[0002]近年来,基于深度神经网络的图像识别方法取得了一系列突破性进展,应 用效果显著,这与芯片算力随摩尔定律的增长是密不可分的。目前,图像识别 的实现方式主要有两类:一类是,通过相机实现图像采集,并将其推送至云端 计算机进行图像识别,这种模式流程长且感知时延大,对复杂时变环境的实时 感知难度较大,计算资源需求量大且能耗高;另一类方式是,采用本地计算实 现图像识别,具有实时性强、保护隐私、节省网络和云端资源等优点,具有更 广泛的适用场景。为实现本地图像识别,一方面深度神经网络模型的计算资源 需求大,另一方面,对于终端系统,其能源、体积、重量通常受限(尤其是对 于泛在部署的物联网终端),因此亟需低功耗、高能效比的方法和系统来实现 在本地化的图像识别。
[0003]为解决图像识别系统中,深度神经网络的推理中用到大量的网络权重数据 的问题,一种形式是基于CPU和G ...
【技术保护点】
【技术特征摘要】
1.一种存算一体低功耗一体化图像识别系统,其特征在于包括:低功耗摄像头、存算一体化芯片、低功耗输出模块和电池与电源电路,其中,低功耗摄像头,用于采集图像数据,存算一体化芯片,其内嵌了图像识别神经网络模型算法,用于基于神经网络模型的图像分析和识别;低功耗输出模块,用于显示识别结果;电池与电源电路模块,用于为系统各个模块提供所需的电源。所述存算一体化芯片进一步包括:存算阵列、片上SRAM、片上FLASH、算术逻辑单元与控制单元、以及输入输出I/O接口,其中,所述存算阵列由存算单元以Crossbar阵列的形式构成,负责进行快速的矩阵乘加运算,所述存算单元由Flash或者MRAM非易失存储器件实现;所述片上SRAM用于计算指令、输入图像数据、神经网络输出和中间数据的缓存;所述片上FLASH用于存储计算指令代码;所述算术逻辑单元与控制单元负责指令执行,通过所述I/O接口与外部芯片或接口进行通信。2.如权利要求1所述的系统,其特征在于还包括低功耗通信模块,用于将识别结果或者其它相关数据传输到上位机或云端系统,并接收响应控制与更新指令。3.如权利要求2所述的系统,其特征在于所述低功耗通信模块采用NB
‑
IoT或LoRa进行通信。4.如权利要求2或3所述的系统,其特征在于:所述存算一体化芯片直接从所述低功耗摄像头接收图像数据并进行预处理,基于所述存算一体化芯片内嵌的图像识别神经网络模型算法进行图像分析识别,并综合业务逻辑给出识别结果,通过所述低功耗输出模块输出,通过所述低功耗通信模块,由存算一体化芯片直接进行数据、结果上传和控制、更新指令的接收和响应。5.如权利要求2或3所述的系统,其特征在于还包括低功耗微处理器MCU,其中,所述MCU负责将图像数据进行裁剪转换预处理,并将预处理后的图像数据送至所述存算一体化芯片进行识别;所述MCU还根据存算一体化芯片的模型识别结果,结合业务逻辑决策生成识别结果送至所述低功耗输出模块;所述MCU还负责调用所述低功耗通信模块与上位机系统建立通信,并根据识别结果和业务逻辑传输识别结果数据。6.一种基于权利要求4或5所述系统的存算一体的图像识别方法,其特征在于包括:存算一体图像识别模型开发过程和存算一体图像识别过程。7.如权利要求6所述的图像识别方法,其特征在于所述存算一体图像识别模型开发过程包括:训练数据采集与制作步骤:训练数据集包括三部分,第一部分基于所述存算一体低功耗一体化图像识别系统进行采集和标注,第二部分通过开源人脸数据集进行标注,第三部分数据基于前面两部分数据集进行包括图像加噪、仿射变换的数据扩增手段制作;面向存算一体的轻量化图像识别模型训练步骤:采用基于知识蒸馏的存算一体轻量化
图像识别模型训练方法,进行图像识别模型训练;存算一体芯片模型嵌入步骤:采用神经网络模型算法在所述存算一体化芯片上的嵌入方法,将图像识别模型移植嵌入到所述存算一体化芯片。8.如权利要求7所述的图像识别方法,其特征在于所述存算一体图像识别过程包括下述步骤:图像数据采集步骤:基于所述低功耗摄像头,根据场景需求,以一定的帧率连续采集特定分辨率的待识别的图像;图像预处理步骤:对输入的所述待识别的图像进行格式包括转换、裁剪、大小转换、滤波的预处理,预处理后的图像输入到所述存算一体化芯片进行识别;存算一体图像识别步骤:基于所述存算一体化芯片和内嵌的图像识别神经网络模型算法,对所述预处理后的图像进行分析识别;识别结果输出步骤:综合存算一体图像识别步骤给出的分析识别结果和业务逻辑,给出最终识别结果。9.如权利要求8所述的图像识别方法,其特征在于所述基于知识蒸馏的存算一体轻量化图像识别模型训练方法,包括:教师网络训练步骤:根据图像识别应用需求,选择AlexNet、ResNet50、ResNet101、或VGG网络架构,预训练一个深层的图像识别教师网络模型;面向存算一体的学生网络训练步骤:根据存算一体化芯片的存算阵列大小和算力,设计全卷积网络作为学生网络,全卷积网络由卷积模块堆叠而成,卷积模块由卷积层、Pooling层、Relu激活函数顺序组成;以预训练的深层图像识别教师网络作为指导,以交叉熵损失作为知识蒸馏的误差损失函数,训练面向存算一体的学生网络。10.如权利要求9所述的图像识别方法,其特征在于所述嵌入方法包括:神经网络模型拆解步骤:对训练得到的图像识别的神经网络模型进行解析,获取模型各层算子类型和权重参数;权重定点化步骤:对所述神经网络的权重参数逐层进行归一化后,再进行8比特定点化处理;输入输出定点化步骤:采用自适应浮动定点化的策略,对每帧每个算子输入输出的数据进行检索、缩放,并使得定点化后的数据有效位最多;权重排布与修正步骤:采用并行循环式的卷积网络存算一体实现方法,实现卷积网络层的权重排布;对定点化后的权重,根据存算阵列的电路和物理特性进行修正,直至满足存算阵列的高精度模拟计算需求;计算流水排布步骤:所述神经网络模型逐层进行计算,对每一层卷积神经网络,采用并行循环式的卷积网络存算一体实现方法进行计算;如果图像的分辨率不大于320
×
320,则将所述图像整体输入到各层神经网络进行计算,否则对所述图像采用图片分块后,逐块输入到各层神经网络进行计算;汇编代码生成步骤:根据权重排布、计算流水排布情况,生成存算一体芯片上的模型算法汇编代码;权重烧录步骤:将权重排布和修正后的神经网络的权重参数写入所述存算一体化芯片的存算阵列中;
机器代码生成与下...
【专利技术属性】
技术研发人员:龚勇,赵毅,陈华,方志远,贺智远,张川,
申请(专利权)人:中国电子科技南湖研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。