一种面向CNN部署的资源分析和张量表达式拆分方法技术

技术编号:41564579 阅读:13 留言:0更新日期:2024-06-06 23:47
本发明专利技术通过人工智能领域的方法,实现了一种面向CNN部署的资源分析和张量表达式拆分方法。依照数据的流动方向从前到后共有四个模块,首先通过数据处理模块对用户的提问进行统一的处理,而后拒识模块则利用分类模型与规则相结合的方法,对问题进行初步筛选,所述问答模块输入所述拒识模块的输出内容,分别通过适合“知识型”问题的图谱问答模型和适合“流程型”问题的社区问答模型对用户的问题生成候选答案,最终在排序模块对所有候选答案进行统一排序,返回给用户。能够基于多种智能问答方法,充分利用机场以及航空公司提供的各种数据,回答用户提出的各类问题,并利用多特征排序的方法生成最终的答案,改善回答质量,提升用户的最终体验。

【技术实现步骤摘要】

本专利技术人工智能处理,尤其涉及一种面向cnn部署的资源分析和张量表达式拆分方法。


技术介绍

1、近年来,随着深度学习和神经网络相关技术的逐渐成熟,神经网络已经被用于执行多种任务,如人脸识别,机器翻译等。然而,目前的神经网络模型在提升效果的同时,往往也会增加模型的体积和计算量,这使得普通的嵌入式终端很难高速高效的使用这些模型进行推理。为了解决这一问题,通常使用具有高性能和高能效的辅助计算设备对模型推理进行加速。常用的辅助计算设备包括gpu,asic和fpga等。其中fpga因为其较高的能效和性能以及少量部署情况下较低的成本得到了广泛关注。然而,由于fpga开发需要使用硬件描述语言进行电路设计,具有开发难度大,耗费时间长的问题,这为fpga的使用带来了一定困难。

2、目前市面上已有许多基于fpga开发的神经网络加速器,但许多加速器只针对某一实例的神经网络实现,对应的加速结构往往固定化,即使fpga具有很强的再编程能力,由于设计的固化,其结构难以在短时间内自动迁移至其他网络的计算流。有鉴于此,需要实现一种能够根据fpga板载资源、输入网络规模等特点本文档来自技高网...

【技术保护点】

1.一种面向CNN部署的资源分析和张量表达式拆分方法,其特征在于,以深度学习框架导出的卷积神经网络模型文件以及FPGA片上资源数量作为输入,通过两个模块的运算,最终得到能够拆分的最大矩阵边长以及FPGA片上资源的消耗量;

2.如权利要求1所述的一种面向CNN部署的资源分析和张量表达式拆分方法,其特征在于:所述输入缓冲区分为两个部分,权重缓冲区和特征图缓冲区,基于对输入缓冲区和输入缓冲区进行规划的基础上,规划Bram资源的使用并对LUT及DSP资源进行检查。

3.如权利要求2所述的一种面向CNN部署的资源分析和张量表达式拆分方法,其特征在于:所述规划Bram资源的使...

【技术特征摘要】

1.一种面向cnn部署的资源分析和张量表达式拆分方法,其特征在于,以深度学习框架导出的卷积神经网络模型文件以及fpga片上资源数量作为输入,通过两个模块的运算,最终得到能够拆分的最大矩阵边长以及fpga片上资源的消耗量;

2.如权利要求1所述的一种面向cnn部署的资源分析和张量表达式拆分方法,其特征在于:所述输入缓冲区分为两个部分,权重缓冲区和特征图缓冲区,基于对输入缓冲区和输入缓冲区进行规划的基础上,规划bram资源的使用并对lut及dsp资源进行检查。

3.如权利要求2所述的一种面向cnn部署的资源分析和张量表达式拆分方法,其特征在于:所述规划bram资源的使用,以片上支持的最大矩阵边长lmax为基础进行规划,通过lmax可以得到输入缓冲区和输出缓冲区所需要的bram数量,片上支持的最大矩阵是指硬件加速器能够计算的最大矩阵,即片外向片上传输数据时,所能传输的最大矩阵,设片上片外之间的io位宽为k,则对于每块bram仅使用位宽为k的部分,以使bram的每行恰好存储片外一个周期传输到片上的数据,设输入特征图或权重每个数据的位宽为bi,每块bram的带宽为w,深度为d,则该缓冲区需要的bram的数量ni如下:

4.如权利要求1所述的一种面向cnn部署的资源分析和张量表达式拆分方法,其特征在于:所述img2col算法转换矩阵的具体实现方式为:编译器采用img2col算法结合卷积层的相关参数将卷积计算转换为矩阵乘法运算,并得到转换后的矩阵边长,根据矩阵的边长可以进行矩阵分块;卷积层的输入特征图尺寸为n×c×fih×fiw,其中批处理数量n一般为1,则特征图尺寸可表示为c×fih×fiw,设卷积核尺寸为o×i×kh×kw,则转化后权重矩阵的行数km...

【专利技术属性】
技术研发人员:李莹梁敬卓刘阳东颜月
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1