AI算法架构的实现装置、稀疏卷积运算方法及相关设备制造方法及图纸

技术编号：37181636 阅读：16 留言：0更新日期：2023-04-20 22:47

本申请提供一种AI算法架构的实现装置、稀疏卷积运算方法及相关设备，装置包括：数据预处理单元，用于根据待运算数据的数据类型将待运算数据按位拆分为对应不同位区间的子数据；权重预处理单元，用于按照数据类型对应的复制数量对权重掩码进行复制，复制后的权重掩码的数量等于单个待运算数据拆分得到的子数据数量；卷积计算单元，包括数据选择器和卷积运算电路；数据选择器用于根据各权重掩码分别从每n个不同待运算数据的同一位区间的子数据中选出m个目标子数据；卷积运算电路用于根据权重数据对各目标子数据进行卷积运算。本申请可以将多套稀疏选择逻辑统一为了1套，可以节约大量高位宽数据选择逻辑开销，并减小面积开销。并减小面积开销。并减小面积开销。

全部详细技术资料下载

【技术实现步骤摘要】
AI算法架构的实现装置、稀疏卷积运算方法及相关设备

[0001]本申请涉及数据处理
，具体而言，涉及一种AI算法架构的实现装置、稀疏卷积运算方法及相关设备。

技术介绍

[0002]为了降低权重内存开销，降低计算开销和提升推理效率，AI(Artificial Intelligence，人工智能)算法中通过压缩模型(例如模型剪枝)等方法降低weight(权重)中非0参数值的数量(即增加权重中0的数量)。因此AI算法中存在大量的sparsity Convolution(稀疏卷积)运算。根据运算精度的需求，稀疏卷积运算需要支持不同类型的数据，如fp32/tf32/fp16/bf16/int8/int4等。其中稀疏卷积运算普遍采用的压缩算法为sparsity4：2压缩，即每2个weight有4bits(比特)的mask(掩码)，每4bits mask指示卷积运算时从4个data(数据)中选择2个有效的data和weight进行卷积运算，使得参与运算的数据减少一半，达到降低计算开销和提升推理效率的目的。
[0003]但是，目前不同的数据类型在进行sparsity4：2数据选择时，每种数据位宽都需要单独的硬件选择逻辑：对于fp32/tf32数据类型每4bits mask对应的数据选择范围4
×
b32为128bits；对于bf16/bf16数据类型每4bits mask对应的数据选择范围4
×
b16为64bits；对于int8/uint8数据类型每4bits mask对应的数据选择范...

【技术保护点】

【技术特征摘要】
1.一种AI算法架构的实现装置，其特征在于，包括：数据预处理单元，用于根据待运算数据的数据类型，将所述待运算数据按位拆分为对应不同位区间的子数据；权重预处理单元，用于按照所述数据类型对应的复制数量，对权重掩码进行复制；其中，复制后的权重掩码的数量等于单个所述待运算数据拆分得到的子数据数量；卷积计算单元，包括数据选择器和卷积运算电路；所述数据选择器用于根据各所述权重掩码分别从每n个不同待运算数据的同一位区间的子数据中，选出m个目标子数据；所述n为大于等于2的常数，所述m为大于等于1的常数，且所述m小于所述n；所述卷积运算电路用于根据权重数据对各所述目标子数据进行卷积运算。2.如权利要求10所述的AI算法架构的实现装置，其特征在于，所述AI算法架构的实现装置还包括：存储单元，用于存储待运算的密集dense数据；访存控制单元，用于从所述存储单元获取所述dense数据和所述数据类型；所述数据预处理单元，还用于按照预设稀疏方式，对所述dense数据进行稀疏，得到所述待运算数据；所述权重预处理单元，还用于按照预设生成方式生成所述权重掩码；其中，所述权重掩码中数值1所在的位置对应所述待运算数据中所述dense数据的位置。3.如权利要求1所述的AI算法架构的实现装置，其特征在于，所述数据预处理单元，还用于按照预设第一排序方式对待运算数据拆分得到的各所述子数据进行排序；所述权重预处理单元，还用于按照预设第二排序方式对各所述权重数据进行排序；其中，在排序后的各所述权重数据与排序后的各所述子数据中，相同排序位置处的权重数据和子数据具有正确对应关系。4.如权利要求3所述的AI算法架构的实现装置，其特征在于，所述数据预处理单元具体用于，将各所述子数据按照位区间由大到小的顺序进行排序，且具有相同位区间的各所述子数据，按照各所述子数据所属的待运算数据之间的排列顺序进行排序。5.如权利要求4所述的AI算法架构的实现装置，其特征在于，所述数据选择器输出目标数据；所述目标数据为各所述目标子数据按位区间排列成的数据，所述目标数据为所述AI算法架构的实现装置所支持的最大位宽数据类型的数据。6.如权利要求3所述的AI算法架构的实现装置，其特征在于，所述权重预处理单元具体用于，将各所述权重数据按照所对应的目标子数据的排序顺序进行排序。7.如权利要求1
‑
6任一项所述的AI算法架构的实现装置，其特征在于，所述权重掩码为4bit的掩码，所述子数据为4bit的数据，所述n为4，所述m为2；所述权重预处理单元具体用于，将所述权重掩码转换为一个3bit的第一权重掩码mask_l和一个3bit的第二权重掩码mask_h；其中：mask_l和mask_h中均最多有1个bits的数
值为1；所述数据选择器具体用于根据所述mask_l和mask_h从4个不同待运算数据的同一位区间的子数据中，选出2个目标子数据。8.如权利要求7所述的AI算法架构的实现装置，其特征在于，所述mask_l为：{mask[2]&(mask[1：0]＝＝0)，mask[1]&！mask[0]，mask[0]}；所述mask_h为：{mask[3]，mask[2]&！mask[3]，mask[1]&(mask[3：2]＝＝0)}；其中，mask[3]、mask[2]、mask[1]、mask[0]、mask[1：0]、mask[3：2]分别表征4bit的所述权重掩码的第3位数据、第2位数据、第1位数据、第0位数据、第1位和第0位构成的2bit数据、第3位和第2位数据构成的2bit数据，&表征与运算，&！表征与非运算，＝＝表征判断两端的值是否相等，相等则值为1，不相等则值为0。9.如权利要求7所述的AI算法架构的实现装置，其特征在于，所述数据选择器具体用于：将所述mask_l的第0位数据与第一个子数据进行与运算，将所述mask_l的第1位数据与第二个子数据进行与运算，将所述mask_l的第2位数据与第三个子数据进行与运算，将三次与运算的值进行或运算，得到第一个所述目标子数据；将所述mask_...

【专利技术属性】
技术研发人员：赵芮，王震宇，李国嵩，
申请(专利权)人：杭州登临瀚海科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人