【技术实现步骤摘要】
一种计算装置及相关产品
本申请涉及信息处理
,具体涉及一种计算装置及相关产品。
技术介绍
神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,这种网络由大量的节点(或称神经元)之间星湖连接构成,通过调整内部大量节点之间相互连接的关系,利用输入神经元数据、权值产生输出数据模拟人脑的信息处理过程处理信息并生成模式识别之后的结果。目前,神经网络被广泛应用在计算机视觉的各个领域,如图像识别、物体检测、图像分割等。然而,在实际应用中,神经网络模型往往有着数量庞大的模型参数(例如,超大规模权值),在这种情况下,这意味着神经网络需要大量的计算资源和存储资源,大量的计算资源和存储资源的开销会降低神经网络的运算速度,对硬件的传输带宽以及运算器的要求也大大提高了,因此,如何在减少神经网络模型的参数的同时,降低神经网络的计算量变得十分重要。现有技术中,通过剪枝方法对神经网络模型的参数进行调整,以减少神经网络模型的参数以及降低神经网络的计算量。以对神经网络的权值进行剪枝为例,如图1A所示,在对 ...
【技术保护点】
1.一种计算装置,其特征在于,所述计算装置用于执行机器学习计算,所述计算装置包括:压缩单元、运算单元以及控制器单元;/n所述控制器单元,用于获取针对第一输入数据的压缩请求,并根据所述压缩请求指示所述压缩单元对所述第一输入数据进行压缩;其中,所述第一输入数据包括第一权值矩阵;/n所述压缩单元,用于将第一权值矩阵压缩为第二权值矩阵;其中,所述第二权值矩阵包括至少两个求和项;/n所述控制器单元,还用于获取第二输入数据以及计算指令;所述第二输入数据包括所述第二权值矩阵以及输入神经元数据;/n所述控制器单元,还用于解析该计算指令得到多个运算指令,将所述多个运算指令以及所述第二输入数据 ...
【技术特征摘要】
1.一种计算装置,其特征在于,所述计算装置用于执行机器学习计算,所述计算装置包括:压缩单元、运算单元以及控制器单元;
所述控制器单元,用于获取针对第一输入数据的压缩请求,并根据所述压缩请求指示所述压缩单元对所述第一输入数据进行压缩;其中,所述第一输入数据包括第一权值矩阵;
所述压缩单元,用于将第一权值矩阵压缩为第二权值矩阵;其中,所述第二权值矩阵包括至少两个求和项;
所述控制器单元,还用于获取第二输入数据以及计算指令;所述第二输入数据包括所述第二权值矩阵以及输入神经元数据;
所述控制器单元,还用于解析该计算指令得到多个运算指令,将所述多个运算指令以及所述第二输入数据发送给运算单元;
所述运算单元,用于获取所述运算指令,并根据所述运算指令以及所述第二输入数据执行神经网络计算。
2.根据权利要求1所述的计算装置,其特征在于,所述压缩单元包括:分解单元、求解单元和训练单元;
其中,所述分解单元,用于将所述第一权值矩阵分解成第三权值矩阵;其中,所述第三权值矩阵包括至少两个求和项;
所述求解单元,用于根据第一公式确定所述至少两个求和项中的每个求和项的大小,所述第一公式为Q≈Q1+Q2+...+Qn;其中,所述Q表示第一权值矩阵;所述Q1表示所述至少两个求和项中的第一求和项,所述Q2表示所述至少两个求和项中的第二求和项,所述Qn表示所述至少两个求和项中的第n求和项,
所述训练单元,用于调整所述至少两个求和项中的每个求和项的大小,并通过训练压缩后的机器学习模型,以得到满足预设精度的第二权值矩阵。
3.根据权利要求2所述的计算装置,其特征在于,所述求解单元,用于根据第一公式确定所述至少两个求和项中的每个求和项的大小,所述第一公式为Q≈Q1+Q2.+...+Qn,包括:
所述求解单元,具体用于根据所述第一公式和第二公式确定所述至少两个求和项中的每个求和项的大小,所述第二公式为||Q-(Q1+Q2+......+Qn)||≤T,其中,所述T表示预设的误差阈值。
4.根据权利要求2所述的计算装置,其特征在于,所述训练单元,用于调整所述至少两个求和项中的每个求和项的大小,并通过训练压缩后的机器学习模型,以得到满足预设精度的第二权值矩阵,包括:
所述训练单元,具体用于调整所述至少两个求和项中的每个求和项的大小,并通过训练压缩后的机器学习模型,以得到满足预设精度并且与所述第一权值矩阵之间的压缩比满足预设压缩比的第二权值矩阵。
5.根据权利要求2至4任一项所述的计算装置,其特征在于,所述计算装置用于执行全连接层神经网络计算;所述第一公式包括:M≈M1+M2;所述两个求和项包括第一求和项M1和第二求和项M2,所述第一求和项所述第一求和项M1中包括(n1-1)个压缩参数K1;所述(n1-1)个压缩参数K1中的第1个压缩参数K11用于表征所述M11的输出神经元的个数,所述(n1-1)个压缩参数K1中的第(n1-1)个压缩参数用于表征所述的输入神经元的个数;所述第二求和项所述第二求和项M2中包括(n2-1)个压缩参数K2,所述(n2-1)个压缩参数中的第1个压缩参数K21用于表征所述M21的输出神经元的个数,所述(n2-1)个压缩参数中的第(n2-1)个压缩参数用于表征所述的输入神经元的个数;所述K1和所述K2为大于0且小于等于min(Nin,Nout)的正整数。
6.根据权利要求2-4任一项所述的计算装置,其特征在于,所述计算装置用于执行卷积层神经网络计算;所述卷积层神经网络包括Nfin*Nfout个卷积核;所述第一公式包括:F≈F1*F2;其中,F表示所述Nfin*Nfout个卷积核中的任意一个卷积核;所述F1为第一求和项;所述F2为第二求和项;所述第一求和项所述第一求和项F1中包括(n1-1)个压缩参数R1;所述第二求和项所述第二求和项F2中包括(n2-1)个压缩参数R2,(Kx,Ky)表示卷积核的大小,所述R1和所述R2为大于0且小于等于min(Kx,Ky)的正整数。
7.根据权利要求2-4任一项所述的计算装置,其特征在于,所述计算装置用于执行LSTM层神经网络计算,所述LSTM层包括N个全连接层,所述N为大于0的正整数;针对第j个全连接层,所述第一公式包括:Mj≈Mj_1*Mj_2;所述第j个全连接层中的两个求和项包括第一求和项Mj_1和第二求和项Mj_2,所述第一求和项所述第一求和项Mj_1中包括(n1-1)个压缩参数S1;所述(n1-1)个压缩参数S1中的第1个压缩参数Sj_11用于表征所述Mj_1的输出神经元的个数,所述(n1-1)个压缩参数S1中的第(n1-1)个压缩参数用于表征所述的输入神经元的个数;所述第二求和项所述第二求和项Mj_2中包括(n2-1)个压缩参数S2,所述(n2-1)个压缩参数中的第1个压缩参数Sj_21用于表征所述Mj_21的输出神经元的个数,所述(n2-1)个压缩参数中的第(n2-1)个压缩参数用于表征所述的输入神经元的个数;所述S1和所述S2为大于0且小于等于min(Nin,Nout)的正整数。
8.根据权利要求1所述的计算装置,其特征在于,其特征在于,所述运算单元包括:一个主处理电路和多个从处理电路;
所述主处理电路对所述第二输入数据执行前序处理以及与所述多个从处理电路之间传输数据和运算指令;
所述多个从处理电路根据从所述主处理电路传输的数据以及运算指令并行执行中间运算得到多个中间结果,并将所述多个中间结果传输给所述主处理电路;
所述主处理电路对所述多个中间结果执行后续处理得到所述计算指令的计算结果。
9.根据权利要求1所述的计算装置,其特征在于,所述计算装置还包括:存储单元和直接内存访问单元,所述存储单元包括:寄存器、缓存中任意组合;
所述缓存,用于存储所述第一输入数据以及所述第二输入数据;
所述寄存器,用于存储所述第一输入数据以及所述第二输入数据中标量数据;
所述缓存包括高速暂存缓存;
所述控制器单元包括:指令存储单元、指令存储单元和存储队列单元;
所述指令存储单元,用于存储人工神经网络运算关联的计算指令;
所述指令处理单元,用于对所述计算指令解析得到多个运算指令;
所述存储队列单元,用于存储指令队列,该指令队列包括:按该队列的前后顺序待执行的多个运算指令或计算指令;
所述控制单元包括主处理电路,所述主处理电路包括:依赖关系处理单元;
所述依赖关系处理单元,用于确定第一运算指令与所述第一运算指令之前的第零运算指令是否存在关联关系,如所述第一运算指令与所述第零运算指令存在关联关系,将所述第一运算指令缓存在所述指令存储单元内,在所述第零运算指令执行完毕后,从所述指令存储单元提取所述第一运算指令传输至所述运算单元;
所述确定该第一运算指令与第一运算指令之前的第零运算指令是否存在关联关系包括:
依据所述第一运算指令提取所述第一运算指令中所需数据的第一存储地址区间,依据所述第零运算指令提取所述第零运算指令中所需数据的第零存储地址区间,如所述第一存储地址区间与所述第零存储地址区间具有重叠的区域,确定所述第一运算指令与所述第零运算指令具有关联关系,如所述第一存储地址区间与所述第零存储地址区间不具有重叠的区域,确定所述第一运算指令与所述第零运算指令不具有关联关系。
10.一种机器学习运算装置,其特征在于,所述机器学习运算装置包括一个或多个如权利要求1-9任一项所述的计算装置,用于从其他处理装置中获取待运算输入数据和控制信息,并执行指定的机器学习运算,将执行结果通过I/O接口传递给其他处理装置;
当所述机器学习运算装置包含多个所述计算装置时,所述多个所述计算装置间可以通过特定的结构进行连接并传输数据;
其中,多个所述计算装置通过快速外部设备互连总线PCIE总线进行互联并传输数据,以支持更大规模的机器学习的运算;多个所述计算装置共享同一控制系统或拥有各自的控制系统;多个所述计算装置共享内存或者拥有各自的内存;多个所述计算装置的互联方式是任意互联拓扑。
11.一种组合处理装置,其特征在于,所述组合处理装置包括如权利要求10所述的机器学习运算装置,通用互联接口、存储装置和其他处理装置;
所述机器学习运算装置与所述其他处...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:中科寒武纪科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。