【技术实现步骤摘要】
深度学习模型的芯片适配方法、装置、芯片及介质
[0001]本专利技术实施例涉及神经网络技术,具体涉及一种深度学习模型的芯片适配方法、装置、芯片及介质,尤其涉及循环神经网络的芯片适配场景。
技术介绍
[0002]目前,循环神经网络已被广泛用于文本识别、语音识别以及自然语言处理等场景。模型精度提升的同时也引入了巨大的参数量和计算量。模型量化可以减少内存带宽和存储占用,降低功耗,提升吞吐量,降低延时。
[0003]现有的循环神经网络的参数量化方法通常需要根据量化数据变动的幅度确定迭代间隔,以根据该迭代间隔调整神经网络中的量化参数。
[0004]由于上述方法应用于片上的循环神经网络的训练或微调过程中时,需要进行反复迭代,使得过程耗时复杂,且给机器学习芯片带来巨大的算力成本和时间成本。因此,如何在精度损失较小的情况下,提升参数量化的效率,降低存储空间的消耗是目前亟待解决的问题。
技术实现思路
[0005]本专利技术实施例提供一种深度学习模型的芯片适配方法、装置、芯片及介质,以减少模型量化过程中的计算量, ...
【技术保护点】
【技术特征摘要】
1.一种深度学习模型的芯片适配方法,由机器学习芯片执行,其特征在于,包括:加载待适配的目标模型,目标模型包括至少一个循环神经网络,循环神经网络包括至少一个网络单元,网络单元包括至少一个门结构,门结构具有输入权重矩阵和循环权重矩阵;根据机器学习芯片中目标算力计算单元的目标精度和待适配的目标模型的参数精度之间的数值关系,验证是否满足对目标模型的芯片适配条件;若是,则加载与各循环神经网络分别匹配的输入向量集和隐藏状态向量数据范围;将各所述循环神经网络、输入向量集和隐藏状态向量数据范围通过至少一级内存搬运的方式,搬运至机器学习芯片中与计算单元贴近设置的目标内存中;通过各计算单元根据目标内存中的数据,调用机器学习芯片中内置的各计算指令,执行下述操作:根据与循环神经网络匹配的输入向量集和隐藏状态向量数据范围,计算得到输入向量量化尺度和隐藏状态向量量化尺度;根据所述目标精度、输入向量量化尺度、隐藏状态向量量化尺度以及每个门结构的输入权重矩阵和循环权重矩阵,计算得到与每个门结构分别对应的输入权重量化矩阵、循环权重量化矩阵和量化尺度;将与每个门结构分别对应的输入权重量化矩阵、循环权重量化矩阵和量化尺度输出至引擎文件中,以生成适配后的目标模型。2.根据权利要求1所述的方法,其特征在于,根据与循环神经网络匹配的输入向量集和隐藏状态向量数据范围,计算得到输入向量量化尺度和隐藏状态向量量化尺度,包括:根据所述输入向量集的值域分布,计算得到与所述输入向量集对应的输入向量数值范围,并根据所述输入向量数值范围,确定输入向量量化阈值;根据所述输入向量量化阈值、预设的量化范围和量化方式,计算得到输入向量量化尺度;根据所述隐藏状态向量数据范围,确定隐藏状态向量量化阈值,并根据所述隐藏状态向量量化阈值、预设的量化范围和量化方式,计算得到隐藏状态向量量化尺度。3.根据权利要求2所述的方法,其特征在于:使用专用计算指令,计算得到输入向量量化尺度、隐藏状态向量量化尺度、与每个门结构分别对应的输入权重量化矩阵和循环权重量化矩阵;其中,所述专用计算指令使用最大最小值、相对熵散度以及百分位数中的任一项算法构建的计算逻辑进行封装后得到。4.根据权利要求1或2所述的方法,其特征在于,根据所述目标精度、输入向量量化尺度、隐藏状态向量量化尺度以及每个门结构的输入权重矩阵和循环权重矩阵,计算得到与每个门结构分别对应的输入权重量化矩阵、循环权重量化矩阵和量化尺度,包括:获取与当前处理的目标门结构对应的目标输入权重矩阵和目标循环权重矩阵;将目标输入权重矩阵与输入向量量化尺度相乘得到的第一结果,和目标循环权重矩阵与隐藏状态向量量化尺度相乘得到的第二结果进行拼接,得到目标拼接矩阵;根据所述目标拼接矩阵,计算得到与所述目标门结构对应的目标量化尺度;根据所述目标精度、与所述目标门结构对应的目标量化尺度,对所述目标拼接矩阵进
行量化处理,得到与所述目标门结构对应的目标输入权重量化矩阵和目标循环权重量化矩阵。5.根据权利要求4所述的方法,其特征在于,根据所述目标拼接矩阵,计算得到与所述目标门结构对应的目标量化尺度,包括:对所述目标拼接矩阵中的各矩阵元素进行取绝对值处理后,获取所述目标拼接矩阵中的矩阵元素最大值;根据所述矩阵元素最大值、预设的量化范围和量化方式,计算得到与所述目标门结构对应的目标量化尺度。6.根据权利要求4所述的方法,其特征在于,根据所述目标精度、与所述目标门结构对应的目标量化尺度,对所述目标拼接矩阵进行量化处理,得到与所述目标门结构对应的目标输入权重量化矩阵和目标循环权重量化矩阵,包括:将所述目标拼接矩阵除以所述目标量化尺度,得到中间结果矩阵;根据所述目标精度、对所述中间结果矩阵进行取整和截断处理,得到目标量化拼接矩阵;对所述目标量化拼接矩阵进行解拼接处理,得到所述目标输入权重量化矩阵和目标循环权重量化矩阵。7.根据权利要求1
‑
6任一项所述的方法,其特征在于,所述目标模型为语言翻译模型,所述语言翻译模型具体包括:长短期记忆网络LSTM编码层以及LSTM网络译码层,所述LSTM编码层以及LSTM网络译码层中分别包含有多个顺次相连的LSTM网络单元,每个LSTM网络单元中包含有四个门结构,各所述门结构分别为输入门、...
【专利技术属性】
技术研发人员:郭敬明,张克俭,田宏泽,周晨君,孙清阁,梁维斌,
申请(专利权)人:北京燧原智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。