【技术实现步骤摘要】
一种针对深度学习半精度算子数据访存对界处理方法
[0001]本专利技术涉及一种针对深度学习半精度算子数据访存对界处理方法,属于深度学习
技术介绍
[0002]半精度数据类型占用内存较少,计算时间较短,能够有效地提升深度学习训练模型的性能,因而使用半精度数据类型实现算子对加速深度学习模型训练有重要作用。
[0003]异构众核平台的控制核与计算核之间的数据传输主要通过DMA请求实现,DMA仅支持4B粒度的对界,这意味着DMA请求需要保证主存地址、计算核局存地址、传输数据量、跨步大小和跨步向量块大小等参数均需满足4B粒度对界的要求,而半精度浮点类型数据的长度为2B,因此对半精度数据的DMA读取可能存在不对界的问题。
[0004]深度学习模型训练过程中的计算数据以多维张量的格式分布,通常情况下的不对界处理会对每一维度做对界处理,这种方法虽然简单易用,但会增加内存占用和对界处理时间。
技术实现思路
[0005]本专利技术的目的是针对深度学习算子实现中常见的半精度数据类型,提供一种简易通用的对界 ...
【技术保护点】
【技术特征摘要】
1.一种针对深度学习半精度算子数据访存对界处理方法,其特征在于:针对深度学习中算子的计算特点和张量空间分布,对多维张量的特定维度做4B对界处理,将四维张量的输入数据按照实际参与计算的维度分为不同的类,分别使用不同的半精度数据对界处理方法;具体为,根据输入的算子类型和输入数据的计算维度,选择不同的对界方法:S1、对于一维计算(如激活函数),计算总数据量len=N*C*H*W,若len为奇数,单个半精度浮点数为2B,不满足对界要求,在len的最末尾添加一个0,使之满足对界同时不影响计算结果;S2、对于包括softmax、fc、pool、spatialBN的二维计算,实际计算是以二维的方式计算,对于一个N*M的二维张量,在二维张量增加一行0或增加一列0 ,使得...
【专利技术属性】
技术研发人员:刘鑫,刘沙,陈德训,彭超,黄则强,高捷,王宜鹏,
申请(专利权)人:无锡江南计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。