用于加速深度学习网络的训练的系统和方法技术方案

技术编号：37108039 阅读：20 留言：0更新日期：2023-04-01 05:06

公开了一种用于在深度学习网络的训练期间加速乘法累加(MAC)浮点单元的系统和方法。所述方法包括：接收第一输入数据流A和第二输入数据流B；将所述第一数据流A和所述第二数据流B的指数成对相加以产生乘积指数；使用比较器来确定最大指数；通过将乘积指数增量添加到所述第一数据流中的对应项来确定所述第二数据流中的每个有效数在累加之前必须移位的位数并且使用加法器树将所述第二数据流中的操作数归约为单个部分和；使用所述最大指数将所述部分和添加到对应的对齐值以确定累加值；以及输出所述累加值。及输出所述累加值。及输出所述累加值。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于加速深度学习网络的训练的系统和方法

[0001]下文总体上涉及深度学习网络，并且更具体地涉及一种用于加速深度学习网络的训练的系统和方法。

技术介绍

[0002]深度学习的普遍应用和登纳德缩放定律(Dennard scaling)的终结一直在推动加速深度学习推理和训练的工作。这些工作跨越整个系统堆栈，从算法到中间件和硬件架构。训练是包括推断作为子任务的任务。训练是计算和存储密集型任务，通常需要数周的计算时间。

技术实现思路

[0003]在一方面，提供了一种用于在深度学习网络的训练或推断期间加速乘法累加(MAC)浮点单元的方法，所述方法包括：接收第一输入数据流A和第二输入数据流B；将所述第一数据流A和所述第二数据流B的指数成对相加以产生乘积指数；使用比较器来确定最大指数；通过将乘积指数增量添加到所述第一数据流中的对应项来确定所述第二数据流中的每个有效数在累加之前必须移位的位数并且使用加法器树将所述第二数据流中的操作数归约为单个部分和；使用所述最大指数将所述部分和添加到对应的对齐值以确定累加值；以及输出所述累加值。
[0004]在所述方法的特定情况下，确定所述第二数据流中的每个有效数在累加之前必须移位的所述位数包括跳过映射在定义的累加器宽度外的无效项。
[0005]在所述方法的另一情况下，每个有效数包括有符号的2的幂。
[0006]在所述方法的又一情况下，在多个MAC浮点单元之间共享将所述指数相加和确定所述最大指数。
[0007]在所述方法的又一情况下，所述指数被设置为固...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于在深度学习网络的训练或推断期间加速乘法累加(MAC)浮点单元的方法，所述方法包括：接收第一输入数据流A和第二输入数据流B；将所述第一数据流A和所述第二数据流B的指数成对相加以产生乘积指数；使用比较器来确定最大指数；通过将乘积指数增量添加到所述第一数据流中的对应项来确定所述第二数据流中的每个有效数在累加之前必须移位的位数并且使用加法器树将所述第二数据流中的操作数归约为单个部分和；使用所述最大指数将所述部分和添加到对应的对齐值以确定累加值；以及输出所述累加值。2.如权利要求1所述的方法，其中确定所述第二数据流中的每个有效数在累加之前必须移位的所述位数包括跳过映射在定义的累加器宽度外的无效项。3.如权利要求1所述的方法，其中每个有效数包括有符号的2的幂。4.如权利要求1所述的方法，其中在多个MAC浮点单元之间共享将所述指数相加和确定所述最大指数。5.如权利要求1所述的方法，其中所述指数被设置为固定值。6.如权利要求1所述的方法，所述方法还包括将浮点值存储在组中，并且其中所述指数增量被编码为与基数指数的差值。7.如权利要求6所述的方法，其中所述基数指数是所述组中的第一指数。8.如权利要求1所述的方法，其中使用所述比较器包括将所述最大指数与累加器位宽的阈值进行比较。9.如权利要求8所述的方法，其中设置所述阈值以确保模型收敛。10.如权利要求9所述的方法，其中所述阈值被设置在训练准确度的0.5％内。11.一种用于在深度学习网络的训练或推断期间加速乘法累加(MAC)浮点单元的系统，所述系统包括一个或多个处理器，所述一个或多个处理器与数据存储器通信以执行：输入模块，所述输入模块用于接收第一输入数据流A和第二输入数据流B；指...

【专利技术属性】
技术研发人员：O，
申请(专利权)人：多伦多大学管理委员会，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人