【技术实现步骤摘要】
本技术涉及用于在计算加速器中使用数据转换进行矩阵计算的装置。
技术介绍
1、变换器(transformer)已经成为自然语言处理(nlp)领域中的主要神经网络架构,并且其使用继续扩展到其他机器学习应用中。原始的变换器在文献“attention is allyou need”(vaswani等人,2017年)中被介绍,其引发了许多变换器模型变型的开发,诸如生成式预训练变换器(gpt)和基于变换器的双向编码器表示(bert)模型。这种变换器通过使用自注意力机制而在推理任务方面显著地优于其它模型,该自注意力机制避免了递归并且允许容易地实现并行。另一方面,变换器工作负荷是非常计算密集的并且具有高存储器要求,并且由于是时间密集和低效的而受到困扰。
2、最近,nlp模型在模型大小和计算要求方面增长了千倍。例如,1024个图形处理单元(gpu)用1750亿个参数来训练像gpt-3的模型可能花费大约4个月。已经开发了具有万亿个参数的新nlp模型,并且几万亿参数模型即将来临。这种快速增长使得越来越难以大规模供应nlp模型。
3、从
...【技术保护点】
1.一种用于人工智能加速器的矩阵计算装置,被配置为集成电路,所述装置包括:
2.根据权利要求1所述的装置,其中,所述计算设备包括耦接到所述多个计算单元的对准设备,所述对准设备被配置为使用所述第一组合矩阵输出来确定第三格式的第一舍入矩阵输出。
3.根据权利要求2所述的装置,其中,所述计算设备包括耦接到所述对准设备的部分积约简设备,所述部分积约简设备被配置为使用所述第一舍入矩阵输出来确定第一约简矩阵输出,并且其中,所述计算转换器被配置为使用所述第一约简矩阵输出来确定所述第一转换矩阵输出。
4.根据权利要求3所述的装置,其中,所述第一格式
...【技术特征摘要】
1.一种用于人工智能加速器的矩阵计算装置,被配置为集成电路,所述装置包括:
2.根据权利要求1所述的装置,其中,所述计算设备包括耦接到所述多个计算单元的对准设备,所述对准设备被配置为使用所述第一组合矩阵输出来确定第三格式的第一舍入矩阵输出。
3.根据权利要求2所述的装置,其中,所述计算设备包括耦接到所述对准设备的部分积约简设备,所述部分积约简设备被配置为使用所述第一舍入矩阵输出来确定第一约简矩阵输出,并且其中,所述计算转换器被配置为使用所述第一约简矩阵输出来确定所述第一转换矩阵输出。
4.根据权利要求3所述的装置,其中,所述第一格式包括第一块浮点格式;
5.根据权利要求3所述的装置,其中,所述第一格式包括bfp26-64格式;
6.根据权利要求1所述的装置,还包括耦接到所述输出缓冲器设备的单指令多数据设备;
7.根据权利要求1所述的装置,其中,所述计算设备被配置为对所述第一矩阵输出进行移位并且将经移位的第一矩阵输出加到所述第二矩阵输出以确定所述第一组合矩阵输出。
8.根据权利要求1所述的装置,其中,所述第一矩阵输入包括第一矩阵权重输入和第一矩阵激活输入;其中,所述第一矩阵权重输入包括第一矩阵权重指数和第一矩阵权重尾数,所述第一矩阵权重尾数具有最高有效字节部分和最低有效字节部分;并且其中,所述第一矩阵激活输入包括第一矩阵激活指数和第一矩阵激活尾数;
9.根据权利要求8所述的装置,其中,所述计算设备被配置为对所述第一矩阵输出进行移位并且将经移位的第一矩阵输出加到所述第二矩阵输出以确定所述第一组合矩阵输出。
10.根据权利要求8所述的装置,其中,所述计算设备包括耦接到所述多个计算单元的对准设备,所述对准设备被配置为对所述第一组合矩阵输出进行舍入以确定第三格式的第一舍入矩阵输出。
11.根据权利要求...
【专利技术属性】
技术研发人员:伊利亚·柳博米尔斯基,艾琳·奎克,阿伦·蒂鲁武尔,萨蒂扬·斯里瓦斯塔瓦,苏迪普·博贾,
申请(专利权)人:D梅崔克斯公司,
类型:新型
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。