【技术实现步骤摘要】
一种面向HPC/AI加速器的多功能DMA
[0001]本专利技术涉及数据存储技术,具体涉及一种面向HPC/AI加速器的多功能DMA。
技术介绍
[0002]自深度学习出现以来,人们的生活发生了翻天覆地的变化,而为神经网络研发一款专用芯片的想法,也早已深入人心。在2013年,谷歌提供的谷歌图像搜索、谷歌照片、谷歌云视觉API、谷歌翻译等多种产品和服务,就都需要用到深度神经网络。在庞大的应用规模下,谷歌内部意识到,这些夜以继日运行的数百万台服务器,它们内部快速增长的计算需求,使得数据中心的数量需要再翻一倍才能得到满足。然而,不管是从成本还是从算力上看,内部中心已不能简单地依靠GPU和CPU来维持,而这也促进了AI(人工智能)加速器的诞生。高性能计算(HPC)应用(包括高能物理研究、能源勘探、国民经济预测和其他高精度领域)需要大量运算,因此高性能计算(HPC)设备具有很高的计算能力,此外HPC集群通常被称为超级计算机。经过几十年不断发展,HPC的软硬件发展已经成熟。作为HPC应用的核心,通用矩阵乘(GEMM)在人工智能领域也很重要 ...
【技术保护点】
【技术特征摘要】
1.一种面向HPC/AI加速器的多功能DMA,其特征在于,包括通道pipe、读请求分发模块、写请求分发模块以及一个用于处理数据的转置和拼接的寄存器阵列,所述通道pipe分别与读请求分发模块和写请求分发模块相互连接,所述通道pipe用于连接外部的源端存储体器,所述读请求分发模块和写请求分发模块用于连接外部的目的端存储器,所述通道pipe中包含普通传输模块、转置传输模块以及拼接传输模块,所述普通传输模块用于将源端存储器的数据不做处理直接输出,所述转置传输模块用于将源端存储器的数据通过寄存器阵列进行转置操作后输出,所述拼接传输模块用于将源端存储器的数据通过寄存器阵列进行拼接操作后输出。2.根据权利要求1所述的面向HPC/AI加速器的多功能DMA,其特征在于,所述多功能DMA根据控制逻辑所下发的指令所携带的模式参数以选择通道pipe中普通传输模块、转置传输模块以及拼接传输模块的工作状态:当模式参数为普通模式时,选择通道pipe中的普通传输模块将源端存储器的数据不做处理直接输出;当模式参数为转置模式时,选择通道pipe中的转置传输模块将源端存储器的数据进行转置操作后输出;当模式参数为拼接模式时,选择通道pipe中的拼接传输模块将源端存储器的数据进行拼接操作后输出。3.根据权利要求1所述的面向HPC/AI加速器的多功能DMA,其特征在于,所述进行转置操作是指将数据分块按列优先读入多功能DMA后,将原数据分块的任意第n行通过多功能DMA存为第n列,且输出时按行优先写出。4.根据权利要求1所述的面向HPC/AI加速器的多功能DMA,其特征在于,所述进行拼接操作包括面向通用矩阵乘的单精度数据的拼接、面向通用矩阵乘的半精度数据的拼接、面向深度学习模型的单精度数据的拼接以及面向深度学习模型的半精度数据的拼接。5.根据权利要求4所述的面向HPC/AI加速器的多功能DMA,其特征在于,所述面向通用矩阵乘的单精度数据的拼接包括针对输入的两个大小为H
×
W的单精度矩阵matrix0和matrix1,将单精度矩阵matrix0和matrix1相同位置的单精度数据拼接为64位数据,且单精度矩阵matrix0的数据存储在低32位,单精度矩阵matrix1的数据存储在高32位,其中为H和W分别为矩阵的高度和宽度。6.根据权利要求4所述的面向HPC/AI加速器的多功能...
【专利技术属性】
技术研发人员:文梅,黄浩岚,汤珉琎,曹亚松,沈俊忠,汪志,杨建超,杨韧禹,康宇晗,鞠鑫,冯静,方亚豪,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。