【技术实现步骤摘要】
应用于SIMD计算架构的数据处理方法及系统
[0001]本专利技术涉及人工智能领域,特别是涉及一种应用于
SIMD
计算架构的数据处理方法
、
系统
、
计算机设备及计算机可读存储介质
。
技术介绍
[0002]随着计算机技术的快速发展,在人工智能领域处理大规模数据集和高性能计算的需求也不断增加
。AI
加速器常用的一种执行模型是由
GPU
为代表的
SIMT
计算架构,在深度学习等领域当中,矩阵计算占据了整体当中最耗时的部分
。
在这类计算密集型的应用中,
SIMD
计算架构相比
SIMT
具有显著的功耗和性能优势,由于架构的处理单元共享指令流,显著降低了用于指令解码和调度的硬件成本
。
另外某些操作可能依赖先前操作的结果,
SIMD
计算架构相比
SIMT
可以避免数据依赖性带来的等待和同步开销,
SIMD
...
【技术保护点】
【技术特征摘要】
1.
一种应用于
SIMD
计算架构的数据处理方法,其特征在于,所述方法包括:对待处理的数据进行块划分;所述待处理的数据为复数矩阵;将划分的数据块从处理器对应的内存中读入一级缓存,使用向量化指令对数据块中的数据进行预处理;在非连续读取时,使用向量指令中的
repeat
和
stride
参数代替循环控制语句以减少指令发射次数;在计算流程的初始生成
mask
矩阵,并将
mask
矩阵保存在一级缓存中,以在任务完成之前无限次复用;将预处理后数据块加载至零级缓存;所述零级缓存为对应
SIMD
架构处理器中矩阵计算单元直接访问的存储空间;将矩阵计算单元的结果加载至一级缓存中,并使用向量化指令对结果进行后处理;将后处理结果从一级缓存写回处理器对应的内存中,完成数据块的计算
。2.
根据权利要求1所述的数据处理方法,其特征在于,所述预处理包括复数的虚部和实部分离,以及包括但不限于规范化操作
、
填充操作
、
截断操作中的至少一种操作
。3.
根据权利要求2所述的数据处理方法,其特征在于,复数的虚部和实部分离使用
mask
向量完成,或者在拥有更细粒度操作单位的处理器上利用指令中的
stride
取得目标,并消除同类数据中的间隔实现虚部和实部分离,其中分离虚部和实部在
HBM
上相邻
。4.
根据权利要求1所述的数据处理方法,其特征在于,所述后处理包括重组,格式还原,或进行累加操作
。5.
根据权利要求1所述的数据处理方法,其特征在于,采用
mask
矩阵进行逐元素相乘,以实现三角置零
。6.
根据权利要求1所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。