当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于深度神经网络的计算优化机制制造技术

技术编号:39435383 阅读:29 留言:0更新日期:2023-11-19 16:18
公开了一种用于促进计算优化的装置。该装置包括多个处理单元,该多个处理单元各自包括多个执行单元(EU),其中,该多个EU包括第一EU类型和第二EU类型。类型和第二EU类型。类型和第二EU类型。

【技术实现步骤摘要】
用于深度神经网络的计算优化机制
本专利技术专利申请是2018年4月23日提交的申请号为201810368545.6,名称为“用于深度神经网络的计算优化机制”的专利技术专利申请的分案申请。


[0001]实施例总体涉及数据处理,并且更具体地涉及经由通用图形处理单元的数据处理。

技术介绍

[0002]当前的并行图形数据处理包括被开发用于对图形数据执行特定操作的系统和方法,这些特定操作如例如线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,图形处理器的多个部分已变得可编程,从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。
[0003]为进一步提高性能,图形处理器通常实施处理技术(比如,流水线操作),这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。用于SIMT架本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图形处理单元GPU,包括一个或多个多处理器,所述一个或多个多处理器中的至少一个多处理器包括:寄存器堆;以及多个处理核,包括:第一类型的第一组处理核,用于对所述寄存器堆的第一组寄存器中的第一组操作数执行多维矩阵数学运算,所述多维矩阵数学运算包括深度学习矩阵操作;以及第二类型的第二组处理核,所述第二组处理核用于对所述寄存器堆的第二组寄存器中的第二组操作数执行通用图形处理单元GPGPU操作,其中,所述第二组处理核包括:浮点单元FPU的集合,用于执行指令以执行浮点运算,所述FPU的集合包括FPU的第一子集和FPU的第二子集,所述FPU的第一子集用于执行32位浮点FP32运算,所述FPU的第二子集用于执行64位浮点FP64运算;以及整数单元的集合,用于执行指令以执行32位整数运算。2.如权利要求1所述的GPU,其中,所述一个或多个多处理器中的所述至少一个多处理器进一步包括分派单元,所述分派单元用于分派第一指令以用于在所述第一组处理核处执行并且用于将第二指令分派至所述第二组处理核,所述第二指令包括用于执行浮点运算的指令和用于执行32位整数运算的指令。3.如权利要求1所述的GPU,其中,所述寄存器堆用于存储所述第一组操作数和所述第二组操作数,所述第二组操作数包括用于执行所述32位整数运算的操作数、用于执行所述FP32运算的操作数、和用于执行所述FP64运算的操作数。4.如权利要求2所述的GPU,其中,所述一个或多个多处理器中的所述至少一个多处理器进一步包括指令高速缓存,所述指令高速缓存用于存储所述第一指令和所述第二指令。5.如权利要求1所述的GPU,其中,所述第二组处理核与所述第一组处理核不同。6.一种用于促进在图形处理单元GPU处对数据的处理的方法,所述方法包括:在所述GPU处的第一类型的第一组处理核处接收来自寄存器堆的第一组寄存器的第一组操作数;在所述GPU处的第二类型的第二组处理核处接收来自寄存器堆的第二组寄存器的第二组操作数;在所述第一组处理核处对所述第一组操作数执行多维矩阵数学运算,所述多维矩阵数学运算包括深度学习矩阵操作;以及在所述第二组处理核处对所述第二组操作数执行通用图形处理单元GPGPU操作,其中,在所述第二组处理核处执行所述GPGPU操作包括:在浮点单元FPU的集合处执行指令,以执行浮点运算,其中,在所述浮点单元FPU的集合处执行指令包括在FPU的第一子集处执行32位浮点FP32运算和在FPU的第二子集处执行64位浮点FP64运算;以及在整数单元的集合处执行指令以执行32位整数运算。7.如权利要求6所述的方法,进一步包括:分派第一指令以用于在所述第一组处理核处执行并且将第二指令分派至所述第二组处理核,所述第二指令包括用于执行浮点运算的指令和用于执行32位整数运算的指令。8.如权利要求6所述的方法,进一步包括:将所述第一组操作数和所述第二组操作数存
储在所述寄存器堆中,所述第二组操作数包括用于执行所述32位整数运算的操作数、用于执行所述FP32运算的操作数、和用于执行所述FP64运算的操作数。9.如权利要求6所述的方法,其中,所述第二组处理核与所述第一组处理核不同。10.一种多处理器,包括:寄存器堆;以及多个处理核,包括:第一类型的第一组处理核,用于对所述寄存器堆的第一组寄存器中的第一组操作数执行深度学习多维矩阵数学运算;以及第二类型的第二组处理核,所述第二组处理核用于对所述寄存器堆的第二组寄存器中的第二组操作数执行通用图形处理单元GPGPU操作,其中,所述第二组处理核包括:浮点单元FPU的集合,用于执行指令以执行浮点运算,所述FPU的集合包括FPU的第一子集和FPU的第二子集,所述FPU的第一子集用于执行32位浮点FP32运算,所述FPU的第二子集用于执行64位浮点FP64运算;以及整数单元的集合,用于执行指令以执行32位整数运算。11.如权利要求10所述的多处理器,进一步包括:分派单元,用于分派第一指令以用于在所述第一组处理核处执行并且将第二指令分派至所述第二组处理核,所述第二指令包括用于执行浮点运算的指令和用于执行32位整数运算的指令。12.如权利要求10所述的多处理器,其中,所述寄存器堆用于存储所述第一组操作数和所述第二组操作数,所述第二组操作数包括用于执行所述32位整数运算的操作数、用于执行所述FP32运算的操作数、和用于执行所述FP64运算的操作数。13.如权利要求11所述的多处理器,进一步包括:指令高速缓存,用于...

【专利技术属性】
技术研发人员:P
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1