One embodiment provides a computing device for performing machine learning operations, which includes instruction decoding logic for decoding a single instruction comprising multiple operands into a single decoded instruction with different accuracy, and a first logic. A general graphics computing unit of a unit and a second logic unit for executing the single decoded instruction, in which the single decoded instruction is executed, including performing the first instruction operation on the first set of operands of the plurality of operands with the first precision, and simultaneously pairing the first instruction with the second precision. The second sets of operands in the plurality of operands execute second instruction operations.
【技术实现步骤摘要】
使用低精度和高精度的混合推理
实施例总体上涉及数据处理,且更具体地涉及经由通用图形处理单元进行的数据处理。
技术介绍
当前的并行图形数据处理包括被开发用于对图形数据执行特定操作的系统和方法,这些特定操作如例如线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,图形处理器的多个部分已变得可编程,从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。为进一步提高性能,图形处理器通常实施处理技术(比如,流水线操作),这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在以下两者中找到:ShaneCook的CUDA编程(CUDAProgramming),第3章,第37-51页(2013年);和/或NicholasWilt的CUDA手册(GPU编程的综合指南(AComprehensiveGuidetoGPUProgramming)),章节2.6.2到3.1.2(2013年6月)。附图说明为使得可以详细地理解本专利技术的特征,可通过参考实施例来具有对本专利技术的更具体的描述,在附图中展示了这些实施例中的一些。然而,应注意的是,附图仅展示典型的实施例,且因此将不被视为限制所有实施例的范围。图1是展示了被配置成实现本文所述的实施例的一个或多个方面的计算机系统的框图 ...
【技术保护点】
1.一种用于执行机器学习操作的计算设备,所述计算设备包括:指令解码逻辑,用于将包括多个操作数的单个指令解码成单个经解码指令,所述多个操作数具有不同的精度;以及包括第一逻辑单元和第二逻辑单元的通用图形计算单元,所述通用图形计算单元用于执行所述单个经解码指令,其中,执行所述单个经解码指令包括以第一精度对所述多个操作数中的第一组操作数执行第一指令操作,并且同时以第二精度对所述多个操作数中的第二组操作数执行第二指令操作。
【技术特征摘要】
2017.04.24 US 15/494,7731.一种用于执行机器学习操作的计算设备,所述计算设备包括:指令解码逻辑,用于将包括多个操作数的单个指令解码成单个经解码指令,所述多个操作数具有不同的精度;以及包括第一逻辑单元和第二逻辑单元的通用图形计算单元,所述通用图形计算单元用于执行所述单个经解码指令,其中,执行所述单个经解码指令包括以第一精度对所述多个操作数中的第一组操作数执行第一指令操作,并且同时以第二精度对所述多个操作数中的第二组操作数执行第二指令操作。2.如权利要求1所述的计算设备,其中,所述通用图形计算单元用于输出所述单个指令的多个结果。3.如权利要求2所述的计算设备,其中,所述通用图形计算单元用于输出具有不同精度的多个结果。4.如权利要求3所述的计算设备,其中,所述多个结果包括浮点结果和整数结果。5.如权利要求4所述的计算设备,其中,所述多个结果包括多个整数结果。6.如权利要求1至5中任一项所述的计算设备,其中,所述第一逻辑单元是浮点单元,并且所述第一组操作数具有浮点数据类型。7.如权利要求1至5中任一项所述的计算设备,其中,所述第二逻辑单元被配置成用于执行整数操作,并且所述第二组操作数具有整数数据类型。8.如权利要求7所述的计算设备,其中,所述第二组操作数包括第一子组操作数和第二子组操作数。9.如权利要求8所述的计算设备,其中,所述第二逻辑单元用于对所述第一子组操作数和所述第二子组操作数执行相同的操作。10.如权利要求8所述的计算设备,其中,所述第二逻辑单元用于对所述第一子组操作数执行第一数学运算,并且对所述第二子组操作数执行所述第一数学运算的逆运算。11.一种执行机器学习操作的方法,所述方法包括:获取并解码包括多个操作数的单个指令,所述多个操作数引用具有不同精度的多个数据元素;经由计算单元内的第一逻辑单元对所述多个数据元素中的第一组执行第一指令操作,所述多个数据元素中的所述第一组具有第一精度;与经由所述第一逻辑单元执行所述第一指令操作并行地、经由所述计算单元内的第二逻辑单元对所述多个数据元素中的第二组执行第二指令操作,所述多个数据元素中的所述第二组具有第二精度;以及输出所述第一指令操作和所述第二指令操作的结...
【专利技术属性】
技术研发人员:E·乌尔德阿迈德瓦尔,B·拉克舍玛南,T·史佩斯曼,J·雷,P·T·唐,M·斯特里克兰德,陈晓明,姚安邦,B·J·阿什博,L·L·赫德,马立伟,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。