当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于性能改善的可重配置图形处理器制造技术

技术编号:18893762 阅读:210 留言:0更新日期:2018-09-08 10:37
本发明专利技术涉及用于性能改善的可重配置图形处理器。可使用对图形处理器的部分进行功率门控来改善性能或实现功率预算。可对处理器粒度如切片或子切片进行门控。

Reconfigurable graphics processor for performance improvement

The invention relates to a reconfigurable graphics processor for performance improvement. Power gating can be used to improve performance or achieve a power budget using part of the GPU. Processor granularity such as slice or sub slice can be gated.

【技术实现步骤摘要】
用于性能改善的可重配置图形处理器本申请是申请日为2011年11月21日,申请号为201180074955.6,题为“用于性能改善的可重配置图形处理器”的专利技术专利申请的分案申请。
本申请总体上涉及计算机系统中的图形处理。
技术介绍
图形处理器在不同的处理条件下运行。在一些情况下,它们可在高功耗模式下以及在低功耗模式下运行。可能令人期望的是,在给定图形处理器所运行的功耗模式的情况下,获得最大的可能性能。附图简要说明图1是本专利技术的一个实施例的框图。图2是本专利技术的另一个实施例的流程图。图3是本专利技术的一个实施例的示意图描绘。图4是本专利技术的一个实施例的性能相对于功率预算的假想图;以及图5是一个实施例的功率预算相对于时间的假想图。具体实施方式在一些实施例中,图形处理核自动对其自身进行重配置以便通过对图形处理引擎的部分进行动态功率门控来在高功率和低功率包络中增加或最大化性能。如在此所使用的,功率门控包括激活或去激活核部分。尽管将使用平板计算机图形处理器提供示例,相同的概念应用于任何图形处理器。图形处理核通常包括执行算数、逻辑和其他操作的多个执行单元。可使用多个采样器进行纹理处理。采样器和多个执行单元是子切片(subslice)。可基于目标性能和功率预算在特定的图形处理核中包括多个子切片。对子切片进行组合以形成图形处理切片(slice)。图形处理核可包含一个或多个切片。在平板计算机图形处理核中,通常使用单个切片以及一个、两个或三个子切片设计。多切片在客户端图形处理器中是常见的。因此,参见图1,示出了典型的图形处理器核,核10包括切片编号1(标记为14),该切片可包括固定功能流水线逻辑16和多个子切片18a和18b。在一些实施例中,可包括更多切片和更多或更少的子切片。图形处理核还包括固定功能逻辑12。一个、两个和三个子切片设计的功率和性能特征不同,如图4所示。作为一个示例,在性能对功率耗散曲线图中,性能线性地增加到拐点A(例如,大约2.5瓦)。在该拐点以下,图形处理器在频率成比例的区域中工作,在该区域中,可在不升高工作电压的情况下升高图形处理器频率。在该拐点以上,图形处理器频率仅在电压也升高时才升高,这通常对功率耗散具有负面影响,并且相比于频率成比例的所述区域,会导致更平缓的性能对功率耗散曲线。可对图形处理器的子切片中的一个或多个进行功率门控。总体上,子切片越多,性能越高,但是随着可用功率预算的减少,性能差距(gap)会减少,并且可能在图4中存在B点(例如,在大约1.5瓦),在该点处,单一子切片的配置表现得比两个子切片的配置更好。这种更优性能是由于较大配置具有明显更多的泄露功率从而使得较少空间可用于动态功率。在功率预算较低的情况下,可用于动态功率的空间较少的话会显著地限制较大配置的频率和性能,使得其看起来没有更小配置那么吸引人。在一些实施例中,功率共享机制可用于实现图形处理器子切片的高效动态功率门控。当然,代替对子切片功耗进行门控,相同的概念应用于具有多于一个切片的实施例中的任意数量的图形处理器切片的动态功率门控。图形处理器可具有功率共享功能,该功能基本上随着时间增加(或降低)功率,如图5所示。在特定的时间点t1处,可由功率控制单元为图形处理器核分配特定低水平的功率预算TDP1,该功率预算迫使图形处理器在特定频率f1下运行,该特定频率是允许图形处理器不超过其分配功率预算的最大频率。当功率预算随着时间增加时,图形核可在逐渐更高的频率下运行。在子切片功率门控下,功率控制单元事先得知图形处理器核可配置有全套的执行单元和子切片或者配置有更少的执行单元和子切片。例如,一个实施例可包括十六个执行单元和两个子切片并且另一种操作模式可包括八个执行单元和一个子切片。当图形处理器可用的功率预算很小时,可在更小的核配置中配置图形处理器,其中两个可用子切片之一被功率门控。总体而言,不是简单地在任何特定时间点关闭子切片,因为其可能正在执行有效线程。当功率控制单元确定应当对子切片进行功率门控时,立即动作是阻挡新的图形处理线程被调度到该子切片上。因此,在已经在子切片上执行的线程完成并且子切片变为空闲之前需要一段时间。在一个实施例中,仅当这时对子切片进行实际功率门控。在功率门控下,当功率预算逐渐增加时,在某一时间点,初始关闭的子切片变为打开。或者,相反地,当处理器从高功率预算变为低功率预算时,可关闭子切片(如图5所示)。当关闭子切片时,频率可增加或翻倍(如果关闭了两个子切片之一)。结果是,性能可保持相对稳定,因为剩余的子切片运行得比两个子切片快两倍。这种频率增加确保了从较大的未门控图形核到较小的门控图形核的平滑转变(从性能角度出发)。相反地,当子切片未被门控并且我们转变到两切片图形核时,时钟频率减半,以便将总体性能维持在大约相同的水平下。如上所述的时钟频率改变被设计成在出现功率门控的时间点不显著地中断(例如翻倍或减半)图形核的可缩放部分(图1所示子切片逻辑)的总体性能。然而,如果功率门控的动作由于其低泄露耗散已经产生了更功率高效的图形核,这随后会允许图形核升高其时钟频率和功率耗散从而满足其分配功率预算。这将导致增加的性能,而这就是功率门控的终极目标。另一方面,当分配给图形核的功率预算增加并允许增加子切片时,将时钟频率减半将初始地保留相同的性能。然而,给定增加的图形功率预算,图形核然后将被允许也升高其频率,这将导致所希望的提高性能的结果。在如上所述的动态功率门控的过程中升高或降低时钟频率针对图形核的可缩放部分(即,图1所示的子切片)而言运行良好。然而,如果图形核的不可缩放部分(例如,固定功能逻辑12,如图1所示)使用相同的时钟,则改变时钟频率可影响并且可能限制该逻辑的性能。这将不是所希望的。为了避免这种情况,不可缩放逻辑可使用其自身的独立时钟,该独立时钟不受可缩放图形逻辑内的时钟频率改变的影响。从较大配置切换到较小配置可改善性能,因为其提供了泄露节省并且为更动态的功率提供了空间。同时,从较大配置切换到较小配置可能潜在地导致增加的动态功率,因为频率也相应地增加了。因此,从较大配置转变到较小配置由于相应的频率增加可能在所实现的泄露节省超过了动态功率成本时发生。当这种情况保持时,这种转变将存在净功率节省并且有余地来继续增加频率并且实现净性能增益。因此,举一个例子,在十六执行单元下,两子切片单元转变到八执行单元,一个子切片单元作为功率门控的结果,以下泄露增量(LD)等式适用:其中f8和f16是在功率门控或不门控事件发生时的时间点处八和十六执行单元配置的频率;V8和V16是当功率门控事件发生时两个图形处理核的工作电压;C8和C16是当功率门控事件发生时两个图形处理核的切换电容;Cmax8和Cmax16是对于功率病毒(virus)工作负载,两个图形核的最大切换电容;以及AR16和AR8是就在功率门控或不门控事件之前和之后的两个核的应用率。应用的“应用率”被定义为当该应用在核上执行时图形核切换电容与图形核功率病毒的切换电容的比率。这些等式可用于决定是否发起子切片功率门控。可能已经由图形处理器支持的封装功率共享机制涉及作为运行条件的函数的泄露功率的知识,包括管芯、电压以及温度并且通常熔融到该部分中,这样使得这种信息是可用的。根据该信息,还可通过简单地用本文档来自技高网...

【技术保护点】
1.一种改进图形处理器的性能的方法,包括:对图形处理器的两个区域中的一个进行功率门控关闭,从而相对于运行两个区域而言改善所述图形处理器的性能,其中,除了减少功率消耗之外所述图形处理器的性能也得到改善。

【技术特征摘要】
1.一种改进图形处理器的性能的方法,包括:对图形处理器的两个区域中的一个进行功率门控关闭,从而相对于运行两个区域而言改善所述图形处理器的性能,其中,除了减少功率消耗之外所述图形处理器的性能也得到改善。2.如权利要求1所述的方法,包括对切片进行功率门控。3.如权利要求1所述的方法,包括对子切片进行功率门控。4.如权利要求1所述的方法,包括在功率门控之后改变工作频率。5.如权利要求1所述的方法,包括针对功率预算的功率门控。6.如权利要求1所述的方法,包括确定功率门控是否改善了性能。7.一种图形处理器,包括:所述图形处理器的第一和第二独立可门控的部分;以及逻辑单元,用于对所述图形处理器的第一和第二独立可门控的部分中的一个部分进...

【专利技术属性】
技术研发人员:N·卡布拉塞斯E·C·萨姆森
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1