当前位置: 首页 > 专利查询>辉达公司专利>正文

低功率可编程处理器制造技术

技术编号:3025062 阅读:115 留言:0更新日期:2012-04-11 18:40
一种图形处理器具有一可编程算术逻辑单元(ALU)级,所述可编程算术逻辑单元(ALU)级能够对处理像素包进行标量算术操作。可采用改进动态范围的S1.8格式或一不同的数据格式格式化像素包中的操作数。可将所述图形处理器建构为可配置图形管线。在一种建构方案中,分配器耦合一图形管线的元件以允许响应于来自主机的命令而重新配置通过所述管线的像素包的处理流。可配置测试点选择器可用于监视所述图形管线的分接点的一选定子集,并对与分接点的所述子集的每一分接点相关联的至少一个状态的统计数字进行计数。可将像素分配为偶数像素或奇数像素,且接着使奇数和偶数像素的像素包交错以考虑ALU等待时间。在一种建构方案中,数据包触发所述图形管线的一元件以发现一识别符。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般来说涉及可编程处理器。更特定来说,本专利技术是针对用于图形应用的低功率可编程处理器
技术介绍
在多种电子游戏和其他应用中所关注的是三维图形图像的生成。常规上,用于产生场景的三维图象的步骤中的某些步骤包括产生将要显示的物体的三维模型。形成几何图元(例如三角形),所述几何图元和深度信息一起被映射到二维投影。呈现(绘图)图元包括对一图元的每个二维投影的插值参数,例如深度和色彩。图形处理单元(GPU)在图形系统中常用于响应来自中央处理器的指令而产生三维图形。现代GPU通常利用图形管线来处理数据。图1是传统管线结构的现有技术图,所述管线结构是具有专用于执行特定功能的级的“深”管线。变换级105执行图元的几何计算,且还可执行剪辑操作。设置/光栅级110对图元光栅化。纹理寻址级115和纹理获取120级用于纹理映射。雾化级130建构一雾化算法(fog algorithm)。α测试级135执行α测试。深度测试级140执行深度测试以挑选遮挡像素。α混合级145执行α混色组合算法。存储器写入级150写入管线的输出。图1所示的传统GPU管线结构通常经最优化以用于使用OpenGL图形语言进行快速纹理化。深管线结构的好处在于其允许非常复杂的场景的快速高质量呈现。人们越来越有兴趣在无线电话、个人数字助理(PDA)和其他设备中利用三维图形,这些设备中成本和功耗是重要的设计要求。然而,传统的深管线结构要求很大的芯片面积,从而导致超过预期的较多成本。另外,即使各个级执行相对很少的处理,深管线仍消耗很多功率。这是因为各级中的许多级无论其是否处理像素,都会消耗大约相同量的功率。出于成本和功率考虑,图1所示的常规深管线结构不适合许多图形应用,例如在无线电话和PDA上建构三维游戏。因此,需要的是一种适于图形处理应用而且具有降低的功率和尺寸要求的处理器结构。
技术实现思路
一种图形处理器包括一用于处理像素包的可编程算术逻辑单元(ALU)级。在ALU级中对像素包执行标量算术操作以建构图形功能。一种对一像素执行一图形处理操作的方法的一个实施例包括识别将要对像素包执行以建构图形功能的标量算术操作的一序列;针对所述像素产生复数个像素包,每一像素包包括将要作为标量算术操作序列中的操作数进行处理的像素属性的一子集;在至少一个ALU中,从所述像素包读取操作数;和根据用于执行标量算术操作序列的指令序列来执行标量算术操作。一种图形处理器的一个实施例包括一可编程ALU级,其具有用于处理像素包的至少一个ALU,每一ALU经编程以具有至少一个可能的标量算术操作的一集合,对一具有一相应当前指令的引入像素包执行所述标量算术操作的集合,其中对像素包执行一序列的算术操作以执行一图形处理功能。附图说明联系下文结合附图进行的详细描述可更完全地了解本专利技术,其中图1是三维图形的现有技术管线的图;图2是根据本专利技术一个实施例的包括可编程图形处理器的集成电路的方框图;图3是根据本专利技术一个实施例的可编程图形处理器的方框图;图4说明根据本专利技术一个实施例的示范性像素包;图5说明根据本专利技术一个实施例的像素包群组的成行像素包的示范性排列;图6是根据本专利技术一个实施例的单个算术逻辑单元的方框图;图7是根据本专利技术一个实施例的两个算术逻辑单元的序列的方框图;图8是根据本专利技术一个实施例的可配置可编程图形处理器的方框图;图9说明根据本专利技术一个实施例的像素包的行的交错;图10是说明根据本专利技术一个实施例的具有配置寄存器的算术逻辑单元的方框图;和图11是说明根据本专利技术一个实施例的可配置测试点选择器的方框图。在附图的所有几张图中,类似参考数字表示对应的部件。具体实施例方式图2是本专利技术一个实施例的方框图。可编程图形处理器205耦合到寄存器接口210、主机接口220和存储器接口,例如具有一图形存储器(未图示)(例如帧缓冲器)的用于存储器读/写操作的直接存储器存取(DMA)引擎230。主机接口220允许可编程图形处理器205从一主机接收用于产生图形图像的命令。举例来说,主机可将顶点数据、命令和程序指令发送到可编程图形处理器205。存储器接口(例如DMA引擎230)允许用图形存储器(未图示)执行读/写操作。寄存器接口210提供一接口用来与可编程图形处理器205的寄存器建立连接。可编程图形处理器205可建构为系统290的一部分,系统290包括执行软件应用程序270的至少一个其他的中央处理单元260,其用作可编程图形处理器205的主机。示范性系统290(例如)可包含一手持单元,例如手机或个人数字助理(PDA)。举例来说,软件应用程序270可包括一用于在显示器295上产生图形图像的图形应用程序275。另外,如下文更详细描述,在某些实施例中软件应用程序270可包括图形处理器管理软件应用程序280,其用于执行与可编程图形处理器205相关联的管理功能,例如管线重新配置、寄存器配置以及测试。在一个实施例中,可编程图形处理器205、寄存器接口210、主机接口220和DMA引擎230是形成于包括一主机的单个集成电路200上的嵌入式图形处理核心250的部分,所述单个集成电路200例如为形成于一包括使软件270驻存在存储器中的中央处理单元260的芯片上的集成电路200。或者,图形处理核心250可安置在第一集成电路上且CPU260安置在第二集成电路上。图3是更详细说明根据本专利技术一个实施例的可编程图形处理器205的方框图。其包括设置级305、光栅级310、门监320、数据获取级330、算术逻辑单元(ALU)级340、数据写入级355和再循环路径360。在一个实施例中,可编程图形处理器205包括ALU350,ALU 350经配置以执行着色器程序来建构三维图形操作,例如纹理组合、雾化、α混合(例如色彩混合)、α测试(例如色彩测试)、Z深度测试,或其他着色算法。然而,在以下整个讨论中将了解,可编程图形处理器205也可经配置以执行其他类型的处理操作。设置级305从一主机接收指令,例如运行于集成电路200上的软件应用程序。在一个实施例中,设置级305执行坐标(X形式)几何变换、剪辑和设置的功能。设置单元获取顶点信息(例如x、y、z、色彩和/或纹理属性)并应用用户定义的视图变换来计算每一几何图元(下文中描述为三角形,因为图元通常建构为三角形)的屏幕空间坐标,接着将所述坐标发送到光栅级310以描绘给定三角形。可包括顶点缓冲器308以提供由设置级305使用的顶点数据的缓冲。在一个实施例中,设置级305设置重心系数。在一个建构方案中,设置级305是支持32位IEEE浮点、S15.16定点和封装的.8格式的浮点超大指令字(VLIW)机。光栅级310从设置级205接收关于将要呈现(例如转换为像素)的三角形。在某些实施例中,指令RAM(未图示)可(例如)包括在光栅级310中以用于编程用于光栅级310的指令。光栅级310处理给定三角形的每一像素并确定作为呈现的部分的需要为像素计算的参数,例如计算色彩、纹理、α测试、α混合、z深度测试和雾化参数。在一个实施例中,光栅级310计算像素包的重心系数。在重心坐标系中,三角形中的距离是相对于其顶点来测量的。重心系数的使用减小了所需的动态范围,其允许使用比浮点计算需要更少功率的定点计算。光栅级310针对将要处理的三角形的本文档来自技高网
...

【技术保护点】
一种图形处理器,其包含:一光栅级,其接收关于将被光栅化的图元的数据,所述光栅级针对将要处理的每一像素产生复数个像素包,每一像素包包括识别将要处理的至少一个像素属性的有效负载信息,且具有识别将要对所述像素包执行的至少一个指令的一序列的相关边频带信息;和一可编程算术逻辑单元(ALU)级,其用于处理所述像素包,所述ALU级包括至少一个ALU,每一ALU经编程以具有至少一个对一具有一相应当前指令的引入像素包执行的可能的标量算术操作的一集合;其中对所述复数个像素包执行一序列的算术操作以执行一图形处理功能。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:爱德华A哈钦斯布赖恩K安杰尔保罗金
申请(专利权)人:辉达公司
类型:发明
国别省市:US[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利