一种低功耗GPU染色任务与统一染色阵列任务现场映射结构制造技术

技术编号:15331141 阅读:120 留言:0更新日期:2017-05-16 14:27
本发明专利技术属于图形处理器设计领域,公开了一种低功耗GPU染色任务与统一染色阵列任务现场映射结构。所述结构包含:输入数据组装与转发单元(1),接收外部模块输入的Vertex属性数据和Pixel属性数据,组装成Vertex warp和Pixel warp,转发到统一染色阵列(USA)的任务现场;配置与管理单元(2),接收外部HIU(主机接口单元)输入的配置参数,设置和记录配置参数的值;任务管理单元(3),依据深度优先的算法执行空闲slot查询与任务映射、任务输出和任务提交;资源管理单元(4),根据配置参数更新slot的资源管理方法。slot状态表单元(5),记录统一染色阵列内m个slot(任务现场)的状态和任务类型。

A low power GPU dyeing task and a field mapping structure for unified dye array tasks

The invention belongs to the field of graphic processor design, and discloses a low power GPU dyeing task and a unified dyeing array task on-site mapping structure. The structure includes: input data assembly and forwarding unit (1), receiving external input module Vertex attribute data and attribute data in Pixel, Vertex warp and Pixel assembled warp, forwarded to the unified array (USA) staining task field; configuration and management unit (2), HIU (receiving external host interface unit) configuration parameters input, setting and recording configuration parameters; task management unit (3), on the basis of the depth first algorithm performs free slot query and task mapping, task output and job submission; resource management unit (4), according to the resource management method of updating slot configuration parameters. The slot status table unit (5) records the status and task type of M slot (task field) within the unified dye array.

【技术实现步骤摘要】
一种低功耗GPU染色任务与统一染色阵列任务现场映射结构
本专利技术属于图形处理器设计领域,涉及一种低功耗GPU染色任务与统一染色阵列任务现场映射结构。
技术介绍
图形处理器(GraphicProcessUnit,GPU)是现代计算机硬件的重要组成部分,是进行图形绘制、处理和显示的关键部件,普遍存在于工作站、个人电脑、笔记本、手机以及各类需进行图形显示的系统中。GPU产生2D和3D的图形、图像和视频,以支持基于窗口的操作系统、图形用户界面、视频游戏、可视化图像应用和视频播放等可视化计算。GPU图形处理能力随着纹理贴图技术的普遍应用而不断提升,GPU流水线高速、并行的特征和灵活的可编程能力,为图形处理和通用并行计算提供了良好的运行平台。目前,我国GPU研制能力薄弱,各领域显示控制系统中大量采用国外进口的商用GPU芯片。尤其是在军用领域中,国外进口商用GPU芯片存在安全性、可靠性、保障性等方面的隐患,无法满足军用环境的需求;而且,出于政治、军事、经济等原因,国外对我国实行技术“封锁”和产品“垄断”,难以获得GPU芯片的底层技术资料,如寄存器资料、详细内部微架构、核心软件源码等,导致GPU功能、性能无法充分发挥,且移植性较差;上述问题严重制约了我国显示系统的独立研制和自主发展,研制具有自主知识产权的图形处理器芯片已迫在眉睫,低功耗GPU染色任务与统一染色阵列任务现场映射结构作为统一染色GPU的关键和核心,对其设计技术进行研究和突破已刻不容缓。
技术实现思路
本专利技术的目的是:提供一种低功耗GPU染色任务与统一染色阵列任务现场映射结构,突破统一染色GPU染色任务与统一染色阵列任务现场映射的关键技术。本专利技术的技术解决方案是:一种低功耗GPU染色任务与统一染色阵列任务现场映射结构,包含:输入数据组装与转发单元(1),从外部的GFU(图形功能单元)、GDU(图形绘制单元)和GEU(几何引擎单元)获取Vertex染色任务和Pixel染色任务的输入数据,将GFU和GDU输入的16个Vertex的i个相关属性数据组装成Vertexwarp,将GEU输入的16个pixel的j个相关属性数据组装成pixelwarp,当前Vertexwarp和pixelwarp组装和传输完毕,则产生warp组装使能输出给向任务管理单元(3);输入数据组装与转发单元(1)从任务管理单元(3)获取slotid11和slotid12,使用slotid11和slotid12产生Vertexwarp和pixelwarp数据到外部的USA(统一染色阵列)的localsram存储器地址,将Vertexwarp和pixelwarp的数据输出到USA(统一染色阵列)的localsram;配置与管理单元(2),从外部的HIU(主机接口单元)获取输入数据,设置slot配置码和SSC(SIMTShadingCluster,SIMT染色处理单元簇)使能配置码,产生SSC低功耗编码;向任务管理单元(3)输出slot配置码的值和SSC使能配置码的值,向资源管理单元(4)输出slot配置码的值和SSC使能配置码的值,向外部的USA输出SSC低功耗编码;任务管理单元(3),以输入数据组装与转发单元(1)的warp组装使能为输入,结合配置与管理单元(2)输入的slot配置码的值和SSC使能配置码的值,查询slot状态表单元(5)中n个slot的状态值,依据深度优先的算法得到slotid11和slotid12,将slotid11和slotid12输出到输入数据组装与转发单元(1),将slotid11和slotid12作为slot的地址,将slotid11和slotid12的slot的配置信息输出到slot状态表单元(5),占用该slot;将Vertexwarp和Pixelwarp的染色任务控制信息,包括slotid11和slotid12,任务类型,输出到外部的USA(统一染色阵列),以外部的OCU(输出控制单元)模块输出的Vertexwarp任务和Pixelwarp任务的slotid21和slotid22为输入,作为slot的地址,将slot的配置信息输出到slot状态表单元(5),释放slot资源;资源管理单元(4),将slot状态表单元(5)的n个slot的全部状态作为输入,统计n个slot的负载状态,结合配置与管理单元(2)输入的slot配置码的值和SSC使能配置码的值,实施slot资源分配与映射操作,将slotid3和slot的配置信息输出到slot状态表单元(5),改变slot资源的任务类型;slot状态表单元(5),用于记录m个slot状态,每个slot的状态包括2个bit,第1个bit表示slot的当前状态:busy/idle,第2个bit表示slot的类型:Vertex/Pixel;向任务管理单元(3)输出slotid11和slotid12,以及n个slot的全部状态,指导任务映射操作,向资源管理单元(4)输出n个slot的全部状态,接收资源管理单元(4)输入的slotid3和slot任务类型的设置信息,指导资源映射操作。i的取值范围为3-25的整数;j的取值范围为3-10的整数。本专利技术的技术效果是:1、本专利技术提供一种低功耗GPU染色任务与统一染色阵列任务现场映射结构,由多个子功能模块组成,实现Vertex染色任务和Pixel染色任务到统一染色阵列任务现场的映射。输入数据组装与转发单元(1)和任务管理单元(3)具备Vertex染色任务和Pixel染色任务数据的并行组装与转发、Vertex染色任务和Pixel染色任务的并行映射、并行输出和并行提交能力;配置及管理单元和资源管理单元(4)实现低功耗资源管理方法;任务管理单元(3)的空闲slot查询与任务映射模块采用低功耗任务映射算法。以上三方面的特征使得GPU染色任务与统一染色阵列任务现场映射结构能够实现低功耗任务管理、低功耗资源管理方法和任务现场映射。2、低功耗GPU染色任务与统一染色阵列任务现场映射结构的基本功能包括:Vertexwarp和Pixelwarp输入数据的并行组装与转发;Vertex空闲slot查询与任务映射;Pixel空闲slot查询与任务映射;Vertexwarp任务输出;Pixelwarp任务输出;Vertexwarp任务提交;Pixelwarp任务提交;统一染色阵列资源的低功耗管理方法;实时设置低功耗管理相关的配置参数。3、本专利技术突破了图形处理器设计中低功耗GPU染色任务与统一染色阵列任务现场映射结构的设计技术,可用于国产图形处理器芯片的研制。附图说明:图1是本专利技术一种低功耗GPU染色任务与统一染色阵列任务现场映射结构的整体框图,包含:输入数据组装与转发单元(1)、配置及管理单元(2)、任务管理单元(3)、资源管理单元(4)、slot状态表单元(5)。具体实施方式:下面结合附图和具体实施例,对本专利技术的技术方案进行清楚、完整地表述。显然,所表述的实施例仅是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提所获得的所有其他实施例,都属于本专利技术的保护范围。一种低功耗GPU染色任务与统一染色阵列任务现场映射结构,包含:输入数据组装与转发单元(1),从外本文档来自技高网...
一种低功耗GPU染色任务与统一染色阵列任务现场映射结构

【技术保护点】
一种低功耗GPU染色任务与统一染色阵列任务现场映射结构,其特征在于,包含:输入数据组装与转发单元(1),从外部的GFU(图形功能单元)、GDU(图形绘制单元)和GEU(几何引擎单元)获取Vertex染色任务和Pixel染色任务的输入数据,将GFU和GDU输入的16个Vertex的i个相关属性数据组装成Vertex warp,将GEU输入的16个pixel的j个相关属性数据组装成pixel warp,当前Vertex warp和pixel warp组装和传输完毕,则产生warp组装使能输出给向任务管理单元(3);输入数据组装与转发单元(1)从任务管理单元(3)获取slot id11和slot id12,使用slot id11和slot id12产生Vertex warp和pixel warp数据到外部的USA(统一染色阵列)的localsram存储器地址,将Vertex warp和pixel warp的数据输出到USA(统一染色阵列)的localsram;配置与管理单元(2),从外部的HIU(主机接口单元)获取输入数据,设置slot配置码和SSC(SIMT Shading Cluster,SIMT染色处理单元簇)使能配置码,产生SSC低功耗编码;向任务管理单元(3)输出slot配置码的值和SSC使能配置码的值,向资源管理单元(4)输出slot配置码的值和SSC使能配置码的值,向外部的USA输出SSC低功耗编码;任务管理单元(3),以输入数据组装与转发单元(1)的warp组装使能为输入,结合配置与管理单元(2)输入的slot配置码的值和SSC使能配置码的值,查询slot状态表单元(5)中n个slot的状态值,依据深度优先的算法得到slot id11和slot id12,将slot id11和slot id12输出到输入数据组装与转发单元(1),将slot id11和slot id12作为slot的地址,将slot id11和slot id12的slot的配置信息输出到slot状态表单元(5),占用该slot;将Vertex warp和Pixel warp的染色任务控制信息,包括slot id11和slot id12,任务类型,输出到外部的USA(统一染色阵列),以外部的OCU(输出控制单元)模块输出的Vertex warp任务和Pixel warp任务的slot id21和slot id22为输入,作为slot的地址,将slot的配置信息输出到slot状态表单元(5),释放slot资源;资源管理单元(4),将slot状态表单元(5)的n个slot的全部状态作为输入,统计n个slot的负载状态,结合配置与管理单元(2)输入的slot配置码的值和SSC使能配置码的值,实施slot资源分配与映射操作,将slot id3和slot的配置信息输出到slot状态表单元(5),改变slot资源的任务类型;slot状态表单元(5),用于记录m个slot状态,每个slot的状态包括2个bit,第1个bit表示slot的当前状态:busy/idle,第2个bit表示slot的类型:Vertex/Pixel;向任务管理单元(3)输出slot id11和slot id12,以及n个slot的全部状态,指导任务映射操作,向资源管理单元(4)输出n个slot的全部状态,接收资源管理单元(4)输入的slot id3和slot任务类型的设置信息,指导资源映射操作。...

【技术特征摘要】
1.一种低功耗GPU染色任务与统一染色阵列任务现场映射结构,其特征在于,包含:输入数据组装与转发单元(1),从外部的GFU(图形功能单元)、GDU(图形绘制单元)和GEU(几何引擎单元)获取Vertex染色任务和Pixel染色任务的输入数据,将GFU和GDU输入的16个Vertex的i个相关属性数据组装成Vertexwarp,将GEU输入的16个pixel的j个相关属性数据组装成pixelwarp,当前Vertexwarp和pixelwarp组装和传输完毕,则产生warp组装使能输出给向任务管理单元(3);输入数据组装与转发单元(1)从任务管理单元(3)获取slotid11和slotid12,使用slotid11和slotid12产生Vertexwarp和pixelwarp数据到外部的USA(统一染色阵列)的localsram存储器地址,将Vertexwarp和pixelwarp的数据输出到USA(统一染色阵列)的localsram;配置与管理单元(2),从外部的HIU(主机接口单元)获取输入数据,设置slot配置码和SSC(SIMTShadingCluster,SIMT染色处理单元簇)使能配置码,产生SSC低功耗编码;向任务管理单元(3)输出slot配置码的值和SSC使能配置码的值,向资源管理单元(4)输出slot配置码的值和SSC使能配置码的值,向外部的USA输出SSC低功耗编码;任务管理单元(3),以输入数据组装与转发单元(1)的warp组装使能为输入,结合配置与管理单元(2)输入的slot配置码的值和SSC使能配置码的值,查询slot状态表单元(5)中n个slot的状态值,依据深度优先的算法得到slotid11和slotid12,将slotid11和...

【专利技术属性】
技术研发人员:田泽张骏郑新建任向隆马城城韩立敏
申请(专利权)人:中国航空工业集团公司西安航空计算技术研究所
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1