当前位置: 首页 > 专利查询>英特尔公司专利>正文

分布式拷贝引擎制造技术

技术编号:25804992 阅读:30 留言:0更新日期:2020-09-29 18:39
公开了一种便于拷贝表面数据的装置。所述装置包括:拷贝引擎硬件,所述拷贝引擎硬件用于接收要将表面数据从存储器中的源位置存取到所述存储器中的目的地位置的命令,将所述表面数据划分成多个表面数据子块,处理所述表面数据子块以计算要执行对所述存储器的存取的虚拟地址并且执行所述存储器存取。

【技术实现步骤摘要】
分布式拷贝引擎
本专利技术一般地涉及图形处理单元,并且特别地与拷贝表面数据有关。
技术介绍
图形处理单元(GPU)是在其中并行地执行程序的数百个线程以实现高吞吐量的高度线程化机器。GPU通常包括可以用于拷贝并转移存储器内的表面数据的拷贝引擎。然而,当前的拷贝引擎不可扩展以与渐增的带宽需求匹配。此外,GPU正在越来越多地使用压缩表面来改进带宽效率并节约电力。常规的拷贝引擎也未能支持这样的压缩表面。附图说明为了可详细地理解本专利技术的上面叙述的特征的方式,可以通过参考实施例来具有在上面简要地概括的本专利技术的更特定描述,这些实施例中的一些被图示在附图中。然而,应当注意的是,附图仅图示本专利技术的典型实施例,并且因此不应被认为限制其范围,因为本专利技术可以容许其他同样有效的实施例。图1是根据实施例的处理系统的框图;图2是根据实施例的处理器的框图;图3是根据实施例的图形处理器的框图;图4是依照一些实施例的图形处理器的图形处理引擎的框图;图5是由附加实施例提供的图形处理器的框图;图6A和图6B图示包括在一些实施例中采用的处理元件的阵列的线程执行逻辑;图7是图示根据一些实施例的图形处理器指令格式的框图;图8是根据另一实施例的图形处理器的框图;图9A和图9B图示根据一些实施例的图形处理器命令格式和命令序列;图10图示根据一些实施例的用于数据处理系统的示例性图形软件架构;图11A和图11B是图示根据实施例的IP核心开发系统的框图;图12是图示根据实施例的示例性片上系统集成电路的框图;图13A和图13B是图示附加示例性图形处理器的框图;图14A和图14B是图示根据实施例的片上系统集成电路的附加示例性图形处理器的框图;图15图示计算设备的一个实施例;图16图示拷贝引擎的一个实施例;图17图示子拷贝引擎的一个实施例;图18图示依赖性处置逻辑的一个实施例;以及图19图示用于快速清除的表面分割的一个实施例。具体实施方式在以下描述中,阐述了许多具体细节以提供对本专利技术的更透彻理解。然而,对于本领域的技术人员而言将显而易见的是,可以在没有这些具体细节中的一个或多个的情况下实践本专利技术。在其他情况下,尚未描述众所周知的特征以便避免使本专利技术混淆。在实施例中,拷贝引擎将表面数据从存储器中的源位置拷贝到目的地位置。在这样的实施例中,拷贝引擎通过将数据划分成像素/纹理的块来生成子块(或子位块传输)并且将这些子位块传输传送到多个遍历器,所述多个遍历器计算要对其启动存储器读取/写入的虚拟地址,以及启动读取/写入。系统概要图1是根据实施例的处理系统100的框图。在各种实施例中,系统100包括一个或多个处理器102和一个或多个图形处理器108,并且可以是单处理器桌面系统、多处理器工作站系统或具有大量处理器102或处理器核心107的服务器系统。在一个实施例中,系统100是并入在用于在移动、手持或嵌入式设备中使用的片上系统(SoC)集成电路内的处理平台。在一个实施例中,系统100可包括以下各项或者被并入在以下各项内:基于服务器的游戏平台、游戏控制台(包括游戏和媒体控制台)、移动游戏控制台、手持游戏控制台或联机游戏控制台。在一些实施例中,系统100是移动电话、智能电话、平板计算设备或移动因特网设备。处理系统100还可包括可穿戴设备,与可穿戴设备耦合,或者被集成在可穿戴设备内,所述可穿戴设备诸如智能手表可穿戴设备、智能护目镜设备、增强现实设备或虚拟现实设备。在一些实施例中,处理系统100是具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面的电视机或机顶盒设备。在一些实施例中,一个或多个处理器102各自包括一个或多个处理器核心107以处理指令,所述指令当被执行时,执行针对系统和用户软件的操作。在一些实施例中,一个或多个处理器核心107中的每一个均被配置成处理具体指令集109。在一些实施例中,指令集109可以便于复杂指令集计算(CISC)、精简指令集计算(RISC)或经由甚长指令字(VLIW)计算。多个处理器核心107可以各自处理不同的指令集109,所述指令集109可以包括便于其他指令集的仿真的指令。处理器核心107还可以包括其他处理设备,诸如数字信号处理器(DSP)。在一些实施例中,处理器102包括高速缓存存储器104。取决于架构,处理器102可具有单个内部高速缓存或多级内部高速缓存。在一些实施例中,在处理器102的各种组件之间共享高速缓存存储器。在一些实施例中,处理器102还使用可以使用已知的高速缓存一致性技术来在处理器核心107之间共享的外部高速缓存(例如,第3级(L3)高速缓存或最后一级高速缓存(LLC))(未示出)。寄存器堆106被附加地包括在处理器102中,所述寄存器堆106可以包括用于存储不同类型的数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器,然而其他寄存器可以特定于处理器102的设计。在一些实施例中,一个或多个处理器102与一个或多个接口总线110耦合以在处理器102与系统100中的其他组件之间传送通信信号,诸如地址信号、数据信号或控制信号。在一个实施例中,接口总线110可以是处理器总线,诸如直接媒体接口(DMI)总线的版本。然而,处理器总线不限于DMI总线,并且可以包括一个或多个外围组件互连总线(例如,PCI、PCIExpress)、存储器总线或其他类型的接口总线。在一个实施例中(一个或多个)处理器102包括集成存储器控制器116和平台控制器集线器130。存储器控制器116便于系统100的存储器设备和其他组件之间的通信,然而平台控制器集线器(PCH)130经由本地I/O总线提供到I/O设备的连接。存储器设备120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪速存储器设备、相变存储器设备,或具有适合的性能以用作进程存储器的某个其他存储器设备。在一个实施例中存储器设备120可作为用于系统100的系统存储器来操作,以存储用于在一个或多个处理器102执行应用或进程时使用的数据122和指令121。存储器控制器116还与可选的外部图形处理器112耦合,所述外部图形处理器112可以与处理器102中的一个或多个图形处理器108进行通信以执行图形和媒体操作。在一些实施例中显示设备111可连接到(一个或多个)处理器102。显示设备111可以是内部显示设备中的一个或多个,如在移动电子设备或膝上型设备或经由显示接口(例如,DisplayPort等)附连的外部显示设备中一样。在一个实施例中显示设备111可以是头戴式显示器(HMD),诸如用于在虚拟现实(VR)应用或增强现实(AR)应用中使用的立体显示设备。在一些实施例中平台控制器集线器130使得外围设备能够经由高速I/O总线连接到存储器设备120和处理器102。I/O外围设备包括但不限于音频控制器1本文档来自技高网...

【技术保护点】
1.一种便于拷贝表面数据的装置,所述装置包括:/n拷贝引擎硬件,所述拷贝引擎硬件用于接收要将表面数据从存储器中的源位置存取到所述存储器中的目的地位置的命令,将所述表面数据划分成多个表面数据子块,处理所述表面数据子块以计算要执行对所述存储器的存取的虚拟地址并且执行所述存储器存取。/n

【技术特征摘要】
20190319 US 16/3584631.一种便于拷贝表面数据的装置,所述装置包括:
拷贝引擎硬件,所述拷贝引擎硬件用于接收要将表面数据从存储器中的源位置存取到所述存储器中的目的地位置的命令,将所述表面数据划分成多个表面数据子块,处理所述表面数据子块以计算要执行对所述存储器的存取的虚拟地址并且执行所述存储器存取。


2.根据权利要求1所述的装置,其中所述拷贝引擎包括:
中央拷贝引擎,所述中央拷贝引擎用于接收所述存取命令并生成所述表面数据子块;以及
多个子拷贝引擎,所述多个子拷贝引擎用于并行地操作以处理所述表面数据子块并执行所述存储器存取。


3.根据权利要求2所述的装置,其中所述中央拷贝引擎包括:
子块生成器,所述子块生成器用于将所述表面数据划分成所述表面数据子块;以及
队列,所述队列用于使所述表面数据子块排队以便于传送到所述多个拷贝引擎。


4.根据权利要求3所述的装置,其中所述中央拷贝引擎进一步包括命令处理器,所述命令处理器用于接收一个或多个存取命令分组,解释包括在所述一个或多个存取命令分组中的命令并且生成用于执行存取操作的参数。


5.根据权利要求3所述的装置,其中所述中央拷贝引擎进一步包括调度器,所述调度器用于从所述队列接收所述表面数据子块并且对所述表面数据子块进行调度以便在所述多个子拷贝引擎处处理。


6.根据权利要求5所述的装置,其中所述调度器基于所述多个子拷贝引擎中的每一个处的当前子块处理负荷来对所述表面数据子块进行调度。


7.根据权利要求6所述的装置,其中所述多个子拷贝引擎中的每一个均包括用于计算挂起高速缓存行计数以确定所述子块处理负荷的逻辑。


8.根据权利要求7所述的装置,其中所述调度器将基于的所述表面数据子块调度给具有最低挂起高速缓存行计数的所述子拷贝引擎。


9.根据权利要求7所述的装置,其中所述多个子拷贝引擎中的每一个均进一步包括:
源子缓冲器;
源子块遍历器,所述源子块遍历器被耦合到所述源子缓冲器;
目的地子缓冲器;以及
目的地子块遍历器,所述目的地子块遍历器被耦合到所述目的地子缓冲器。


10.根据权利要求9所述的装置,其中所述源子块遍历器向所述存储器传送表面数据子块读取请求,而所述目的地子块遍历器向所述存储器传送表面数据子块写入请求。


11.根据权利要求10所述的装置,其中所述多个子拷贝引擎中的每一个均进一步包括用于依赖于请求的高速缓存行读取的乱序返回而处置写入请求的排序的依赖性处置逻辑。


12.一种便于拷贝表面数据的方法,包括:
接收要将表面数据从存储器中的源位置存取到所述存储器中的目的地位置的命令;
将所述表面数据划分成多个表面数据子块;
处理所述表面数据子块以计算要执行对所述存储器的存取的虚拟地址;并且<...

【专利技术属性】
技术研发人员:P瑟蒂N米斯特里
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1