在多处理单元中使用片上存储器的数据处理制造技术

技术编号：8494020 阅读：193 留言：0更新日期：2013-03-29 06:51

本发明专利技术公开了在处理器中利用多个处理单元中的片上本地存储器来提升数据处理性能的方法。根据一个实施例，在处理器中利用多个处理单元对数据元素进行处理的方法包括：在每一个所述处理单元中运行（launching）具有第一类型线程的第一波阵面（wavefront），其后是具有第二类型线程的第二波阵面（wavefront），其中第一波阵面读取来自片外（off-chip）共享存储器的数据元素的部分以作为输入并生成第一输出；将该第一输出写入到相应的处理单元的片上本地存储器中；并将由第二波阵面生成的第二输出写入到该片上本地存储器中，其中到第二波阵面的输入包括来自第一输出的第一多个数据元素。同时也公开了相应的系统和计算机程序产品的具体实施方式。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及提升处理器的数据处理性能。
技术介绍
包括多处理单元的处理器通常应用在具有较大数量的数据元素的并行处理过程中。例如，包括多个单指令多数据(SIMD: single instruction multiple data)处理单兀的图形处理器(GPU:graphic processor)能够并行地处理大量的图形数据。在大多数情况下，数据元素由一系列单独的线程来处理直到获得了最终输出。例如，在一个图形处理器中，包括顶点着色器、几何着色器以及像素着色器的不同类型的线程序列可以按顺序在数据元素组上进行操作直到用于渲染显示的最终输出已经准备好。在不同阶段采用多个单独类型的线程进行数据元素的处理激活了流水线处理，并因此有利于提升数据的输出处理量。处理数据元素组的每一个单独的线程序列从共享的存储器中获得其输入并将其输出写入到共享存储器中，在该共享存储器中刚写入的数据可以由随后的线程进行读取。通常来说，在共享存储器中的存储器访问操作会消耗大量的时钟周期。当同步线程的数量增加时，基于存储器访问的延迟也相应地增加。在具有多个单独处理单元来并行地执行多个线程的传统处理器中，...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.07.19 US 61/365,7091.一种利用多个处理单元在处理器中处理数据元素的方法，其包括在每一个所述处理单元中运行具有第一类型线程的第一波阵面，其后是具有第二类型线程的第二波阵面，其中所述第一波阵面读取来自片外共享存储器的所述数据元素的一部分以作为输入并生成第一输出；将所述第一输出写入到各自的所述处理单元的片上本地存储器；以及将所述第二波阵面生成的第二输出写入到所述片上本地存储器，其中到所述第二波阵面的输入包括来自所述第一输出的多个第一数据元素。2.如权利要求1所述的方法，进一步包括利用所述第二波阵面处理所述第一多个数据元素来生成所述第二输出，其中所述第二输出中的数据元素的数量明显不同于来自所述第一多个数据元素的数量。3.如权利要求2所述的方法，进一步包括根据权利要求2所述的方法，其中所述第二输出中的数据元素的数量是动态确定的。4.如权利要求2所述的方法，其中所述第二波阵面包括一个或多个几何着色器线程。5.如权利要求4所述的方法，其中所述第二输出通过第一输出的几何放大生成。6.如权利要求1所述的方法，进一步包括在第一处理单元中在所述第二波阵面之后执行第三波阵面，其中该第三波阵面读取来自所述片上本地存储器中的所述第二输出。7.如权利要求1所述的方法，进一步包括对各自的所述处理单元基于至少所述片上本地存储器中的可用存储器来确定要处理的所述数据元素的数量；以及对各自的所述处理单元基于所确定的所述数量来调整所述第一和第二波阵面的尺寸。8.如权利要求7所述的方法，其中所述确定包括估计所述第一输出的存储器尺寸；估计所述第二输出的存储器尺寸；以及利用所估计的所述第一和第二输出的所述存储器尺寸来计算所需的片上存储器的尺寸。9.如权利要求1所述的方法，其中所述运行包括执行所述第一波阵面；检测所述第一波阵面的完成；以及继所述检测之后由所述第二波阵面读取所述第一输出。10.如权利要求9所述的方法，其中所述执行所述第一波阵面包括确定所述第一波阵面的各自线程的输出尺寸；以及将到所述片上本地存储器中的输出偏移量提供给所述第一波阵面的所述各自线程中的每一个。11.如权利要求9所述的方法，其中所述运行进一步包括确定所述第二波阵面的各自线程的输出尺寸；以及将从所述第一输出中读取的到所述片上本地存储器中的...

【专利技术属性】
技术研发人员：维妮特·戈埃尔，托德·马丁，芒热斯·尼娅舒，
申请(专利权)人：超威半导体公司，
类型：
国别省市：

全部详细技术资料下载我是这个专利的主人