【技术实现步骤摘要】
本专利技术涉及一种图形、动画、科学计算、地质、生物、物理模拟等诸多领域的并行计算与数据处理方法,特别涉及一种基于CUDA架构的GPU内核程序优化方法,属于高性能计算领域。
技术介绍
CUDA 架构(Compute Unified Device Architecture)是面向 GPU (Graphic Processing Unit)图形处理器等设备的并行计算架构,是一套在GPU上完成高性能计算的解决方案,在CUDA环境上并行编程的接口 API有CUDA C,C++,OpenCL, RapidMind等。CUDA C是基于CUDA架构的C语言扩展,程序编写者可以方便的利用这套API进行GPU编程。而程序的效果实现则依赖于程序员编写性能高效、功能稳定和可移植性强的CUDA内核程序, CUDA内核程序又被称为kernel函数,是在GPU上运行的并行计算函数,内核程序的性能直接反映了程序对设备计算资源的利用情况。目前针对CUDA内核程序的优化存在一些较为成熟的技术,本专利技术重点整理了以下内容
技术介绍
一 CUDA的技术手册(CUDA的技术手册以NVIDIA. CUDA ...
【技术保护点】
一种基于CUDA并行环境的GPU程序优化方法,其步骤包括:1)根据CUDA上的程序分析工具对GPU程序进行检测,得到程序需求占有率并判断此时程序是否存在全局存储器访问瓶颈,同时对所述全局存储器访问瓶颈进行消除,进入步骤2);2)根据共享存储器中bank?conflicts访问冲突的数目判断所述步骤1)的GPU程序中是否存在共享存储器访问瓶颈,同时消除所述共享存储器访问瓶颈和新生成的全局存储器访问瓶颈,进入步骤3);3)使用CUDA的程序分析工具在所述步骤2)的GPU程序提取出性能参数,判断是否存在流水线指令执行依赖瓶颈并消除该指令流水线冲突,得到实际IPC可达到指令瓶颈IP ...
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。