当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于CUDA并行环境的GPU程序优化方法技术

技术编号:8452783 阅读:422 留言:0更新日期:2013-03-21 13:17
本发明专利技术涉及一种基于CUDA并行环境的GPU并行程序优化方法,定义了GPU程序内核的性能瓶颈,根据级别包括全局储存器访问延迟、共享存储器访问冲突、指令流水线冲突、指令瓶颈。并为每个性能瓶颈提出实际可操作的判定标准和瓶颈优化解决方法:全局储存器访问延迟优化方法:转存共享存储器、访问归并、提高线程级并行度、提高指令级并行度;共享存储器访问冲突和指令流水线冲突优化方法:解决bank?conflict,转存寄存器、提高线程级并行度、提高指令级并行度;指令瓶颈:指令替换和减少分支。本发明专利技术为CUDA程序编写和优化提供依据,帮助程序编写者方便得找到CUDA程序中的性能瓶颈,并针对性能瓶颈做出高效有针对性的优化,使得CUDA程序可以更大限度的发挥GPU设备的计算能力。

【技术实现步骤摘要】

本专利技术涉及一种图形、动画、科学计算、地质、生物、物理模拟等诸多领域的并行计算与数据处理方法,特别涉及一种基于CUDA架构的GPU内核程序优化方法,属于高性能计算领域。
技术介绍
CUDA 架构(Compute Unified Device Architecture)是面向 GPU (Graphic Processing Unit)图形处理器等设备的并行计算架构,是一套在GPU上完成高性能计算的解决方案,在CUDA环境上并行编程的接口 API有CUDA C,C++,OpenCL, RapidMind等。CUDA C是基于CUDA架构的C语言扩展,程序编写者可以方便的利用这套API进行GPU编程。而程序的效果实现则依赖于程序员编写性能高效、功能稳定和可移植性强的CUDA内核程序, CUDA内核程序又被称为kernel函数,是在GPU上运行的并行计算函数,内核程序的性能直接反映了程序对设备计算资源的利用情况。目前针对CUDA内核程序的优化存在一些较为成熟的技术,本专利技术重点整理了以下内容
技术介绍
一 CUDA的技术手册(CUDA的技术手册以NVIDIA. CUDA C Best Pr本文档来自技高网...

【技术保护点】
一种基于CUDA并行环境的GPU程序优化方法,其步骤包括:1)根据CUDA上的程序分析工具对GPU程序进行检测,得到程序需求占有率并判断此时程序是否存在全局存储器访问瓶颈,同时对所述全局存储器访问瓶颈进行消除,进入步骤2);2)根据共享存储器中bank?conflicts访问冲突的数目判断所述步骤1)的GPU程序中是否存在共享存储器访问瓶颈,同时消除所述共享存储器访问瓶颈和新生成的全局存储器访问瓶颈,进入步骤3);3)使用CUDA的程序分析工具在所述步骤2)的GPU程序提取出性能参数,判断是否存在流水线指令执行依赖瓶颈并消除该指令流水线冲突,得到实际IPC可达到指令瓶颈IPC的GPU程序进入步...

【技术特征摘要】

【专利技术属性】
技术研发人员:孟洋李胜汪国平
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1