一种基于多特征耦合的CUDA程序一体化性能预测方法技术

技术编号：20865774 阅读：30 留言：0更新日期：2019-04-17 09:13

本发明专利技术提供一种基于多特征耦合的CUDA程序一体化性能预测方法，属于电子与信息技术领域。本发明专利技术首先提取数据、程序、GPU硬件的固有特征，定义了设备并行空间DPS、设备并行空间闲置度DPSID、SM Warp负载NSMW以及并行效应因子PEF等高层次性能相关特征；然后通过比较Dg与APDG，以及DPSID与1的数值关系，判定CUDA程序内核状态并获得对应的内核持续时间体积KDTV，最终得到此时的内核持续时间KDT，完成预测。本发明专利技术解决了现有技术对CUDA程序性能预测精准度较低的问题。本发明专利技术可用于并行程序性能的精准预测。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多特征耦合的CUDA程序一体化性能预测方法
本专利技术涉及一种CUDA程序一体化性能预测方法，属于电子与信息

技术介绍
程序性能预测是并行程序设计过程中的重要环节，它在定位程序性能瓶颈，优化程序性能等方面起着重要作用。串行程序运行时间的增长数量级与问题规模间的关系可以由算法时间复杂度来描述。然而由于GPU(GraphicsProcessingUnit图形处理器)程序的指令执行机制专门为并行而设计，且与设备硬件架构密切相关，加之CUDA(ComputeUnifiedDeviceArchitecture，统一计算设备架构)程序运行状态还会受到计算指令延迟、内存带宽、内核执行配置、同步次数等因素的影响，使其性能难以用基于问题规模分析串行程序性能的传统方法进行预测。评估并行程序及算法性能优化水平的经典理论有Amdahl定律和Gustafson定律，它们描述了串行程序并行化后所能取得的性能提升上界，加速比和并行效率用于衡量并行程序性能优化效果。其他性能度量指标有Work+Step复杂度、计算复杂度、访存复杂度等，它们借鉴了算法时间复杂度的思想，但度量结果较为粗糙(精准度低)。为对CUDA程序性能水平进行精确预测，一系列与性能有关的高层次特征及度量，各种性能预测或分析模型被相继提出。高层次特征是对基本特征的整合，也是对算法逻辑、程序结构或硬件架构的高度抽象，它们是建立具体评估方法的基础要素。预测分析模型则使用数学方法对程序的执行过程进行分析或建模，建立特征输入和性能输出间的准确函数关系。基于统计学习方法的模型因为无法获取全面的数据集导致模型泛化能力低...

【技术保护点】
1.一种基于多特征耦合的CUDA程序一体化性能预测方法，其特征在于，所述方法具体包括以下步骤：步骤一、提取数据、程序、GPU硬件的固有特征；具体包括：获取CUDA程序内核单位Warp运行时间Wtime、Warp大小Wsize，设计内核执行配置参数Dg、Db，依据Db计算线程块包含的Warp数目NBW；计算线程应用的寄存器数量RPT，以及单位线程块应用的共享内存大小SMPB；获取GPU设备的计算能力Capability、CUDA Core数量NCC、流多处理器SM数量NSM；Warp为线程束Core为硬件核心；步骤二、使用占有率计算器结合Db、RPT、SMPB、Capability计算GPU最大激活状态Warp数目NAW；再结合NSM计算设备并行空间DPS；利用特征Dg、NBW、NSM计算内核Warp总数NKW；步骤三、以Warp为研究单位，利用步骤一中获取到的NCC、NBW、Wsize、NSM特征，获得可绝对并行的线程块数目APDG；结合步骤二中得到的DPS与NKW计算设备并行空间闲置度DPSID；通过NKW、NBW、NSM得到SM Warp负载NSMW；步骤四、通过比较Dg与APDG...

【技术特征摘要】
1.一种基于多特征耦合的CUDA程序一体化性能预测方法，其特征在于，所述方法具体包括以下步骤：步骤一、提取数据、程序、GPU硬件的固有特征；具体包括：获取CUDA程序内核单位Warp运行时间Wtime、Warp大小Wsize，设计内核执行配置参数Dg、Db，依据Db计算线程块包含的Warp数目NBW；计算线程应用的寄存器数量RPT，以及单位线程块应用的共享内存大小SMPB；获取GPU设备的计算能力Capability、CUDACore数量NCC、流多处理器SM数量NSM；Warp为线程束Core为硬件核心；步骤二、使用占有率计算器结合Db、RPT、SMPB、Capability计算GPU最大激活状态Warp数目NAW；再结合NSM计算设备并行空间DPS；利用特征Dg、NBW、NSM计算内核Warp总数NKW；步骤三、以Warp为研究单位，利用步骤一中获取到的NCC、NBW、Wsize、NSM特征，获得可绝对并行的线程块数目APDG；结合步骤二中得到的DPS与NKW计算设备并行空间闲置度DPSID；通过NKW、NBW、NSM得到SMWarp负载NSMW；步骤四、通过比较Dg与APDG，以及DPSID与1的数值关系，判定CUDA程序内核状态并获得对应的内核持续时间体积KDTV；步骤五、针对步骤四中判定的结果，得到此时的内核持续时间KDT，完成预测。2.根据权利要求1所述一种基于多特征耦合的CUDA程序一体化性能预测方法，其特征在于，步骤二中所述NAW的具体计算过程为：NAW＝calculator(Db,RPT,SMPB,Capability)(1)其中，calculator(·)为占有率计算器函数形式。3.根据权利要求1所述一种基于多特征耦合的CUDA程序一体化性能预测方法，其特征在于，步骤二中所述计算设备并行空间DPS的具体过程为：DPS＝NAW×NSM(2)。4.根据权利要求1所述一种基于多特征耦合的CUDA程序...

【专利技术属性】
技术研发人员：陈浩，曲海城，于思淼，陈稳，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人