【技术实现步骤摘要】
一种提高推理平台性能的方法和设备
本领域涉及计算机领域,并且更具体地涉及一种提高推理平台性能的方法和设备。
技术介绍
针对深度学习推理服务优化的方法,可以分为系统级、应用级、算法级,每一级也有对应的性能分析工具。系统级的优化主要从硬件和平台的角度进行计算加速,方法主要包括基于SIMD指令集的编译器加速、基于OMP的数学库并行计算加速、以及硬件厂商提供的深度学习加速SDK等方法。应用级的优化主要从特定应用和服务的角度进行流水和并发的优化。通常的深度学习服务不仅仅包含推理,还有数据的预处理、后处理,网络的请求响应等环节,良好的并发设计可以有效的提升服务端到端的性能。算法级的优化主要针对深度学习模型本身,利用诸如超参数设置、网络结构裁剪、量化等方法来减小模型大小和计算量,从而加速推理过程。AutoBatching是一种应用级的优化,它是一种自动合并多用户请求的算法,可以根据并发情况自动合并一些请求,然后批量推理,这样可以提高推理设备利用率和系统吞吐率。AutoBatching提出了一种通过添加共享同 ...
【技术保护点】
1.一种提高推理平台性能的方法,其特征在于,包括以下步骤:/n接受用户请求并对所述请求进行分析,将分析得到的数据发送到第一通道中;/n每经过阈值时间在所述第一通道中获取所述数据,并判断获取到的数据是否为获取到的第一条数据;/n响应于获取到的数据是获取到的第一条数据,记录时间点并将后续每隔阈值时间获取到的数据添加到所述第一条数据末尾;/n判断当前时间点与所述记录时间点的差是否大于等于预设最大延时和/或判断当前所述第一条数据是否大于等于预设最大批大小;/n响应于当前时间点与所述记录时间点的差大于等于预设最大延时和/或当前所述第一条数据大于等于预设最大批大小,对当前第一条数据进行 ...
【技术特征摘要】
1.一种提高推理平台性能的方法,其特征在于,包括以下步骤:
接受用户请求并对所述请求进行分析,将分析得到的数据发送到第一通道中;
每经过阈值时间在所述第一通道中获取所述数据,并判断获取到的数据是否为获取到的第一条数据;
响应于获取到的数据是获取到的第一条数据,记录时间点并将后续每隔阈值时间获取到的数据添加到所述第一条数据末尾;
判断当前时间点与所述记录时间点的差是否大于等于预设最大延时和/或判断当前所述第一条数据是否大于等于预设最大批大小;
响应于当前时间点与所述记录时间点的差大于等于预设最大延时和/或当前所述第一条数据大于等于预设最大批大小,对当前第一条数据进行推理并保存推理结果。
2.根据权利要求1所述的方法,其特征在于,还包括:响应于对当前第一条数据进行推理,清空所述第一条数据。
3.根据权利要求1所述的方法,其特征在于,还包括:在所述推理平台中设定预设最大延时和预设最大批大小。
4.根据权利要求1所述的方法,其特征在于,接受用户请求并对所述请求进行分析,将分析得到的数据发送到第一通道中包括:
分析每个请求以获得请求对应的数据线程、数据结构和数据类型;
将每个请求对应的数据线程、数据结构和数据类型发送到第一通道中。
5.根据权利要求4所述的方法,其特征在于,还包括:根据每个请求对应的数据线程将所述数据线程对应的所述推理结果返回给用户。
6.一种提高推理平台性能的设备,其特征在于,所述设备包括:
分析模...
【专利技术属性】
技术研发人员:张荣国,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。