【技术实现步骤摘要】
推理服务部署方法、装置、设备以及存储介质
[0001]本公开涉及人工智能
,尤其涉及机器学习和推理服务
技术介绍
[0002]作为人工智能(Artificial Intelligence,AI)应用的重要环节,AI推理服务已逐渐成为AI领域内的重要组件设施。AI推理服务基于特定的服务框架及模型训练产生的模型构建而成,能够支持异构算力之上的模型推理,高效地处理来自外部的表格、图像、文本、语音、视频等富媒体输入。当前的AI推理服务,在研发与交付等各个环节大量采用人工,例如在不同环节需要研发人员、测试人员、运维人员、使用人员等介入,因此人力成本高,整体效率低。
技术实现思路
[0003]本公开提供了一种推理服务部署方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种推理服务部署方法,包括:
[0005]获取部署端的运行环境的性能信息;
[0006]根据该部署端的运行环境的性能信息,从模型的多个候选版本的推理服务中选择目标版本的推理服务;
[000 ...
【技术保护点】
【技术特征摘要】
1.一种推理服务部署方法,包括:获取部署端的运行环境的性能信息;根据所述部署端的运行环境的性能信息,从模型的多个候选版本的推理服务中选择目标版本的推理服务;将所述目标版本的推理服务部署到所述部署端。2.根据权利要求1所述的方法,还包括:根据开发端的需求信息生成所述模型的基线版本的推理服务;基于所述基线版本的推理服务进行不同测试环境下的性能测试,得到不同测试环境的性能信息对应的推理服务,作为所述多个候选版本的推理服务。3.根据权利要求2所述的方法,所述需求信息包括以下至少之一:推理服务可运行的软件环境;推理服务可运行的硬件环境;推理服务的启动方式;推理服务的访问方式;推理服务的请求处理流程;推理服务的附加功能集成。4.根据权利要求2或3所述的方法,所述不同运行环境的性能信息包括以下至少之一:不同资源量与不同参数配置下的可承载每秒处理请求数QPS;不同分位数水平下的请求耗时;其中,所述资源量包括CPU核数,所述参数配置包括进程数、线程数、同步模式、异步模式中的至少之一。5.根据权利要求2至4中任一项所述的方法,所述基于所述基线版本的推理服务进行运行环境性能测试,包括:通过启发式搜索算法,基于所述基线版本的推理服务进行运行环境性能测试。6.根据权利要求2至5中任一项所述的方法,还包括以下至少之一:获取所述模型在请求处理流程中的各阶段耗时;根据各阶段耗时,获取深度神经网络的各层的处理耗时和/或各算子的处理耗时;根据深度神经网络的各层的处理耗时和/或各算子的处理耗时,生成性能报告。7.根据权利要求1至6中任一项所述的方法,将所述目标版本的推理服务部署到所述部署端,包括:确定所述目标版本的推理服务对应的资源量与所述推理服务对应的配置参数;确定所述目标版本的推理服务的副本数与外部访问地址;基于所述目标版本的推理服务对应的资源量、所述推理服务对应的配置参数、所述副本数以及所述外部访问地址,将所述目标版本的推理服务上线至所述部署端。8.根据权利要求1至7中任一项所述的方法,还包括以下至少之一:对所述部署端已部署的推理服务进行更新;将所述部署端已部署的推理服务从所述部署端移除;在所述部署端包括多个版本的推理服务共存的情况下,调整各个版本的推理服务的请求流量占比。
9.根据权利要求8所述的方法,对所述部署端已部署的推理服务进行更新,包括:对所述部署端已部署的新版本的推理服务以指定的副本个数滚动升级,逐步替换所述部署端已部署的旧版本的推理服务;或允许所述部署端已部署的新版本的推理服务根据流量百分比逐步替换所述部署端已部署的旧版本的推理服务。10.根据权利要求1至9中任一项所述的方法,还包括:对所述部署端已部署的推理服务进行数据收集,以获取所述模型的运行效果的统计信息;根据所述统计信息,判断所述模型是否适用于模型运行环境。11.根据权利要求10所述的方法,所述统计信息包括以下至少之一:所述模型在所述模型运行环境的不同时期的请求数据分布偏移;所述模型在所述模型运行环境的请求数据与模型训练数据的数据分布偏移;所述模型在所述模型运行环境的输出结果与标注结果的比对结果。12.一种推理服务部署装置,包括:获取模块,用于获取部署端的运行环境的性能信息;选择模块,用于根据所述部署端的运行环境的性能信息,从模型的多个候选版本的推理服务中选择目标版本的推理服务;部署模块,用于将所述目标版本的推理服务部署到所述部署端。13.根据权利要求12所述的装置,还包括:生成模块,用于根据开发端的需求信息生成所述模型的基...
【专利技术属性】
技术研发人员:袁正雄,褚振方,李金麒,胡鸣人,王国彬,罗阳,黄悦,钱正宇,施恩,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。