智能手机的大语言模型快速推理方法、装置及系统制造方法及图纸

技术编号:42397383 阅读:24 留言:0更新日期:2024-08-16 16:20
本发明专利技术提供了一种智能手机的大语言模型快速推理方法、装置及系统,包括步骤S1:构建检测系统,使用检测系统采集待测设备信息;所述待测设备信息包括硬件配置信息、模型配置信息和用户需求信息;步骤S2:使检测系统根据待测设备信息自动选择相应的推理策略;步骤S3:加载大语言模型的参数,初始化推理环境,开启推理过程;所述推理过程包括预填充阶段和解码阶段;步骤S4:生成并返回推理结果,形成结果报告;获取用户反馈后调整推理策略,优化推理过程。本发明专利技术通过智能调度算法,充分利用智能手机内的CPU、GPU和NPU等异构计算单元,优化了计算资源的使用效率;与传统方法相比,本发明专利技术能够显著提升推理速度和性能。

【技术实现步骤摘要】

本专利技术涉及大语言模型预测领域,具体地,涉及一种智能手机的大语言模型快速推理方法及系统。


技术介绍

1、大型语言模型(llms)凭借其卓越的文本理解和生成能力,已经显著提升了我们的日常生活质量,并彻底改变了我们的工作环境。当前最先进的llms,如gpt-4和claude-3,通常托管在配备最先进gpu的数据中心中(例如nvidia h100),这些gpu提供了广泛的高带宽内存,并且其计算能力可达到数千teraflops。同时,越来越多的趋势表明,llms正逐步趋向于部署于智能手机上,将其转变为智能个人助手。这一转变旨在充分通过避免将私人数据传输到云服务来维护隐私。然而,尽管智能手机的使用已非常普及,它们在llm推理的复杂需求面前仍显得力不从心,主要受限于其有限地计算能力和带宽与容量大小。

2、受限于此,一种现有技术是部署参数量较小的大语言模型,例如通义千问的1.8b模型,其占用内存不到2gb。然而,由于较大的模型表现出更强的智能能力(这一现象被称为“扩展法则”),这种部署“较小”llms的策略是一种妥协,即为了适应内存大小的限制而降低了模型的本文档来自技高网...

【技术保护点】

1.一种智能手机的大语言模型快速推理方法,其特征在于,包括:

2.根据权利要求1所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述步骤S3包括以下子步骤:

3.根据权利要求1所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述硬件配置信息包括CPU型号和核心数、GPU型号和计算能力、NPU型号和运行频率、内存容量和带宽。

4.根据权利要求1所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述步骤S3还包括使用大语言模型应用程序将参数预热加载至待测设备内存中。

5.根据权利要求2所述的一种智能手机的大语言模型快速推理...

【技术特征摘要】

1.一种智能手机的大语言模型快速推理方法,其特征在于,包括:

2.根据权利要求1所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述步骤s3包括以下子步骤:

3.根据权利要求1所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述硬件配置信息包括cpu型号和核心数、gpu型号和计算能力、npu型号和运行频率、内存容量和带宽。

4.根据权利要求1所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述步骤s3还包括使用大语言模型应用程序将参数预热加载至待测设备内存中。

5.根据权利要求2所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述步骤s3.1包括计算任务的算力需求、内存需求、数据依赖关系,并根据这些需求将任务分配至异构计算单元;所述异构计算单元包括cpu、gpu和npu。

6.根据权利要求1所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述步骤s5包括使用检测系统记录推理过程中的资源使用信息;所述资源使用信息包括cpu的使用率、gpu的...

【专利技术属性】
技术研发人员:糜泽羽宋奕欣薛振梁夏虞斌陈海波
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1