【技术实现步骤摘要】
本专利技术涉及大语言模型预测领域,具体地,涉及一种智能手机的大语言模型快速推理方法及系统。
技术介绍
1、大型语言模型(llms)凭借其卓越的文本理解和生成能力,已经显著提升了我们的日常生活质量,并彻底改变了我们的工作环境。当前最先进的llms,如gpt-4和claude-3,通常托管在配备最先进gpu的数据中心中(例如nvidia h100),这些gpu提供了广泛的高带宽内存,并且其计算能力可达到数千teraflops。同时,越来越多的趋势表明,llms正逐步趋向于部署于智能手机上,将其转变为智能个人助手。这一转变旨在充分通过避免将私人数据传输到云服务来维护隐私。然而,尽管智能手机的使用已非常普及,它们在llm推理的复杂需求面前仍显得力不从心,主要受限于其有限地计算能力和带宽与容量大小。
2、受限于此,一种现有技术是部署参数量较小的大语言模型,例如通义千问的1.8b模型,其占用内存不到2gb。然而,由于较大的模型表现出更强的智能能力(这一现象被称为“扩展法则”),这种部署“较小”llms的策略是一种妥协,即为了适应内存大小
...【技术保护点】
1.一种智能手机的大语言模型快速推理方法,其特征在于,包括:
2.根据权利要求1所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述步骤S3包括以下子步骤:
3.根据权利要求1所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述硬件配置信息包括CPU型号和核心数、GPU型号和计算能力、NPU型号和运行频率、内存容量和带宽。
4.根据权利要求1所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述步骤S3还包括使用大语言模型应用程序将参数预热加载至待测设备内存中。
5.根据权利要求2所述的一种智能手机
...【技术特征摘要】
1.一种智能手机的大语言模型快速推理方法,其特征在于,包括:
2.根据权利要求1所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述步骤s3包括以下子步骤:
3.根据权利要求1所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述硬件配置信息包括cpu型号和核心数、gpu型号和计算能力、npu型号和运行频率、内存容量和带宽。
4.根据权利要求1所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述步骤s3还包括使用大语言模型应用程序将参数预热加载至待测设备内存中。
5.根据权利要求2所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述步骤s3.1包括计算任务的算力需求、内存需求、数据依赖关系,并根据这些需求将任务分配至异构计算单元;所述异构计算单元包括cpu、gpu和npu。
6.根据权利要求1所述的一种智能手机的大语言模型快速推理方法,其特征在于,所述步骤s5包括使用检测系统记录推理过程中的资源使用信息;所述资源使用信息包括cpu的使用率、gpu的...
【专利技术属性】
技术研发人员:糜泽羽,宋奕欣,薛振梁,夏虞斌,陈海波,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。