大模型推理优化方法、装置、计算机设备及介质制造方法及图纸

技术编号:42670894 阅读:14 留言:0更新日期:2024-09-10 12:24
本发明专利技术涉及大模型技术领域,公开了大模型推理优化方法、装置、计算机设备及介质,该方法包括:接收当前输入请求,并判断当前输入请求是否存在于端侧缓存中;如果当前输入请求存在于所述端侧缓存中,则确定所述端侧缓存中与当前输入请求对应的输出结果为基于当前输入请求推理计算应得的输出结果;如果当前输入请求不存在于所述端侧缓存中,则利用云端的大模型基于当前输入请求进行推理计算得到相应输出结果,同时将当前输入请求及相应输出结果存储至所述端侧缓存中。可见,本方案能够有效提高输出稳定的同时,一定程度上避免大模型严重重复浪费。

【技术实现步骤摘要】

本专利技术涉及大模型,具体涉及一种大模型推理优化方法、装置、计算机设备及介质


技术介绍

1、大模型在实际落地场景中,同样的问题每次提出都需要调用大模型进行一次计算,且由于大模型自身不稳定的特性,每次计算后输出的内容可能会出现不一致的情况;这就导致无法保证输出稳定的同时,还会造成严重重复浪费。


技术实现思路

1、有鉴于此,本专利技术提供了一种大模型推理优化方法、装置、计算机设备及介质,以解决现有大模型实际落地场景中无法保证输出稳定的同时还会造成严重重复浪费的问题。

2、第一方面,本专利技术提供了一种大模型推理优化方法,该方法包括:

3、接收当前输入请求,并判断当前输入请求是否存在于端侧缓存中;

4、如果当前输入请求存在于所述端侧缓存中,则确定所述端侧缓存中与当前输入请求对应的输出结果为基于当前输入请求推理计算应得的输出结果;

5、如果当前输入请求不存在于所述端侧缓存中,则利用云端的大模型基于当前输入请求进行推理计算得到相应输出结果,同时将当前输入请求及相应输出结本文档来自技高网...

【技术保护点】

1.一种大模型推理优化方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,将当前输入请求及相应输出结果存储至所述端侧缓存中之前,还包括:

3.根据权利要求2所述的方法,其特征在于,执行将当前输入请求及相应输出结果存储至所述端侧缓存中的步骤之前,还包括:

4.根据权利要求3所述的方法,其特征在于,执行将当前输入请求及相应输出结果存储至所述端侧缓存中的步骤之前,还包括:

5.根据权利要求4所述的方法,其特征在于,执行将当前输入请求及相应输出结果存储至所述端侧缓存中的步骤之前,还包括:

6.根据权利要求5所述的方法,其...

【技术特征摘要】

1.一种大模型推理优化方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,将当前输入请求及相应输出结果存储至所述端侧缓存中之前,还包括:

3.根据权利要求2所述的方法,其特征在于,执行将当前输入请求及相应输出结果存储至所述端侧缓存中的步骤之前,还包括:

4.根据权利要求3所述的方法,其特征在于,执行将当前输入请求及相应输出结果存储至所述端侧缓存中的步骤之前,还包括:

5.根据权利要求4所述的方法,其特征在于,执行将当前输入请求及相应输出结果存储至所述端侧缓存中的步骤之前,还...

【专利技术属性】
技术研发人员:王冬晨张泽宇陈吉胜
申请(专利权)人:广西桂云通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1