【技术实现步骤摘要】
本专利技术涉及大模型,具体涉及一种大模型推理优化方法、装置、计算机设备及介质。
技术介绍
1、大模型在实际落地场景中,同样的问题每次提出都需要调用大模型进行一次计算,且由于大模型自身不稳定的特性,每次计算后输出的内容可能会出现不一致的情况;这就导致无法保证输出稳定的同时,还会造成严重重复浪费。
技术实现思路
1、有鉴于此,本专利技术提供了一种大模型推理优化方法、装置、计算机设备及介质,以解决现有大模型实际落地场景中无法保证输出稳定的同时还会造成严重重复浪费的问题。
2、第一方面,本专利技术提供了一种大模型推理优化方法,该方法包括:
3、接收当前输入请求,并判断当前输入请求是否存在于端侧缓存中;
4、如果当前输入请求存在于所述端侧缓存中,则确定所述端侧缓存中与当前输入请求对应的输出结果为基于当前输入请求推理计算应得的输出结果;
5、如果当前输入请求不存在于所述端侧缓存中,则利用云端的大模型基于当前输入请求进行推理计算得到相应输出结果,同时将当前
...【技术保护点】
1.一种大模型推理优化方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,将当前输入请求及相应输出结果存储至所述端侧缓存中之前,还包括:
3.根据权利要求2所述的方法,其特征在于,执行将当前输入请求及相应输出结果存储至所述端侧缓存中的步骤之前,还包括:
4.根据权利要求3所述的方法,其特征在于,执行将当前输入请求及相应输出结果存储至所述端侧缓存中的步骤之前,还包括:
5.根据权利要求4所述的方法,其特征在于,执行将当前输入请求及相应输出结果存储至所述端侧缓存中的步骤之前,还包括:
6.根据权利
...【技术特征摘要】
1.一种大模型推理优化方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,将当前输入请求及相应输出结果存储至所述端侧缓存中之前,还包括:
3.根据权利要求2所述的方法,其特征在于,执行将当前输入请求及相应输出结果存储至所述端侧缓存中的步骤之前,还包括:
4.根据权利要求3所述的方法,其特征在于,执行将当前输入请求及相应输出结果存储至所述端侧缓存中的步骤之前,还包括:
5.根据权利要求4所述的方法,其特征在于,执行将当前输入请求及相应输出结果存储至所述端侧缓存中的步骤之前,还...
【专利技术属性】
技术研发人员:王冬晨,张泽宇,陈吉胜,
申请(专利权)人:广西桂云通科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。