【技术实现步骤摘要】
本专利技术涉及模型推理,尤其涉及一种人工智能领域的模型推理方法、装置、电子设备、存储介质和程序产品。
技术介绍
1、与编码器(encoder)结构大模型相比,解码器(decoder)结构的大模型在推理过程中通常只能生成一个分词(token),这限制了其并行计算的能力。此外,由于大模型的参数量较大,推理时每个批次的样本数量(batch size)往往会受到限制,这也导致了计算资源的浪费和计算效率的降低。
技术实现思路
1、本专利技术提供一种模型推理方法、装置、电子设备、存储介质和程序产品,用以解决现有技术中大模型推理效率较低的缺陷。
2、本专利技术提供一种模型推理方法,包括:
3、基于第一模型,对当前待推理数据进行推理,得到当前推理分词;
4、在所述当前推理分词的置信度小于当前阈值的情况下,计算得到第二模型在当前阶段的初始推理分词;
5、基于所述第一模型在所述当前阶段的初始推理分词与所述第二模型在所述当前阶段的初始推理分词,调整所述当前阈值,并
...【技术保护点】
1.一种模型推理方法,其特征在于,包括:
2.根据权利要求1所述的模型推理方法,其特征在于,所述基于调整后的当前阈值由所述第一模型继续进行模型推理或由所述第二模型重新进行模型推理,包括:
3.根据权利要求2所述的模型推理方法,其特征在于,所述由所述第二模型重新进行模型推理,包括:
4.根据权利要求2所述的模型推理方法,其特征在于,所述由所述第一模型继续进行模型推理,包括:
5.根据权利要求1至4任一项所述的模型推理方法,其特征在于,所述基于所述第一模型在所述当前阶段的初始推理分词与所述第二模型在所述当前阶段的初始推理分词
...【技术特征摘要】
1.一种模型推理方法,其特征在于,包括:
2.根据权利要求1所述的模型推理方法,其特征在于,所述基于调整后的当前阈值由所述第一模型继续进行模型推理或由所述第二模型重新进行模型推理,包括:
3.根据权利要求2所述的模型推理方法,其特征在于,所述由所述第二模型重新进行模型推理,包括:
4.根据权利要求2所述的模型推理方法,其特征在于,所述由所述第一模型继续进行模型推理,包括:
5.根据权利要求1至4任一项所述的模型推理方法,其特征在于,所述基于所述第一模型在所述当前阶段的初始推理分词与所述第二模型在所述当前阶段的初始推理分词,调整所述当前阈值,包括:
6...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海壁仞科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。