【技术实现步骤摘要】
本申请涉及数据处理,具体而言,涉及一种请求信息的自动分发方法及装置、非易失性存储介质。
技术介绍
1、随着深度学习和人工智能技术的发展,大模型技术应用的领域越来越广泛,大模型的参数规模也逐渐变大,与此同时,大模型在运行时占用的内存、显存、中央处理器(central processing unit,cpu)和图形处理器(graphics processing unit,gpu)等计算资源也是空前巨大的,如何在保证使用效果基本不变的情况下,提升大模型推理效率,是决定大模型落地的关键。相关技术中通过模型并行的方法提升大模型的推理效率,只关注如何进行模型并行,而没有考虑到大模型的输入单位文本(token)长度和输出token长度差异;然而,大模型的吞吐量是显存的输入输出操作(input output,io)约束的,其推理吞吐量取决于在gpu内存中能适应多大的批处理量,如果不考虑输入和输出的长度,将造成资源的严重浪费。
2、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、
...【技术保护点】
1.一种请求信息的自动分发方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,采用分类模型根据所述请求信息的相关信息确定所述请求信息对应的输出数据的单位文本token数量,包括:
3.根据权利要求1所述的方法,其特征在于,依据所述请求信息的token数量和所述输出数据的token数量确定所述请求信息对应的请求模式,其中,所述请求模式包括:所述请求信息的token数量属于第一数值区间且所述输出数据的token数量属于所述第一数值区间的第一请求模式,所述请求信息的token数量属于所述第一数值区间且所述输出数据的token数量属于第
...【技术特征摘要】
1.一种请求信息的自动分发方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,采用分类模型根据所述请求信息的相关信息确定所述请求信息对应的输出数据的单位文本token数量,包括:
3.根据权利要求1所述的方法,其特征在于,依据所述请求信息的token数量和所述输出数据的token数量确定所述请求信息对应的请求模式,其中,所述请求模式包括:所述请求信息的token数量属于第一数值区间且所述输出数据的token数量属于所述第一数值区间的第一请求模式,所述请求信息的token数量属于所述第一数值区间且所述输出数据的token数量属于第二数值区间的第二请求模式,所述请求信息的token数量属于所述第一数值区间且所述输出数据的token数量属于第三数值区间的第三请求模式,所述请求信息的token数量属于所述第二数值区间且所述输出数据的token数量属于所述第一数值区间的第四请求模式,所述请求信息的token数量属于所述第二数值区间且所述输出数据的token数量属于所述第二数值区间的第五请求模式,所述请求信息的token数量属于所述第二数值区间且所述输出数据的token数量属于所述第三数值区间的第六请求模式,所述请求信息的token数量属于所述第三数值区间且所述输出数据的token数量属于所述第一数值区间的第七请求模式,所述请求信息的token数量属于所述第三数值区间且所述输出数据的token数量属于所述第二数值区间...
【专利技术属性】
技术研发人员:张龙飞,阮宜龙,张云龙,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。