请求信息的自动分发方法及装置、非易失性存储介质制造方法及图纸

技术编号:42219794 阅读:22 留言:0更新日期:2024-07-30 19:00
本申请公开了一种请求信息的自动分发方法及装置、非易失性存储介质。其中,该方法包括:接收海量请求信息,其中,每条请求信息用于请求处理请求信息对应的任务;对于每条请求信息,获取请求信息的相关信息,通过分类模型根据请求信息的相关信息确定请求信息对应的输出数据的单位文本token数量;通过分类模型依据请求信息的token数量和输出数据的token数量确定请求信息对应的请求模式;将每条请求信息分发至对应的集群组,其中,集群组是依据历史海量请求信息的请求模式的聚类结果对多个不同配置模式的大型语言模型进行部署得到的。本申请解决了由于在提升大模型的推理效率时没有考虑到大模型的输入Token长度和输出token长度造成的浪费资源的技术问题。

【技术实现步骤摘要】

本申请涉及数据处理,具体而言,涉及一种请求信息的自动分发方法及装置、非易失性存储介质


技术介绍

1、随着深度学习和人工智能技术的发展,大模型技术应用的领域越来越广泛,大模型的参数规模也逐渐变大,与此同时,大模型在运行时占用的内存、显存、中央处理器(central processing unit,cpu)和图形处理器(graphics processing unit,gpu)等计算资源也是空前巨大的,如何在保证使用效果基本不变的情况下,提升大模型推理效率,是决定大模型落地的关键。相关技术中通过模型并行的方法提升大模型的推理效率,只关注如何进行模型并行,而没有考虑到大模型的输入单位文本(token)长度和输出token长度差异;然而,大模型的吞吐量是显存的输入输出操作(input output,io)约束的,其推理吞吐量取决于在gpu内存中能适应多大的批处理量,如果不考虑输入和输出的长度,将造成资源的严重浪费。

2、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一本文档来自技高网...

【技术保护点】

1.一种请求信息的自动分发方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,采用分类模型根据所述请求信息的相关信息确定所述请求信息对应的输出数据的单位文本token数量,包括:

3.根据权利要求1所述的方法,其特征在于,依据所述请求信息的token数量和所述输出数据的token数量确定所述请求信息对应的请求模式,其中,所述请求模式包括:所述请求信息的token数量属于第一数值区间且所述输出数据的token数量属于所述第一数值区间的第一请求模式,所述请求信息的token数量属于所述第一数值区间且所述输出数据的token数量属于第二数值区间的第二请求...

【技术特征摘要】

1.一种请求信息的自动分发方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,采用分类模型根据所述请求信息的相关信息确定所述请求信息对应的输出数据的单位文本token数量,包括:

3.根据权利要求1所述的方法,其特征在于,依据所述请求信息的token数量和所述输出数据的token数量确定所述请求信息对应的请求模式,其中,所述请求模式包括:所述请求信息的token数量属于第一数值区间且所述输出数据的token数量属于所述第一数值区间的第一请求模式,所述请求信息的token数量属于所述第一数值区间且所述输出数据的token数量属于第二数值区间的第二请求模式,所述请求信息的token数量属于所述第一数值区间且所述输出数据的token数量属于第三数值区间的第三请求模式,所述请求信息的token数量属于所述第二数值区间且所述输出数据的token数量属于所述第一数值区间的第四请求模式,所述请求信息的token数量属于所述第二数值区间且所述输出数据的token数量属于所述第二数值区间的第五请求模式,所述请求信息的token数量属于所述第二数值区间且所述输出数据的token数量属于所述第三数值区间的第六请求模式,所述请求信息的token数量属于所述第三数值区间且所述输出数据的token数量属于所述第一数值区间的第七请求模式,所述请求信息的token数量属于所述第三数值区间且所述输出数据的token数量属于所述第二数值区间...

【专利技术属性】
技术研发人员:张龙飞阮宜龙张云龙
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1