【技术实现步骤摘要】
本申请涉及数据处理技术,更具体的说,是涉及一种数据处理方法及装置。
技术介绍
1、人工智能模型推理过程中会产生key-value cache(可简写为kv cache,也即键值缓存数据),kv cache用于存储注意力机制中先前token的键和值的缓存数据结构。随着生成token数量的增加,kv cache的大小会呈线性增长,占用大量内存并影响推理效率。
技术实现思路
1、有鉴于此,本申请提供如下技术方案:
2、一种数据处理方法,该方法包括:
3、在生成式人工智能模型执行推理任务的过程中,将内存中存储的推理任务中已经生成的词元对应的满足压缩条件的初始键值数据进行压缩处理,压缩处理的结果包括压缩键值数据以及压缩键值数据与初始键值数据之间的映射关系;
4、将所述压缩键值数据以及所述压缩键值数据与初始键值数据之间的映射关系存入内存以替换原有的初始键值数据,并将所述压缩键值数据对应的初始键值数据存入第一存储器。
5、上述数据处理方法,优选的,还包括:
6、至本文档来自技高网...
【技术保护点】
1.一种数据处理方法,包括:
2.根据权利要求1所述的数据处理方法,还包括:
3.根据权利要求2所述的数据处理方法,所述至少基于内存中的所述压缩键值数据,以及所述压缩键值数据与初始键值数据之间的映射关系进行所述推理任务的后续推理过程,包括:
4.根据权利要求3所述的数据处理方法,若所述词元与压缩键值数据之间的相关度大于设定阈值,还包括:
5.根据权利要求2所述的数据处理方法,还包括:
6.根据权利要求1所述的数据处理方法,将内存中存储的推理任务中已经生成的词元对应的满足压缩条件的初始键值数据进行压缩处理,包括
7....
【技术特征摘要】
1.一种数据处理方法,包括:
2.根据权利要求1所述的数据处理方法,还包括:
3.根据权利要求2所述的数据处理方法,所述至少基于内存中的所述压缩键值数据,以及所述压缩键值数据与初始键值数据之间的映射关系进行所述推理任务的后续推理过程,包括:
4.根据权利要求3所述的数据处理方法,若所述词元与压缩键值数据之间的相关度大于设定阈值,还包括:
5.根据权利要求2所述的数据处理方法,还包括:
6.根据权利要求1所述的数据处理方法,将内存中存储的推理任务中已经生成的词元对应的满足压缩条件的初始键值数据进行压缩处理,包括:
7.根据权利要求6...
【专利技术属性】
技术研发人员:陈良,
申请(专利权)人:鼎道智芯上海半导体有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。