【技术实现步骤摘要】
本专利技术涉及人工智能,特别涉及一种生成式对话模型推理方法、设备、介质及计算机程序产品。
技术介绍
1、在人工智能飞速发展的今天,各种大模型层出不穷,用于解决各种各样的问题,而参数量越多通常训练出的模型精度就越高,然而,参数量的增加同时也就意味着对ai(artificial intelligence,人工智能)芯片设备内存大小要求更高,很多ai芯片由于显存不够大而不能加载整个模型,这使得部分设备内存较小的芯片无法部署大模型的推理服务,极大限制了这些ai芯片的应用范围。
2、为了解决大模型的推理问题,一种方法是采用设备内存足够大的ai芯片,并且使用较小的batchsize(批量大小),使得大模型可以放置在一张卡上,但随着模型参数量的不断增长,一张卡可能也放不下,因此这种方案具有较大的局限性;另一种方案是对模型进行分割,把一个模型分割成多个小模型,分别加载到多张卡上,这种方案在目前主流的ai框架上都可以支持,比如pytorch, paddlepaddle等,通常通过各种并行方式,但是这些框架的推理性能和ai芯片的专有框架的性能还
...【技术保护点】
1.一种生成式对话模型推理方法,其特征在于,包括:
2.根据权利要求1所述的生成式对话模型推理方法,其特征在于,所述基于所述输出位置对所述生成式对话模型进行分割,得到分割后的多个模型块,包括:
3.根据权利要求2所述的生成式对话模型推理方法,其特征在于,所述根据预设规则从键矩阵和值矩阵的各个输出位置中确定出目标输出位置,并利用所述目标输出位置对所述生成式对话模型进行分割,以得到分割后的多个模型块,包括:
4.根据权利要求3所述的生成式对话模型推理方法,其特征在于,所述目标输出位置用于对所述生成式对话模型进行平均分割;其中,推理各所述
...【技术特征摘要】
1.一种生成式对话模型推理方法,其特征在于,包括:
2.根据权利要求1所述的生成式对话模型推理方法,其特征在于,所述基于所述输出位置对所述生成式对话模型进行分割,得到分割后的多个模型块,包括:
3.根据权利要求2所述的生成式对话模型推理方法,其特征在于,所述根据预设规则从键矩阵和值矩阵的各个输出位置中确定出目标输出位置,并利用所述目标输出位置对所述生成式对话模型进行分割,以得到分割后的多个模型块,包括:
4.根据权利要求3所述的生成式对话模型推理方法,其特征在于,所述目标输出位置用于对所述生成式对话模型进行平均分割;其中,推理各所述模型块的计算量相同或均处于预设计算量范围。
5.根据权利要求2所述的生成式对话模型推理方法,其特征在于,所述根据预设规则从键矩阵和值矩阵的各个输出位置中确定出目标输出位置,并利用所述目标输出位置对所述生成式对话模型进行分割,以得到分割后的多个模型块,包括:
6.根据权利要求1所述的生成式对话模型推理方法,其特征在于,所述对每一所述模型块输出的键矩阵和值矩形作为中间状态值进行保存,包括:
7.根据权利要求6所述的生成式对话模型推理方法,其特征在于,还包括:
8.根据权利要求1所述的生成式对话模型推理方法,其特征在于,所述对每一所述模型块输出的键矩阵和值矩形作为中间状态值进行保存,...
【专利技术属性】
技术研发人员:李柏宏,吴韶华,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。