目标大语言模型的确定方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:46062781 阅读:11 留言:0更新日期:2025-08-11 15:48
本申请实施例提供目标大语言模型的确定方法、装置、设备、存储介质及程序产品。涉及人工智能领域。该方法包括:基于目标知识推理功能对应的数据集识别第一大语言模型中的目标网络模块;在知识裁剪场景中,基于该数据集对第一大语言模型中的目标网络模块进行裁剪,可以减少参数量和计算量,降低内存占用,从而基于第一训练集对裁剪后的第一大语言模型进行训练,可以提高第一大语言模型的训练效率;在知识迁移场景中,将目标网络模块迁移至第二大语言模型中,可以实现目标网络模块的复用,从而基于第二训练集,对迁移后的第二大语言模型进行训练,可以避免参数的重复训练,减少训练过程中的内存消耗,进而可以提高第二大语言模型的训练效率。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种目标大语言模型的确定方法、装置、设备、存储介质及程序产品


技术介绍

1、近年来,人工智能领域取得了显著的进展。大语言模型在自然语言处理、计算机视觉等任务中展现出卓越性能。对于大语言模型,通过利用海量数据和强大的计算能力,已经在多个领域展现出卓越的性能。然而,大语言模型往往需要大量的训练数据以及海量的计算资源,增加了研究和应用成本,尤其无法很好的应用于资源受限的环境中。虽然目前已有多种目标大语言模型的学习方法,但这些方法依然具有很多问题,例如目标大语言模型的学习效率低(如训练效率低)、硬件学习成本高(如硬件训练成本高、开发成本高)等。


技术实现思路

1、本申请提供一种目标大语言模型的确定方法、装置、设备、存储介质及程序产品,可以降低目标大语言模型的硬件学习成本以及可以提高目标大语言模型的学习效率。

2、第一方面,本申请实施例提供了一种目标大语言模型的确定方法,包括:在目标知识学习场景下,基于目标知识推理功能对应的数据集确定第一大语言模型中所述目标知识推理功能对应的目本文档来自技高网...

【技术保护点】

1.一种目标大语言模型的确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在目标知识学习场景下,基于目标知识推理功能对应的数据集确定第一大语言模型中所述目标知识推理功能对应的目标网络模块,包括:

3.根据权利要求2所述的方法,其特征在于,通过所述多个干预后的网络模块,基于所述目标知识推理功能对应的数据集和非所述目标知识推理功能对应的数据集确定第一大语言模型中所述目标知识推理功能对应的目标网络模块,包括:

4.根据权利要求3所述的方法,其特征在于,基于所述多个第一相似度结果和所述多个第二相似度结果确定第一大语言模型中所述目标知识推理...

【技术特征摘要】

1.一种目标大语言模型的确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在目标知识学习场景下,基于目标知识推理功能对应的数据集确定第一大语言模型中所述目标知识推理功能对应的目标网络模块,包括:

3.根据权利要求2所述的方法,其特征在于,通过所述多个干预后的网络模块,基于所述目标知识推理功能对应的数据集和非所述目标知识推理功能对应的数据集确定第一大语言模型中所述目标知识推理功能对应的目标网络模块,包括:

4.根据权利要求3所述的方法,其特征在于,基于所述多个第一相似度结果和所述多个第二相似度结果确定第一大语言模型中所述目标知识推理功能对应的目标网络模块,包括:

5.根据权利要求4所述的方法,其特征在于,若所述目标知识学习场景为知识裁剪场景,则基于所述目标知识推理功能对应的数据集对所述第一大语言模型中的所述目标网络模块进行裁剪,获得裁剪后的所述第一大语言模型,包括:

6.根据权利要求5所述的方法,其特征在于,基于所述目标知识推理功能对应的数据集判断候选裁剪模型是否为裁剪后的所述第一大语言模型,包括:

7.根据权利要求6所述的方法,其特征在于,基于所述多个裁剪后的第一相似度结果和所述多个裁剪后的第二相似度结果判断所述候选裁剪模型是否为所述裁剪后的所述第一大语言模型,包括:

8.根据权利要求4所述的方法,其特...

【专利技术属性】
技术研发人员:范豪钧赵星宇唐剑飞
申请(专利权)人:星环信息科技上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1