System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及深度学习领域,特别涉及融合知识库的大模型训练方法、装置、设备及存储介质。
技术介绍
1、目前,大模型(又称大语言模型,large language model,也即llm)参数量巨大,当学习某个新知识时,必须同时调整模型中的所有参数。若同时调整几百g(gigabyte,吉字节,一种计算机存储单位)的参数,牵一发而动全身,因此模型训练地极其困难。为解决上述问题,当前结合数据库进行模型训练,在增加和修改知识时,只需要修改和增加数据库中的一条记录即可,但在此方案的具体实施的过程中,都是通过使用关键字做简单的匹配来从知识库中提取知识,知识提取方式僵化,无法理解用户输入的复杂文本信息,进而导致训练效果较差。因此,如何结合知识库提升大模型的训练效果,是当前迫切需要解决的问题。
技术实现思路
1、有鉴于此,本专利技术的目的在于提供融合知识库的大模型训练方法、装置、设备及存储介质,能够有效提高模型训练的效率以及效果。其具体方案如下:
2、第一方面,本申请提供了一种融合知识库的大模型训练方法,包括:
3、基于获取到的令牌id对预设结构化知识库进行检索,得到与所述令牌id对应的当前嵌入向量以及当前模型参数坐标;
4、利用预设算法、当前嵌入向量以及对应的当前模型参数坐标确定与当前模型参数坐标对应的模型参数集;
5、基于所述模型参数集依次执行相应的大模型构建操作、映射操作,并基于映射后得到的新的当前嵌入向量以及对应的新的当前参数坐标重新跳转至所
6、可选的,所述直至循环跳转的次数满足预设条件时,得到完成当前模型训练操作的目标大模型,包括:
7、对循环跳转的次数进行监听;
8、通过判断当前所述循环跳转的次数是否等于预设阈值,以确定当前所述循环跳转的次数是否满足预设条件。
9、可选的,所述得到完成当前模型训练操作的目标大模型之后,还包括:
10、基于预设梯度下降算法确定参与当前模型训练操作的所有模型参数集对应的梯度信息,以便基于所述梯度信息完成相应的更新操作。
11、可选的,所述融合知识库的大模型训练方法,还包括:
12、在完成所述参数信息更新操作之后,将得到的更新后模型参数集存储至所述预设结构化知识库中。
13、可选的,所述融合知识库的大模型训练方法,还包括:
14、获取新的令牌id,并基于所述新的令牌id重新跳转至所述基于获取到的令牌id对预设结构化知识库进行检索的步骤。
15、可选的,所述利用预设算法、当前嵌入向量以及对应的当前模型参数坐标确定与当前模型参数坐标对应的模型参数集,包括:
16、基于双线性插值算法、当前嵌入向量以及对应的当前模型参数坐标确定与当前模型参数坐标对应的模型参数集。
17、可选的,所述基于所述模型参数集依次执行相应的大模型构建操作、映射操作,包括:
18、基于所述模型参数集动态构建初始大模型;
19、利用所述初始大模型以及所述模型参数集执行相应的映射操作,以基于所述模型参数集对所述预设结构化知识库进行检索,得到与所述令牌id对应的新的当前嵌入向量以及新的当前参数坐标。
20、第二方面,本申请提供了一种融合知识库的大模型训练装置,包括:
21、知识库检索模块,用于基于获取到的令牌id对预设结构化知识库进行检索,得到与所述令牌id对应的当前嵌入向量以及当前模型参数坐标;
22、参数信息获取模块,用于利用预设算法、当前嵌入向量以及对应的当前模型参数坐标确定与当前模型参数坐标对应的模型参数集;
23、目标模型确定模块,用于基于所述模型参数集依次执行相应的大模型构建操作、映射操作,并基于映射后得到的新的当前嵌入向量以及对应的新的当前参数坐标重新跳转至所述利用预设算法、当前嵌入向量以及对应的当前模型参数坐标确定与当前模型参数坐标对应的模型参数集的步骤,直至循环跳转的次数满足预设条件时,得到完成当前模型训练操作的目标大模型。
24、第三方面,本申请提供了一种电子设备,包括:
25、存储器,用于保存计算机程序;
26、处理器,用于执行所述计算机程序,以实现前述的融合知识库的大模型训练方法的步骤。
27、第四方面,本申请提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的融合知识库的大模型训练方法的步骤。
28、可见,本申请中,首先基于获取到的令牌id对预设结构化知识库进行检索,得到与所述令牌id对应的当前嵌入向量以及当前模型参数坐标;然后利用预设算法、当前嵌入向量以及对应的当前模型参数坐标确定与当前模型参数坐标对应的模型参数集;然后基于所述模型参数集依次执行相应的大模型构建操作、映射操作,并基于映射后得到的新的当前嵌入向量以及对应的新的当前参数坐标重新跳转至所述利用预设算法、当前嵌入向量以及对应的当前模型参数坐标确定与当前模型参数坐标对应的模型参数集的步骤,直至循环跳转的次数满足预设条件时,得到完成当前模型训练操作的目标大模型。本申请先获取令牌id,然后从预设结构化知识库中确定出相应的嵌入向量以及模型参数坐标,然后基于所述模型参数坐标确定相应的模型参数集,并基于得到的模型参数集创建模型并进行向量以及参数坐标的更新向量,直至满足预设条件结束训练。这样一来,本申请中基于令牌id,结合预设结构化知识库进行模型训练,有效提高了模型训练的训练效果。
本文档来自技高网...【技术保护点】
1.一种融合知识库的大模型训练方法,其特征在于,包括:
2.根据权利要求1所述的融合知识库的大模型训练方法,其特征在于,所述直至循环跳转的次数满足预设条件时,得到完成当前模型训练操作的目标大模型,包括:
3.根据权利要求1所述的融合知识库的大模型训练方法,其特征在于,所述得到完成当前模型训练操作的目标大模型之后,还包括:
4.根据权利要求3所述的融合知识库的大模型训练方法,其特征在于,还包括:
5.根据权利要求4所述的融合知识库的大模型训练方法,其特征在于,还包括:
6.根据权利要求1所述的融合知识库的大模型训练方法,其特征在于,所述利用预设算法、当前嵌入向量以及对应的当前模型参数坐标确定与当前模型参数坐标对应的模型参数集,包括:
7.根据权利要求1至6任一项所述的融合知识库的大模型训练方法,其特征在于,所述基于所述模型参数集依次执行相应的大模型构建操作、映射操作,包括:
8.一种融合知识库的大模型训练装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一
...【技术特征摘要】
1.一种融合知识库的大模型训练方法,其特征在于,包括:
2.根据权利要求1所述的融合知识库的大模型训练方法,其特征在于,所述直至循环跳转的次数满足预设条件时,得到完成当前模型训练操作的目标大模型,包括:
3.根据权利要求1所述的融合知识库的大模型训练方法,其特征在于,所述得到完成当前模型训练操作的目标大模型之后,还包括:
4.根据权利要求3所述的融合知识库的大模型训练方法,其特征在于,还包括:
5.根据权利要求4所述的融合知识库的大模型训练方法,其特征在于,还包括:
6.根据权利要求1所述的融合知识库的...
【专利技术属性】
技术研发人员:刘伟华,严宇,李林,马金民,刘磊,
申请(专利权)人:智慧眼科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。