一种增强大模型对外挂知识库记忆能力的方法技术

技术编号:39577202 阅读:22 留言:0更新日期:2023-12-03 19:28
本发明专利技术公开一种增强大模型对外挂知识库记忆能力的方法,涉及语言模型优化技术领域;微调大模型,增强大模型对外挂知识库记忆能力:步骤1:将每个样本文本划分为不同段落,所述段落包括指令段落

【技术实现步骤摘要】
一种增强大模型对外挂知识库记忆能力的方法


[0001]本专利技术公开一种方法,涉及语言模型优化
,具体地说是一种增强大模型对外挂知识库记忆能力的方法


技术介绍

[0002]随着大型语言模型的广泛应用,文本生成任务在自然语言处理领域扮演着重要角色

这些任务包括机器翻译

对话生成等

外部知识库的引入可以增强模型在特定领域的表现

在将知识库与大模型结合时,切分知识库的知识文件并向量化,然后将向量与大模型的输入进行融合,使大模型可以使用外部知识库,但这种方法可能存在大模型的指令遗忘等情况,即大模型在解码生成文本时可能会忽略输入指令和外部知识库中的重要信息,出现失忆情况,使大模型的语言处理出现问题


技术实现思路

[0003]本专利技术针对现有技术的问题,提供一种增强大模型对外挂知识库记忆能力的方法,解决大模型,在处理任务时可能出现的记忆力不足问题,通过增强大模型对外部知识库的记忆力,使其在任务上的表现更加优越

[0004]本专利技术提出的具体方案是:
[0005]本专利技术提供一种增强大模型对外挂知识库记忆能力的方法,微调大模型,增强大模型对外挂知识库记忆能力:
[0006]步骤1:将每个样本文本划分为不同段落,所述段落包括指令段落

输入段落和响应段落,
[0007]步骤2:根据指令段落提取指令特征,
[0008]步骤3:根据不同指令段落的权重将指令特征与解码器的全局隐藏输出表示相融合,形成指令数据集,
[0009]步骤4:将指令数据集输入大模型,通过
lora
方式根据微调大模型,增强大模型对外挂知识库记忆能力

[0010]进一步,所述的一种增强大模型对外挂知识库记忆能力的方法中步骤1中根据具体任务和应用需求定义不同段落,其中在机器翻译任务中,所述指令段落表示翻译指令,所述输入段落表示待翻译的源文本,所述响应段落表示大模型生成的目标翻译文本

[0011]进一步,所述的一种增强大模型对外挂知识库记忆能力的方法中步骤3中利用如下融合公式
(1)

[0012][0013]进行指令特征与解码器的全局隐藏输出表示的融合,
H
l
表示解码器的第
l
层的隐藏输出,
W
seg
表示分段权重系数,用于调整指令特征与全局隐藏输出表示的融合,
f(H
insl
)
表示适配器函数,用于对指令特征进行处理,以便融合到全局隐藏输出表示中,
[0014]通过融合公式表示在解码器的第
l
层隐藏输出中,添加一个调整后的指令特征增
强全局指令关注力

[0015]进一步,所述的一种增强大模型对外挂知识库记忆能力的方法中步骤3中分段权重系数
W
seg
通过如下公式
(2)
获得:
[0016][0017]i
表示当前令牌的位置索引,
B
表示记录不同段落的起始位置索引的数组,
I
s
[i]表示当前令牌的段落标识,
c
表示指令段落的标识,
L
表示输入段落的长度

[0018]进一步,所述的一种增强大模型对外挂知识库记忆能力的方法中
[0019]步骤3中适配器函数
f(H
insl
)
通过公式
(3)
表示:
[0020][0021]H
insl
表示解码器第
l
层中指令部分的隐藏输出,
Lup
表示上采样线性层,用于将处理后的指令特征进行上采样,
σ
表示
sigmoid
激活函数,用于进行非线性转换,
L
down
表示下采样线性层,用于对指令特征进行下采样,
[0022]利用适配器函数
f(H
insl
)
进行计算,利用下采样线性层
L
down
对指令部分的隐藏输出
H
insl
进行下采样,通过
sigmoid
激活函数进行非线性转换,使用上采样线性层
Lup
对处理后的指令特征进行上采样,得到指令特征的融合结果

[0023]本专利技术还提供一种增强大模型对外挂知识库记忆能力的装置,包括分类模块

提取模块

融合模块和微调增强模块,
[0024]利用所述装置微调大模型,增强大模型对外挂知识库记忆能力:
[0025]分类模块将每个样本文本划分为不同段落,所述段落包括指令段落

输入段落和响应段落,
[0026]提取模块根据指令段落提取指令特征,
[0027]融合模块根据不同指令段落的权重将指令特征与解码器的全局隐藏输出表示相融合,形成指令数据集,
[0028]微调增强模块将指令数据集输入大模型,通过
lora
方式根据微调大模型,增强大模型对外挂知识库记忆能力

[0029]进一步,所述的一种增强大模型对外挂知识库记忆能力的装置中分类模块根据具体任务和应用需求定义不同段落,其中在机器翻译任务中,所述指令段落表示翻译指令,所述输入段落表示待翻译的源文本,所述响应段落表示大模型生成的目标翻译文本

[0030]进一步,所述的一种增强大模型对外挂知识库记忆能力的装置中融合模块利用如下融合公式
(1)

[0031][0032]进行指令特征与解码器的全局隐藏输出表示的融合,
H
l
表示解码器的第
l
层的隐藏输出,
W
seg
表示分段权重系数,用于调整指令特征与全局隐藏输出表示的融合,
f(H
insl
)
表示适配器函数,用于对指令特征进行处理,以便融合到全局隐藏输出表示中,
[0033]通过融合公式表示在解码器的第
l
层隐藏输出中,添加一个调整后的指令特征增强全局指令关注力

[0034]进一步,所述的一种增强大模型对外挂知识库记忆能力的装置中融合模块通过如下公式
(2)
获得分段权重系数
W
seg

[0035][0036]i
表示当前令牌的位置索引,
B
表示记录不同段落的起始位置索引的数组,
I
s
[i]表示当前令牌的段落标识,
c
表示指令段落的标识,
L
表示输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种增强大模型对外挂知识库记忆能力的方法,其特征是微调大模型,增强大模型对外挂知识库记忆能力:步骤1:将每个样本文本划分为不同段落,所述段落包括指令段落

输入段落和响应段落,步骤2:根据指令段落提取指令特征,步骤3:根据不同指令段落的权重将指令特征与解码器的全局隐藏输出表示相融合,形成指令数据集,步骤4:将指令数据集输入大模型,通过
lora
方式根据微调大模型,增强大模型对外挂知识库记忆能力
。2.
根据权利要求1所述的一种增强大模型对外挂知识库记忆能力的方法,其特征是步骤1中根据具体任务和应用需求定义不同段落,其中在机器翻译任务中,所述指令段落表示翻译指令,所述输入段落表示待翻译的源文本,所述响应段落表示大模型生成的目标翻译文本
。3.
根据权利要求1所述的一种增强大模型对外挂知识库记忆能力的方法,其特征是步骤3中利用如下融合公式
(1)
:进行指令特征与解码器的全局隐藏输出表示的融合,
H
l
表示解码器的第
l
层的隐藏输出,
W
seg
表示分段权重系数,用于调整指令特征与全局隐藏输出表示的融合,
f(H
insl
)
表示适配器函数,用于对指令特征进行处理,以便融合到全局隐藏输出表示中,通过融合公式表示在解码器的第
l
层隐藏输出中,添加一个调整后的指令特征增强全局指令关注力
。4.
根据权利要求3所述的一种增强大模型对外挂知识库记忆能力的方法,其特征是步骤3中分段权重系数
W
seg
通过如下公式
(2)
获得:
i
表示当前令牌的位置索引,
B
表示记录不同段落的起始位置索引的数组,
I
s
[i]
表示当前令牌的段落标识,
c
表示指令段落的标识,
L
表示输入段落的长度
。5.
根据权利要求3所述的一种增强大模型对外挂知识库记忆能力的方法,其特征是步骤3中适配器函数
f(H
insl
)
通过公式
(3)
表示:
H
insl
表示解码器第
l
层中指令部分的隐藏输出,
Lup
表示上采样线性层,用于将处理后的指令特征进行上采样,
σ
表示
sigmoid
激活函数,用于进行非线性转换,
L
down
表示下采样线性层,用于对指令特征进行下采样,利用适配器函数
f(H
insl
)
进行计算,利用下采样线性层
L
down
对指令部分的隐藏输出
H
insl
进行下采样,通过
sigmoid
激活函数进行非线性转换,使用上采样线性层
Lup
对处理后的指令特征进行上采样,得到指令特征的融合结果
。6.
一种增强大模型对外挂知识库记忆能力的装置,其特征是包括...

【专利技术属性】
技术研发人员:张峻铭冯落落李志芸
申请(专利权)人:山东新一代信息产业技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1