当前位置: 首页 > 专利查询>苏州大学专利>正文

一种基于大语言模型自身对上下文进行压缩的方法及系统技术方案

技术编号:39844502 阅读:8 留言:0更新日期:2023-12-29 16:35
本发明专利技术涉及大语言模型技术领域,公开了一种基于大语言模型自身对上下文进行压缩的方法及系统,包括:获取待压缩文本,添加任务描述

【技术实现步骤摘要】
一种基于大语言模型自身对上下文进行压缩的方法及系统


[0001]本专利技术涉及大语言模型
,具体为一种基于大语言模型自身对上下文进行压缩的方法及系统


技术介绍

[0002]目前常见的上下文压缩方法可以归纳为:基于抽取式的压缩

基于软提示的压缩

[0003]基于抽取式的压缩是指,给定需要压缩的上下文,模型对上下文进行关键信息的直接抽取,从而减少原始上下文的输入长度

[0004]基于软提示的压缩是指,给定需要压缩的上下文,模型将其压缩成一组虚拟字符

[0005]当前技术的缺点:
1.
目前基于抽取式的压缩方式由于压缩结果不是一段完整的句子,因而会增加语言模型的困惑度

虽然抽取后的上下文虽然减少了输长度但是也将较大导致性能下降

[0006]2.
传统基于软提示的压缩方法主要是训练一个压缩器来将上下文压缩成软提示,但这个压缩器通常需要大量训练数据,并且由于大语言模型巨大的训练参数量对压缩器进行训练会有很高的算力需求,同时该方法无法利用语言模型在预训练过程中学习到的知识

另一方面,传统基于软提示的压缩方式仅支持全量压缩即将给定上下文从头开始整个压缩成软提示并且固定压缩后的软提示位置

然而在很多任务中比如问答系统,聚焦于问题的自动摘要任务中,压缩应该以某一个具体问题为条件

[0007]压缩的目的是为了让模型输入更多内容得到额外信息和复用压缩结果加快推理节省算力,目前基于软提示的方法只有复用和加速效果,由于只支持全量压缩,模型输入仅仅是很短的软提示,从而浪费了大量输入窗口,有悖于压缩的第一个目的


技术实现思路

[0008]鉴于上述存在的问题,提出了本专利技术

[0009]因此,本专利技术解决的技术问题是:针对传统基于软提示的压缩方法需要大量数据对压缩器进行训练和巨大的训练参数量,无法利用预训练知识,并且只支持全量压缩,从而有悖于解决超长文本无法输入的压缩目的

[0010]为解决上述技术问题,本专利技术提供如下技术方案:一种基于大语言模型自身对上下文进行压缩的方法,包括:获取待压缩文本,添加任务描述

分隔符和压缩槽

[0011]当
GPU
资源紧缺的情况下,利用现有大语言模型对所述待压缩文本进行压缩,额外训练投影层,当
GPU
资源充沛时,预训练大语言模型自身对所述待压缩文本进行压缩

[0012]将训练后的大语言模型进行推理,生成文本回复

[0013]作为本专利技术所述的基于大语言模型自身对上下文进行压缩的方法的一种优选方案,其中:所述添加任务描述

分隔符和压缩槽包括,将任务描述

待压缩文本和连续掩码序列拼接成一个新的序列:
;其中,表示任务描述,表示待压缩文本,表示压缩槽,表示连续掩码序列

[0014]作为本专利技术所述的基于大语言模型自身对上下文进行压缩的方法的一种优选方案,其中:所述利用现有大语言模型对所述待压缩文本进行压缩,额外训练投影层包括,利用大语言模型自身当作压缩器,生成压缩文本的压缩虚拟字符

[0015]将序列送入参数被冻结的大语言模型
LLM
中执行编码操作,在编码器最后一层隐层状态表示为:;其中,表示与第个压缩槽对应的隐层状态

[0016]所述隐层状态包含经过精炼的总结性上下文信息,表示为:;其中,
_
表示对应的输出被丢弃

[0017]建立线性投影层,将送入投影层,通过线性变换,将从编码输出表征空间投影到大语言模型的输入表征空间,转换为大语言模型能够理解的压缩虚拟字符:;其中,表示第个压缩虚拟字符

[0018]作为本专利技术所述的基于大语言模型自身对上下文进行压缩的方法的一种优选方案,其中:所述利用现有大语言模型对所述待压缩文本进行压缩还包括,利用大语言模型自身当作解码器,根据所述压缩虚拟字符和不压缩上下文进行解码,生成与金标文本的损失函数

[0019]金标文本表示为:;其中,表示金标文本的第个词

[0020]将输入到大语言模型
LLM
进行解码操作,得到其最后一层隐层状态:;通过
softmax
函数操作得到最终的概率输出:;其中,表示输入的前个词

[0021]损失函数表示为:;其中,表示金标文本长度,表示模型参数,表示金标文本的第个词,表
示第
t
个概率输出

[0022]对损失函数求模型参数的偏导数,得到梯度:;采用小批量梯度下降法,计算出一个小批量里各个数据的梯度,计算出各个数据梯度的平均值:;小批量平均梯度与学习率相乘,更新到模型参数上:;其中,表示批量大小,表示学习率

[0023]作为本专利技术所述的基于大语言模型自身对上下文进行压缩的方法的一种优选方案,其中:所述预训练大语言模型自身对所述待压缩文本进行压缩包括,对大语言模型整体进行预训练,步骤如下:将序列送入参数没有冻结的大语言模型
LLM
中进行预训练

[0024]执行编码操作,在编码器最后一层隐层状态表示为:;其中,表示与第个压缩槽对应的隐层状态

[0025]所述隐层状态包含经过精炼的总结性上下文信息,表示为:;执行解码操作,根据所述压缩虚拟字符和不压缩上下文进行解码,得到文本回复,生成与金标文本的交叉熵损失函数

[0026]金标文本表示为:;其中,表示金标文本的第个词

[0027]将输入到大语言模型
LLM
进行解码操作,得到其最后一层隐层状态:;通过
softmax
函数操作得到最终的概率输出:;其中,表示输入的前个词

[0028]损失函数表示为:;其中,表示模型参数,表示金标文本的第个词,表示第
t
个概率输出

[0029]对损失函数求模型参数的偏导数,得到梯度:;采用小批量梯度下降法,计算出一个小批量里各个数据的梯度,计算出各个数据梯度的平均值:;小批量平均梯度与学习率相乘,更新到模型参数上:;其中,表示批量大小,表示学习率

[0030]作为本专利技术所述的基于大语言模型自身对上下文进行压缩的方法的一种优选方案,其中:所述推理包括一个动态交互过程:用户在输入待压缩文本前,选择是否自行为文本标记关键词作为任务描述:若用户选择自行标注,标注文本中用户认为重要的词汇

句子,系统将基于用户的标记生成对应的任务描述并将其与待压缩文本进行拼接,经过模型推理给出回复...

【技术保护点】

【技术特征摘要】
1.
一种基于大语言模型自身对上下文进行压缩的方法,其特征在于,包括:获取待压缩文本,添加任务描述

分隔符和压缩槽;当
GPU
资源紧缺的情况下,利用现有大语言模型对所述待压缩文本进行压缩,额外训练投影层,当
GPU
资源充沛时,预训练大语言模型自身对所述待压缩文本进行压缩;将训练后的大语言模型进行推理,生成文本回复
。2.
如权利要求1所述的基于大语言模型自身对上下文进行压缩的方法,其特征在于:所述添加任务描述

分隔符和压缩槽包括,将任务描述

待压缩文本和连续掩码序列拼接成一个新的序列:;其中,表示任务描述,表示待压缩文本,表示压缩槽,表示连续掩码序列
。3.
如权利要求2所述的基于大语言模型自身对上下文进行压缩的方法,其特征在于:所述利用现有大语言模型对所述待压缩文本进行压缩,额外训练投影层包括,利用大语言模型自身当作压缩器,生成压缩文本的压缩虚拟字符;将序列送入参数被冻结的大语言模型
LLM
中执行编码操作,在编码器最后一层隐层状态表示为: ;其中,表示与第个压缩槽对应的隐层状态;所述隐层状态包含经过精炼的总结性上下文信息,表示为: ;其中,
_
表示对应的输出被丢弃;建立线性投影层,将送入投影层,通过线性变换,将从编码输出表征空间投影到大语言模型的输入表征空间,转换为大语言模型能够理解的压缩虚拟字符:;其中,表示第个压缩虚拟字符
。4.
如权利要求3所述的基于大语言模型自身对上下文进行压缩的方法,其特征在于:所述利用现有大语言模型对所述待压缩文本进行压缩还包括,利用大语言模型自身当作解码器,根据所述压缩虚拟字符和不压缩上下文进行解码,生成与金标文本的损失函数;金标文本表示为: ;其中,表示金标文本的第个词;将输入到大语言模型
LLM
进行解码操作,得到其最后一层隐层状态:;通过
softmax
函数操作得到最终的概率输出: ;
其中,表示输入的前个词;损失函数表示为: ;其中,表示金标文本长度,表示模型参数,表示金标文本的第个词,表示第
t
个概率输出;对损失函数求模型参数的偏导数,得到梯度: ;采用小批量梯度下降法,计算出一个小批量里各个数据的梯度,计算出各个数据梯度的平均值: ;小批量平均梯度与学习率相乘,更新到模型参数上:;其中,表示批量大小,表示学习率
。5.
如权利要求4所述的基于大语言模型自身对上下文进行压缩的方法,其特征在于:所述预训练大语言模型自身对所述待压缩文本进行压缩包括,对大语言模型整体进行预训练,步骤如下:将序列送入参数没有冻结的大语言模型
LLM
中进行预训练;执行编码操作,在编码器最后一层隐层状态表示为:;其中,表示与第个压缩槽对应的隐层状态;所述隐层状态包含经过精炼的总结性上下...

【专利技术属性】
技术研发人员:曹自强高俊曹敏付国宏施屹然
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1